En una desviación significativa de sus prácticas anteriores, OpenAI ha anunciado que ya no utilizará los datos de los clientes enviados a través de sus API para entrenar sus modelos de lenguaje expansivos como GPT-4.

El cambio fue confirmado recientemente por Sam Altman, CEO de OpenAI entrevista con CNB.

El nuevo enfoque de OpenAI para los datos de usuario

El cambio de política de OpenAI se implementó el 1 de marzo de 2023, cuando la empresa actualizó silenciosamente sus términos y condiciones para reflejar este nuevo compromiso con la privacidad del usuario.

Altman aclaró: «Los clientes claramente no quieren que entrenemos con sus datos, así que hemos cambiado nuestros planes: no lo haremos».

Las API, o interfaces de programación de aplicaciones, son marcos tecnológicos que permiten a los clientes conectarse directamente al software OpenAI.

Altman dijo que OpenAI no ha utilizado datos API para el entrenamiento de modelos «desde hace algún tiempo», lo que sugiere que este anuncio oficial formaliza una práctica existente.

Implicaciones para los clientes comerciales

El movimiento de OpenAI tiene implicaciones de gran alcance, particularmente para sus clientes empresariales, que incluyen gigantes como Microsoft, Salesforce y Snapchat.

Es más probable que estas empresas usen las capacidades de la API de OpenAI para sus operaciones, por lo que el cambio de privacidad y protección de datos es particularmente relevante para ellas.

Sin embargo, las nuevas medidas de protección de datos solo se aplican a los clientes que utilizan los servicios API de la compañía. Los términos y condiciones actualizados de OpenAI señalan que «Podemos usar contenido de los Servicios que no sea nuestra API».

Por lo tanto, OpenAI aún puede usar otras formas de ingreso de datos, como el texto ingresado en el popular chatbot ChatGPT, a menos que los datos se compartan a través de la API.

Impacto más amplio de la industria

El cambio de política de OpenAI se produce cuando las industrias lidian con los impactos potenciales de los grandes modelos de lenguaje, como ChatGPT de OpenAI, que reemplazan el material creado tradicionalmente por humanos.

Por ejemplo, el Sindicato de Escritores de Estados Unidos se declaró en huelga recientemente después de que se rompieron las negociaciones entre el Sindicato y los estudios. El gremio abogó por restricciones en el uso de ChatGPT de OpenAI para generar o reescribir scripts.

La decisión de OpenAI de no utilizar los datos de los clientes para la capacitación marca un momento crucial en la conversación en curso sobre la privacidad de los datos y la IA. A medida que las empresas continúan explorando y ampliando los límites de la tecnología de inteligencia artificial, es probable que garantizar la privacidad del usuario y mantener la confianza siga siendo el foco de estas discusiones.

Evolución de ChatGPT: de GPT-3 a GPT-4

Es importante tener en cuenta que el compromiso de OpenAI de no utilizar los datos de los clientes para la capacitación se aplica al último modelo de lenguaje, GPT-4, lanzado el 14 de marzo de 2023.

GPT-4 introdujo varias mejoras con respecto a su predecesor, GPT-3, incluido un aumento significativo en el tamaño del límite de palabras (25 000 en comparación con el límite de 3000 palabras de ChatGPT), un tamaño de ventana de contexto más grande y razonamiento y comprensión mejorados.

Otra característica notable de GPT-4 es la multimodalidad, es decir, la capacidad de comprender e inferir información de imágenes y texto. Este último modelo genera texto más parecido al humano, utilizando características como emojis para una sensación más personalizada.

Sin embargo, las dimensiones y la arquitectura exactas del GPT-4 siguen sin revelarse, lo que genera especulaciones sobre los detalles del modelo.

A pesar de estos rumores, el CEO de OpenAI ha negado afirmaciones específicas sobre el tamaño del modelo.

En términos de rendimiento, GPT-4 tiene fortalezas demostradas en la generación de texto pero también algunas limitaciones. Por ejemplo, obtuvo una puntuación en el percentil 54 en el examen de registro de posgrado (GRE) Escritura y se desempeñó en el percentil 43-59 en el examen AP Calculus BC.

También funcionó bien en tareas simples de codificación de Leetcode, pero su rendimiento se degradó a medida que aumentaba la dificultad de la tarea.

Si bien los detalles del proceso de capacitación de GPT-4 no están documentados formalmente, se sabe que los modelos GPT generalmente involucran aprendizaje automático a gran escala con una amplia variedad de textos en Internet.

No puedo esperar

Como resultado de los cambios en la política de uso de datos de OpenAI, los datos utilizados para entrenar modelos de lenguaje no incluyen información compartida a través de la API, a menos que los usuarios acepten proporcionarla explícitamente para ese fin.

A medida que esta tecnología mejora y juega un papel más importante en nuestras vidas, es interesante cómo las empresas están girando y abordando las preocupaciones sobre la privacidad de los datos y ganándose la confianza de las personas.


Imagen destacada generada por el autor usando Midjourney.

Fuente: searchenginejournal

Hashtags: #entrenar #GPT4 #datos #clientes #API