Databricks anunció la publicación del primer modelo de lenguaje de código abierto mejorado para normas, llamado Dolly 2.0. Fue entrenado usando una metodología afín a InstructGPT, pero con un grupo de datos de más calidad que es 100% de código abierto.

Este modelo es gratis, aun con objetivos comerciales, en tanto que cada una parte del modelo es 100 % de código abierto.

Capacitación de código abierto

Lo que provoca que ChatGPT logre proseguir normas es la capacitación que recibe empleando las técnicas presentadas en Informe de investigación de InstructGPT.

La innovación descubierta con InstructGPT es que los modelos de lenguaje no precisan conjuntos de entrenamiento poco a poco más enormes.

A través de el entrenamiento de cuestiones y respuestas evaluado por humanos, OpenAI ha podido entrenar un mejor modelo de lenguaje usando cien ocasiones menos factores que su modelo precursor, GPT-3.

Databricks usó un enfoque afín para hacer un grupo de datos de petición y contestación que llamaron una llamada databricks-dolly-15k.

Su grupo de datos de petición/contestación se creó sin frotar foros de discusión web o Reddit.

databricks-dolly-15k es un grupo de datos desarrollado por usados de Databricks, un 100 % original, generado por humanos, 15 000 pares de contestación rápida diseñados para entrenar el modelo de lenguaje Dolly 2.0 del mismo modo que se creó el modelo ChatGPT con InstructGPT.

EL Página de GitHub para el grupo de datos enseña de qué forma lo hicieron:

«databricks-dolly-15k es un grupo de datos de registros de código abierto que rastrea las normas usadas en el entrenamiento de databricks/dolly-v2-12b, que fue generado por una cantidad enorme de usados de Databricks en muchas de las categorías de accionar presentadas en el archivo InstructGPT, incluyendo la lluvia de ideas , clasificación, QA cerrado, generación, extracción de información, QA abierto y resúmenes.

…Se solicitó a los usados de Databricks que crearan pares de mensaje/contestación en todas y cada una de las ocho categorías de normas distintas, incluyendo las siete presentadas en el archivo InstructGPT, tal como una categoría abierta de formato libre.

Se solicitó a los ayudantes que evitaran la utilización de información de cualquier fuente web salvo Wikipedia (para muchos subconjuntos de categorías de normas) y se les instruyó explícitamente a fin de que evitaran la utilización de inteligencia artificial generativa al elaborar normas o respuestas. Se dieron ejemplos para cada accionar para motivar los modelos de cuestiones y también normas apropiadas para cada categoría.

A medio desarrollo de generación de datos, los ayudantes tuvieron la posibilidad de contestar a las cuestiones planteadas por otros ayudantes. Se les solicitó que reformularan el interrogante original y escogieran solo aquellas cuestiones que razonablemente se podía aguardar que fuesen contestadas adecuadamente».

Databricks afirma que este puede ser el primer grupo de datos de normas generado por humanos desarrollado para entrenar un modelo de lenguaje para continuar normas, como lo realiza ChatGPT.

El desafío fue hacer un grupo de datos 100% original que no tenga nada que ver con ChatGPT o cualquier otra fuente con una licencia restrictiva.

Se incentivó a los usados por medio de un certamen para contribuir a producir las 15 000 respuestas/peticiones en siete categorías de tareas, como lluvia de ideas, clasificación y escritura creativa.

Databricks afirma que el grupo de entrenamiento databricks-dolly-15k puede ser mayor que el grupo de datos usado para entrenar ChatGPT.

Apuntan que si bien su grupo de datos es mucho más pequeño que el que se usó para entrenar el modelo Stanford Alpaca, su modelo funcionó mejor pues sus datos son de más calidad.

Están escribiendo:

“El modelo Dolly 2.0, apoyado en pythia-12b de EleutherAI, presentaba normas de alta definición para continuar el accionar. En retrospectiva, esto no es asombroso.

Varios de los conjuntos de datos de optimización didáctica publicados en los últimos meses poseen datos sintetizados, que de manera frecuente poseen alucinaciones y fallos fácticos.

databricks-dolly-15k, por otra parte, se crea profesionalmente, es de alta definición y tiene dentro respuestas amplias para la mayor parte de las tareas.

…no aguardamos que Dolly lidere el sendero en concepto de eficiencia.

No obstante, adelantamos que Dolly y el grupo de datos de código abierto servirán como fuente para un sinnúmero de trabajo agregada que puede ser útil para arrancar modelos de lenguaje aún mucho más poderosos.

Restricciones del grupo de datos

La página de GitHub para el grupo de datos admite que probablemente halla ciertas deficiencias en el grupo de datos.

Los datos de Wikipedia se usaron para una parte de la capacitación en el contexto de la creación de pistas y respuestas. Por ende, posiblemente cualquier corte contenido en Wikipedia concluya reflejándose en el grupo de datos final.

Varios de los usados que trabajaron en la creación del grupo de datos no eran hablantes originarios de inglés, lo que puede ingresar ciertas anomalías en el grupo de datos.

La composición demográfica de los usados que hicieron el grupo de datos puede influir en el grupo de datos a fin de que tenga dentro cortes concretos para esos usados.

Pese a estas probables deficiencias en el grupo de datos, Databricks mencionó que el de el es de más calidad.

Además de esto, Dolly 2.0 quiere ser útil como punto de inicio a fin de que otros creen y también innoven ediciones aún mejores.

Databricks reitera que que la inteligencia artificial de código abierto es preferible

Entre las causas tras la creación de Dolly 2.0 es que los individuos de datos tienen la posibilidad de tener los modelos que han desarrollado y resguardar mejor sus datos sin la necesidad de compartirlos con terceros.

Asimismo piensan que la seguridad de la inteligencia artificial no debe concentrarse a cargo de tres enormes compañías, sino más bien repartirse entre todas y cada una de las partes con intereses.

El código abierto está cobrando impulso y va a ser atrayente ver dónde está esta industria en los próximos años.

Puede hallar mucho más información sobre dónde bajar Dolly 2.0 y de qué manera emplearlo en su aviso.

Free Dolly: Mostramos el primer LLM didáctico realmente abierto de todo el mundo

Imagen señalada de Shutterstock/Kamil Macniak

Fuente: searchenginejournal

Hashtags: #Modelo #lenguaje #código #abierto #llamado #Dolly #entrenado #forma #afín #ChatGPT