Bard de Google plus se apoya en el modelo de lenguaje LaMDA, entrenado en conjuntos de datos impulsados por contenido de Internet llamados Infinisets, sobre los que se conoce poquísimo sobre el origen de los datos y de qué manera se consiguieron.
El archivo de investigación de LaMDA de 2022 cuenta los porcentajes de diversos tipos de datos empleados para entrenar LaMDA, pero solo el 12,5 % procede de un grupo de datos públicos de contenido rastreado de la página web y otro 12,5 % procede de Wikipedia.
Google plus es deliberadamente haragán sobre dónde procede el resto de los datos extraídos, pero hay pistas sobre qué sitios están en esos conjuntos de datos.
Grupo de datos de Google plus Infiniset
Google plus Bard se apoya en un modelo de lenguaje llamado LaMDA, un acrónimo de Modelo lingüístico para apps de diálogo..
LaMDA fue entrenado en un grupo de datos llamado Infiniset.
Infiniset es una mezcla de contenido de Internet que se eligió deliberadamente para prosperar la aptitud de charlar del modelo.
El producto de investigación de LaMDA (PDF) enseña por qué razón escogieron esta composición de contenido:
“…esta composición fue escogida por su desempeño mucho más sólido en tareas de diálogo… mientras que mantiene la aptitud de efectuar otras tareas, como la generación de código.
Como trabajo futuro, tenemos la posibilidad de estudiar de qué manera la decisión de esta composición podría perjudicar la calidad de ciertas otras tareas de PNL efectuadas por el modelo».
El trabajo de investigación tiene relación diálogo Y diálogoscuál es la ortografía de las expresiones usadas en este contexto, en el campo de la informática.
En conjunto, LaMDA se ha entrenado antes en 1,56 billones de expresiones de «datos de diálogo público y artículo web.”
El grupo de datos se compone de la próxima mezcla:
- 12,5% datos basados en C4
- 12,5% Wikipedia en inglés
- 12.5% documentos de código de websites de cuestiones y respuestas, manuales y otros
- 6,25% de los documentos web en inglés
- 6,25 % de documentos web en lenguajes diferentes del inglés
- 50% del diálogo entregado por foros de discusión públicos
Ámbas primeras unas partes de Infiniset (C4 y Wikipedia) se conforman de datos populares.
El grupo de datos C4 que próximamente se explorará es una versión singularmente filtrada del grupo de datos Common Crawl.
Solo el 25% de los datos procede de una fuente nombrada ( 4 grupo de datos y Wikipedia).
El resto de los datos que conforman la mayoría del grupo de datos de Infiniset, el 75 %, se constituye de expresiones que se han extraído de Internet.
El archivo de investigación no afirma de qué forma se consiguieron los datos de los websites, de qué websites se consiguieron ni ningún otro aspecto sobre el contenido extraído.
Google plus solo emplea especificaciones genéricas como «documentos web que no están en inglés».
La palabra «obscuro» significa en el momento en que algo no se enseña y en su mayor parte está oculto.
Murky es la mejor palabra para detallar el 75% de los datos que Google plus usó para entrenar a LaMDA.
Existen algunos rastros de que puede ofrecer un concepto general qué sitios entienden el 75% del contenido web, pero no tenemos la posibilidad de saberlo con seguridad.
Grupo de datos C4
C4 es un grupo de datos creado por Google plus en 2020. C4 significa «Cuerpo colosal escaneado limpio.”
Este grupo de datos se apoya en datos de Common Crawl, que es un grupo de datos de código abierto.
Información de escaneo común
Escaneo común es una organización sin ánimo de lucrar registrada que escanea Internet mensualmente para hacer conjuntos de datos gratis que alguno puede utilizar.
En la actualidad, la organización Common Crawl está apuntada por personas que trabajaron para la Fundación Wikimedia, previamente Googler, entre los creadores de Blekko, y tiene el consejos de personas como Peter Norvig, directivo de investigación de Google plus, y Danny Sullivan (asimismo Google plus). .
De qué forma C4 es creado por Common Crawl
Los datos sin procesar de Common Crawl se limpian descartando cosas como contenido angosto, expresiones indecentes, lorem ipsum, menús de navegación, deduplicación, etcétera. para limitar el grupo de datos al contenido primordial.
El propósito de filtrar datos insignificantes era remover galimatías y proteger ejemplos de inglés natural.
O sea lo que escribieron los estudiosos que hicieron C4:
“Para ensamblar nuestro grupo de datos de referencia, descargamos el rastreo web de abril de 2019 y aplicamos los filtros nombrados previamente.
Esto genera una compilación de artículo que no solo es mucho mayor que la mayor parte de los conjuntos de datos empleados para el entrenamiento previo (cerca de 750 GB), sino asimismo incluye artículo en inglés bastante limpio y natural.
Llamamos a este grupo de datos «Colossal Clean Crawled Corpus» (o C4 para abreviar) y lo lanzamos como una parte de los conjuntos de datos de TensorFlow…»
Hay otras ediciones sin filtrar de C4.
El producto de investigación que detalla el grupo de datos C4 se titula, Explorando los límites de la transferencia del estudio con un transformador unificado de artículo a artículo (PDF).
Otro trabajo de investigación de 2021, (Documentación de enormes corpus de artículo web: una investigación de caso del corpus colosal, limpio y escaneado – PDF) examinó la composición de los sitios incluidos en el grupo de datos C4.
Raramente, el segundo trabajo de investigación halló anomalías en el grupo de datos C4 original que llevaron a la supresión de las webs alineadas con hispanos y afroamericanos.
Las webs alineadas con hispanos se removieron del filtrado de la lista negra (palabrotas, etcétera.) en el 32 % de las páginas.
Las páginas alineadas con afroamericanos se removieron a una tasa del 42%.
Estas deficiencias probablemente se han arreglado…
Otro descubrimiento fue que el 51,3% del grupo de datos C4 consistía en páginas alojadas en los USA.
Al final, el análisis de 2021 del grupo de datos C4 original admite que el grupo de datos representa únicamente una fracción del total de Internet.
El análisis afirma:
“Nuestro análisis exhibe que, más allá de que este grupo de datos representa una sección esencial de la Internet pública, en modo alguno es representativo de todo el mundo de charla inglesa y comprende una extensa selección de años.
Al hacer un grupo de datos desde un fragmento web, reportar los dominios de los que se quita el artículo es primordial para entender el grupo de datos; el desarrollo de recopilación de datos puede ser en una distribución de dominios de Internet relevantemente diferente de lo que aguardaríamos”.
Las próximas estadísticas sobre el grupo de datos C4 son del segundo trabajo de investigación relacionado previamente.
Los 25 primordiales websites (por número de tokens) en C4 son:
- patentes.google plus.com
- es.wikipedia.org
- es.m.wikipedia.org
- www.nytimes.com
- www.latimes.com
- www.theguardian.com
- gacetas.plos.org
- www.forbes.com
- huffpost.es
- patentes.com
- www.scribed.com
- www.washingtonpost.com
- www.imbécil.com
- ipfs.io
- www.frontiersin.org
- www.businessinsider.com
- www.chicagotribune.com
- www.booking.com
- www.theatlantic.com
- backlink.springer.com
- www.aljazeera.com
- www.kickstarter.com
- caselaw.findlaw.com
- www.ncbi.nlm.nih.gov
- www.npr.org
Estos son los 25 primordiales dominios de nivel superior representados en el grupo de datos C4:

Si está entusiasmado en estudiar mucho más sobre el grupo de datos C4, le sugiero que prosiga leyendo Documentación de enormes corpus de artículo web: una investigación de caso del colosal corpus limpio (PDF) tal como el trabajo de investigación original de 2020 (PDF) para el que se creó C4.
¿Cuáles podrían ser los datos de los diálogos en foros de discusión públicos?
El 50% de los datos de entrenamiento surgen de “datos de diálogo de foros de discusión públicos.”
Eso es todo cuanto afirma el producto de investigación de Google plus LaMDA sobre estos datos de entrenamiento.
Si tuviesen que acertar, Reddit y otras comunidades esenciales como StackOverflow son apuestas seguro.
Reddit se emplea en varios conjuntos de datos esenciales, como creado por OpenAI llamado WebText2 (PDF)una aproximación de código abierto de WebText2 llamada OpenWebText2 y por Google plus Artículo web (PDF) Serie de datos 2020.
Google plus asimismo publicó datos de otro grupo de datos de sitios de chat públicos un mes antes que se publicara el producto de LaMDA.
Este grupo de datos que tiene dentro sitios de charla pública lleva por nombre MassiveWeb.
No aceptamos que el grupo de datos de MassiveWeb se empleó para entrenar a LaMDA.
Pero tiene dentro un excelente ejemplo de lo que Google plus eligió para otro modelo de lenguaje basado en el diálogo.
MassiveWeb fue desarrollado por DeepMind, propiedad de Google plus.
Fue desarrollado para ser empleado por un enorme modelo de lenguaje llamado Gopher (link al PDF del trabajo de investigación).
MassiveWeb usa fuentes web de diálogo que van alén de Reddit para eludir hacer un corte contra los datos influidos por Reddit.
Utiliza reddit nuevamente. Pero asimismo tiene dentro datos extraídos de otros muchos sitios.
Los sitios de chat públicos incluidos en MassiveWeb son:
- Fb
- Quora
- YouTube
- ámbito
- Desbordamiento de pila
De nuevo, esto no recomienda que LaMDA haya sido preparado con los sitios precedentes.
Solo tiene la intención de enseñar lo que Google plus podría haber utilizado, al enseñar un grupo de datos en el que Google plus trabajaba prácticamente al tiempo que LaMDA, uno que tiene dentro sitios tipo foro de discusión.
El 37,5% sobrante
El último conjunto de fuentes de datos son:
- 12,5 % de documentos de código de sitios relacionados con la programación, como sitios de cuestiones y respuestas, manuales, etcétera.;
- 12,5% Wikipedia (inglés)
- 6,25% de los documentos web en inglés
- 6,25% Documentos web que no están en inglés.
Google plus no detalla exactamente en qué sitios están Programación del lugar de cuestiones y respuestas categoría que representa el 12,5% del grupo de datos sobre el que se adiestró a LaMDA.
Conque solo tenemos la posibilidad de elucubrar.
Stack Overflow y Reddit semejan opciones obvias, en especial por el hecho de que se han incluido en el grupo de datos de MassiveWeb.
que «TUTORIALES¿Se han rastreado los sitios? Solo tenemos la posibilidad de elucubrar cuáles podrían ser esos sitios de «manuales».
Las últimas tres categorías de contenido continúan, 2 de las que son increíblemente vagas.
Wikipedia en inglés no requiere discusión, todos conocemos Wikipedia.
Pero los 2 siguientes no se comentan:
Inglés Y No inglés páginas de idioma es una descripción general del 13% de los sitios incluidos en la banco de información.
Esa es toda la información que dio Google plus sobre esta una parte de los datos de entrenamiento.
¿Google plus habría de ser transparente sobre los conjuntos de datos que usa para Bard?
Ciertos editores se sienten incómodos con la utilización de sus sitios para entrenar sistemas de IA (inteligencia artificial) pues, a su juicio, estos sistemas podrían ocasionalmente lograr que sus sitios queden obsoletos y desaparezcan.
Queda por ver si eso es verdad o no, pero es una preocupación real expresada por los editores y los integrantes de la red social de marketing de búsqueda.
Google plus es frustrantemente haragán sobre los websites que emplea para entrenar a LaMDA, tal como sobre la tecnología que emplea para seguir websites en pos de datos.
Como se apuntó en el análisis del grupo de datos C4, la metodología para seleccionar el contenido del cibersitio que se utilizará para entrenar modelos de lenguaje enormes puede perjudicar la calidad del modelo de lenguaje al excluir a determinadas ciudades.
¿Google plus habría de ser mucho más transparente sobre los sitios que utiliza para entrenar su inteligencia artificial, o por lo menos divulgar un informe de transparencia simple de conseguir sobre los datos que utiliza?
Imagen señalada de Shutterstock/Asier Romero
var s_trigger_pixel_load = false; function s_trigger_pixel() window.addEventListener( 'cmpready', s_trigger_pixel, false);
window.addEventListener( 'load2', function() );
Fuente: searchenginejournal
Hashtags: #Google plus #Bard #qué #sitios #utilizaron #para #entrenarlo
Comentarios recientes