Los modelos de lenguaje grande (LLM) como ChatGPT emplean múltiples fuentes de información, incluyendo el contenido web. Estos datos forman la base de los resúmenes de ese contenido con apariencia de productos que se generan sin atribuir ni favorecer a quienes han publicado el contenido original empleado para la capacitación de ChatGPT.

Los buscadores descargan contenido del portal web (llamado rastreo y también indexación) para otorgar respuestas con apariencia de links a websites.

Los editores de websites tienen la opción de decantarse por que los buscadores no rastreen y también indexen su contenido a través del Protocolo de exclusión de robots, generalmente popular como Robots.txt.

El Protocolo de Exclusión de Robots no es un estándar oficial de Internet, pero es seguido por rastreadores web lícitos.

¿Los editores web deberían poder utilizar el protocolo Robots.txt para eludir que los patrones de lenguaje enormes utilicen el contenido de su lugar?

Los modelos de lenguaje grande emplean el contenido del ubicación sin atribución

Varios de los que están comprometidos en la mercadotecnia de búsqueda no se sienten cómodos con la manera en que se usan los datos del página web para entrenar máquinas sin devolver nada, como reconocimiento o tráfico.

Hans Petter Blindheim (Perfil de Linkedin), el Especialista Senior de Curamando compartió conmigo sus críticas.

Hans comentó:

“En el momento en que un creador redacta algo tras estudiar algo de un producto en su ubicación, la mayor parte de las ocasiones vinculará a su trabajo original por el hecho de que ofrece probabilidad y cortesía profesional.

Tiene por nombre cita.

Pero la escala a la que ChatGPT ingiere contenido y no devuelve nada lo diferencia tanto de Google plus como de los humanos.

Un portal de internet por norma general se crea con una directiva comercial en cabeza.

Google plus contribuye a la gente a hallar su contenido ofreciendo tráfico, lo que es bueno para las dos partes.

Pero no es que los enormes modelos lingüísticos le hayan pedido permiso para utilizar su contenido, sencillamente lo están utilizando en un sentido mucho más extenso de lo que se suponía en el momento en que se publicó su contenido.

Y si los modelos de lenguaje de inteligencia artificial no proponen ningún valor a cambio, ¿por qué razón los editores les dejarían seguir y utilizar el contenido?

¿La utilización de su contenido cumple con los estándares de empleo justo?

En el momento en que ChatGPT y los modelos ML/AI de Google plus adiestran en su contenido sin permiso, convierta lo que aprenden allí y utilícelo sosteniendo a la gente distanciadas de sus websites: la industria e inclusive los reguladores no deberían procurar recobrar el control de Forzar Internet a un » modelo «opt-in»?

Las intranquilidades expresadas por Hans son razonables.

Dada la velocidad con la que evoluciona la tecnología, ¿deberían reconsiderarse y actualizarse las leyes de empleo justo?

Le preguntamos a John Rizvi, un letrado de patentes (Perfil de Linkedin) que está certificado en la ley de propiedad intelectual, si se violan las leyes de derechos de creador de Internet.

Juan respondió:

«Sí, indudablemente.

Un punto esencial de disputa en estas situaciones es que la ley indudablemente evoluciona considerablemente más de forma lenta que la tecnología.

En la década de 1800, posiblemente esto no importase tanto, en tanto que el avance era parcialmente retardado y, por ende, los vehículos legales estaban aproximadamente pertrechados para amoldarse.

El día de hoy, no obstante, los apabullantes avances en tecnología han superado con creces la aptitud de la ley para sostenerse cada día.

Sencillamente hay bastante avance y demasiadas partes móviles inteligentes a fin de que la ley se sostenga cada día.

Como está establecida y administrada en la actualidad, en parte importante por personas que no son especialistas en los campos tecnológicos que discutimos aquí, la ley está mal pertrechada o estructurada para sostenerse cada día con la tecnología… y debemos estimar que esta no es una solución completa. cosa mala.

Entonces, en determinado sentido, sí, la ley de propiedad intelectual precisa superar aun en el momento en que quiere, y bastante menos espera, proseguir el ritmo de los avances en tecnología.

El inconveniente primordial es hallar un equilibrio entre sostenerse cada día con las formas en que se tienen la posibilidad de utilizar las distintas maneras de tecnología y eludir la extralimitación flagrante o la censura absoluta por ganancias políticas enmascaradas con pretenciones benevolentes.

La ley asimismo debe llevar cuidado de no legislar en oposición a los probables usos de la tecnología de forma tan extensa que ahogue cualquier beneficio potencial que logre deducirse de ella.

Puede violar de forma fácil la Primera Enmienda y cualquier número de casos resueltos que circunscriban de qué forma, por qué razón y exactamente en qué medida se puede emplear la propiedad intelectual y por quién.

Y intentar imaginar cada empleo concebible de la tecnología años o décadas antes que permanezca el marco, para llevarlo a cabo posible o aun viable, sería una tontería increíblemente dañina.

En ocasiones como esta, la ley no puede eludir reaccionar frente la manera en que se usa la tecnología… no siempre de la manera en que se pretendía.

No es muy probable que esto cambie a corto plazo, salvo que alcancemos una meseta tecnológica colosal y también inopinada que deje que la ley se ponga cada día con los acontecimientos recientes».

Entonces, semeja que el inconveniente de la ley de derechos de creador tiene muchas consideraciones que equilibrar tratándose de de qué forma se adiestra la inteligencia artificial, no hay una contestación fácil.

OpenAI y Microsoft Suecia

Un caso atrayente que se presentó últimamente es donde OpenAI y Microsoft utilizaron código fuente abierto para crear su producto CoPilot.

El inconveniente con la utilización de código fuente abierto es que la licencia Creative Commons necesita atribución.

Según uno producto anunciado en una gaceta académica:

“Los demandantes aducen que OpenAI y GitHub ensamblaron y distribuyeron un producto comercial llamado Copilot para hacer código generativo usando código libre públicamente inicialmente libre bajo múltiples licencias de código abierto, muchas de las que tienen dentro un requisito de atribución.

Como afirma GitHub, “…[t]lloviendo sobre una cantidad enorme de millones de líneas de código, GitHub Copilot transforma las peticiones de lenguaje natural en recomendaciones de codificación en docenas de lenguajes.

El producto final habría omitido cualquier crédito a los autores auténticos.

El creador de ese producto, que es un especialista legal en derechos de creador, escribió que varios estiman que las licencias de código abierto Creative Commons son «gratis para todos».

Ciertos aun tienen la posibilidad de estimar la oración gratis para todos se quita una descripción precisa de los conjuntos de datos que poseen contenido de Internet y se usa para producir modelos de inteligencia artificial como ChatGPT.

Antecedentes sobre LLM y conjuntos de datos

Los modelos de lenguaje grande se adiestran en múltiples conjuntos de datos de contenido. Los conjuntos de datos tienen la posibilidad de radicar en e-mails, libros, datos gubernativos, productos de Wikipedia e inclusive conjuntos de datos conformados por websites vinculados a publicaciones de Reddit que tienen por lo menos tres votos a favor.

Varios de los conjuntos de datos de contenido de Internet tienen su origen en el rastreo desarrollado por una organización sin ánimo de lucrar llamada Escaneo común.

Su grupo de datos, el grupo de datos Common Crawl, está libre para bajar y emplear de manera gratuita.

El grupo de datos de Common Crawl es el punto de inicio para otros muchos conjuntos de datos conformados desde él.

Por servirnos de un ejemplo, GPT-3 usó una versión filtrada de Common Crawl (Los modelos de lenguaje son practicantes con unos pocos trazos. PDF).

Es así como los estudiosos de GPT-3 emplearon los datos del cibersitio contenidos en el grupo de datos de Common Crawl:

“Los conjuntos de datos de patrones lingüísticos se han expandido de manera rápida, acabando en el grupo de datos Common Crawl… que se compone de prácticamente un billón de expresiones.

Este tamaño de grupo de datos basta para entrenar nuestros modelos mucho más enormes sin actualizar exactamente la misma secuencia un par de veces.

No obstante, hemos descubierto que las ediciones sin filtrar o levemente filtradas de Common Crawl por lo general son de menor calidad que los conjuntos de datos mucho más limpios.

En consecuencia, hice 3 pasos para progresar la calidad promedio de nuestros conjuntos de datos:

(1) descargamos y filtró una versión de CommonCrawl fundamentada en la similitud con un grupo de corpus de referencia de alta definición,

(2) efectuamos una deduplicación aproximada a nivel de archivo dentro y entre conjuntos de datos para eludir la redundancia y proteger la integridad de nuestro grupo de validación mantenido como una medida precisa de sobreajuste, y

(3) Asimismo hemos añadido corpus de referencia populares y de alta definición a la combinación de capacitación para impulsar CommonCrawl y acrecentar su variedad.

El grupo de datos C4 (Colossal, Cleaned Crawl Corpus) de Google plus, usado para hacer el transformador de transferencia de artículo a artículo (T5), asimismo tiene sus raíces en el grupo de datos Common Crawl.

Su trabajo de investigación (Explore los límites de la transferencia de estudio con un transformador unificado de artículo a artículo PDF) enseña:

“Antes de enseñar los desenlaces de nuestro estudio empírico a enorme escala, examinemos los temas latentes precisos para entender nuestros descubrimientos, incluyendo la arquitectura del modelo Transformer y las ocupaciones siguientes que valoramos.

Asimismo mostramos nuestro enfoque para tratar cada inconveniente como una labor de artículo a artículo y describimos el «Colossal Clean Crawled Corpus» (C4), el grupo de datos apoyado en Common Crawl que creamos como fuente de datos de artículo sin etiquetar.

Hablamos a nuestro modelo y marco como el «Transformador de transferencia de artículo a artículo (T5)».

Google plus publicó un producto en su blog de inteligencia artificial lo que enseña aún mucho más de qué manera se utilizaron los datos de Common Crawl (que poseen contenido extraído de Internet) para hacer C4.

Ellos escribieron:

“Un ingrediente esencial para la transferencia del estudio es el grupo de datos sin etiquetar que se emplea para la capacitación anterior.

Para medir con precisión el efecto de acrecentar la proporción de entrenamiento previo se necesita no solo un grupo de datos diverso y de alta definición, sino más bien asimismo un grupo colosal.

Los conjuntos de datos anteriores al entrenamiento que ya están incumplen con estos tres criterios: por servirnos de un ejemplo, el artículo de Wikipedia es de alta definición pero tiene un estilo traje y es parcialmente pequeño para nuestros propósitos, al tiempo que los extractos de la página web de Common Crawl son gigantes y muy dispares, pero de calidad bastante inferior. calidad.

Para realizar estos requisitos, hemos creado Colossal Clean Crawled Corpus (C4), una versión limpia de Common Crawl que es 2 órdenes de intensidad mucho más grande que Wikipedia.

Nuestro desarrollo de limpieza implicó la deduplicación, la supresión de frases incompletas y la supresión de contenido ofensivo o ruidoso.

Este filtrado condujo a mejores desenlaces en las tareas siguientes, al tiempo que la dimensión agregada dejó agrandar el modelo sin sobreajustarlo a lo largo del entrenamiento previo.

Google plus, aun OpenAI Datos libres de Oracle utilizan contenido de Internet, su contenido, para hacer conjuntos de datos que entonces se emplean para hacer apps de inteligencia artificial como ChatGPT.

El escaneo común se puede denegar

Puede denegar Common Crawl y, más tarde, abandonar todos y cada uno de los conjuntos de datos que dependen de Common Crawl.

Pero si el ubicación ahora se ha rastreado, los datos del lugar ahora están en los conjuntos de datos. Es imposible remover su contenido del grupo de datos de Common Crawl y algún otro grupo de datos derivado, como C4 y .

La utilización del protocolo Robots.txt solo bloqueará futuros rastreos por medio de Common Crawl, no evitará que los rastreadores utilicen contenido que está en el grupo de datos.

De qué manera denegar el escaneo común de sus datos

El bloqueo de rastreo común es viable usando el protocolo Robots.txt, en los límites discutidos previamente.

El bot Common Crawl tiene por nombre CCBot.

Se identifica usando la última cadena CCBot Usuario-Agent: CCBot/2.0

El bloqueo de CCBot con Robots.txt se efectúa como todos bot.

Aquí está el código para denegar CCBot con Robots.txt.

Usuario-agent: CCBot
Disallow: /

CCBot escanea desde direcciones IP de Amazon AWS.

CCBot asimismo prosigue la metaetiqueta Robots nofollow:

¿Qué sucede si no bloqueas Common Crawl?

El contenido web se puede bajar sin permiso, la manera en que marchan los navegadores, descargan contenido.

Ni Google plus ni absolutamente nadie mucho más precisa permiso para bajar y usar contenido anunciado públicamente.

Los editores de websites tienen opciones limitadas

Estimar si es ético entrenar a la inteligencia artificial en contenido web no semeja ser una parte de ninguna charla sobre la ética de de qué manera se lleva a cabo la tecnología de inteligencia artificial.

Semeja evidente que el contenido de Internet se puede bajar, digerir y transformar en un producto llamado ChatGPT.

¿Piensas que es acertado? La contestación es dificultosa.

Imagen cortesía de Shutterstock/Krakenimages.com

Fuente: searchenginejournal

Hashtags: #preciso #empleo #del #contenido #web #ChatGPT