Existe la preocupación de que no haya una forma simple de decantarse por no utilizar contenido dueño para entrenar modelos de lenguaje riguroso (LLM) como ChatGPT. Hay una forma de realizar esto, pero no es bien simple ni seguramente ande.

De qué manera la inteligencia artificial aprende de su contenido

Los modelos de lenguaje grande (LLM) se adiestran con datos de múltiples fuentes. Varios de estos conjuntos de datos son de código abierto y se usan libremente para el entrenamiento de inteligencia artificial.

Ciertas fuentes usadas son:

  • Wikipedia
  • ficheros judiciales del gobierno
  • libro
  • Mail
  • websites rastreados

De todos modos, hay portales, websites que dan conjuntos de datos, que dan enormes proporciones de información.

Entre los portales está alojado en Amazon y proporciona cientos de conjuntos de datos en Abra el registro de datos en AWS.

Cómo evitar que ChatGPT use contenido en su sitio

El portal de Amazon con una cantidad enorme de conjuntos de datos es solo uno de los múltiples portales que poseen múltiples conjuntos de datos.

Wikipedia cuenta 28 portales para bajar conjuntos de datos, incluyendo los portales Google plus Dataset y Hugging Face para hallar cientos de conjuntos de datos.

Grupo de datos de contenido web

AbrirTextoWeb

Un grupo de datos de contenido web habitual tiene por nombre OpenWebText. OpenWebText se compone de dirección de Internet que están en publicaciones de Reddit que han recibido por lo menos tres votos a favor.

El punto es que estas dirección de Internet son fiables y contendrán contenido de calidad. No pude localizar ninguna información sobre un agente de usuario para su rastreador, quizás solo esté reconocido como Python, no estoy seguro.

No obstante, entendemos que si su ubicación está relacionado desde Reddit con por lo menos tres votos a favor, es muy posible que su ubicación esté en el grupo de datos de OpenWebText.

Estudiar mucho más sobre Abrir WebText aquí.

Escaneo común

Entre los conjuntos de datos mucho más usados para el contenido de Internet lo da una organización sin ánimo de lucrar llamada Escaneo común.

Los datos de Common Crawl surgen de un bot que rastrea todo Internet.

Los datos son descargados por las organizaciones que desean emplearlos y después se limpian de los sitios de contenido publicitario, etcétera.

El nombre del bot Common Crawl es CCBot.

CCBot respeta el protocolo robots.txt, con lo que es viable denegar Common Crawl con Robots.txt y eludir que los datos de su página web se conviertan en otro grupo de datos.

No obstante, si su lugar ahora fué rastreado, probablemente ahora esté incluido en múltiples conjuntos de datos.

No obstante, al denegar Common Crawl, puede decantarse por no integrar el contenido de su página web en nuevos conjuntos de datos de los datos de Common Crawl mucho más recientes.

La cadena de agente de usuario de CCBot es:

CCBot/2.0

Añada lo siguiente a su fichero robots.txt para denegar el bot Common Crawl:

Usuario-agent: CCBot
Disallow: /

Otra forma de corroborar si un agente de usuario de CCBot es legítimo es escanear desde las direcciones IP de Amazon AWS.

CCBot asimismo respeta las pautas de metaetiquetas de los bots nofollow.

Utiliza esto en la metaetiqueta de tu bot:

Impide que la IA (inteligencia artificial) use tu contenido

Los buscadores dejan que los websites deshabiliten el rastreo. Common Crawl asimismo deja decantarse por no formar parte. Pero hoy en día es imposible remover el contenido del portal web de los conjuntos de datos que ya están.

Además de esto, los científicos no semejan proveer una manera a fin de que los editores de websites opten por no seguir.

Producto, ¿Está bien emplear el contenido web de ChatGPT? explore el tema de si es aun ético emplear los datos del portal web sin permiso o una manera de decantarse por no formar parte.

Varios editores tienen la posibilidad de ver tener mucho más voz sobre de qué forma se emplea su contenido, en especial por artículos de inteligencia artificial como ChatGPT, más adelante próximo.

Todavía no se conoce si esto va a suceder.

Imagen cortesía de Shutterstock/ViDI Studio

Fuente: searchenginejournal

Hashtags: #De qué forma #eludir #ChatGPT #contenido #ubicación