Google plus ha anunciado un archivo de investigación revolucionario sobre la identificación de la calidad de la página con inteligencia artificial. Los datos del algoritmo se ven claramente afines a eso que se conoce que hace el algoritmo de contenido útil.
Google plus no identifica tecnologías algorítmicas
Absolutamente nadie fuera de Google plus puede decir de forma segura que este trabajo de investigación es la base de la señal de contenido útil.
Google plus en general no identifica la tecnología tras sus distintos algoritmos, como los algoritmos Penguin, Panda o SpamBrain.
Por consiguiente, es imposible decir con seguridad que este algoritmo sea el algoritmo de contenido útil, unicamente se puede elucubrar y ofrecer una opinión sobre esto.
Pero merece la pena tirarle una ojeada pues las semejanzas son reveladoras.
Indicio de contenido útil
1. Progresar un clasificador
Google plus ha entregado una secuencia de pistas sobre la señal de contenido útil, pero todavía hay mucha especulación sobre lo que verdaderamente es.
Las primeras pistas se dieron a conocer en un tweet del 6 de diciembre de 2022 que anunciaba la primera actualización de contenido útil.
“Optimización nuestro clasificador y marcha con contenido global en todos y cada uno de los lenguajes”.
Un clasificador, en estudio automático, es algo que clasifica datos (¿es esto o aquello?).
2. No es una acción manual o contenido publicitario
El algoritmo de contenido útil, según enseña Google plus (Lo que los autores tienen que comprender sobre la útil actualización de contenido de agosto de 2022 de Google plus), no es contenido publicitario ni una acción manual.
“Este desarrollo de clasificación está totalmente automatizado usando un modelo de estudio automático.
No es una acción manual y no es una acción de contenido publicitario.
3. Es una señal de top
La explicación de la actualización de contenido útil establece que el algoritmo de contenido útil es una señal usada para clasificar el contenido.
«… es solo una exclusiva señal y entre las muchas señales que Google plus valora para clasificar el contenido».
4. Corrobora si el contenido es de personas
Lo atrayente es que la señal de contenido útil corrobora (supuestamente) si el contenido fue desarrollado por personas.
Publicación de blog de Google plus sobre la actualización de contenido útil (Mucho más contenido por personas, para personas en la Búsqueda) aseveró que es una señal para detectar contenido desarrollado por humanos y para humanos.
Danny Sullivan de Google plus escribió:
“… nos encontramos aplicando una sucesión de actualizaciones en la Búsqueda a fin de que sea mucho más simple para la gente hallar contenido útil desarrollado por y para personas.
… Aguardamos explotar este trabajo a fin de que sea aún mucho más simple localizar contenido original de y para personas reales en los próximos meses.
El término de contenido «por personas» se reitera tres ocasiones en el aviso, lo que supuestamente señala que es una cualidad de la señal de contenido útil.
Y si no está escrito «por humanos», entonces es generado por una máquina, lo que es un punto esencial por el hecho de que el algoritmo discutido aquí está relacionado con la detección de contenido generado por una máquina.
5. ¿El contenido útil señala mucho más de una cosa?
Por último, el aviso en el blog de Google plus semeja señalar que la actualización de contenido útil no es únicamente una cosa, como un solo algoritmo.
Danny Sullivan redacta que es una «serie de actualizaciones que, si no estoy leyendo bastante, quiere decir que no es solo un algoritmo o sistema, sino más bien múltiples que juntos hacen el trabajo de remover el contenido insignificante.
O sea lo que escribió:
«… nos encontramos aplicando una secuencia de actualizaciones en la Búsqueda a fin de que sea mucho más simple para la gente localizar contenido útil desarrollado por y para personas».
Los modelos de generación de artículo tienen la posibilidad de adivinar la calidad de la página
Lo que halla este trabajo de investigación es que los modelos de lenguaje grande (LLM) como GPT-2 tienen la posibilidad de detectar con precisión el contenido de mala calidad.
Usaron clasificadores capacitados para detectar artículo generado por máquina y se dieron cuenta que exactamente los mismos clasificadores podían detectar artículo de mala calidad aun si no estaban capacitados para llevarlo a cabo.
Los modelos de lenguaje grande tienen la posibilidad de estudiar a realizar novedades para las que no fueron entrenados.
Un producto de la Facultad de Stanford sobre GPT-3 examina de qué forma aprendió de manera sin dependencia la aptitud de traducir artículo del inglés al francés sencillamente por el hecho de que se le brindaron mucho más datos para estudiar, lo que no sucedió con GPT-2, que se adiestró con menos datos.
El producto examina de qué forma añadir mucho más datos lleva a la aparición de nuevos hábitos, resultado de lo que se llama entrenamiento sin supervisión.
El entrenamiento no supervisado es en el momento en que una máquina aprende a llevar a cabo algo para lo que no fué entrenada.
esa palabra»a mostrarse” es esencial pues tiene relación a en el momento en que la máquina aprende a realizar algo para lo que no fué entrenada.
Él Producto de la Facultad de Stanford sobre GPT-3 para argumentar:
«Los competidores del taller se sorprendieron de que tal accionar brote de la fácil escala de datos y elementos informáticos, y expresaron curiosidad sobre las habilidades futuras que brotarán a escalas auxiliares».
Una exclusiva capacidad nuevo es precisamente lo que detalla el trabajo de investigación. Se dieron cuenta que un descubridor de artículo generado por una máquina asimismo podía adivinar contenido de mala calidad.
Los estudiosos escriben:
«Nuestro trabajo es doble: primero, probamos mediante la evaluación humana que los clasificadores entrenados para discriminar entre artículo humano y generado por máquina surgen como predictores no supervisados de ‘calidad de página’, capaces de advertir contenido de mala calidad sin entrenamiento.
Esto deja un principio veloz de los indicadores de calidad en un ambiente de bajos elementos.
Seguidamente, deseoso por entender la prevalencia y la naturaleza de las páginas de mala calidad en la naturaleza, llevamos a cabo extensos análisis cualitativos y cuantitativos de sobra de 500 millones de productos web, lo que transforma a este en el estudio mucho más grande nunca efectuado sobre este tema.
Como resultado, usaron un modelo de generación de artículo entrenado para detectar contenido generado por máquinas y se dieron cuenta que brotó un nuevo accionar, la aptitud de detectar páginas de mala calidad.
Descubridor OpenAI GPT-2
Los estudiosos probaron 2 sistemas para poder ver qué tan bien funcionaban para advertir contenido de mala calidad.
Entre los sistemas empleados Robertoque es un procedimiento de preentrenamiento que es una versión avanzada de BERT.
Estos son los 2 sistemas probados:
Se dieron cuenta que el descubridor GPT-2 de OpenAI era superior para advertir contenido de mala calidad.
La descripción de los desenlaces de la prueba refleja fielmente lo que entendemos sobre la señal de contenido útil.
La inteligencia artificial descubre todas y cada una de las maneras de contenido publicitario lingüístico
El trabajo de investigación establece que existen muchas señales de calidad, pero que este enfoque se enfoca solo en la calidad lingüística o lingüística.
A los efectos de este trabajo de investigación algorítmica, los términos «calidad de la página» y «calidad del lenguaje» tienen exactamente el mismo concepto.
El descubrimiento de esta investigación es que han empleado de forma exitosa la predicción del descubridor OpenAI GPT-2 de si algo es generado por una máquina o no como puntaje para la calidad del charla.
Están escribiendo:
“…los documentos con una puntuación P alta (escritos de forma automática) tienden a tener una calidad lingüística baja.
…La detección del creador de la máquina puede, por consiguiente, ser un poderoso proxy para la evaluación de la calidad.
No necesita ejemplos etiquetados, solo un corpus de artículo para entrenar de una forma autodiscriminada.
O sea especialmente útil en apps donde los datos etiquetados son pocos o donde la distribución es bastante complicada para muestrearla apropiadamente.
Por servirnos de un ejemplo, es bien difícil hacer un grupo de datos etiquetado que represente todas y cada una de las maneras de contenido web de mala calidad».
Esto quiere decir que este sistema no requiere ser entrenado para advertir algunos géneros de contenido de mala calidad.
Aprende a localizar todas y cada una de las variantes de bajo tú mismo calidad.
Este es un enfoque poderoso para detectar páginas que no son de alta definición.
Los desenlaces reflejan una actualización de contenido útil.
Probaron este sistema en quinientos millones de páginas, examinando las páginas usando múltiples atributos, como la longitud del archivo, la antigüedad del contenido y el tema.
La edad del contenido no significa marcar el contenido nuevo como de mala calidad.
Sencillamente examinaron el contenido web en todo el tiempo y se dieron cuenta que hubo un enorme incremento en las páginas de mala calidad desde 2019, coincidiendo con la creciente popularidad del empleo de contenido generado de manera automática.
El análisis por tema descubrió que ciertas áreas temáticas tendían a tener páginas de más calidad, como temas legales y gubernativos.
Raramente, hallaron un sinnúmero de páginas de mala calidad en el espacio educativo, que afirmaron que correspondían a sitios que ofrecían ensayos a los alumnos.
Lo que lo realiza atrayente es que la educación es un tema citado particularmente por Google plus para verse perjudicado por la actualización de contenido útil.
La publicación del blog de Google plus redactada por Danny Sullivan afirma:
“…nuestras pruebas han encontrado que va a mejorar en especial los desenlaces de la educación on-line…”
Tres puntajes de calidad lingüística
Guía de Google plus para revisores de calidad (PDF) usa 4 puntajes de calidad, bajo, medio, prominente y altísimo.
Los estudiosos usaron tres puntajes de calidad para evaluar el nuevo servicio, mucho más uno llamado indefinido.
Los ítems clasificados como sin definir fueron esos que por cierto motivo no lograron ser evaluados y fueron rechazados.
Las puntuaciones se clasifican en 0, 1 y 2, siendo 2 la puntuación mucho más alta.
Estas son las especificaciones de las puntuaciones de calidad del lenguaje (LQ):
“0: CV baja.
El artículo es raro o como resulta lógico incoherente.1: QL medio.
El artículo es comprensible pero mal escrito (usuales fallos gramaticales/sintácticos).2: alta definición de vida.
El artículo es comprensible y bastante bien escrito (pocos fallos de gramática/sintaxis).
Estas son las definiciones de mala calidad de la Guía de evaluadores de calidad:
Calidad mucho más baja:
“MC se crea sin el ahínco conveniente, la singularidad, el talento o la capacidad precisos para poder eficazmente el propósito de la página.
…poca atención a puntos esenciales como la claridad o la organización.
… Ciertos contenidos de mala calidad se crean con poco esfuerzo para tener contenido para respaldar
monetización en vez de hacer contenido original o desafiante para contribuir a los individuos.Asimismo puede añadir contenido de relleno, en especial en la parte de arriba de la página, lo que ordena a los clientes a moverse hacia abajo para entrar al MC.
… La redacción de este producto es poco profesional, incluidos varios fallos gramaticales y de puntuación.
Las pautas del calificador de calidad tienen una descripción mucho más descriptiva de la mala calidad que el algoritmo.
Lo atrayente es de qué forma el algoritmo se apoya en fallos gramaticales y sintácticos.
La sintaxis es una referencia al orden de las expresiones.
Las expresiones en el orden incorrecto suenan incorrectas, afín a la manera en que charla el personaje de Star Wars, Yoda («Es realmente difícil ver el futuro»).
¿El algoritmo de contenido útil se apoya en claves gramaticales y sintácticas? Si este es el algoritmo, entonces quizás logre desempeñar un papel (pero no el único).
Pero me agrada meditar que el algoritmo se ha mejorado con ciertas pautas para los revisores de calidad entre la publicación de la investigación en 2021 y la publicación de la señal de contenido útil en 2022.
El algoritmo es «fuerte»
Es una gran idea leer cuáles son las conclusiones para tener un concepto de si el algoritmo es suficientemente bueno para emplearse en los resultados de la búsqueda.
Varios trabajos de investigación concluyen que es requisito efectuar mucho más indagaciones o concluyen que las actualizaciones son marginales.
Los documentos mucho más atrayentes son esos que aseguran nuevos desenlaces de vanguardia.
Los estudiosos apuntan que este algoritmo es poderoso y sobrepasa las líneas de base.
Escriben esto sobre el nuevo algoritmo:
“En consecuencia, la detección del creador de la máquina puede ser un poderoso proxy para la evaluación de la calidad.
No necesita ejemplos etiquetados, solo un corpus de artículo para entrenar de una forma autodiscriminada.
O sea especialmente útil en apps donde los datos etiquetados son pocos o donde la distribución es bastante complicada para muestrearla apropiadamente.
Por poner un ejemplo, es bien difícil hacer un grupo de datos etiquetados que represente todas y cada una de las maneras de contenido web de mala calidad. «
Y para acabar, repite los desenlaces positivos:
«Este trabajo postula que los detectores entrenados para discriminar entre artículo escrito por humanos y por máquina son predictores efectivos de la calidad del lenguaje de las páginas, superando a un clasificador básico de contenido publicitario supervisado».
La conclusión del trabajo de investigación fue efectiva sobre el avance y expresó la promesa de que la investigación sea usada por otros.
No se relata la necesidad de sobra investigación.
Este trabajo de investigación detalla un avance en la detección de páginas de mala calidad.
La conclusión señala que, a mi parecer, hay una ocasión que podría terminar en el algoritmo de Google plus.
Gracias a que se detalla como un algoritmo de «escala web» que se puede llevar a cabo en un «ambiente de bajos elementos», quiere decir que este es el género de algoritmo que podría activarse y ejecutarse de manera continua, como afirma la señal de contenido útil. ofrecer.
No entendemos si esto está relacionado con la actualización de contenido útil, pero indudablemente es un paso adelante en la ciencia de la detección de contenido de mala calidad.
mencionado
Página de búsqueda de Google plus:
Bajar el trabajo de investigación de Google plus
Imagen señalada de Shutterstock/Asier Romero
Fuente: searchenginejournal
Hashtags: #útil #este #algoritmo #contenido #Google plus
Comentarios recientes