Si estuvo siguiendo las últimas novedades de búsqueda, probablemente haya oído charlar de la búsqueda vectorial.

Y quizás aun hayas empezado a investigar el tema para intentar saber mucho más, solo para confundirte al otro lado. ¿No dejaste las matemáticas en la facultad?

Hacer una búsqueda vectorial es bien difícil. Esta entendimiento no debe ser.

Y entender que la investigación de vectores no representan el futuro, sino más bien la investigación híbrida, es igualmente esencial.

¿Qué son los transportistas?

En el momento en que charlamos de vectores en el contexto del estudio automático, hablamos a esto: los vectores son conjuntos de números que representan algo.

Esa cosa podría ser una imagen, una palabra o prácticamente cualquier cosa.

Las cuestiones, como es natural, son por qué razón estos vectores son útiles y de qué forma se crean.

Primero echemos una ojeada a dónde vienen esos vectores. La contestación corta: estudio automático.

Jay Alammar tiene probablemente la mejor publicación de blog nunca redactada que son los vectores.

No obstante, resumiendo, la educación automático modela la entrada (afirmemos expresiones de aquí de ahora en adelante) y trata de conseguir las mejores fórmulas para adivinar otra cosa.

Por servirnos de un ejemplo, tiene la posibilidad de tener un modelo que tome la palabra «abeja» y también intente conocer las mejores fórmulas que predigan con precisión que «abeja» se ve en contextos afines a «insectos» y «avispas».

Cuando el modelo tiene la mejor fórmula, puede editar la palabra «abeja» en un conjunto de números que semeja ser afín al conjunto de números para «insectos» y «avispas».

Por el hecho de que los transportistas son poderosos

Los vectores son muy poderosos por tal razón: Los enormes modelos de lenguaje como Generative Pre-trained Transformer 3 (GPT-3) o Google plus admiten una cantidad enorme de millones de expresiones y oraciones a fin de que empiecen a realizar estas conexiones y se vuelvan verdaderamente capaces.

Es simple ver por qué razón la multitud está tan encantada con la app de esta sabiduría a la investigación.

Ciertos aun lo dicen la búsqueda vectorial reemplazará la búsqueda por keyword conocimos y amado a lo largo de décadas.

No obstante, el punto es que la búsqueda de vectores no sustituye totalmente la búsqueda de keywords. Meditar que la investigación de keywords no va a tener un valor inmenso es poner bastante optimismo en lo más reciente y refulgente.

La búsqueda de vectores y las buscas de keywords tienen cada una sus fortalezas y marchan mejor en el momento en que trabajan juntas.

Búsqueda de vector de solicitud de cola extendida

Si trabaja en la búsqueda, probablemente esté muy familiarizado con la extendida cola de consultas.

este término, popularizado por Chris Anderson para detallar el contenido digitalafirma que existen algunos productos (para consultas de búsqueda) que son considerablemente más populares que cualquier otra cosa, pero que existen muchos productos particulares que todavía son buscados por alguien.

De este modo es con la investigación.

Ciertas consultas (asimismo llamadas consultas «primordiales») se procuran frecuentemente, pero la enorme mayoría de las consultas se procuran poquísimo, quizás aun una vez.

Los números cambian de un ubicación a otro, pero en un lugar promedio, en torno a una tercer parte de todas y cada una de las buscas tienen la posibilidad de proceder de unas escasas docenas de consultas, al tiempo que prácticamente medio volumen de búsqueda procede de consultas fuera de las 1000 mucho más populares.

Las consultas de cola extendida por lo general son mucho más largas y asimismo tienen la posibilidad de ser consultas en lenguaje natural.

La investigación de mi compañía Algolia mostró que el 75% de las consultas son de 2 expresiones o menos. El 90% de las consultas son de 4 expresiones o menos. ¡Entonces se precisan 13 expresiones para llegar al 99% de las consultas!

No obstante, no en todos los casos son largos, sencillamente tienen la posibilidad de ser oscuros. Para un ubicación de tendencia femenina, «vestido morado» puede ser una solicitud extendida por el hecho de que la multitud no requiere ese color muy con frecuencia. «Pulsera» asimismo puede ser una solicitud poco recurrente, aun si el sitio tiene pulseras en venta.

La búsqueda de vectores en general marcha realmente bien para consultas de cola extendida. Puede comprender que las pulseras son afines a las pulseras y destacar las pulseras aun sin sinónimos. Puede enseñar ropa rosa o morada en el momento en que alguien busca algo en morado.

La búsqueda de vectores asimismo puede marchar bien para esas consultas largas o de lenguaje natural. «Algo para sostener mis bebidas frías» mostrará los frigos en la búsqueda vectorial mejorada, al paso que con la búsqueda por keyword, es preferible que el artículo esté en algún sitio de la descripción del producto.

En otras expresiones, la búsqueda vectorial incrementa la restauración de los resultados de la búsqueda o el número de desenlaces encontrados.

De qué forma marcha la búsqueda vectorial

La búsqueda de vectores hace esto tomando los conjuntos de números que describí previamente y realizando que el motor de búsqueda de vectores pregunte: «Si tuviese que graficar estos conjuntos de números como líneas, ¿cuáles estarían mucho más cerca entre sí?»

Una forma simple de conceptuar o sea meditar en conjuntos que solo tienen 2 números. El conjunto [1,2] va a estar mucho más cerca del conjunto [2,2] de lo que sería para el conjunto [2,500].

(Naturalmente, ya que los vectores poseen decenas y decenas de números, se «representan» en decenas y decenas de dimensiones, lo que no es tan simple de ver).

Este enfoque para saber la similitud es poderoso pues los vectores que representan expresiones como «médico» y «medicina» se «graficarán» de forma considerablemente más afín que las expresiones «médico» y «roca».

Desventajas de la búsqueda de vectores

No obstante, hay problemas en la búsqueda de vectores.

El primero es el valor. ¿Todo la educación automático que discutimos previamente? tiene costes

Primero, guardar vectores es mucho más caro que guardar un índice de búsqueda apoyado en keywords. La búsqueda de estos vectores asimismo es mucho más lenta que una búsqueda por keyword en la mayor parte de las situaciones.

En este momento, el hashing puede calmar los dos inconvenientes.

Sí, mostramos mucho más conceptos especialistas, pero este es otro que es suficientemente fácil para entender los conceptos básicos.

Hashing toma una sucesión de pasos para editar la información (como una cadena o un número) en un número que ocupa menos memoria que la información original.

Semeja que asimismo tenemos la posibilidad de emplearlo. hashing para achicar el tamaño de los vectores al paso que guarda lo que provoca que los vectores sean útiles: su aptitud para conjuntar elementos conceptualmente afines.

A través de la utilización de hashing, tenemos la posibilidad de efectuar buscas de vectores considerablemente más veloz y los vectores usan menos espacio por norma general.

Los datos son muy profesionales, pero lo esencial es comprender que es viable.

La herramienta continua de la investigación de keywords

¡Esto no quiere decir que la investigación de keywords no sea útil todavía! La búsqueda de keywords es por norma general mucho más rápida que la búsqueda de vectores.

Además de esto, es mucho más simple comprender por qué razón los desenlaces se clasifican como están.

Tome el ejemplo de la solicitud «texas» y «texano» y «estado» como probables coincidencias de expresiones. Precisamente, «texano» está mucho más cerca en el momento en que observamos la comparación desde una visión pura de investigación de keywords. No obstante, no es tan simple entender cuál estaría mucho más cerca desde un enfoque de búsqueda vectorial.

La búsqueda por keyword interpreta «texas» como «texano» por el hecho de que emplea un enfoque apoyado en artículo para hallar registros.

Si los registros poseen expresiones que son precisamente idénticas a las de la solicitud (o en un cierto nivel de diferencia para tomar en consideración los fallos tipográficos), el registro se considera importante y se devuelve en los conjuntos de desenlaces.

En otras expresiones, la búsqueda de keywords se enfoca en la precisión de los desenlaces de la búsqueda, esto es, cerciorarse de que los registros devueltos sean importantes, si bien sean menos.

La investigación de keywords es ventajosa para las primordiales consultas

Por tal razón, la búsqueda por keyword marcha realmente bien para las consultas primordiales, las consultas mucho más populares.

Las consultas primordiales por lo general son mucho más cortas y asimismo son mucho más simples de mejorar. Esto quiere decir que si, por alguna razón, una keyword no coincide con el artículo preciso en un registro, de forma frecuente se descubre a través de análisis y Puedes añadir un homónimo.

Pues la búsqueda de keywords marcha mejor para consultas primordiales y la búsqueda de vectores marcha mejor para consultas en cola largo, los 2 marchan mejor juntos.

Esto se conoce como investigación híbrida.

La búsqueda híbrida se genera en el momento en que un motor de búsqueda emplea tanto la búsqueda por keyword como la búsqueda vectorial para una sola solicitud y clasifica apropiadamente los registros, con independencia del enfoque de búsqueda que los haya generado.

Clasificación de registros en fuentes de búsqueda

Clasificar registros que surgen de 2 fuentes distintas no es moco de pavo.

Los 2 enfoques tienen, por su naturaleza, distintas maneras de marcar registros.

La búsqueda de vectores va a devolver una puntuación, al paso que ciertos motores de keywords no lo van a hacer. Aun si los motores de keywords lanzan una puntuación, no hay garantía de que ámbas puntuaciones sean equivalentes.

Si las puntuaciones no son equivalentes, es imposible decir que una puntuación de motor de keywords de 0,8 sea mucho más importante que una puntuación de motor vectorial de 0,79.

Otra opción alternativa sería realizar todos y cada uno de los desenlaces a través de el motor de vectores o la puntuación del motor de keywords.

Esto tiene el beneficio de conseguir la restauración agregada del motor vectorial, pero asimismo tiene ciertos problemas. Esos desenlaces auxiliares recuperados del motor de vectores no van a ser evaluados como importantes por la puntuación de una keyword, en caso contrario, ahora habrían aparecido en el grupo de desenlaces.

De forma alternativa, puede realizar todos y cada uno de los desenlaces, keywords u otros, por medio de la puntuación de vectores, pero o sea retardado y caro.

Búsqueda de vectores alternos

Por esa razón ciertos buscadores no procuran conjuntar los 2, sino siempre y en todo momento detallan los desenlaces de las keywords primero y después los desenlaces vectoriales seguidamente.

El pensamiento aquí es que si una búsqueda lanza cero o pocos desenlaces, puede regresar a los desenlaces del vector.

Tenga presente que la búsqueda de vectores está orientada a progresar el recuerdo o localizar mucho más desenlaces y, en consecuencia, puede localizar desenlaces importantes que la búsqueda de keywords no halló.

Esta es una solución aceptable, pero no representan el futuro de la auténtica investigación híbrida.

La búsqueda híbrida real clasificará múltiples fuentes de búsqueda distintas en exactamente el mismo grupo de desenlaces creando una puntuación comparable entre las fuentes.

Hay mucha investigación sobre este enfoque actualmente, pero pocos lo hacen bien y proponen su motor públicamente.

¿Entonces que significa esto para usted?

Ahora mismo, lo destacado que puede llevar a cabo es probablemente sostenerse estable y sostenerse alerta de lo que pasa en la industria.

La búsqueda híbrida fundamentada en vectores y keywords va a llegar en los próximos años y va a estar libre para personas sin equipos de ciencia de datos.

Hasta entonces, la investigación de keywords todavía es importante y solo va a mejorar en el momento en que se introduzca la búsqueda vectorial en una fecha posterior.

Mucho más elementos:


Imagen señalada: pluie_r / Shutterstock

Fuente: searchenginejournal

Hashtags: #Búsqueda #semántica #con #vectores