El rastreo es esencial para todos los sitios web, grandes y pequeños.
Si su contenido no se rastrea, no tiene ninguna posibilidad de obtener visibilidad en las plataformas de Google.
Hablemos de cómo optimizar el rastreo para darle a su contenido la exposición que merece.
¿Qué es el rastreo en SEO?
En el contexto del SEO, el rastreo es el proceso mediante el cual los robots de los motores de búsqueda (también conocidos como rastreadores web o arañas) descubren sistemáticamente el contenido de un sitio web.
Esto puede ser texto, imágenes, videos u otros tipos de archivos a los que pueden acceder los robots. Independientemente del formato, el contenido se encuentra exclusivamente a través de enlaces.
Cómo funciona el rastreo web
Un rastreador web funciona descubriendo URL y descargando el contenido de la página.
Durante este proceso, pueden pasar el contenido al índice del motor de búsqueda y extraer enlaces a otras páginas web.
Estos enlaces encontrados se dividirán en varias categorías:
- Nuevas URL que son desconocidos para el motor de búsqueda.
- URL conocidas que no brindan orientación de rastreo se revisará periódicamente para determinar si ha habido cambios en el contenido de la página y, por lo tanto, es necesario actualizar el índice del motor de búsqueda.
- URL conocidas que se han actualizado y proporcionar instrucciones claras. Deben rastrearse nuevamente y volver a indexarse, por ejemplo, a través de una marca de tiempo de la última modificación del mapa del sitio XML.
- URL conocidas que no se han actualizado y proporcionar instrucciones claras. No se deben volver a rastrear ni a indexar, como el encabezado de respuesta HTTP 304 No modificado.
- URL inalcanzables que no se pueden o no se deben seguir, como los que se encuentran detrás de un formulario de inicio de sesión o los enlaces bloqueados por una etiqueta de bot «nofollow».
- URL no permitidas que los robots de los motores de búsqueda no rastrean, como los bloqueados por el archivo robots.txt.
Todas las URL permitidas se agregarán a una lista de páginas para visitar en el futuro, conocida como la cola de inicio de sesión.
Sin embargo, se asignarán diferentes niveles de prioridad.
Esto depende no solo de la clasificación de los enlaces, sino también de una serie de otros factores que determinan la importancia relativa de cada página a los ojos de cada motor de búsqueda.
Los motores de búsqueda más populares tienen sus propios bots que usan algoritmos específicos para determinar qué rastrear y cuándo. Esto significa que no todos gatean de la misma manera.
Googlebot se comporta de manera diferente a Bingbot, DuckDuckBot, Yandex Bot o Yahoo Slurp.
Por qué es importante que su sitio sea rastreable
Si una página de un sitio no se rastrea, no se clasificará en los resultados de búsqueda porque es muy poco probable que se indexe.
Pero las razones por las que el escaneo es fundamental son mucho más profundas.
El escaneo rápido es esencial para el contenido de tiempo limitado.
A menudo, si no se rastrea y expone rápidamente, se vuelve irrelevante para los usuarios.
Por ejemplo, su audiencia no se interesará por las últimas noticias de la semana pasada, un evento pasado o un producto que ahora está agotado.
Pero incluso si no trabaja en una industria donde el tiempo de comercialización es esencial, escanear rápidamente siempre es beneficioso.
Cuando actualiza un artículo o coloca un cambio de SEO significativo en la página, cuanto más rápido lo rastree Googlebot, más rápido se beneficiará de la optimización o verá su error y regresará.
No puede fallar rápido si Googlebot rastrea lentamente.
Piense en el rastreo como la piedra angular del SEO; Su visibilidad orgánica depende completamente de qué tan bien se desempeñe su sitio.
Medición de rastreo: presupuesto de rastreo vs. Efectividad del rastreador
Contrariamente a la creencia popular, Google no tiene como objetivo rastrear e indexar todo el contenido de todos los sitios web en Internet.
No se garantiza el rastreo de una página. De hecho, la mayoría de los sitios tienen una parte sustancial de las páginas que Googlebot nunca ha rastreado.
Si ve la exclusión «Descubierto: actualmente no indexado» en el informe de índice de la página de Google Search Console, entonces este problema le preocupa.
Pero si no ve esta exclusión, no significa necesariamente que no tenga problemas de rastreo.
Existe una idea errónea común acerca de qué métricas son significativas al medir la capacidad de rastreo.
Fallo en el presupuesto de rastreo
Los profesionales de SEO a menudo buscan presupuesto crecienteque se refiere a la cantidad de URL que Googlebot puede y está dispuesto a rastrear en un período de tiempo determinado para un sitio web determinado.
Este concepto empuja a maximizar el rastreo. Esto se mejora aún más con el informe de estado de rastreo en Google Search Console, que muestra el número total de solicitudes de rastreo.

Pero la idea de que más deslizamientos es inherentemente mejor es totalmente errónea. El número total de escaneos no es más que un valor de vanidad.
Atraer 10 veces la cantidad de escaneos por día no necesariamente se correlaciona con una (re) indexación más rápida del contenido que le interesa. Todo lo que está relacionado es poner más carga en sus servidores, lo que le cuesta más dinero.
El enfoque nunca debe estar en aumentar la cantidad total de rastreos, sino en la calidad del rastreo que se traduce en valor de SEO.
Valor de efectividad de escaneo
El rastreo de calidad significa reducir el tiempo entre la publicación o la realización de actualizaciones significativas en una página relevante para SEO y la próxima visita de Googlebot. Este retraso es eficacia progresiva.
Para determinar la efectividad del rastreo, el enfoque recomendado es extraer el valor de la marca de tiempo creado o actualizado de la base de datos y compararlo con la marca de tiempo del próximo rastreo de Googlebot de la URL de los archivos de registro del servidor.
Si eso no es posible, puede considerar usar los datos lastmod de los mapas de sitio XML y sondear periódicamente las URL relevantes con la API de inspección de URL en Search Console hasta que arroje un estado de último rastreo.
Al cuantificar el retraso entre la entrega y el rastreo, puede medir el verdadero impacto de sus optimizaciones de rastreo con un valor que importa.
A medida que disminuye la efectividad del rastreo, el contenido relevante para SEO nuevo o actualizado se mostrará a su audiencia más rápidamente en las plataformas de Google.
Si la puntuación de efectividad del rastreo de su sitio muestra que Googlebot está tardando demasiado en visitar el contenido importante, ¿qué puede hacer para optimizar el rastreo?
Compatibilidad con motores de búsqueda para rastrear
Se ha hablado mucho en los últimos años sobre cómo los motores de búsqueda y sus socios se están enfocando en mejorar el rastreo.
Después de todo, es en su mejor interés. Un escaneo más eficiente no solo les brinda acceso a un mejor contenido para impulsar sus resultados, sino que también ayuda al ecosistema mundial al reducir los gases de efecto invernadero.
La mayor parte de la discusión se centró en dos API que tienen como objetivo optimizar el escaneo.
La idea es más bien que las arañas de los motores de búsqueda decidan qué rastrear, los sitios web pueden enviar URL relevantes directamente a los motores de búsqueda a través de la API para activar un rastreo.
En teoría, esto no solo le permite indexar contenido más nuevo más rápido, sino que también proporciona una forma de eliminar URL antiguas de manera efectiva, lo que actualmente no es compatible con los motores de búsqueda.
Soporte que no es de Google de IndexNow
La primera API es Índice de horas. Esto es compatible con Bing, Yandex y Seznam, pero especialmente con Google. También está integrado en muchas herramientas de SEO, CRM y CDN, lo que puede reducir el esfuerzo de desarrollo necesario para usar IndexNow.
Esto puede parecer una victoria rápida para el SEO, pero tenga cuidado.
¿Una parte significativa de su público objetivo utiliza los motores de búsqueda compatibles con IndexNow? De lo contrario, la activación de los rastreadores de su bot puede tener un valor limitado.
Pero lo que es más importante, considere lo que hace la integración de IndexNow para mejorar el puntaje de efectividad del rastreo en comparación con el peso del servidor para esos motores de búsqueda. Los costos pueden no valer los beneficios.
Soporte de Google de API de indexación
el segundo es API de indexación de Google. Google ha declarado repetidamente que la API solo se puede usar para rastrear páginas con ofertas de trabajo o marcar eventos de transmisión. Y muchos lo han probado y han demostrado que esta afirmación es falsa.
Al enviar URL que no cumplen con la API de indexación de Google, notará un aumento significativo en el rastreo. Pero este es el caso perfecto en el que «optimizar su presupuesto de rastreo» y basar sus decisiones en la cantidad de rastreos es incorrecto.
Porque para las URL que no cumplen, el envío no tiene impacto en la indexación. Y cuando te detienes a pensar en ello, esto tiene mucho sentido.
Simplemente envíe una URL. Google rastreará rápidamente la página para ver si contiene los datos estructurados especificados.
Si es así, acelerará la indexación. Si no, no será. Google lo ignorará.
Por lo tanto, llamar a la API para páginas que no cumplen solo agrega una carga innecesaria al servidor y desperdicia recursos de desarrollo sin obtener ganancias.
Ayuda de Google en Google Search Console
La otra forma en que Google admite el rastreo es transmisión manual en la consola de búsqueda de Google.
La mayoría de las URL enviadas de esta manera se rastrearán y el estado del índice cambiará en una hora. Pero hay un límite de cuota de 10 URL en 24 horas, por lo que el problema obvio con esta táctica es la escala.
Sin embargo, eso no significa ignorarlo.
Puede automatizar el envío de las URL que prioriza con un script que imita las acciones del usuario para acelerar el rastreo y la indexación de unas pocas.
Finalmente, para cualquiera que espere que hacer clic en el botón «Validar corrección» en las exclusiones descubiertas «actualmente no indexadas» active el escaneo, en mis pruebas hasta la fecha, esto no ha hecho nada para acelerar el escaneo con el escaneo.
Entonces, si los motores de búsqueda no nos ayudan significativamente, ¿cómo podemos ayudarnos a nosotros mismos?
Cómo rastrear su sitio de manera efectiva
Hay cinco tácticas que pueden marcar la diferencia en la efectividad del rastreo.
1. Garantice una respuesta del servidor rápida y saludable

Un servidor de alto rendimiento es esencial. Debe poder manejar la cantidad de rastreo que Googlebot quiere hacer sin ningún impacto negativo en los tiempos de respuesta o errores del servidor.
Verifique que el estado del host de su sitio sea verde en Google Search Console, que los errores 5xx sean inferiores al 1 % y que los tiempos de respuesta del servidor sean inferiores a 300 milisegundos.
2. Eliminar contenido innecesario
Cuando una parte importante del contenido de un sitio web es de baja calidad, está obsoleto o está duplicado, impide que los rastreadores visiten contenido nuevo o actualizado recientemente y contribuye al crecimiento del índice.
La forma más rápida de comenzar a limpiar es consultar el informe de páginas de Google Search Console para la exclusión «Rastreado: actualmente no indexado».
En el ejemplo dado, busque patrones de carpetas u otros signos de un problema. Para aquellos que encuentre, corríjalo fusionando contenido similar con una redirección 301 o eliminando el contenido con un 404 según corresponda.
3. Dile a Googlebot qué no rastrear
Si bien los enlaces rel=canonical y las etiquetas noindex son efectivos para mantener limpio el índice de Google de su sitio web, le cuestan rastreos.
Si bien esto a veces es necesario, primero considere si dichas páginas deben rastrearse. De lo contrario, bloquee el rastreo de Google con un archivo robot.txt prohibido.
Encuentre situaciones en las que bloquear el rastreo podría ser mejor que proporcionar instrucciones de indexación buscando en el informe de cobertura de Google Search Console las exclusiones de etiquetas canónicas o sin índice.
Además, revise las URL de ejemplo ‘Indexado, no enviado al mapa del sitio’ y ‘Descubierto: actualmente no indexado’ en Google Search Console. Encuentre y bloquee rutas irrelevantes para SEO como:
- Páginas con parámetros, como ?sort=oldest.
- Páginas funcionales como «carrito de la compra».
- Espacios infinitos como los que crean las páginas del calendario.
- Imágenes, guiones o archivos de estilo sin importancia.
- URL de la API.
También debe considerar cómo su estrategia de paginación afecta el rastreo.
4. Capacite a Googlebot sobre qué escanear y cuándo
Un mapa del sitio XML optimizado es una herramienta eficaz para guiar a Googlebot a las URL relevantes para SEO.
Optimizado significa que se actualiza dinámicamente con un retraso mínimo e incluye la fecha y la hora de la última modificación para informar a los motores de búsqueda cuándo se modificó significativamente la página por última vez y si es necesario volver a visitarla.
5. Admite escaneo a través de enlaces internos
Sabemos que el rastreo solo puede ocurrir a través de enlaces. Los mapas de sitio XML son un excelente lugar para comenzar; Los enlaces externos son poderosos, pero difíciles de construir en masa con calidad.
Los enlaces internos, por otro lado, son relativamente fáciles de escalar y tienen un impacto positivo significativo en la efectividad del rastreo.
Preste mucha atención a toda la navegación del sitio móvil, las migas de pan, los filtros rápidos y los enlaces de contenido asociado, asegurándose de que ninguno dependa de Javascript.
Optimizar el rastreo web
Espero que esté de acuerdo: el rastreo de sitios web es crucial para el SEO.
Y ahora tiene un KPI real en la efectividad de su rastreo para medir sus optimizaciones, para que pueda llevar su rendimiento orgánico al siguiente nivel.
Otros recursos:
Imagen destacada: BestForBest/Shutterstock
Fuente: searchenginejournal
Hashtags: #Qué #por #qué #cómo #optimizar
Comentarios recientes