14 consejos obligatorios para rastrear millones de páginas web

El escaneo de sitios corporativos tiene todas las complejidades de cualquier inicio de sesión de escaneo normal, además de algunos factores adicionales a considerar antes de comenzar el escaneo.

Los siguientes enfoques le muestran cómo rastrear a escala y lograr sus objetivos, ya sea una verificación continua o una auditoría de su sitio.

1. Prepara el sitio para el rastreo

Una cosa importante a considerar antes de rastrear es el sitio en sí.

Es útil para solucionar problemas que pueden ralentizar el análisis antes de iniciarlo.

Puede parecer contradictorio arreglar algo antes de arreglarlo, pero cuando se trata de sitios realmente grandes, un pequeño problema multiplicado por cinco millones se convierte en un problema importante.

adam humphreyel fundador de la agencia de marketing digital Making 8 Inc., compartió una solución inteligente que utiliza para identificar las causas de un TTFB (tiempo hasta el primer byte) lento, una medida que mide la capacidad de respuesta de un servidor web.

Un byte es una unidad de datos. Entonces, TTFB es la medida de cuánto tiempo tarda un solo byte de datos en enviarse al navegador.

TTFB mide la cantidad de tiempo que un servidor recibe una solicitud de un archivo y cuándo se entrega el primer byte al navegador, proporcionando una medida de la velocidad del servidor.

Una forma de medir TTFB es ingresar una URL en la herramienta Google PageSpeed Insights, que funciona con la tecnología de medición Lighthouse de Google.

Puntuación TTFB en la herramienta PageSpeed Insights

Captura de pantalla de la herramienta PageSpeed Insights, julio de 2022

Adán distribuyó: «Muchas veces, Core Web Vitals informará un TTFB lento para las páginas marcadas. Para obtener una lectura de TTFB realmente precisa, puede comparar el archivo de texto sin formato, solo un archivo de texto sin formato, que se carga en el servidor con el sitio web real.

Lance algo de Lorem ipsum o algo así en un archivo de texto y cárguelo, luego mida el TTFB. La idea es ver los tiempos de respuesta del servidor en el TTFB y luego aislar qué recursos en el sitio están causando la latencia.

La mayoría de las veces, a la gente le encantan los complementos excesivos. Actualizaré Lighthouse incognito y web.dev/measure para calcular el promedio de las mediciones. Cuando veo entre 30 y 50 toneladas de complementos o toneladas de JavaScript en el código fuente, es casi un problema inmediato justo antes de comenzar cualquier rastreo. «

Cuando Adam dice que actualice las puntuaciones de Lighthouse, quiere decir que prueba la URL varias veces, porque cada prueba da una puntuación ligeramente diferente (esto se debe a que la velocidad a la que se enrutan los datos a través de Internet cambia constantemente, a medida que cambia la velocidad del tráfico. constantemente).

Entonces, lo que hace Adam es recolectar múltiples puntajes TTFB y promediarlos para obtener un puntaje final que le dirá qué tan receptivo es un servidor web.

Si el servidor no responde, la herramienta PageSpeed Insights puede darle una idea de por qué el servidor no responde y qué debe corregirse.

2. Otorgue acceso completo al servidor: la IP del rastreador en la lista blanca

Los cortafuegos y las redes de entrega de contenido (CDN) pueden bloquear o ralentizar el rastreo de una IP en un sitio web.

Por lo tanto, es importante identificar todos los complementos de seguridad, software de prevención de intrusiones a nivel de servidor y CDN que pueden estar impidiendo el rastreo del sitio.

Los complementos típicos de WordPress para incluir en la lista blanca una IP son Firewall de aplicaciones web de jugos (WAF) Y Valla de palabras.

3. Escanea durante las horas pico

Idealmente, rastrear un sitio debería ser discreto.

En el mejor de los casos, un servidor debería poder hacer frente a un rastreo agresivo sirviendo páginas web a los visitantes reales del sitio.

Pero, por otro lado, podría ser útil probar qué tan bien responde el servidor a la carga.

Los análisis en tiempo real o el acceso al registro del servidor serán útiles aquí, ya que puede ver de inmediato cómo el rastreo del servidor puede afectar a los visitantes del sitio, aunque el ritmo del rastreo y las respuestas 503 del servidor también son una indicación de que el servidor está bajo control. estrés.

Si el servidor realmente tiene dificultades para mantenerse al día, anote esa respuesta y rastree el sitio durante las horas pico.

Sin embargo, una CDN debería mitigar los efectos del escaneo agresivo.

4. ¿Hay algún error en el servidor?

Consola de búsqueda de Google Informe de estadísticas de acceso a escaneo debería ser el primer lugar para buscar si el servidor tiene problemas para enviar páginas a Googlebot.

Cualquier problema en el informe de estadísticas de acceso de rastreo debe tener la causa identificada y resuelta antes de rastrear un sitio web de toda la empresa.

Los registros de errores del servidor son una mina de oro de datos que pueden revelar una amplia gama de errores que pueden afectar la efectividad del rastreo de un sitio. De particular importancia es la capacidad de corregir errores de PHP invisibles.

5. Memoria del servidor

Quizás algo que no se considera comúnmente para SEO es la cantidad de RAM (memoria de acceso aleatorio) en un servidor.

La RAM es como la memoria a corto plazo, un lugar donde un servidor almacena la información que utiliza para ofrecer páginas web a los visitantes del sitio.

Un servidor con RAM insuficiente se volverá lento.

Por lo tanto, si un servidor se vuelve lento durante un rastreo o parece incapaz de hacer frente a un rastreo, esto podría ser un problema de SEO que afecta la capacidad de Google para rastrear e indexar páginas web.

Eche un vistazo a la cantidad de RAM que tiene el servidor.

Un servidor privado virtual (VPS) puede requerir al menos 1 GB de RAM.

Sin embargo, si el sitio web es una tienda en línea de alto tráfico, se pueden recomendar de 2 GB a 4 GB de RAM.

Más RAM es generalmente mejor.

Si el servidor tiene suficiente RAM, pero el servidor se está ralentizando, el problema podría ser otro, como un software (o un complemento) que es ineficiente y provoca requisitos de memoria excesivos.

6. Verifique sus datos de inicio de sesión periódicamente para escanear

Tenga en cuenta las anomalías de rastreo al rastrear su sitio.

A veces, el rastreador puede informar que el servidor no pudo responder a una solicitud de una página web, generando algo como un 503 servicio no disponible mensaje de respuesta del servidor.

Por lo tanto, es útil detener el análisis y comprobar qué está pasando que puede ser necesario corregir para continuar con el análisis, lo que proporciona información más útil.

A veces no llega al final del escaneo que es el objetivo.

El rastreo en sí mismo es un punto de datos importante, así que no se sienta frustrado porque el acceso del rastreador debe interrumpirse para corregir algo, porque el descubrimiento es algo bueno.

7. Configure el rastreador para escalar

Fuera de la caja, un rastreador como Screaming Frog se puede configurar para la velocidad, lo que probablemente sea excelente para la mayoría de los usuarios. Pero deberá optimizarse para rastrear un sitio grande con millones de páginas.

Screaming Frog usa RAM para rastrear, lo cual es excelente para un sitio normal, pero menos bueno para un sitio web de tamaño empresarial.

Superar esta brecha es fácil ajustando la configuración de almacenamiento La rana que grita.

Esta es la ruta del menú para ajustar la configuración de almacenamiento:

Configuration > System > Storage > Database Storage

Si es posible, se recomienda encarecidamente (pero no es absolutamente necesario) utilizar una SSD (unidad de estado sólido) interna.

La mayoría de las computadoras usan un disco duro estándar con partes móviles en su interior.

Un SSD es la forma más avanzada de disco duro que puede transferir datos a velocidades de 10 a 100 veces más rápidas que un disco duro normal.

El uso de una computadora con resultados SSD ayudará a construir un rastreador increíblemente rápido, que es necesario para la descarga eficiente de millones de páginas web.

Para garantizar un acceso de escaneo óptimo, se deben asignar 4 GB de RAM y no más de 4 GB para acceso escaneado en hasta 2 millones de URL.

Para visitas rastreadas de hasta 5 millones de URL, recomendado a los que se les asignan 8 GB de RAM.

Adam Humphreys distribuyó: «El escaneo de sitios consume muchos recursos y requiere mucha memoria. Una computadora de escritorio dedicada o alquilar un servidor es un método mucho más rápido que una computadora portátil.

Una vez pasé casi dos semanas esperando que se completara un escaneo. Aprendimos de esto y convencimos a los socios de crear software de forma remota para que pudieran realizar auditorías en cualquier lugar y en cualquier momento. «

8. Conéctese a una conexión rápida a Internet

Si está escaneando desde su oficina, es esencial que utilice la conexión a Internet más rápida posible.

El uso de la conexión a Internet más rápida disponible puede marcar la diferencia entre un rastreador que dura horas y un rastreador que dura días.

En general, la conexión a Internet más rápida disponible es a través de una conexión Ethernet y no a través de una conexión Wi-Fi.

Si está accediendo a Internet a través de Wi-Fi, aún puede obtener una conexión Ethernet acercando una computadora portátil o de escritorio al enrutador Wi-Fi, que contiene conexiones Ethernet en la parte posterior.

Este parece uno de esos consejos «obvios», pero es fácil pasarlo por alto, ya que la mayoría de las personas usan Wi-Fi de forma predeterminada, sin pensar en lo rápido que sería conectar su computadora directamente al enrutador con una red Ethernet cableada.

9. Arrastrarse por las nubes

Otra opción, especialmente para rastreadores extraordinariamente grandes y complejos de más de 5 millones de páginas web, rastrear desde un servidor podría ser la mejor opción.

Todas las restricciones normales de acceso de rastreo de escritorio están deshabilitadas cuando se usa un servidor en la nube.

Ceniza Nallawallaun autor y especialista en SEO Enterprise, tiene más de 20 años de experiencia trabajando con algunas de las empresas de tecnología empresarial más grandes del mundo.

Así que le pedí que escaneara millones de páginas.

Respondió que recomienda rastrear desde la nube a sitios con más de 5 millones de URL.

Ceniza distribuida: «El rastreo de sitios web grandes se realiza mejor en la nube. Creo hasta 5 millones de URI con Screaming Frog en mi computadora portátil en modo de almacenamiento de base de datos, pero nuestros sitios tienen muchas más páginas, por lo que ejecutamos máquinas virtuales en la nube para escanearlo.

Nuestro contenido es popular entre los rastreadores por razones competitivas de inteligencia de datos, en lugar de copiar artículos por su contenido textual.

Usamos tecnología de cortafuegos para evitar que alguien recopile demasiadas páginas a alta velocidad. Es lo suficientemente bueno para detectar raspadores que funcionan en el llamado «modo de emulación humana». Por lo tanto, solo podemos escanear direcciones IP autorizadas y otro nivel de autenticación. «

Adam Humphreys accedió a salir de la nube.

Él dijo: «El escaneo de sitios consume muchos recursos y requiere mucha memoria. Una computadora de escritorio dedicada o alquilar un servidor es un método mucho más rápido que una computadora portátil. Una vez pasé casi dos semanas esperando que se completara un escaneo.

Aprendimos de esto y convencimos a los socios de crear software de forma remota para que puedan realizar auditorías en cualquier lugar y en cualquier momento en la nube. «

10. Escaneos parciales

Una técnica para rastrear sitios web grandes es dividir el sitio en partes y escanear cada parte según la secuencia para que el resultado sea una vista en sección del sitio.

Otra forma de rastreo parcial es dividir el sitio en partes y rastrear continuamente para que la instantánea de cada sección no solo se mantenga actualizada, sino que también pueda ver cualquier cambio en el sitio de inmediato.

Entonces, en lugar de rastrear todo el sitio, ejecute un rastreo parcial de todo el sitio en función del tiempo.

Este es un enfoque que Ash recomienda enfáticamente.

Ash explicó: «Siempre estoy rastreando. Estoy ejecutando uno en este momento en una sola marca de producto. Está configurado para dejar de rastrear en el límite predeterminado de 5 millones de URL».

Cuando le pregunté cuál es el motivo del acceso continuo, dijo que se debe a problemas que él no puede controlar, que pueden ocurrir con empresas de este tamaño en las que están involucradas muchas partes interesadas.

Ash dijo: «Para mi situación, tengo acceso continuo al rastreo para solucionar problemas conocidos en un área en particular».

11. Instantánea general: accesos de escaneo limitados

Una forma de obtener una vista de alto nivel del aspecto de un sitio web es limitar el acceso de rastreo a solo un sitio de muestra.

Esto también es útil para escanear información de concurrencia.

Por ejemplo, en un proyecto de Your Money Or Your Life en el que trabajé, escaneé unas 50.000 páginas del sitio web de un competidor para ver qué tipos de sitios estaban enviando.

Usamos estos datos para convencer al cliente de que sus patrones de conexión saliente son débiles y les mostramos los sitios de alta calidad a los que estaban vinculados sus principales competidores.

Entonces, a veces, el acceso de rastreo limitado puede generar algún tipo de datos para tener una idea general del estado general del sitio.

12. Escanear para obtener una descripción general de la estructura del sitio

A veces solo necesitamos entender la estructura del sitio.

Para hacerlo más rápido, puede configurar el rastreador para que no rastree enlaces externos e imágenes internas.

Hay otras configuraciones del rastreador que se pueden desmarcar para producir un acceso de rastreo más rápido, por lo que lo único en lo que se enfoca el rastreador es en descargar la URL y la estructura del enlace.

13. Cómo gestionar páginas duplicadas y canónicas

Si no hay motivo para indexar páginas duplicadas, puede ser útil configurar el rastreador para que ignore los parámetros de URL y otras URL que son duplicados de una URL canónica.

Puede configurar un rastreador para rastrear solo páginas canónicas. Pero si alguien configura las páginas para canonizar en la primera página de la secuencia, nunca descubrirá este error.

Por una razón similar, al menos durante el rastreo inicial, es posible que no desee enviar etiquetas noindex para identificar instancias de la directiva noindex en páginas que deben indexarse.

14. Mira lo que ve Google

Como seguramente habrás notado, hay muchas formas diferentes de rastrear un sitio web de millones de páginas web.

El presupuesto de rastreo es la cantidad de recursos que Google gasta en rastrear un sitio web para indexarlo.

Cuantas más páginas web se indexen con éxito, más páginas podrán clasificar.

Los sitios pequeños no tienen que preocuparse por el presupuesto de rastreo de Google.

Pero maximizar el presupuesto de rastreo de Google es una prioridad para los sitios web comerciales.

En el escenario anterior ilustrado arriba, le recomendamos que no siga las etiquetas de noindex.

Bueno, para este tipo de rastreo, le recomendamos que siga las pautas de noindex, porque el propósito de este tipo de rastreo es obtener una instantánea del sitio web que le diga cómo Google ve todo el sitio web. .

Google Search Console proporciona mucha información, pero rastrea un sitio web con un agente que accede a su presupuesto para escanear.

Para este tipo de acceso del rastreador, es importante configurar el agente del rastreador en Googlebot, configurar el rastreador para que sea compatible con robots.txt y configurar el rastreador para que cumpla con la directiva noindex.

De esta manera, si el sitio está configurado para no mostrar algunos elementos de la página de Googlebot, podrá ver un mapa del sitio como lo ve Google.

Esta es una excelente manera de diagnosticar problemas potenciales, como encontrar páginas que deben escanearse pero se pierden.

Para otros sitios, Google puede encontrar páginas que son útiles para los usuarios, pero que Google puede percibir como de baja calidad, como las páginas de formularios de registro.

Escanear con Google User Agent es útil para comprender cómo ve Google su sitio y para ayudarlo a maximizar su presupuesto de rastreo.

Superando la curva de aprendizaje

Puede rastrear sitios web corporativos y aprender a rastrearlos de la manera más difícil. Con suerte, estos catorce consejos deberían reducir algo de tiempo en la curva de aprendizaje y prepararlo mejor para tratar con estos clientes de toda la empresa con sitios web gigantes.

Más recursos:

Imagen mostrada: SvetaZi / Shutterstock

Fuente: searchenginejournal

Hashtags: #consejos #obligatorios #para #rastrear #millones #páginas #web

Cookie	Duración	Descripción
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.