Google Search Relations respondió varias preguntas sobre la indexación de páginas web en el último episodio del podcast «Search Off The Record».

Los temas discutidos fueron cómo evitar que Googlebot rastree ciertas secciones de una página y cómo evitar que Googlebot rastree un sitio.

John Mueller y Gary Illyes de Google respondieron las preguntas exploradas en este artículo.

Bloqueo de Googlebot de ciertas secciones de la página web

Mueller dice que es imposible cuando preguntó cómo evitar que Googlebot rastree ciertas secciones de las páginas web, como las áreas «comprado» y «en las páginas del producto».

«La versión corta es que no se puede bloquear el rastreo de una sección específica de una página HTML», dijo Mueller.

Continuó ofreciendo dos posibles estrategias para resolver el problema, ninguna de las cuales, enfatizó, son soluciones ideales.

Mueller sugirió usar el atributo HTML data-nosnippet para evitar que el texto aparezca en un fragmento de búsqueda.

Alternativamente, puede usar un iframe o JavaScript con la fuente bloqueada por robots.txt, aunque advirtió que no es una buena idea.

“Usar un iframe o un archivo JavaScript en barril puede causar problemas de rastreo e indexación que son difíciles de diagnosticar y solucionar”, dijo Mueller.

Aseguró a todos los que escucharían que si el contenido en cuestión se reutiliza en varias páginas, no es un problema que deba solucionarse.

“No hay necesidad de evitar que Googlebot vea este tipo de duplicación”, agregó.

Bloquear el acceso de Googlebot a un sitio web

En respuesta a una pregunta sobre cómo evitar que Googlebot inicie sesión Nada parte de un sitio, Illyes ha proporcionado una solución fácil de seguir.

«La forma más fácil es robots.txt: si agrega una prohibición: / al agente de usuario de Googlebot, Googlebot dejará su sitio en paz siempre que cumpla con esta regla», explicó Illyes.

Para aquellos que buscan una solución más robusta, Illyes ofrece otro método:

«Si también desea bloquear el acceso a la red, deberá crear reglas de firewall que carguen nuestros rangos de IP en una regla de denegación», dijo.

Ver Google documentación oficial para obtener una lista de direcciones IP de Googlebot.

En breve

Si bien es imposible evitar que Googlebot acceda a ciertas secciones de una página HTML, métodos como el uso del atributo data-nosnippet pueden brindar control.

Cuando esté pensando en bloquear completamente Googlebot de su sitio, una simple regla de denegación en su archivo robots.txt será útil. Sin embargo, también están disponibles medidas más extremas, como crear sus propias reglas de firewall.


Imagen destacada generada por el autor usando Midjourney.

Fuente: Búsqueda de Google no registrada

Fuente: searchenginejournal

Hashtags: #Cómo #controlar #interacción #Googlebot #con #sitio #web