En el English Google SEO office-hours, se le hizo una pregunta a John Mueller durante el segmento de preguntas y respuestas, sobre cómo agregar todas las metaetiquetas a una página, aunque las páginas estén bloqueadas por robots.txt.
Su pregunta principal es: ¿deberían agregar una etiqueta noindex a una página aunque la página esté bloqueada por robots.txt y la página también tenga un canónico?
Mueller responde: probablemente no. Explicó que, si la URL está bloqueada por robots.txt, Google no verá ninguna de las metaetiquetas en la página.
Google no verá la etiqueta rel=canonical en la página, porque si está bloqueada por robots.txt, Google no rastreará esa página en absoluto.
Si lo buscas es que Google tenga en cuenta el rel=canonical o el noindex que agrega a una página, debes asegurarte que Google pueda rastrear la página.
El otro aspecto aquí es que, a menudo, estas páginas pueden indexarse, si están bloqueadas por robots.txt, pero están indexadas sin ningún contenido, porque Google no puede rastrearlo. Y, por lo general, esto significa que estas páginas no aparecen en los resultados de búsqueda de todos modos.
Por otro lado, si uno hace una consulta site:query para esa URL específica, entonces tal vez se verá esa URL en los resultados de búsqueda, pero sin ningún contenido.
Esto sucede aproximadamente en el minuto 44:23 en el video.
Pregunta: Tenemos un problema con los activos de comercio electrónico, los filtros se indexan, aunque están bloqueados por robots.txt y tienen una etiqueta canónica que apunta… ¿Tiene sentido agregar la etiqueta noindex tambien?
Respuesta: Probablemente no. La respuesta corta, supongo, es que si la URL está bloqueada por robots.txt, entonces no vemos ninguna de esas metaetiquetas en la página. No vemos el rel=canonical en la página porque no rastreamos esa página en absoluto. Entonces, si deseas que tengamos en cuenta el rel=canonical o un noindex que se coloca en una página, debes asegurarse de que no podamos, o que podamos rastrear la página real.
El otro aspecto aquí es que, a menudo, estas páginas pueden indexarse, si están bloqueadas por robots.txt están indexadas sin ningún contenido, porque no podemos rastrearlo. Y, por lo general, eso significa que estas páginas no aparecen en los resultados de búsqueda de todos modos. Entonces, si alguien está buscando algún tipo de producto que estás vendiendo en tu sitio web, entonces no vamos a investigar y ver si también hay una página que está bloqueada por robots.txt, lo cual sería relevante, porque aunque tengas páginas realmente buenas de tu sitio web, no podamos rastrear e indexar normalmente.
Por otro lado, si realizas una consulta en el sitio para esa URL específica específica, tal vez aún veas esa URL en los resultados de búsqueda sin ningún contenido. Entonces, muchas veces, lo que notes es que este es más un problema teórico que un problema práctico. Y que, en teoría, estas URL pueden indexarse sin contenido, pero en la práctica, no causarán ningún problema en la búsqueda. Y si las ves apareciendo para consultas prácticas en tu sitio web, entonces la mayoría de las veces, eso es más una señal de que el resto de tu sitio web es realmente difícil de entender.
Por lo tanto, si alguien busca uno de tus tipos de productos y mostramos una de estas categorías robotizadas o páginas de activos, desde mi punto de vista, eso sería una señal de que, en realidad, el contenido visible en tu sitio web es no es suficiente para que entendamos que las páginas normales que se podrían haber indexado son realmente relevantes.
Entonces, ese sería mi primer paso para tratar de averiguar si los usuarios normales ven estas páginas cuando buscan. Y si no los ven, entonces está bien. Puedes simplemente ignorarlos. Si ven estas páginas cuando buscan normalmente, entonces eso es una señal de que tal vez deberías enfocarte en otras cosas en el resto de tu sitio web.
fuente: English Google SEO office-hours