Es una pregunta muy recurrente, que de alguna u otra manera toda persona que esté creando un nuevo site se debería preguntar: ¿Cómo puedo evitar que los sitios de desarrollo previos a la publicación se indexen en la búsqueda?
John Mueller de Google respondió a esta pregunta durante English Google Webmaster Central office-hours hangout. Las acciones necesarias se deben realizar al momento de configurar tu WordPress.
¿Qué vas a leer?
Recomendado: autenticación de usuario / restricción de IP
Mueller sugirió las dos mejores formas de evitar la indexación de sitios en desarrollo:
- Autenticacion de usuario
- Restricciones de direcciones IP
Autenticacion de usuario
El acceso está restringido por nombre de usuario y contraseña. El robot de Google no puede rastrear ni indexar páginas de ese sitio porque no puede enviar el nombre de usuario y la contraseña adecuados. Además, puede evitar el acceso de usuarios no relacionados.
Este es el método más sólido. La autenticación de usuario se puede configurar en .htaccess si es simple, o puede usar la función CMS mediante un plugin que fuerce el login a todos los usuarios.
Puede encontrar mucha información buscando.
Restricciones de direcciones IP
Limita las direcciones IP de las computadoras que pueden acceder al sitio en desarrollo.
Solo se puede ver desde PC autorizados.
Este método no es malo si la IP de la computadora que accede es fija.
Sin embargo, al acceder desde casa o desde un smatphone con una línea de datos, la dirección IP asignada generalmente no es fija, por lo que puede ser difícil de operar desde un móvil.
En desuso: robots.txt y la etiqueta noindex
Mueller también mencionó otros dos métodos comúnmente utilizados para bloquear la indexación de sitios en desarrollo. Sin embargo, este no es el método recomendado.
Bloquear con robots.txt
Bloquear el rastreo de sitios en desarrollo en robots.txt. En la mayoría de los casos, no aparecerá en los resultados de búsqueda. Sin embargo, es posible que una página de ese sitio tenga un enlace desde algún lugar, y si Googlebot encuentra ese enlace, aparecerá en los resultados de búsqueda.
El título de la página y el fragmento no aparecen (porque no puede rastrear la página), pero la URL aparece en los resultados de búsqueda. Robots.txt no puede evitar completamente la indexación de las URLs.
Otro error común es mantenerlo bloqueado en robots.txt después de su lanzamiento oficial. Esta vez, por el contrario, se produce un problema, al quierer que aparezca en los resultados de búsqueda pero no aparece.
Además, a diferencia de la autenticación de usuario y las restricciones de dirección IP, cualquier persona que conozca la URL puede acceder a ella.
Bloquear la indexación con etiqueta noindex
noindex robots meta
También puede evitar índices con etiquetas.
A diferencia de robots.txt, que controla los rastreos, noindex
es un mecanismo que controla la indexación, por lo que puede asegurarse de que no esté indexado (Nota: no utilice robots.txt y noindex juntos porque no tiene sentido ).
Sin embargo, la protección noindex
de índices de tiene los mismos inconvenientes que robots.txt.vEn el cado de un descuido, puedes producir un error involuntario al dejarlo activo incluso después de la publicación oficial de tu sitio. Estos problemas no son infrecuentes.
Por otra parte, sin un usuario conoce la URL, puede acceder al sitio en desarrollo incluso si no es una persona relacionada.
Noindex
, a diferencia de robots.txt, que es invisible cuando se ve en un navegador, mientras que un usuario se dará cuenta de inmediato si la autenticación de usuario y las restricciones de dirección IP permanecen aplicadas después de la publicación.
Por lo tanto, noindex
aunque no es tan fácil como robots.txt, la autenticación de usuario o las restricciones de dirección IP son la forma más recomendada de evitar que los sitios en desarrollo aparezcan en los resultados de búsqueda.