viernes, enero 27, 2023
InicioBlogCrawl budget de Google y los factores que influyen en él

Crawl budget de Google y los factores que influyen en él

En 2017 Google publicó un artículo en detalle acerca del presupuesto de rastreo, qué se entiende por crawl budget, nombrando los factores que influyen en él. Lo más importante es que los sitios web pequeños y medianos no tienen por qué preocuparse de que el presupuesto de rastreo no sea suficiente, o siquiera si es necesario optimizar el crawl budget.

Desde el principio, el autor Gary Illyes señala que el presupuesto de rastreo no es un problema para la mayoría de los operadores de sitios web. Según Illyes, los sitios web con unos pocos miles de URLs y aquellos cuyo contenido nuevo ya se rastrea el día de su publicación no son críticos.

Sin embargo, hay casos en los que la priorización de los rastreos puede tener sentido. Entre ellos se encuentran los sitios web más grandes y los que generan contenidos automáticamente a partir de parámetros de URL.

Límite para la frecuencia de rastreo

Un concepto importante en el contexto de la discusión sobre el crawl budget es el límite de crawl rate. Se compone de dos factores: el número de conexiones paralelas que utiliza Googlebot para rastrear una página web y el tiempo entre recuperaciones. La velocidad de rastreo puede aumentar o disminuir en función de las siguientes circunstancias:

  • Rendimiento de la página web («crawl health»): Si una página web responde con rapidez, aumenta el límite de la tasa de rastreo. En cambio, la lentitud de reacción y los errores del servidor reducen la tasa.
  • Límite en Google Search Console: En Google Search Console los webmasters pueden especificar ellos mismos un límite para la tasa de rastreo.
A mayor tiempo de respuesta, menos solicitudes de rastreo
A mayor tiempo de respuesta, menos solicitudes de rastreo.
fuente: captura de pantalla propia de estadísticas de rastreo en GSC.

Demanda de rastreo

El límite de demanda de rastreo no tiene por qué agotarse necesariamente. Tan pronto como no haya más demanda para indexar más contenido o para actualizar el contenido existente, Googlebot reducirá sus actividades de rastreo. Hay dos factores que influyen significativamente en la demanda de rastreo:

  • Popularidad: las URL populares tienden a ser visitadas con más frecuencia por el rastreador para mantenerlas lo más actualizadas posible en el índice.
  • Pérdida de actualidad: Google intenta eliminar del índice los contenidos desfasados y obsoletos.

Por otra parte, ciertos acontecimientos, como la reubicación de un sitio web, pueden provocar un aumento de los requisitos de rastreo, por ejemplo cuando se cambia el dominio o cambian las URL de una web.

La tasa de rastreo y la demanda de rastreo juntas dan como resultado el crawl budget: el número de URL que Google puede y quiere rastrear.

Factores que influyen en el crawl budget

En resumidas cuentas, todo se circunscribe principalmente en las URLs con poco valor añadido que pueden influir negativamente en el rastreo y la indexación de un sitio web. Las siguientes categorías describen este tipo de URLs:

  • Navegación por facetas e identificadores de sesión: La navegación por facetas permite subdividir o filtrar los resultados en función de determinados criterios. Un buen ejemplo son las tiendas online, donde se pueden seleccionar los productos por color, talla o corte. Las diferencias entre las distintas variantes son tan pequeñas que no aportan ningún valor añadido al índice de Google. Los identificadores de sesión dan lugar a URL diferentes para el mismo contenido y, por tanto, a contenido duplicado.
  • Errores soft: se trata de páginas o URLs a las que en principio se puede acceder, pero sin el contenido deseado. En este caso, el servidor devuelve el estado 200 de «ok» en lugar del error 404 realmente apropiado.
  • Páginas pirateadas: Las páginas web manipuladas son, naturalmente, un problema para Google y, por lo tanto, provocan una reducción de las actividades de rastreo.
  • Contenido duplicado: el contenido que aparece más de una vez en una página web puede hacer que también se incluya más de una vez en el índice de Google. Si Googlebot detecta este tipo de contenido duplicado, reacciona reduciendo las actividades de rastreo.
  • Contenido de baja calidad y spam: Google no tiene ningún interés en incluir en su índice contenidos de baja calidad, por lo que reducirá o incluso detendrá el rastreo en los casos apropiados.
  • Espacios infinitos: las grandes colecciones de URL con poco valor añadido también provocan una reducción de las actividades de rastreo.

Preguntas frecuentes sobre crawl budget y crawl rate

Por último, Illyes aborda algunas cuestiones relacionadas con el presupuesto de rastreo:

¿Cuál es el impacto de la velocidad y los errores de las páginas web?

Unos mejores tiempos de carga tienen un efecto positivo en la experiencia del usuario y también en la tasa de rastreo. Una velocidad alta es señal de un servidor intacto. Por otro lado, una acumulación de errores 500 es un indicio de que algo puede estar técnicamente mal. Esto puede provocar un descenso de la tasa de rastreo.

¿Es el rastreo un factor de posicionamiento?

Una mayor tasa de rastreo no implica necesariamente una mejor clasificación. Google utiliza cientos de factores de posicionamiento. Aunque el rastreo es necesario para que una página aparezca en los resultados, no es una señal de posicionamiento.

¿Afectan las URL alternativas y el contenido incrustado al crawl budget?

Googlebot intenta rastrear todas las URL que encuentra, por lo que cada URL también afecta al presupuesto de rastreo. Las URL alternativas, como las de AMP, y el contenido incrustado, como CSS y JavaScript, pueden provocar una actividad de rastreo adicional y, por tanto, también repercutir en el presupuesto de rastreo.

¿Se puede utilizar la directiva «crawl delay» en robots.txt?

Googlebot ignora la directiva «crawl-delay». 

¿Afecta el atributo «nofollow» al crawl budget?

Depende. Si un enlace está marcado como «nofollow», pero otro enlace de la página sin el atributo «nofollow» apunta a esta URL, entonces será rastreado, lo que a su vez afecta al crawl budget.

fuente: Qué significa el presupuesto de rastreo para el robot de Google

Nicolás Ockier
Nicolás Ockier
Mi nombre es Nicolás Ockier, Senior SEO en Barcelona. Con más de 15 años de experiencia como SEO manager, me he convertido en un solucionador de problemas de marketing digital que determina el contenido que necesita una web en función de las consultas de los motores de búsqueda. Durante años llevo obteniendo excelentes resultados en mercados altamente competitivos. Mastodon - LinkedIn - Facebook - Twitter - Google Developer
Artículos Relacionado

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Tiempo excedido. Por favor, completa el captcha nuevamente.

Listado de cambios de algoritmo Google botón

LO ÚLTIMO

LO MÁS POPULAR