John Mueller de Google afirmó que un sitio con 100.000 URL no suele ser suficiente para afectar el presupuesto de rastreo. La cantidad de páginas deben ser mayores para que pueda provocar un problema con el crawl budget de Google.
Mueller afirmó esto en Twitter «Por lo general, 100.000 URL no son suficientes para afectar el presupuesto de rastreo (es en 2016 cuando un sitio con 100.000 URL puede ver un beneficio de usar nofollow en enlaces internos para fines de presupuesto de rastreo), ten en cuenta que eso fue hace cinco años.»
Aquí están los tweets en contexto:
Escenario de tecnología SEO no estoy al 100% sobre:
– El sitio tiene 100K URL
– Todos están indexados
– Agregue etiquetas noindex, Google las desindexa
– Cortar el acceso a en robots.txt (así que no permitir / crud / por ejemplo)
– ¿Se mantendrán desindexadas esas URL?Las respuestas sin «depende» obtienen puntos de bonificación
fuente: @MattTutt1. 21 de diciembre 2021
¿Qué estás intentando lograr?
fuente: @JohnMu 21 de diciembre de 2021
Tratando de parecer inteligente
fuente: @MattTutt1. 21 de diciembre 2021
En este caso, el objetivo sería mantenerse fuera del índice y evitar que Google rastree innecesariamente todas esas URL. Útil para que la gente acceda pero no los bots. ¿Existe algún tipo de mejor práctica / acción preferida en este escenario? (gracias John!)
¿Por qué los quiere fuera del índice? ¿Qué problemas está viendo con ellos ahora en la búsqueda?
fuente: @JohnMu 21 de diciembre de 2021
Entonces, digamos que existe la preocupación de que estas URL representen una gran parte del sitio y hay muchas más URL importantes a las que prefiero priorizar, por temor a que pueda dar a mi sitio una impresión negativa (baja calidad). Además de los miedos sobre el presupuesto mínimo.
fuente: @MattTutt1. 21 de diciembre 2021
Por lo general, 100.000 URL no son suficientes para afectar el presupuesto de rastreo (es <1 / minuto durante 3 meses), y si no es un índice / 404, no las rastrearemos con tanta frecuencia. Con robots.txt es raro que los mostremos en la búsqueda, sitio: -las consultas no importan.
Entonces, al final … robots.txt sería prácticamente equivalente a noindex allí. Si el rastreo es un problema (por ejemplo, un código complejo del lado del servidor), use robots.txt. Si no es así, elija lo que pueda mantener más fácilmente.
fuente: @JohnMu 21 de diciembre de 2021
Espero que este hilo ayude a algunos SEO.
Discusión completa en Twitter.