Sitemaps XML: guía sobre su uso

TL/TR

Un mapa del sitio es una forma de organizar un sitio web, identificando las URL y los datos debajo de cada sección. Anteriormente, los sitemaps estaban orientados principalmente a los usuarios del sitio web. Sin embargo, el formato XML de Google fue diseñado para los motores de búsqueda, lo que les permite encontrar los datos de manera más rápida y eficiente.

Un sitemap XML es un documento especial que enumera todas las páginas de un sitio web para proporcionar a los motores de búsqueda una descripción general de todo el contenido disponible.

En la superficie, esto parece ser una gran plus al arsenal de cualquier sitio web. Sin embargo, antes de que te apresures a crear tu mapa de sitio, hay una serie de ventajas y desventajas que debes conocer.

Por otra parte, no olvides que debes seguir unos mínimos lineamientos en la construcció e implementación de tu mapa de sitio, claramente estipuladas en las directrices de Google para mapas de sitio.

Beneficios de usar un sitemap xml

  • El primer conjunto de beneficios gira en torno a poder pasar información adicional a los motores de búsqueda.
  • El sitemap puede enumerar todas las URL de tu sitio. Esto podría incluir páginas que los motores de búsqueda no podrían descubrir de otra manera.
  • Dar información de prioridad a los motores de búsqueda. Hay una etiqueta opcional en el sitemap para la prioridad de la página. Esta es una indicación de cuán importante es una página determinada para todas las demás en su sitio. Esto permite a los motores de búsqueda ordenar el rastreo de su sitio web en función de la información de prioridad.
  • Pasando información temporal. Otras dos etiquetas opcionales (lastmod y changefreq) pasan más información a los motores de búsqueda que debería ayudarlos a rastrear su sitio de una manera más óptima. «lastmod» les dice cuándo cambió una página por última vez, y changefreq indica con qué frecuencia es probable que cambie la página.

1.- Manten actualizado el sitemap XML con el contenido de su sitio web.
2.- Asegúrere de que esté limpio: solo se deben incluir páginas indexables.
3.- Incluye la URL absoluta del mapa de sitio XML en el archivo robots.txt.
4.- No enumeres más de 50.000 URL en un solo mapa de sitio XML.
5.- Asegúrete de que el tamaño del archivo (sin comprimir) no supere los 50 MB.
6.- No te obsesiones con las propiedades lastmod, priority y changefreq, son más bien orientativas.

¿Qué es un sitemap XML?

Un sitemap XML es un documento especial que enumera todas las páginas de un sitio web y está destinado únicamente a los motores de búsqueda. Puedes compararlo con una antigua guía telefónica: le dice al motor de búsqueda qué contenido está disponible y cómo acceder a él. Además, se puede proporcionar información adicional, como cuándo se actualizó el contenido por última vez, cuál es la importancia relativa del contenido y cuántas imágenes hay insertadas en cada artículo.

Los sitemaps son muy útiles para los motores de búsqueda, ya que les proporciona una visión general única de todo el contenido disponible a la vez. Esto les sirve tanto como un punto de partida para la primera vez que visitan su sitio web, y como la mejor forma de descubrir rápidamente el contenido recién agregado.

Lo que es importante a tener en cuenta es la distinción entre mapas de sitio XML y mapas de sitio «normales» (también llamados «mapas de sitio HTML»). Esos mapas de sitio están pensados ​​para que sus visitantes encuentren contenido en su sitio web, mientras que los mapas de sitio XML están pensados SOLO ​​para motores de búsqueda.

¿Qué aspecto tiene un mapa de sitio XML?

Un mapa de sitio XML está diseñado para motores de búsqueda y, por lo tanto, está formateado en un lenguaje que es fácil de entender para los bots: XML. Afortunadamente, XML también es bastante legible para humanos, así que echemos un vistazo a un ejemplo:

<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="//webnexus.nl/wp-content/plugins/wordpress-seo/css/main-sitemap.xsl"?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:image="http://www.google.com/schemas/sitemap-image/1.1" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd http://www.google.com/schemas/sitemap-image/1.1 http://www.google.com/schemas/sitemap-image/1.1/sitemap-image.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
	<url>
		<loc>https://dominio.com/url-completa-articulo/</loc>
		<lastmod>2021-07-12T12:41:27+00:00</lastmod>
		<image:image>
			<image:loc>https://dominio.com/wp-content/uploads/2021/05/imagen-incluida-contenido.jpg</image:loc>
			<image:title><![CDATA[Título de la imagen]]></image:title>
			<image:caption><![CDATA[Caption de la imagen]]></image:caption>
		</image:image>
	</url>
</urlset>

Aún así, la mayoría de los navegadores pueden interpretar los archivos XML correctamente formateados, de manera tal que la visualización del contenido del archivos es mucho más amigable desde el punto de vista de un usuario:

Archivo sitemap generado por RankMath
Archivo sitemap generado por RankMath

Encabezado XML

Este encabezado indica que el contenido está estructurado de acuerdo con la versión 1.0 del estándar XML y describe la codificación de caracteres, como así también los estándares de los sotemaps asociados, como puede ser el de imágenes. Básicamente, informa a los motores de búsqueda lo que pueden esperar del archivo.

Definición del conjunto de URL

Este urlset encapsula todas las direcciones URL contenidas en el sitemap y describe el que se utiliza la versión de la norma XML mapa de sitio. Ten en cuenta que el conjunto de URL se cierra en la parte inferior del documento:

Definición de las URL individuales

https://dominio.com/url-completa-articulo/ 2021-07-12T12:41:27+00:00

Finalmente llegamos a la parte más importante: la definición de las URLs individuales a través de la etiqueta <loc>. Cada definición de URL debe contener al menos la etiqueta <loc> (abreviatura de location o ubicación ). El valor de esta etiqueta debe ser la URL completa de la página, incluido el protocolo (por ejemplo, «https://» ).

Además de la etiqueta <loc>, cada definición de URL puede contener las siguientes propiedades opcionales:

  • lastmod: la fecha de la última modificación del contenido de esa URL. La fecha está en » W3C datetime (se abre en una nueva pestaña)» formato.
  • priority: la prioridad de la URL, en relación con su propio sitio web en una escala entre 0.0 y 1.0.
  • changefreq: con qué frecuencia se espera que cambie el contenido de la URL. Los valores posibles son siempre, por hora, diario, semanal, mensual, temprano y nunca.

¿Dónde debo colocar mi sitemap XML?

Al igual que las páginas de tu sitio web, el sitemap reside en su propia URL. Por lo general, la URL de un mapa de sitio XML es /sitemap.xml, y se recomienda seguir esta convención para que los motores de búsqueda puedan descubrirlo fácilmente.

Sin embargo, si por alguna razón esto no es posible, puedes elegir una ubicación o nombre de archivo diferente, siempre que hagas referencia de la URL en el archivo robots.txt a través de la directiva del sitemap:

Sitemap: http://dominio.com/url-alternativa/nombre-alternativo-sitemap.xml

¿Existe alguna limitación para los sitemaps XML?

Los sitemaps XML tienen un par de limitaciones a tener en cuenta:

  • No deben contener más de 50.000 URL como máximo.
  • Su tamaño de archivo está limitado a 50 MB sin comprimir.

Si su sitemap supera estos límites, debes dividirlos en varios mapas del sitio XML y utilizar un índice de sitemap XML.

¿Qué es un índice de mapa de sitio XML?

Siempre que llegues a las limitaciones para un solo mapa de sitio, debes dividirlos en sitemaps separados y agruparlos con un índice de mapa de sitio. Este índice es un archivo XML separado que hace referencia a los distintos mapas del sitio XML.

Echemos un vistazo a un ejemplo:

<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="//webnexus.nl/wp-content/plugins/wordpress-seo/css/main-sitemap.xsl"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
	<sitemap>
		<loc>https://dominio.com/post-sitemap1.xml</loc>
		<lastmod>2021-09-03T11:11:26+00:00</lastmod>
	</sitemap>
        <sitemap>
		<loc>https://dominio.com/post-sitemap2.xml</loc>
		<lastmod>2021-09-03T11:11:26+00:00</lastmod>
	</sitemap>
        <sitemap>
		<loc>https://dominio.com/post-sitemap3.xml</loc>
		<lastmod>2021-09-03T11:11:26+00:00</lastmod>
	</sitemap>
        <sitemap>
		<loc>https://dominio.com/post-sitemap4.xml</loc>
		<lastmod>2021-09-03T11:11:26+00:00</lastmod>
	</sitemap>
	<sitemap>
		<loc>https://dominio.com/page-sitemap.xml</loc>
		<lastmod>2021-09-06T17:11:54+00:00</lastmod>
	</sitemap>
	<sitemap>
		<loc>https://dominio.com/project-sitemap.xml</loc>
		<lastmod>2021-09-07T10:02:25+00:00</lastmod>
	</sitemap>
	<sitemap>
		<loc>https://dominio.com/category-sitemap.xml</loc>
		<lastmod>2021-09-03T11:11:26+00:00</lastmod>
	</sitemap>
	<sitemap>
		<loc>https://dominio.com/author-sitemap.xml</loc>
		<lastmod>2021-09-02T13:28:29+00:00</lastmod>
	</sitemap>
</sitemapindex>

Este índice de mapas de sitios XML hace referencia a dos mapas de sitios XML: post-sitemap1.xml post-sitemap2.xml post-sitemap3.xml post-sitemap4.xml. ¡Analicemos este archivo también! Encabezado XML

No hay nada nuevo aquí, al igual que con el archivo de mapa de sitio XML, primero definimos que el archivo está en formato XML y qué codificación de caracteres se utiliza.

Definición del índice de sitemaps

Ahora, en lugar de una definición de urlset vemos una definición de sitemapindex . Esta definición encapsula todos los mapas del sitio contenidos en el índice del mapa de sitio y, de nuevo, qué versión del estándar XML del sitemap se utiliza. Al igual que la definición de urlset, la definición de sitemapindex se cierra en la parte inferior del documento:

Definición de los mapas del sitio individuales

https://dominio.com/post-sitemap1.xml	2021-09-03 11:11 +00:00

Y luego, la definición real de los mapas de sitios individuales. Al igual que para las URL, cada definición de sitemap debe contener al menos la etiqueta <loc> que contiene la URL completa del mapa de sitio XML individual.

Además de eso, la definición del sitemap puede contener opcionalmente una definición de lastmod, la fecha en la que se actualizó por última vez el sitemap XML al que se hace referencia. De nuevo en formato «W3C datetime».

¿Dónde debo colocar mi índice de mapa de sitio XML?

De forma similar a los mapas de sitio XML, existe una convención para la ubicación y el nombre de archivo del índice de mapas de sitios XML: / sitemap_index.xml. Pero nuevamente, puede desviarse de esto, siempre que lo haga referencia en su archivo robots.txt:

Sitemap: http://dominio.com/url-alternativa/sitemap.xml

Detecta los problemas SEO antes que Google

Audita su sitemap XML con regularidad. Aunque a primera vista un sitemap puede parecer bien configurado, pero una mala codificación en la versión XML o en las fechas puede causar problemas y hasta pérdida de tráfico, especialmente en aquellos sitios de noticias que dependen fuertemente de la publicación de contenido actualizado constantemente.

Una buena herramienta para testerar el correcto funcionamiento de un sitemap es XML-sitemaps.com:

XML-sitemap.com
XML-sitemap.com

Incluye solo páginas indexables en tu sitemap XML

Otro error muy comúny que una auditoría del sitemap no puede revelar proviene en realidad del meta robots, cuando se incluyen en el sitemap URLs que contienen un <meta name="robots" content="noindex,nofollow">, lo cual es una contradicción, ya que por un lado le estamos diciendo al motor de búsqueda «hey, aquí tienes mi artículo listado para que lo indexes«, y una vez que llega al artículo, le estás diciendo «¿sabes qué? mejor no lo mires, y no lo indexes!!«. Es la mejor manera de gastar crawl budget!!!

Este tipo de errores se ven reflejados en la sección de «Cobertura» de Google Search Console con el error «La URL enviada contiene la etiqueta «noindex»«

error en GSC "La URL enviada contiene la etiqueta "noindex""
Error de cobertura en GSC «La URL enviada contiene la etiqueta «noindex»»

Tu sitemap solo debe describir páginas indexables. Esto significa que debes omitir todas las URL que apunten a redireccionamientos (por ejemplo, código de estado 301) y páginas faltantes (por ejemplo, código de estado 404).

Además, estas páginas deben ser indexables, lo que significa que son accesibles para los motores de búsqueda (sin exclusión en robots.txt ) y no hay directivas que indiquen a los motores de búsqueda que no indexen la página (como meta robots, enlaces canónicos o x-robots).

Preguntas frecuentes

Al implementar mapas de sitio XML, es fundamental seguir estas prácticas recomendadas.

  • Manten actualizado su sitemap XML
  • Asegúrate de que tu sitemap XML proporciona una imagen actualizada de tu sitio web. Siempre que se elimine una página, también debe eliminarse de su sitemap XML. Si está utilizando la lastmod comoetiqueta opcional, asegúrate de actualizar la marca de tiempo cada vez que cambie la página.

Cíñete a la ubicación y al nombre de archivo predeterminados

Siempre que sea posible, mantén tu sitemap en la ubicación y con el nombre de archivo predeterminados ( /sitemap.xml) y el índice de mapa de sitio XML ( /sitemap_index.xml). Esto hace que sea más fácil para los motores de búsqueda encontrarlos. Y haz referencia al mapa de sitio en tu archivo robots.txt

Cuando te desvíe de la convención para la URL de tu mapa de sitio XML o índice de mapa de sitio XML, debes hacer referencia a ella en su archivo robots.txt. Sin embargo, incluso si se apegas a la URL estándar, se recomienda incluir una referencia a ella en su robots.txt para garantizar que los motores de búsqueda puedan descubrirlo.

No te obsesiones con lastmod, priority y changefreq

Aunque para cada URL puedes definir las propiedades lastmod, prioridad y changefreq, esto es completamente opcional. Definirlos no hará daño, y puede haber una pequeña posibilidad de que los motores de búsqueda usen esta información, pero generalmente se entiende que los motores de búsqueda no les prestan (mucha) atención.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Sitemaps XML: guía sobre su uso

Ir arriba