Dentro del trabajo del SEO de cualquier web un paso imprescindible es analizar el sitemap.
Ver si tiene, qué incluye, si se puede mejorar…
En webs pequeñas es importante, pero es en las grandes, como en los ecommerce multimarca, donde es absolutamente crucial, ya que, en estos proyectos, optimizar el crawl budget –el tiempo que el bot de Google tiene asignado para rastrear nuestra web- es un must, si queremos posicionar bien por los términos competidos.
Y una de las formas de hacerlo es gestionando adecuadamente el sitemap.
En este artículo te quiero explicar cómo analizarlo. Pero antes, por si estás empezando en esto del SEO empecemos por lo básico…
Índice de contenidos
Qué es el Sitemap
El Sitemap o Sitemap.xml, no es más que un archivo o un conjunto de archivos con formato .xml que le indican a los bots las URLs que componen nuestra web.
Por si no lo sabes, un fichero .xml es uno que cuenta con varios registros, cada uno con valores diferentes en cuanto a unas características determinadas:
Aunque lo veas así, piensa en él como si fuera un archivo de Excel donde cada fila muestra un registro y cada columna el valor de ese registro para cierta característica.
De hecho, lo puedes abrir con Excel:
Bien, pues como te decía en ese archivo debería contener todas las URL de nuestra web que nos interese que Google rastree.
Es importante el matiz, porque puede haber URLs que no nos interese indexar por los motivos que sea (avisos legales, área de cliente del usuario) y que no deberían aparecer en el sitemap.
Este fichero tiene que estar subido a nuestro servidor, ya que, una vez que lo esté (todos los CMS tienen formas de generarlo), le pasaremos su URL a Google Search Console, para que el crawler de Google comience a rastrearlo.
Ahora que ya sabes lo que es, te explico cómo analizarlo.
Proceso para analizar el Sitemap
Me voy a servir de Screaming Frog, probablemente la herramienta para trabajar el SEO on page más potente que existe.
Así que, lo primero, instálala en tu equipo.
Una vez que la tengas, te cuento cómo ejecutar los tres pasos necesarios.
#1. Averiguar la URL del Sitemap
Para analizar un sitemap lo primero es conseguirlo.
Y si se trata de nuestra web o de un proyecto que gestionamos, siempre podemos ir a GSC.
Pero, si queremos analizar el de la competencia (sí, también se puede) hay que localizarlo.
Para ello, abrimos su fichero robots.txt.
Ese dichero se ubica en la raíz del dominio. Ejemplo:
https://www.yopongoelhielo.com/robots.txt
Al acceder veremos algo como esto:
Ahí estará la URL que necesitamos.
La copiamos y abrimos Screaming Frog.
#2. Configuración de Screaming Frog
Aquí vamos a tocar dos cosas.
Esta primera es opcional y realmente no he visto que cambien los resultados, pero la hago por costumbre.
Me refiero a abrir configuración y en el apartado de “User-Agent” seleccionamos Googlebot (Smartphone), para emular el rastreador de Google:
La segunda sí es obligatoria y consiste en colocar Screaming Frog en modo lista, para que solo escrapee las URLs del sitemap y ninguna más:
#3. Importar el Sitemap
Ahora le damos a importar y a “descargar sitemap XML”:
Pegamos la URL del sitemap que copiamos del robots.txt en el programa:
Cuando aceptemos, el programa se pondrá a rastrear las URLs del sitemap:
Una cosa, si la URL que le hemos pasado es un “sitemap de sitemaps”, es decir, un sitemap “índice” que contiene otros sitemaps (esto es muy habitual si usas el plugin de SEO de Yoast en WordPress para generarlo) puede que el programa nos pregunte si deseamos procesar todas las URLs, a lo que responderemos afirmativamente.
Ya hemos acabado con los preparativos.
Cuando Screaming Frog acabe de procesar todo el sitemap comienza el momento del análisis de verdad.
Insights y puntos a analizar
Cuando la herramienta ha recopilado la información, seremos capaces de responder a ciertas preguntas relevantes para SEO.
¿Cuántas URLs hay en el sitemap?
Screaming Frog te lo dice:
Este dato es interesante compararlo por ejemplo con el número de URLs indexadas en Google, que lo sacamos de Google Search Console:
Si hay diferencias –y suele haberlas- tendremos que encontrar el motivo. Y ver si es correcto que las haya o no.
Por cierto, la recomendación es que cada sitemap contenga hasta 1.000 URLs. Si tu web tiene más, lo ideal es crear varios sitemaps, a los que se accede desde el principal.
Aunque yo, si te soy sincero, salvo que vea problemas de indexación en GSC, no lo hago.
¿Hay URL no indexables en el sitemap?
Todas las URLs del sitemap deberían ser indexables. De hecho, indexar las URLs es el objetivo básico de los sitemaps, por lo que no deberíamos incluir ninguna “no indexable”.
Screaming Frog nos chiva si hubiera alguna:
Otra forma alternativa de observar estos datos y algunos de los que veremos es el menú propio para el sitemap:
¿Contiene URL bloqueadas en el robots.txt o canonicalizadas?
En esta columna veremos si se da algún caso de estos, que no deberían.
Por cierto, cuando hablamos de “canonicalizadas” nos referimos a URLs del sitemap cuya meta “canonical” es una URL diferente. En el sitemap sólo debería aparecer esta última.
Si vemos alguna URL de este tipo, solo tenemos que pulsar en ella para que la herramienta nos muestre la URL canónica (la que debería aparecer en el sitemap):
¿Hay paginaciones?
Con paginaciones me refiero a las páginas 2 y sucesivas que aparecen en los listados de producto de un ecommerce o en los listados de artículos de cualquier blog.
En el sitemap no debería haber ninguna de ellas.
Para revisarlo, observamos esta columna y chequeamos visualmente que no existan:
¿Hay páginas huérfanas?
Una página huérfana es aquella que no tiene enlaces apuntando a ella desde otras páginas de la web.
Es decir, que solo se puede acceder a ella si te sabes la URL, por lo que no son páginas relevantes para tu web.
Una página que aparece en el Sitemap se supone que es importante, por lo que no deberíamos añadir aquí dentro ninguna página huérfana.
Podemos comprobar que no hay desde aquí:
¿Hay 301 o 404?
Se trata de dos códigos de respuesta que devuelve el servidor al solicitarle un recurso, como una página web.
Podemos ver los valores de los códigos de cada URLs del sitemap aquí:
Los códigos 301 son redirecciones.
En el sitemap sólo deberían existir las URLs finales, porque las redirecciones hacen perder un tiempo valiosísimo al bot de Google.
Los códigos 404 son códigos de error provocados por URLs que no existen. Obviamente, no debería haber ninguna en nuestro sitemap.
Relevancia de las páginas
Hasta ahora hemos visto los errores.
Lo que nos quedaría por analizar en sitios web grandes es si todas las páginas incluidas son relevantes, o merecería la pena “podar” un poco nuestro sitemap, de forma que el crawler de Google no se “vaya por las ramas” (nunca mejor dicho).
Aquí ya es decisión tuya (o de tu SEO) decidir si excluir URLs o no.
Si te fijas arriba, el sitemap de Yo pongo el hielo tiene 22k URL, mientras que Google tiene indexadas 30k y rastreadas sin indexar 230k, es decir 11 veces más:
Todas esas URLs son secundarias para nosotros y no nos interesa que aparezcan en las SERPs de Google a costa de empeorar el posicionamiento de otras que deberían aparecer sí o sí.
Así que, entre otras cosas, las dejamos fuera del sitemap.
Con este ejemplo, espero que quede claro como pulir tu sitemap.
Y con ello, cerramos los puntos del análisis que deberías chequear en el sitemap de tu web para mantenerlo en forma.
No era para tanto, ¿verdad?
Conclusiones
A lo largo del artículo has visto cómo analizar el sitemap de tu web y los aspectos que tienes que revisar.
Espero que te quedes con la idea de que analizar el sitemap de una web no es nada complejo (corregirlo ya es otra cosa, claro).
El proceso son sólo tres pasos y la herramienta se encarga de todo. Y los puntos a analizar tampoco son demasiados…
Ya podían ser todos los puntos de la gestión de una web igual de sencillos…
En cualquier caso, todas las semanas publico un artículo sobre temas de negocios digitales, algunos más fáciles y otros más difíciles, como es normal.
Si te interesan, recibes en tu email uno nuevo cada jueves suscribiéndote aquí.
Recursos gratuitos
- Una calculadora de la inversión de marketing.
- PDF con temas, ajustes y plugins que utilizo yo para optimizar el SEO en WordPress y PrestaShop.
- El flujo de emails comercialesóptimo para ecommerce.
- Plantillas para realizar un análisis de mercado de guerrilla.
- Y varios más…
Deja una respuesta