¿Cuántas veces has generado un sitemap XML perfecto, lo has enviado a Google Search Console, y has pensado «ya está, Google ya sabe todo sobre mi web»? Pues resulta que Google puede estar pasando olímpicamente de tu sitemap, y la única forma de saberlo es mirando los logs de tu servidor.
Elsitemap XML puede ser tan útil como un paraguas de papel en plena tormenta. Y lo peor es que puede que ni te hayas dado cuenta. Google puede priorizar URLs que él considere más interesantes, el sitemap al final es sólo una referencia que le enviamos pero no le obliga a Google a nada, ni a indexar sólo esas URLs, ni no indexar URLs que no estén en el sitemap, etc…
El mito del sitemap como solución mágica
La mayoría de consultores SEO tratamos el sitemap como una especie de lista de la compra que le entregamos a Google: «oye, estas son todas mis páginas importantes, por favor visítalas». Pero Google no es tu empleado sumiso que va a hacer todo lo que le pidas. Es más bien como ese amigo caprichoso que a veces te hace caso y a veces pasa de ti sin ninguna razón aparente.
En mis años trabajando en VisibilidadOn he visto casos donde clientes tenían sitemaps impecables con 10.000 URLs perfectamente estructuradas, pero al analizar los logs descubrimos que Googlebot solo había visitado 200 de esas URLs en los últimos tres meses. ¿El problema? No estaba en el sitemap, sino en cómo Google percibía la autoridad y relevancia de esas páginas.

Cómo detectar si tu sitemap es papel mojado
Los logs de servidor son como el historial de llamadas de tu teléfono: te dicen exactamente quién ha venido a tu casa y cuándo. Cuando analizas los logs correctamente, puedes ver patrones muy reveladores:
Patrón 1: El rastreo selectivo Google recibe tu sitemap con 5.000 URLs pero solo rastrea las mismas 500 URLs una y otra vez. Esto suele indicar que esas 500 tienen mayor autoridad (enlaces internos y externos) mientras que las otras 4.500 las considera menos relevantes.
Patrón 2: El rastreo errático Googlebot visita URLs que NO están en tu sitemap pero ignora las que sí están. Esto puede significar que Google ha encontrado esas páginas por otros medios (enlaces externos, navegación interna) y las considera más interesantes que las que tú has marcado como importantes.
Patrón 3: El rastreo fantasma Envías actualizaciones al sitemap pero el crawler sigue visitando URLs antiguas que ya has eliminado del sitemap. Esto sugiere que Google no está consultando tu sitemap actualizado y está usando información cacheada o descubierta por otros métodos.
Los logs no mienten, Google Search Console sí (a medias)
Google Search Console te muestra estadísticas bonitas sobre tu sitemap: «URLs enviadas: 5.000, URLs indexadas: 4.200». Genial, ¿no? Pero eso no te dice si Google está usando realmente tu sitemap para descubrir contenido o si simplemente está confirmando páginas que ya conocía por otros medios.

Los logs te muestran la realidad cruda: puedes ver si Googlebot está siguiendo patrones de rastreo que coinciden con la estructura de tu sitemap o si está haciendo la suya propia. He visto casos donde Google indexa el 90% de las URLs del sitemap pero los logs revelan que solo el 10% de esas visitas vinieron directamente del sitemap. El resto las descubrió navegando por el sitio.
Qué hacer cuando descubres que tu sitemap es inútil
No tires la toalla todavía. Si los logs revelan que Google ignora tu sitemap, tienes varias opciones:
Audita la calidad de tus URLs. Si Google no rastrea ciertas páginas del sitemap, puede ser porque las considera de baja calidad, duplicadas, o irrelevantes. Revisa el contenido, mejora la optimización on-page, y asegúrate de que cada URL aporte valor real.
Mejora tu enlazado interno. Los logs te mostrarán que las páginas más visitadas por Googlebot suelen ser las que tienen más enlaces internos. Usa esta información para crear una estrategia de enlazado que guíe a Google hacia las páginas que realmente quieres que indexe.
Segmenta tu sitemap. En lugar de un sitemap gigante con todas las URLs, crea sitemaps temáticos. Los logs pueden revelar que Google prefiere ciertos tipos de contenido, así que dale lo que quiere en sitemaps separados.
Optimiza la velocidad de rastreo. Si ves en los logs que Google abandona el rastreo antes de completar tu sitemap, puede ser un problema de velocidad del servidor o de crawl budget. Mejora los tiempos de respuesta y prioriza las URLs más importantes.
Los logs son tu mejor herramienta para entender cómo Google realmente interactúa con tu sitio, no cómo crees que debería interactuar. Y muchas veces, la realidad es más compleja y frustrante de lo que nos gustaría admitir. Pero al menos es real, y con la realidad sí se puede trabajar.

