¿Sabías que Google tiene un presupuesto limitado para rastrear tu web? Se llama crawl budget, y es básicamente cuántas páginas está dispuesto a visitar cada día. Si lo malgastas en contenido basura, Google no llegará a rastrear tus páginas importantes.
En VisibilidadOn vemos este drama constantemente: webs con contenido de calidad que no se indexan porque Google está perdiendo el tiempo rastreando miles de URLs inútiles. Es como tener un presupuesto de 1000€ para marketing y gastártelo en flyers que nadie va a leer.
Los logs del servidor te cuentan exactamente dónde está malgastando Google su tiempo en tu web. Y lo mejor: los errores más destructivos son súper fáciles de detectar y solucionar.
Hoy vamos a revisar los 5 errores que más crawl budget destrozan, cómo identificarlos en tus logs en menos de 10 minutos, y las soluciones que aplicamos en la agencia para recuperar ese presupuesto perdido.

¿Qué es el crawl budget y por qué te importa?
Antes de meternos en faena, vamos a aclarar conceptos. El crawl budget es el número de páginas que Googlebot está dispuesto a rastrear en tu web durante un período determinado. Depende de factores como:
- Autoridad de tu dominio (webs más fuertes = más presupuesto)
- Velocidad de carga (más rápido = más eficiente = más páginas)
- Frecuencia de actualizaciones (contenido fresco = más interés)
- Errores técnicos (menos errores = más confianza)
Un ejemplo real: Una web pequeña puede tener un crawl budget de 100 páginas/día, mientras que un medio grande puede llegar a 50.000. Si tienes 500 páginas importantes pero Google solo rastrea 100, estás dejando 400 páginas sin indexar cada día.

Error #1: Páginas de paginación infinita
🚨 Síntoma en los logs:
"GET /blog/page/47 HTTP/1.1" 200 - "Googlebot/2.1"
"GET /blog/page/48 HTTP/1.1" 200 - "Googlebot/2.1"
"GET /blog/page/157 HTTP/1.1" 200 - "Googlebot/2.1"
El problema: Google está rastreando páginas 47, 157, 289 de tu blog o archivo, cuando probablemente el contenido valioso está en las primeras 5-10 páginas.
Un caso que me dolió en el alma:
Un cliente tenía un blog de 200 artículos de calidad, pero WordPress generaba 400 páginas de archivo (5 artículos por página). En los logs vimos que Google gastaba el 60% de su crawl budget rastreando páginas 50, 60, 70… donde había artículos de hace 8 años que nadie leía.
Resultado: artículos nuevos tardaban semanas en indexarse porque Google no tenía presupuesto para llegar hasta ellos.
Cómo detectarlo rápido:
- Busca en logs:
/page/o/pagina/con números altos - Si ves Google rastreando página 20+ regularmente, tienes problema
- Prioriza contenido por fecha: ¿está Google perdiendo tiempo en contenido viejo?
La solución:
# En robots.txt
Disallow: /page/
Allow: /page/1$
Allow: /page/2$
Allow: /page/3$
O mejor aún, usa noindex en páginas de archivo a partir de la página 3.
Error #2: Parámetros URL que generan contenido duplicado
🚨 Síntoma en los logs:
"GET /producto.html?sort=price&order=asc&color=red" 200 - "Googlebot/2.1"
"GET /producto.html?sort=name&order=desc&color=red" 200 - "Googlebot/2.1"
"GET /producto.html?utm_source=facebook&sort=price" 200 - "Googlebot/2.1"
El drama: Tu web genera infinitas combinaciones de la misma página con filtros, ordenaciones, y parámetros de tracking. Google rastrea cada variante como si fuera contenido único.
Ejemplo práctico:
Un ecommerce de 500 productos tenía filtros por precio, color, talla, marca y orden. Matemáticamente podían generar más de 50.000 URLs diferentes para el mismo contenido. Google se volvió loco intentando rastrear todas las combinaciones posibles y prácticamente ignoró las páginas de producto individuales.
El 90% del crawl budget se iba en URLs como:
/zapatillas?color=rojo&talla=42&precio=50-100&orden=precio_asc/zapatillas?color=rojo&talla=42&precio=50-100&orden=nombre_desc
Detección en 30 segundos: Busca en logs URLs con ? y &. Si ves muchas variantes de la misma página base, estás malgastando presupuesto.
Solución inmediata:
# robots.txt
Disallow: /*?*sort=
Disallow: /*?*order=
Disallow: /*?*utm_
Disallow: /*?*filter=
Error #3: Archivos y carpetas innecesarios
🚨 Síntoma en los logs:
"GET /wp-content/uploads/2019/05/ HTTP/1.1" 200 - "Googlebot/2.1"
"GET /wp-admin/admin-ajax.php HTTP/1.1" 200 - "Googlebot/2.1"
"GET /wp-includes/js/wp-emoji-release.min.js" 200 - "Googlebot/2.1"
"GET /feed/atom/ HTTP/1.1" 200 - "Googlebot/2.1"
El problema: Google está desperdiciando tiempo rastreando archivos CSS, JavaScript, carpetas de sistema, feeds duplicados y otros recursos que no aportan valor SEO.
La realidad brutal: He visto webs donde el 40% del crawl budget se iba en rastear carpetas de uploads, archivos de tema, y scripts que cambian cada día pero no afectan al contenido.
Detección rápida: Busca en logs patrones como:
/wp-content/,/wp-includes/,/wp-admin//assets/,/css/,/js/,/images/- Feeds:
/feed/,/rss/,/atom/ - Archivos con extensiones:
.css,.js,.png,.jpg
Solución:
# robots.txt - Bloquea lo que no importa
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /*.css$
Disallow: /*.js$
Disallow: /feed/
Disallow: /comments/feed/
# Pero permite lo importante
Allow: /wp-content/uploads/
Error #4: Soft 404s que consumen presupuesto
🚨 Síntoma en los logs:
"GET /categoria-vacia HTTP/1.1" 200 - "Googlebot/2.1"
"GET /buscar?q= HTTP/1.1" 200 - "Googlebot/2.1"
"GET /archivo/2015 HTTP/1.1" 200 - "Googlebot/2.1"
El problema silencioso: Páginas que técnicamente funcionan (código 200) pero no tienen contenido útil. Google las rastrea pensando que son válidas, pero no encuentra nada indexable.
Solución:
- Configura 404 real para páginas sin contenido
- Usa noindex si las páginas deben existir pero no indexarse
- Redirect 301 a páginas padre cuando sea lógico
Error #5: Crawl traps (trampas de rastreo)
🚨 Síntoma en los logs:
"GET /calendario/2025/enero HTTP/1.1" 200 - "Googlebot/2.1"
"GET /calendario/2025/febrero HTTP/1.1" 200 - "Googlebot/2.1"
"GET /calendario/2027/diciembre HTTP/1.1" 200 - "Googlebot/2.1"
El error más destructivo: URLs que se generan automáticamente hasta el infinito. Calendarios, contadores, sistemas de comentarios mal configurados, etc.
El peor caso que he visto:
Un sitio de eventos tenía un calendario que generaba URLs para cada día hasta el año 2050. Google encontró el patrón y empezó a rastrear metodicamente:
/eventos/2025/01/01//eventos/2025/01/02/- …
/eventos/2050/12/31/
¡Más de 9.000 URLs de calendario vacío! El crawl budget real se redujo a prácticamente cero para contenido importante.
Trampas comunes:
- Calendarios infinitos (mi pesadilla personal)
- Sistemas de búsqueda que generan URLs para cada consulta
- Contadores de páginas vistas con parámetros
- Widgets sociales mal configurados
Detección inmediata: Si en logs ves patrones repetitivos con fechas, números secuenciales, o parámetros que van aumentando, tienes una trampa.
Solución de emergencia:
# Bloquea patrones problemáticos
Disallow: /calendario/
Disallow: /*?date=
Disallow: /buscar/*
Disallow: /*&page=
La regla 80/20 del crawl budget
En mi experiencia, el 80% del crawl budget malgastado viene del 20% de errores más comunes:
- Paginación descontrolada (30% del desperdicio)
- Parámetros URL duplicados (25% del desperdicio)
- Archivos técnicos (15% del desperdicio)
- Soft 404s (10% del desperdicio)
Solucionando solo estos cuatro patrones, normalmente recuperamos el 80% del crawl budget perdido.

Herramientas que necesitas
Para análisis básico:
- Screaming Frog: Rastrea tu web como Google y detecta problemas
- Search Console: Sección «Configuración > Estadísticas de rastreo»
- Logs del servidor: La fuente de verdad absoluta
- Analizador logs SEO de VON
Para soluciones avanzadas:
- Botify: Análisis súper detallado de crawl budget (para webs grandes)
- OnCrawl: Correlaciona logs con métricas SEO
Cuándo preocuparse realmente
No todas las webs necesitan optimizar crawl budget obsesivamente. Preocúpate si:
- Tu web tiene +1000 páginas y contenido nuevo tarda semanas en indexarse
- Ves en logs que Google rastrea más basura que contenido real
- Search Console muestra páginas importantes «descubiertas pero no rastreadas»
- Tienes ecommerce con filtros o site con mucha paginación
Para webs pequeñas (-100 páginas), el crawl budget raramente es limitante.
El error que mata proyectos
He visto proyectos SEO fracasar porque nadie revisó cómo Google consumía el crawl budget. Publican 50 artículos increíbles al mes, pero Google sigue perdiendo el 70% de su tiempo rastreando páginas de archivo del 2015.
La métrica que deberías revisar cada mes: ¿Qué porcentaje del crawl budget va a contenido publicado en los últimos 6 meses vs. contenido viejo o técnico?
Si es menos del 60%, tienes trabajo que hacer.

