Crawl Budget: Cómo calcularlo correctamente usando logs de servidor

Blog SEO » Blog » Crawl Budget: Cómo calcularlo correctamente usando logs de servidor

Publicado: septiembre 1, 2025
Actualizado: 2 de septiembre, 2025
Timepo lectura: 6 min de lectura

Mi web tiene 50.000 páginas pero Google solo rastrea 500 al día. ¿Es poco o es mucho? Esta pregunta me la hacen cada semana, y la respuesta siempre es la misma: depende. ¿De qué depende? 🎶 Lo veremos ahora 🙂

El crawl budget no es una cifra mágica que Google te comunica por email. Es un concepto que tienes que calcular, entender y optimizar basándote en datos reales. Y la única fuente confiable para hacerlo son los logs de tu servidor, sí también puedes ver algunos datos en GSC, pero no tan exactos:

En VisibilidadOn hemos calculado crawl budgets desde webs de 100 páginas hasta monstruos de varios millones de URLs. La diferencia entre hacerlo bien y hacerlo mal puede significar que tu contenido nuevo tarde días en indexarse o meses.

Hoy te enseño la metodología exacta que usamos para calcular crawl budget, interpretarlo correctamente, y usarlo para tomar decisiones SEO inteligentes.

Qué es realmente el crawl budget (más allá de la teoría)

Google define crawl budget como «el número de URLs que Googlebot puede y quiere rastrear«. Pero esa definición no te sirve para nada práctico.

La definición que sí importa: es la cantidad máxima de páginas que Google está dispuesto a visitar en tu web durante un período específico, influenciado por la velocidad de tu servidor, la frecuencia de tus actualizaciones, y la autoridad de tu dominio.

Por qué necesitas calcularlo:

Para saber si Google puede indexar todo tu contenido importante
Para detectar si estás malgastando presupuesto en páginas inútiles
Para predecir cuánto tardará en indexarse contenido nuevo
Para justificar inversiones técnicas en velocidad o arquitectura

La metodología de cálculo: 4 métricas que importan

1. Crawl rate (páginas por día)

Qué mides: Cuántas páginas únicas rastrea Google cada 24 horas.

Cómo calcularlo desde logs:

# Extrae solo peticiones de Googlebot
grep "Googlebot" access.log > googlebot.log

# Cuenta URLs únicas por día
grep "2025-01-15" googlebot.log | awk '{print $7}' | sort | uniq | wc -l

Ejemplo real: Si Google visitó 1.247 URLs únicas el martes, tu crawl rate ese día fue 1.247 páginas.

2. Crawl frequency (frecuencia de revisitas)

Qué mides: Con qué frecuencia Google vuelve a las mismas páginas.

Por qué importa: Una página rastreada 10 veces en un día consume 10 veces más presupuesto que una rastreada una vez.

Cálculo:

# Total de peticiones de Googlebot en un día
grep "2025-01-15" googlebot.log | wc -l

# URLs únicas ese día
grep "2025-01-15" googlebot.log | awk '{print $7}' | sort | uniq | wc -l

# Frecuencia = Total peticiones / URLs únicas

Interpretación:

Frecuencia 1.0 = Google rastrea cada página una vez (eficiente)
Frecuencia 2.5 = Google rastrea páginas 2.5 veces promedio (despilfarrando)
Frecuencia >3.0 = Problema serio de eficiencia

3. Crawl depth (profundidad efectiva)

Qué mides: Qué tan «profundo» llega Google en tu arquitectura de contenido.

Un caso revelador: Un cliente tenía artículos importantes enterrados a 7 clics de la home. Su crawl rate era alto (3.000 páginas/día) pero Google solo llegaba hasta profundidad 4. Resultado: contenido valioso sin indexar.

Cómo medirlo: Analiza las URLs rastreadas y clasifícalas por «distancia» desde la home:

Profundidad 1: Home, páginas principales del menú
Profundidad 2: Categorías, secciones
Profundidad 3: Artículos individuales, productos
Profundidad 4+: Contenido «enterrado»

4. Crawl efficiency (eficiencia del presupuesto)

La métrica que lo cambia todo: Porcentaje del crawl budget que va a contenido realmente importante vs. basura.

Aquí es importante recordar la importancia de una técnica muy conocida y usada en SEO, «la poda», es decir, acabar con aquellos contenidos que no aportan valor, que no están centrados en la temática en la que tenemos autoridad y que no están traccionando tráfico (o si).

Fórmula:

Eficiencia = (Páginas importantes rastreadas / Total páginas rastreadas) × 100

Clasificación de páginas:

Importantes: Artículos, productos, servicios, landing pages comerciales
Medio importantes: Categorías, archivos, páginas informativas
Basura: Páginas de búsqueda, parámetros UTM, archivos técnicos, paginación profunda

Benchmarks:

80% = Excelente eficiencia
60-80% = Buena eficiencia
40-60% = Mejorable
<40% = Crisis, tu crawl budget se está malgastando

Calculando tu crawl budget: paso a paso

Paso 1: Recopila datos (1 semana mínimo)

Necesitas logs de al menos 7 días para tener datos representativos. Días sueltos pueden tener anomalías.

# Extrae actividad de Googlebot de una semana
for day in {01..07}; do
    grep "2025-01-$day.*Googlebot" access.log >> googlebot_week.log
done

Paso 2: Calcula métricas básicas

Crawl rate diario:

# Para cada día
for day in {01..07}; do
    echo "Día $day:"
    grep "2025-01-$day" googlebot_week.log | awk '{print $7}' | sort | uniq | wc -l
done

Crawl rate promedio: Suma los 7 días y divide entre 7.

Paso 3: Analiza distribución de contenido

Clasifica las URLs rastreadas:

URLs importantes (busca patrones como):

/articulo/, /producto/, /servicio/
Páginas con pocas profundidad de clic
Contenido actualizado recientemente

URLs problemáticas (busca patrones como):

?page=, ?sort=, ?utm_
/buscar/, /archivo/2018/
Archivos técnicos: .css, .js, /wp-content/

Paso 4: Calcula la eficiencia

Ejemplo:
- Total URLs rastreadas en 7 días: 8.400
- URLs importantes rastreadas: 5.040
- Eficiencia: (5.040 / 8.400) × 100 = 60%

Herramientas para automatizar el cálculo

Script básico en Python

import re
from collections import Counter
from datetime import datetime

def calculate_crawl_budget(log_file):
    urls_per_day = {}
    total_requests = {}
    
    with open(log_file, 'r') as f:
        for line in f:
            if 'Googlebot' in line:
                # Extraer fecha y URL
                parts = line.split()
                date = parts[3][1:12]  # Formato [dd/MMM/yyyy
                url = parts[6]
                
                if date not in urls_per_day:
                    urls_per_day[date] = set()
                    total_requests[date] = 0
                
                urls_per_day[date].add(url)
                total_requests[date] += 1
    
    # Calcular métricas
    for date in urls_per_day:
        unique_urls = len(urls_per_day[date])
        total_reqs = total_requests[date]
        frequency = total_reqs / unique_urls if unique_urls > 0 else 0
        
        print(f"{date}: {unique_urls} URLs únicas, frecuencia {frequency:.2f}")

# Uso
calculate_crawl_budget('googlebot.log')

Herramientas profesionales

Para webs pequeñas:

Screaming Frog Log File Analyser (gratuito)
Search Console (datos básicos)

Para webs grandes:

Botify (análisis completo pero caro)
OnCrawl (buen balance precio/características)

Optimizando según tu crawl budget

Si tu crawl budget es limitado (<500 páginas/día)

Prioridades:

Maximizar eficiencia (>75%)
Enfocar presupuesto en contenido comercial
Bloquear agresivamente contenido técnico
Limitar paginación profunda

Si tu crawl budget es abundante (>5000 páginas/día)

Oportunidades:

Crear más contenido de calidad
Experimentar con arquitecturas más complejas
Permitir mayor profundidad de rastreo
Optimizar para freshness (contenido fresco)

¿Qué te ha parecido este artículo?

¡Haz clic en las estrellas para valorarlo! 👇

Sé el primero en valorar este contenido ⭐

Cargando...

Javier

Consultor SEO con muchísimo conocimiento de IT debido a su pasado cómo administrador de sistemas. Conocido por tener más horas que el día, Javi siempre está para echar una mano a sus compis del departamento de SEO. Hoy es el responsable cómo SEO Manager del Equipo Bravo de SEO

Curso de link building

Ecomercefest

ÚLTIMOS ARTÍCULOS

Cómo sobrevivir con un eCommerce 100% estacional | Caso Mexas | Jessica Bardanca

Facturar 1,2 millones de euros vendiendo solo en verano. Parece el tim...

Josep Deulofeu

mayo 27, 2026

Cómo configurar Google Search Console en WordPress

Cómo añadir tu sitio a Google Search Console: la guía definitiva para ...

Josep Deulofeu

mayo 20, 2026

De Marketplace fallido a 90 empleados | Caso Tattoox | Berta Madueño

¿Se puede transformar una industria hiperatomizada y tradicionalmente ...

Josep Deulofeu

mayo 20, 2026

Cómo sobrevivir con un eCommerce 100% estacional | Caso Mexas | Jessica Bardanca

Facturar 1,2 millones de euros vendiendo solo en verano. Parece el tim...

Josep Deulofeu

mayo 27, 2026

Cómo configurar Google Search Console en WordPress

Cómo añadir tu sitio a Google Search Console: la guía definitiva para ...

Josep Deulofeu

mayo 20, 2026

De Marketplace fallido a 90 empleados | Caso Tattoox | Berta Madueño

¿Se puede transformar una industria hiperatomizada y tradicionalmente ...

Josep Deulofeu

mayo 20, 2026

Suscríbete a la Newsletter

Recibe las últimas noticias y aprende de SEO y Google ADS

Crawl Budget: Cómo calcularlo correctamente usando logs de servidor

Qué es realmente el crawl budget (más allá de la teoría)

La metodología de cálculo: 4 métricas que importan

1. Crawl rate (páginas por día)

2. Crawl frequency (frecuencia de revisitas)

3. Crawl depth (profundidad efectiva)

4. Crawl efficiency (eficiencia del presupuesto)

Calculando tu crawl budget: paso a paso

Paso 1: Recopila datos (1 semana mínimo)

Paso 2: Calcula métricas básicas

Paso 3: Analiza distribución de contenido

Paso 4: Calcula la eficiencia

Herramientas para automatizar el cálculo

Script básico en Python

Herramientas profesionales

Optimizando según tu crawl budget

Si tu crawl budget es limitado (<500 páginas/día)

Si tu crawl budget es abundante (>5000 páginas/día)

¿Qué te ha parecido este artículo?

¡Haz clic en las estrellas para valorarlo! 👇

Ecomercefest

Suscríbete a la Newsletter

INICIAR SESIÓN