Glosario de Marketing y Branding
¿Qué es el Crawling?
El crawling es el proceso por el que los bots automatizados de los motores de búsqueda — como Googlebot — recorren la web siguiendo enlaces para descubrir, leer y evaluar páginas. Es el primer paso de la cadena que lleva a una página a aparecer en los resultados de búsqueda: sin crawling no hay indexación, y sin indexación no hay posicionamiento orgánico, independientemente de la calidad del contenido.
¿Qué es el crawling?
Los motores de búsqueda no leen la web manualmente — la recorren con bots automatizados llamados crawlers o spiders. El más conocido es Googlebot, el bot de Google. Su trabajo es visitar páginas web, leer su contenido, seguir los enlaces que encuentra en cada página y repetir el proceso de forma continua y masiva a escala de todo el internet.
El proceso es conceptualmente simple: el crawler parte de un conjunto de URLs conocidas — semillas — y sigue cada enlace que encuentra hasta mapear la mayor cantidad posible de páginas. Cuando visita una página, lee el HTML, procesa el texto, los encabezados, los metadatos y la estructura de enlaces internos y externos. Esa información pasa a los sistemas de Google para su evaluación y posible inclusión en el índice.
El crawling no es un evento único — es continuo. Googlebot vuelve a visitar las páginas que ya conoce para detectar cambios, nueva contenido o errores. La frecuencia con la que vuelve a una página depende de qué tan a menudo cambia su contenido, de su autoridad y de la salud técnica del sitio. Una página que se actualiza con regularidad y que recibe muchos enlaces tiende a ser recrawleada con mayor frecuencia.
La cadena completa: crawling, indexación y posicionamiento
El crawling es el primer eslabón de una cadena de tres pasos que determina si una página puede aparecer en los resultados de búsqueda. Entender esa cadena es fundamental para diagnosticar problemas de visibilidad orgánica.
Crawling
El bot descubre y visita la página. Lee su contenido y sigue sus enlaces.
Indexación
Google decide si incluir la página en su índice según calidad, relevancia y directivas.
Posicionamiento
Google determina en qué posición mostrar la página ante cada consulta relevante.
Una página puede fallar en cualquiera de los tres pasos. Un problema de crawling — servidor caído, bloqueo en robots.txt, tiempo de carga muy alto — impide que Google descubra o lea la página. Un problema de indexación — directiva noindex, contenido duplicado, calidad insuficiente — impide que la página entre al índice aunque haya sido rastreada. Un problema de posicionamiento — contenido débil, falta de autoridad, competencia fuerte — impide que la página aparezca en posiciones visibles aunque esté indexada.
Diagnosticar correctamente en qué paso falla una página es el trabajo del SEO técnico. Google Search Console muestra el estado de crawling e indexación de cada URL y reporta los errores que impiden que las páginas avancen en la cadena.
Crawl budget: qué es y cuándo importa
El crawl budget es la cantidad de URLs que Googlebot está dispuesto a rastrear en un sitio dentro de un período determinado. No es un número fijo ni configurable directamente — es el resultado de dos factores que Google evalúa de forma continua: la crawl rate limit (la velocidad máxima a la que el bot puede rastrear sin sobrecargar el servidor) y la crawl demand (cuánto le interesa a Google rastrear ese sitio según su popularidad y frecuencia de cambio de contenido).
En sitios pequeños con pocas páginas y contenido de calidad, el crawl budget raramente es un problema — Google puede rastrear todo el sitio en pocas visitas. En sitios grandes — especialmente e-commerce con miles de URLs generadas por filtros, parámetros de sesión, páginas de paginación o variantes de producto — el crawl budget se convierte en una variable crítica. Si Googlebot gasta su presupuesto de crawl en URLs irrelevantes o de baja calidad, puede no llegar a rastrear las páginas que realmente importan para el negocio.
Las técnicas para optimizar el crawl budget incluyen: bloquear en robots.txt las URLs que no deben indexarse, usar canonical para consolidar versiones duplicadas de una página, evitar parámetros de URL innecesarios, y asegurar que el sitemap XML incluya solo las URLs que se quieren indexar.
Qué bloquea el crawling
Un bloqueo de crawling puede dejar páginas completamente invisibles para Google aunque su contenido sea excelente. Hay tres categorías de bloqueantes según su origen.
Un servidor que devuelve errores 5xx o que tarda demasiado en responder hace que Googlebot abandone el crawl o reduzca la frecuencia de visita. Los errores de servidor son el bloqueo más severo porque impiden cualquier acceso al contenido.
Fix: monitoreo de tiempo de respuesta, hosting adecuado al tráfico, CDN para mejorar velocidad de entrega.
El archivo robots.txt le indica a los crawlers qué URLs o directorios no deben rastrear. Un error de configuración — o una regla demasiado amplia — puede bloquear accidentalmente secciones enteras del sitio, incluyendo páginas que sí deben indexarse.
Fix: auditar robots.txt regularmente, testear reglas con la herramienta de inspección de URLs en Search Console antes de publicar cambios.
La etiqueta <meta name=”robots” content=”noindex”> no bloquea el crawling — le dice a Google que rastree pero no indexe la página. El error frecuente es aplicarla a páginas que sí deberían indexarse, o no removerla después de un lanzamiento donde se usó para mantener el sitio fuera del índice durante el desarrollo.
Fix: auditar etiquetas noindex con herramientas como Screaming Frog o Ahrefs Site Audit antes de cada lanzamiento.
Googlebot descubre páginas principalmente siguiendo enlaces. Una página sin ningún enlace interno que apunte a ella — una página huérfana — puede no ser descubierta aunque esté en el sitemap. La arquitectura de enlaces internos es uno de los factores más subestimados del crawling en sitios grandes.
Fix: auditar regularmente páginas huérfanas, asegurar que todas las páginas importantes reciban al menos un enlace interno desde contenido relevante.
El mejor contenido del mundo no posiciona si Google no puede leerlo. El crawling es la capa más básica del SEO y la más frecuentemente descuidada por equipos que se concentran en el contenido y el link building sin verificar que la infraestructura técnica permite que ese trabajo llegue a sus resultados. Un bloqueo en robots.txt o un servidor lento puede neutralizar meses de trabajo editorial en segundos.
Lisandro Iserte
Errores comunes con el crawling
Bloquear el sitio en robots.txt durante el desarrollo y olvidarse de desbloquearlo
Es el error de crawling más frecuente en lanzamientos. Durante el desarrollo se bloquea el sitio para evitar que Google indexe versiones incompletas — lo cual es correcto. El problema ocurre cuando el sitio sale a producción y nadie remueve o actualiza el bloqueo. El resultado es un sitio activo que Google no puede rastrear ni indexar. La verificación del robots.txt debe ser parte del checklist de cualquier lanzamiento.
Generar URLs innecesarias que consumen crawl budget
En sitios con filtros, buscadores internos o parámetros de seguimiento en la URL, cada combinación puede generar una URL única que Googlebot intenta rastrear. Un e-commerce con 10 filtros que se pueden combinar puede generar millones de URLs distintas para el mismo conjunto de productos. Esas URLs consumen crawl budget sin aportar valor indexable y pueden dejar sin rastrear las páginas de categoría y producto más importantes.
Confundir crawling con indexación en el diagnóstico
Cuando una página no aparece en Google, el primer diagnóstico debe determinar en qué paso falla: ¿Google no la encontró (crawling)? ¿La encontró pero decidió no indexarla (indexación)? ¿Está indexada pero no posiciona (ranking)? Cada problema tiene causas y soluciones distintas. Tratar un problema de indexación como si fuera de crawling — o viceversa — lleva a intervenciones que no resuelven nada.
Preguntas frecuentes sobre crawling
¿Qué es el crawling en SEO?
El crawling es el proceso por el que los bots de los motores de búsqueda — principalmente Googlebot — recorren la web siguiendo enlaces de página en página para descubrir, leer y evaluar contenido. Es el primer paso de la cadena SEO: sin crawling no hay indexación, y sin indexación una página no puede aparecer en los resultados de búsqueda, independientemente de la calidad de su contenido.
¿Cuál es la diferencia entre crawling e indexación?
El crawling es el descubrimiento: el bot visita la página y lee su contenido. La indexación es la decisión: Google determina si esa página merece ser incluida en su índice para aparecer en resultados de búsqueda. Una página puede ser rastreada sin ser indexada — si Google la considera de baja calidad, duplicada o bloqueada por directivas noindex. El orden es siempre crawling primero, indexación después.
¿Qué es el crawl budget?
El crawl budget es la cantidad de páginas que Googlebot está dispuesto a rastrear en un sitio dentro de un período determinado. En sitios pequeños raramente es un problema. En sitios grandes con miles de URLs — especialmente e-commerce — gestionar el crawl budget es crítico para asegurar que las páginas más importantes sean rastreadas e indexadas y que el bot no malgaste su presupuesto en URLs irrelevantes o duplicadas.
Términos relacionados