¿Qué es el Crawling?

Autor: Lisandro Iserte Actualizado: 6 de mayo, 2026
Crawling en pocas palabras

El crawling es el proceso por el que los bots automatizados de los motores de búsqueda — como Googlebot — recorren la web siguiendo enlaces para descubrir, leer y evaluar páginas. Es el primer paso de la cadena que lleva a una página a aparecer en los resultados de búsqueda: sin crawling no hay indexación, y sin indexación no hay posicionamiento orgánico, independientemente de la calidad del contenido.

¿Qué es el crawling?

Los motores de búsqueda no leen la web manualmente — la recorren con bots automatizados llamados crawlers o spiders. El más conocido es Googlebot, el bot de Google. Su trabajo es visitar páginas web, leer su contenido, seguir los enlaces que encuentra en cada página y repetir el proceso de forma continua y masiva a escala de todo el internet.

El proceso es conceptualmente simple: el crawler parte de un conjunto de URLs conocidas — semillas — y sigue cada enlace que encuentra hasta mapear la mayor cantidad posible de páginas. Cuando visita una página, lee el HTML, procesa el texto, los encabezados, los metadatos y la estructura de enlaces internos y externos. Esa información pasa a los sistemas de Google para su evaluación y posible inclusión en el índice.

El crawling no es un evento único — es continuo. Googlebot vuelve a visitar las páginas que ya conoce para detectar cambios, contenido nuevo o errores. La frecuencia con la que vuelve a una página depende de qué tan a menudo cambia su contenido, de su autoridad y de la salud técnica del sitio. Una página que se actualiza con regularidad y que recibe muchos enlaces tiende a ser recrawleada con mayor frecuencia.

El concepto no nació con Google. Los primeros crawlers de la web aparecieron en 1993 con el World Wide Web Wanderer de Matthew Gray, y se popularizaron en 1994 con WebCrawler de Brian Pinkerton — el primer buscador que indexaba el contenido completo de las páginas, no solo los títulos. Cuando Larry Page y Sergey Brin lanzaron Google en 1998, el algoritmo PageRank que los hizo famosos solo era posible porque Googlebot rastreaba la web a una escala y velocidad que ningún competidor podía igualar. La capacidad de crawling sigue siendo, hasta hoy, una de las ventajas estructurales que define la posición dominante de Google en búsqueda — el motor con la red de crawlers más amplia es el que mejor mapa de la web tiene, y por lo tanto el que mejor puede responder consultas.

La cadena: crawling, indexación y posicionamiento

El crawling es el primer eslabón de una cadena de tres pasos que determina si una página puede aparecer en los resultados de búsqueda. Entender esa cadena es fundamental para diagnosticar problemas de visibilidad orgánica — un mismo síntoma ("mi página no aparece en Google") puede tener tres causas radicalmente distintas según en qué paso falle.

1
Crawling El bot descubre y visita la página. Lee su contenido y sigue sus enlaces. Si Googlebot no puede acceder — por error de servidor, bloqueo en robots.txt o tiempo de carga excesivo — la página queda fuera del sistema desde el origen.
2
Indexación Google decide si incluir la página en su índice según calidad, relevancia y directivas. Una página rastreada puede ser excluida del índice por contenido duplicado, calidad insuficiente o por una directiva noindex aplicada en el HTML o vía cabeceras HTTP.
3
Posicionamiento Google determina en qué posición mostrar la página ante cada consulta relevante. Una página indexada puede igualmente no aparecer en posiciones visibles si su contenido es débil, le falta autoridad o compite contra resultados estructuralmente superiores.

Una página puede fallar en cualquiera de los tres pasos. Un problema de crawling — servidor caído, bloqueo en robots.txt, tiempo de carga muy alto — impide que Google descubra o lea la página. Un problema de indexación — directiva noindex, contenido duplicado, calidad insuficiente — impide que la página entre al índice aunque haya sido rastreada. Un problema de posicionamiento — contenido débil, falta de autoridad, competencia fuerte — impide que la página aparezca en posiciones visibles aunque esté indexada.

Diagnosticar correctamente en qué paso falla una página es el trabajo del SEO técnico. Google Search Console muestra el estado de crawling e indexación de cada URL y reporta los errores que impiden que las páginas avancen en la cadena. La regla operativa es siempre la misma: diagnosticar antes de intervenir. Producir más contenido cuando el problema es un bloqueo en robots.txt no soluciona nada — solo agrega páginas que tampoco van a ser rastreadas.

Crawl budget: qué es y cuándo importa

El crawl budget es la cantidad de URLs que Googlebot está dispuesto a rastrear en un sitio dentro de un período determinado. No es un número fijo ni configurable directamente — es el resultado de dos factores que Google evalúa de forma continua: la crawl rate limit (la velocidad máxima a la que el bot puede rastrear sin sobrecargar el servidor) y la crawl demand (cuánto le interesa a Google rastrear ese sitio según su popularidad y frecuencia de cambio de contenido).

En sitios pequeños con pocas páginas y contenido de calidad, el crawl budget raramente es un problema — Google puede rastrear todo el sitio en pocas visitas. En sitios grandes — especialmente e-commerce con miles de URLs generadas por filtros, parámetros de sesión, páginas de paginación o variantes de producto — el crawl budget se convierte en una variable crítica. Si Googlebot gasta su presupuesto de crawl en URLs irrelevantes o de baja calidad, puede no llegar a rastrear las páginas que realmente importan para el negocio. Hay sitios donde el 80% del crawl budget se consume en URLs paramétricas que ni siquiera deberían existir, y las páginas de producto con tráfico real quedan sin recrawlear durante semanas.

Las técnicas para optimizar el crawl budget incluyen: bloquear en robots.txt las URLs que no deben indexarse, usar canonical para consolidar versiones duplicadas de una página, evitar parámetros de URL innecesarios, asegurar que el sitemap XML incluya solo las URLs que se quieren indexar, y mantener un tiempo de respuesta del servidor bajo y estable. La regla mental es simple: cada URL que existe en el sitio compite con las demás por la atención del bot. Reducir el ruido permite que la señal — las páginas importantes — reciba la atención que merece.

Qué bloquea el crawling

Un bloqueo de crawling puede dejar páginas completamente invisibles para Google aunque su contenido sea excelente. Hay cuatro categorías de bloqueantes según su origen — y casi siempre el problema es uno de los cuatro, no una combinación misteriosa.

Técnico Errores de servidor y tiempo de carga excesivo Un servidor que devuelve errores 5xx o que tarda demasiado en responder hace que Googlebot abandone el crawl o reduzca la frecuencia de visita. Los errores de servidor son el bloqueo más severo porque impiden cualquier acceso al contenido — la página no es ni siquiera evaluada. Fixmonitoreo de tiempo de respuesta, hosting adecuado al tráfico, CDN para mejorar velocidad de entrega, alertas automáticas ante errores 5xx recurrentes.
Directiva Bloqueo en robots.txt El archivo robots.txt le indica a los crawlers qué URLs o directorios no deben rastrear. Un error de configuración — o una regla demasiado amplia como Disallow: / — puede bloquear accidentalmente secciones enteras del sitio, incluyendo páginas que sí deben indexarse. Es uno de los errores más caros del SEO técnico porque suele descubrirse semanas después del lanzamiento. Fixauditar robots.txt regularmente, testear reglas con la herramienta de inspección de URLs en Search Console antes de publicar cambios, mantener un historial de versiones del archivo.
Directiva Metaetiqueta noindex La etiqueta no bloquea el crawling — le dice a Google que rastree pero no indexe la página. El error frecuente es aplicarla a páginas que sí deberían indexarse, o no removerla después de un lanzamiento donde se usó para mantener el sitio fuera del índice durante el desarrollo. Fixauditar etiquetas noindex con herramientas como Screaming Frog o Ahrefs Site Audit antes de cada lanzamiento, incluir la verificación en el checklist de go-live.
Estructura Páginas huérfanas y arquitectura de enlaces débil Googlebot descubre páginas principalmente siguiendo enlaces. Una página sin ningún enlace interno que apunte a ella — una página huérfana — puede no ser descubierta aunque esté en el sitemap. La arquitectura de enlaces internos es uno de los factores más subestimados del crawling en sitios grandes — porque no produce errores visibles, solo invisibilidad silenciosa. Fixauditar regularmente páginas huérfanas, asegurar que todas las páginas importantes reciban al menos un enlace interno desde contenido relevante, planificar arquitectura de hubs y subhubs antes de producir contenido masivo.

El mejor contenido del mundo no posiciona si Google no puede leerlo. El crawling es la capa más básica del SEO y la más frecuentemente descuidada por equipos que se concentran en el contenido y el link building sin verificar que la infraestructura técnica permite que ese trabajo llegue a sus resultados. Un bloqueo en robots.txt o un servidor lento puede neutralizar meses de trabajo editorial en segundos.

Lisandro Iserte

Errores comunes con el crawling

Bloquear el sitio en robots.txt durante el desarrollo y olvidarse de desbloquearlo

Es el error de crawling más frecuente en lanzamientos. Durante el desarrollo se bloquea el sitio para evitar que Google indexe versiones incompletas — lo cual es correcto. El problema ocurre cuando el sitio sale a producción y nadie remueve o actualiza el bloqueo. El resultado es un sitio activo que Google no puede rastrear ni indexar. La verificación del robots.txt debe ser parte del checklist de cualquier lanzamiento, no una tarea que alguien recuerde por buena memoria.

Generar URLs innecesarias que consumen crawl budget

En sitios con filtros, buscadores internos o parámetros de seguimiento en la URL, cada combinación puede generar una URL única que Googlebot intenta rastrear. Un e-commerce con 10 filtros que se pueden combinar puede generar millones de URLs distintas para el mismo conjunto de productos. Esas URLs consumen crawl budget sin aportar valor indexable y pueden dejar sin rastrear las páginas de categoría y producto más importantes.

Confundir crawling con indexación en el diagnóstico

Cuando una página no aparece en Google, el primer diagnóstico debe determinar en qué paso falla: ¿Google no la encontró (crawling)? ¿La encontró pero decidió no indexarla (indexación)? ¿Está indexada pero no posiciona (ranking)? Cada problema tiene causas y soluciones distintas. Tratar un problema de indexación como si fuera de crawling — o viceversa — lleva a intervenciones que no resuelven nada y consumen tiempo del equipo en frentes equivocados.

Combinar Disallow en robots.txt con noindex en la misma URL

Es uno de los errores técnicos más confusos y persistentes. Si una página tiene una directiva noindex en su HTML, pero el robots.txt impide que Googlebot acceda a esa página, el bot nunca puede leer la directiva noindex — y la página puede seguir apareciendo en resultados con un snippet vacío durante meses. La regla operativa es: si querés que una página no se indexe, dejala accesible al crawler con noindex, sin Disallow. Si querés que ni siquiera sea rastreada, asumí que también puede aparecer en resultados con visibilidad mínima.

Asumir que sitemap.xml reemplaza la arquitectura de enlaces internos

El sitemap XML es una ayuda para el descubrimiento — no un reemplazo de la arquitectura de enlaces internos. Una URL solo en el sitemap, sin enlaces internos desde otras páginas del sitio, le señala a Google que existe pero no le señala que importa. Las páginas con tráfico de búsqueda sostenido casi siempre tienen, además de su entrada en el sitemap, una red robusta de enlaces internos relevantes que las anclan en la jerarquía conceptual del sitio. El sitemap es el complemento del internal linking, no el sustituto.

Preguntas frecuentes sobre crawling

¿Qué es el crawling en SEO?

El crawling es el proceso por el que los bots de los motores de búsqueda — principalmente Googlebot — recorren la web siguiendo enlaces de página en página para descubrir, leer y evaluar contenido. Es el primer paso de la cadena SEO: sin crawling no hay indexación, y sin indexación una página no puede aparecer en los resultados de búsqueda, independientemente de la calidad de su contenido.

¿Cuál es la diferencia entre crawling e indexación?

El crawling es el descubrimiento: el bot visita la página y lee su contenido. La indexación es la decisión: Google determina si esa página merece ser incluida en su índice para aparecer en resultados de búsqueda. Una página puede ser rastreada sin ser indexada — si Google la considera de baja calidad, duplicada o bloqueada por directivas noindex. El orden es siempre crawling primero, indexación después, ranking al final.

¿Qué es el crawl budget?

El crawl budget es la cantidad de páginas que Googlebot está dispuesto a rastrear en un sitio dentro de un período determinado. Resulta de dos factores: la crawl rate limit — la velocidad máxima a la que el bot puede rastrear sin sobrecargar el servidor — y la crawl demand — cuánto le interesa a Google rastrear ese sitio según popularidad y frecuencia de cambio. En sitios pequeños raramente es problema. En sitios grandes con miles de URLs, especialmente e-commerce, gestionar el crawl budget es crítico para asegurar que las páginas más importantes sean rastreadas e indexadas.

¿Cómo saber si Google está rastreando mi sitio?

Google Search Console es la herramienta oficial. El reporte de Cobertura muestra qué URLs están indexadas, cuáles están rastreadas pero no indexadas y cuáles tienen errores de crawling. La herramienta de Inspección de URL permite verificar el estado individual de cualquier página y solicitar un rastreo manual. Los logs del servidor también permiten verificar las visitas reales de Googlebot — útil en sitios grandes donde el crawl budget es relevante.

¿Cómo evitar que Google rastree ciertas páginas?

Para impedir el crawling en sí, se usa robots.txt con la directiva Disallow. Para permitir el crawling pero impedir la indexación, se usa la metaetiqueta noindex en el HTML de la página. Son herramientas distintas con efectos distintos: robots.txt impide el acceso del bot al contenido; noindex le permite acceder pero le pide que no incluya la página en el índice. Bloquear con robots.txt una página que ya tenía noindex puede ser contraproducente porque Google deja de poder leer la directiva noindex.

Referencias clave

Google Search Central. Cómo funciona la Búsqueda de Google: Crawling, indexación y publicación. Documentación oficial de Google sobre el funcionamiento de Googlebot, el sistema de rastreo y las directivas que los anunciantes pueden aplicar — fuente directa del §1, §2 y §4 sobre robots.txt y noindex.

Brin, S. & Page, L. (1998). The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford. Paper fundacional donde Larry Page y Sergey Brin presentan PageRank y describen la arquitectura original de Googlebot — base teórica del §1 sobre el rol del crawling en la posición dominante de Google.

Enge, E., Spencer, S. & Stricchiola, J. (2015). The Art of SEO: Mastering Search Engine Optimization (3ª ed.). O'Reilly. Manual canónico de SEO técnico con tratamiento extenso de crawling, crawl budget y arquitectura de información — base de los §3 y §4 sobre optimización del crawl budget y bloqueantes de crawling.

Illyes, G. (2017). What Crawl Budget Means for Googlebot. Google Search Central Blog. Artículo de referencia donde Google explica oficialmente el concepto de crawl budget, sus dos componentes (rate limit y demand) y los factores que lo afectan — fuente directa del §3.

Términos relacionados