¿Cuántos tests hay que correr para que la experimentación sea valiosa?

No hay un número mágico, pero hay un patrón claro: el valor de la experimentación crece con la velocidad y el volumen de tests. Ron Kohavi, en su trabajo con Microsoft, encontró que solo entre el 10% y el 30% de los tests produce mejoras estadísticamente significativas — lo que significa que para obtener aprendizajes consistentes, un equipo necesita correr al menos 20-30 tests por año. Los equipos de experimentación más maduros (Amazon, Booking.com, Netflix) corren cientos de tests simultáneamente. La clave es el sistema que procesa los aprendizajes, no el número de tests en sí.

Spoke · Nivel inicial

Experimentación
en marketing:
hipótesis y prueba.

La mayoría de los equipos toman decisiones basadas en datos históricos — que describen lo que fue, no lo que causó qué. La experimentación es el único método que establece causalidad y convierte las intuiciones en evidencia accionable.

Nivel inicialLectura: 19 min.Autor: Lisandro IserteÚltima actualización: 14 de abril de 2026

Experimentación en Marketing — Biblioteca · Lisandro Iserte

Tabla de contenidos

Definición rápida
El ciclo completo de experimentación
Por qué la experimentación es el único método causal
Qué hace a un experimento válido
El espectro de técnicas: de A/B test a geo-lift
Cómo conecta la experimentación con el sistema de marketing
Errores frecuentes
Cuándo experimentar y cuándo no
Preguntas frecuentes
Referencias y bibliografía

01 — Definición rápida

Experimentación en marketing.

La experimentación en marketing es el proceso sistemático de generar hipótesis sobre qué cambios mejoran una métrica de negocio, diseñar pruebas controladas que aíslen el efecto causal de esos cambios, medir los resultados con rigor estadístico y documentar los aprendizajes para informar decisiones futuras. Es la diferencia entre saber que algo cambió y saber por qué cambió — y en marketing, esa diferencia determina si el presupuesto va a los canales y mensajes que realmente funcionan o a los que parecen funcionar en un análisis correlacional.

Ron Kohavi, director del grupo de experimentación de Microsoft y uno de los investigadores más citados en la materia, define la experimentación como "el método científico aplicado al producto digital." En su trabajo con el Experimentation Platform (ExP) de Microsoft, Kohavi documentó que entre el 66% y el 90% de las ideas que intuitivamente parecen mejoras producen resultados neutros o negativos cuando se testean. Ese número es la razón por la que experimentar importa: la intuición, incluso la de equipos expertos, es sistemáticamente incorrecta con una frecuencia que ningún negocio puede permitirse ignorar.

02 — El ciclo completo

El ciclo completo de experimentación.

La experimentación no es un evento — es un ciclo que se repite. El valor no viene de correr un test sino de construir el sistema que convierte aprendizajes en hipótesis mejores, que producen tests más precisos, que generan aprendizajes más ricos. Cada iteración del ciclo debería producir equipos que experimentan mejor que antes.

El ciclo de experimentación

01 Hipótesis Observación de datos + mecanismo causal propuesto + métrica que se espera mover

02 Diseño Tipo de experimento, tamaño de muestra, duración, criterios de éxito y guardrails

03 Ejecución Asignación aleatoria, tráfico estable, sin contaminación entre grupos, monitoreo de SRM

04 Análisis Significancia estadística, tamaño del efecto, análisis de segmentos, guardrail metrics

05 Aprendizaje Documentar resultado + mecanismo explicativo + impacto en próximas hipótesis

↩ el ciclo se reinicia — cada aprendizaje genera nuevas hipótesis

Por qué la hipótesis es la etapa más crítica

La calidad del experimento está determinada antes de que empiece por la calidad de la hipótesis. Una hipótesis débil — "probar si cambiamos el color del botón" — produce un resultado que, sea positivo o negativo, no enseña nada generalizable. Una hipótesis fuerte especifica: (1) la observación que la motiva, (2) el mecanismo causal propuesto y (3) la predicción específica. Ejemplo: "Los usuarios que llegan desde móvil tienen una tasa de conversión 35% menor que los de desktop. Creemos que la fricción está en el formulario de 6 campos — específicamente en los campos de empresa y cargo que son irrelevantes para B2C. Si eliminamos esos dos campos del flujo móvil, esperamos reducir el abandono de formulario en al menos un 15%." Esa hipótesis, si se confirma o rechaza, produce aprendizaje independientemente del resultado.

03 — El único método causal

Por qué la experimentación es el único método causal.

La analítica de marketing describe correlaciones en datos históricos. La atribución distribuye crédito entre touchpoints basándose en modelos que asumen causalidad pero no la comprueban. Solo la experimentación — con asignación aleatoria de grupos y control del entorno — puede establecer que A causó B con rigor estadístico.

La distinción importa porque los datos correlacionales generan conclusiones que pueden ser radicalmente incorrectas. El ejemplo clásico: el tráfico de branded search tiene tasas de conversión muy altas. Sin experimentación, la conclusión es "branded search es nuestro canal más valioso." Con un experimento de pausa — suspender las campañas de branded search y medir el impacto en conversiones — muchos negocios descubren que entre el 60% y el 80% de ese tráfico habría llegado de todos modos por búsqueda orgánica. La correlación entre inversión en branded search y conversiones era real; la causalidad, no.

David Hume formalizó el problema de la inducción en el siglo XVIII: no podemos inferir causalidad de la observación repetida. La estadística moderna — con Fisher, Neyman y Pearson construyendo el marco del testing de hipótesis en los años 1920-1930 — proveyó el andamiaje matemático para hacer inferencia causal válida. Lo que hoy llamamos A/B testing en marketing es esencialmente la aplicación de ese marco al comportamiento de los usuarios digitales, con las adaptaciones necesarias para el entorno de alta varianza y múltiples métricas del mundo del producto y el marketing.

04 — Qué hace válido un experimento

Qué hace a un experimento válido.

Un experimento puede producir un resultado estadísticamente significativo y ser completamente inválido. La significancia estadística garantiza que el resultado no es ruido — no garantiza que el resultado es verdadero. Los experimentos inválidos son más peligrosos que los resultados ruidosos porque producen confianza falsa en conclusiones incorrectas.

Asignación aleatoria genuina

El requisito más fundamental: los usuarios deben ser asignados al grupo de control o al grupo de tratamiento de forma aleatoria, sin sesgos de selección. Si los usuarios más comprometidos tienden a llegar por un canal específico y ese canal tiene más exposición a la variante, el experimento mide la diferencia entre segmentos, no el efecto de la variante. Las herramientas modernas de A/B testing hacen la aleatorización automáticamente — pero requieren que el equipo verifique que no hay contaminación entre grupos (usuarios que ven ambas variantes por distintos dispositivos o sesiones).

Una variable por experimento

Si el grupo de control ve el sitio actual y el grupo de tratamiento ve un nuevo titular, un nuevo CTA y un nuevo diseño del formulario al mismo tiempo, el experimento no puede atribuir el resultado a ninguna variable específica. El principio de "una variable por experimento" no es arbitrario — es la condición que hace interpretable el resultado. El multivariate testing (MVT) permite testear múltiples variables simultáneamente con diseños factoriales que mantienen la capacidad de interpretar efectos individuales — pero requiere volumen de tráfico significativamente mayor.

Duración suficiente y predefinida

Los experimentos deben correr durante el tiempo predefinido antes de analizar los resultados. Mirar los resultados diariamente y detener el experimento cuando "parece que hay un ganador" es el error estadístico más frecuente en experimentación de marketing — produce falsos positivos con una tasa muy superior al nivel de significancia declarado. El tamaño de muestra y la duración deben calcularse antes de comenzar, en base al efecto mínimo detectable y al poder estadístico deseado.

Métricas de guardrail

Todo experimento debe definir, además de la métrica primaria que busca mejorar, métricas de guardrail que no deben deteriorarse. Una variante que mejora la tasa de conversión pero reduce el ticket promedio puede producir menos revenue total — un resultado negativo que la métrica primaria no captura. Los guardrails protegen contra optimizaciones locales que deterioran el resultado global del negocio.

05 — El espectro de técnicas

El espectro de técnicas: de A/B test a geo-lift.

La experimentación es más amplia que el A/B test. El tipo de experimento correcto depende de la pregunta, el volumen de datos disponible y el grado de control que el equipo tiene sobre la asignación de grupos.

A/B test (experimento controlado clásico)

Un grupo ve la variante A (control), otro ve la variante B (tratamiento). Es el diseño más simple y el más confiable cuando se implementa correctamente. Requiere que la plataforma pueda asignar usuarios aleatoriamente a grupos y trackear su comportamiento por separado. Aplica a tests de landing pages, emails, copys de anuncios, flujos de onboarding, precios mostrados, UI de producto. El spoke de A/B testing básico desarrolla el diseño correcto en detalle.

Multivariate testing (MVT)

Testea múltiples elementos simultáneamente usando diseños factoriales que permiten medir el efecto de cada variable y las interacciones entre ellas. Requiere sustancialmente más tráfico que el A/B test simple — típicamente 5-10 veces más por combinación. El spoke de MVT explica cuándo el volumen adicional está justificado por la complejidad de la hipótesis.

Holdout experiments

Una fracción de usuarios es excluida de una feature o campaña mientras el resto la recibe. El grupo de holdout actúa como control a largo plazo — lo que permite medir el efecto acumulado de una iniciativa sobre semanas o meses, no solo en el período de lanzamiento. Es la técnica estándar para medir el impacto de programas de email, campañas de retención y features de producto que tienen efectos de largo plazo.

Geo-lift tests e incrementality testing

Cuando no es posible asignar usuarios individuales a grupos de forma aleatoria — como en campañas de TV, radio, OOH o campañas de Meta sin capacidad de exclusión granular — el experimento se diseña a nivel geográfico. Las regiones de tratamiento reciben la campaña; las regiones de control no. La diferencia en métricas de negocio entre regiones estima el efecto incremental de la campaña. El incrementality testing es la versión más rigurosa de este enfoque y es el único método que responde si una inversión de marketing produce ventas adicionales que no habrían ocurrido sin ella.

La experimentación no es una herramienta técnica que se delega al equipo de analytics. Es una disciplina epistémica que cambia cómo un equipo sabe lo que sabe. Los negocios que experimentan sistemáticamente no solo toman mejores decisiones de producto y marketing — desarrollan una relación diferente con la incertidumbre. Aprenden a preferir estar equivocados rápido y saberlo, sobre estar equivocados lento y no saberlo.

Lisandro Iserte

06 — Conexiones

Cómo conecta la experimentación con el sistema de marketing.

Rendimiento

La experimentación es el método de validación del cluster de Rendimiento. El árbol de métricas identifica dónde está la brecha de rendimiento; la experimentación verifica si las intervenciones propuestas la cierran. La atribución distribuye crédito entre canales basándose en modelos — la experimentación valida si esos modelos reflejan la causalidad real. Los reportes y dashboards muestran correlaciones; los experimentos convierten las correlaciones más importantes en preguntas causales respondibles.

Crecimiento

El CRO (Conversion Rate Optimization) es fundamentalmente experimentación aplicada al funnel de conversión. Cada cambio en una landing page, un flujo de onboarding o un proceso de checkout es una hipótesis que merece un test. La adquisición paga se optimiza a través de experimentos continuos de copy, audiencia, oferta y canal. Los growth loops se diseñan con hipótesis sobre qué incentivos producen referidos — hipótesis que la experimentación puede validar o refutar antes de escalar la inversión.

Oferta

El pricing es una de las áreas donde la experimentación produce los mayores retornos y la menor cultura de testing. Los experimentos de precio — mostrar distintos precios a distintos segmentos, testear estructuras de packaging, evaluar el impacto de free trials — son éticamente complejos pero metodológicamente accesibles. La propuesta de valor se valida con tests de mensaje en distintos canales — qué ángulo de comunicación produce mayor conversión en qué segmento. El diseño de producto itera sobre experimentos de feature: qué funcionalidades aumentan la retención, cuál es el camino de onboarding con menor abandono.

Estrategia

La experimentación informa el diagnóstico estratégico con evidencia causal, no solo descriptiva. La priorización de iniciativas mejora cuando el backlog incluye el costo de aprendizaje esperado de cada experimento — no solo el upside potencial si la hipótesis se confirma. La estrategia go-to-market puede diseñarse como un conjunto de hipótesis explícitas — sobre segmento, canal, mensaje y oferta — que los primeros meses de lanzamiento testean sistemáticamente.

Marca y mercado

La experimentación tiene límites naturales en el territorio de la identidad de marca. Los tests de A/B en copy y visual producen aprendizajes sobre qué versión convierte más en el corto plazo — no sobre qué versión construye más brand equity en el largo. Esta tensión entre optimización de corto plazo y construcción de marca es real: un titular más agresivo puede mejorar la conversión inmediata y deteriorar la percepción de marca en el mediano. La investigación de mercado cualitativa complementa la experimentación cuantitativa con el contexto necesario para interpretar los resultados sin optimizar hacia métricas de corto plazo que distorsionan el posicionamiento.

Fidelización

El lifecycle marketing se optimiza a través de experimentos de secuencia, cadencia y contenido de comunicaciones. Los programas de lealtad se diseñan con hipótesis sobre qué incentivos producen recompra — y la experimentación los valida antes de comprometer la economía del programa a escala. La retención se mejora con experimentos de onboarding que identifican qué acciones en los primeros 7 días predicen retención a 90 días — y cuáles son correlaciones sin poder causal.

07 — Errores frecuentes

Errores frecuentes de experimentación.

Testear sin hipótesis explícita

El error más común y el más costoso: correr un test para "ver qué pasa" sin un mecanismo causal propuesto. Si el resultado es positivo, el equipo lo implementa sin entender por qué funcionó — y sin ese entendimiento, no puede replicar el aprendizaje en contextos distintos. Si el resultado es negativo, no aprende nada porque no había una hipótesis que refutar. La hipótesis es el instrumento que convierte un test en conocimiento.

Detener el test cuando "parece que hay un ganador"

El "peeking problem" — mirar los resultados intermedios y detener el test cuando la significancia llega al 95% — produce una tasa real de falsos positivos del 30-40%, no del 5% que el nivel de significancia promete. La duración del test debe definirse antes de comenzar, en base al tamaño de muestra calculado, y respetarse sin excepciones. Si el resultado parece obvio antes de tiempo, la respuesta correcta es documentar la observación y esperar — no declarar ganador.

Correr múltiples tests sobre la misma métrica sin corrección

Si se corren 20 tests simultáneos sobre la misma landing page, se espera que uno de ellos muestre significancia estadística al 95% por azar puro — aunque ningún cambio tenga efecto real. Este problema de comparaciones múltiples requiere correcciones estadísticas (Bonferroni, Benjamini-Hochberg) cuando los tests comparten población y métrica. Los equipos que corren muchos tests sin esta corrección inflacionar su tasa de "ganadores" y construyen sobre fundamentos estadísticos frágiles.

Implementar solo los resultados positivos

Si el equipo solo documenta y actúa sobre los tests que "ganan", el conocimiento acumulado está sesgado hacia las hipótesis confirmadas. Los tests negativos enseñan exactamente lo mismo que los positivos — y a veces más, porque eliminan una dirección del espacio de hipótesis y obligan a buscar el mecanismo correcto. Un sistema de experimentación maduro trata los resultados nulos con el mismo rigor y la misma documentación que los positivos.

No verificar la calidad del Sample Ratio Mismatch (SRM)

El SRM ocurre cuando la distribución real de usuarios entre control y tratamiento difiere significativamente de la distribución esperada — lo que indica un problema en la implementación del experimento (bug en el código de asignación, diferencias en el tracking entre grupos, bot traffic). Un experimento con SRM produce resultados que no reflejan el efecto real del cambio. Verificar el SRM antes de analizar los resultados es obligatorio.

08 — Cuándo experimentar

Cuándo experimentar — y cuándo no.

Experimentá cuando…

Hay suficiente tráfico para detectar el efecto que importa. Si la tasa de conversión base es del 2% y el efecto mínimo que hace económicamente viable el cambio es del 20% relativo (llegar al 2.4%), el test requiere aproximadamente 25.000 visitantes por variante. Por debajo de ese volumen, los resultados son ruido. La calculadora de Evan Miller es la referencia estándar para este cálculo.

La pregunta es de optimización, no de descubrimiento. La experimentación responde "¿cuál de estas dos opciones funciona mejor?" — no "¿qué opciones existen?" o "¿por qué los usuarios se comportan así?" Para preguntas de descubrimiento, la investigación cualitativa es más eficiente.

El costo del error es alto. Si un cambio de precio, un rediseño de flujo de onboarding o una nueva estructura de packaging puede deteriorar significativamente el negocio si sale mal, experimentar antes de implementar es la única forma de reducir el riesgo a un nivel aceptable.

No experimentes cuando…

El volumen es insuficiente para el efecto relevante. Un test subpotenciado produce resultados no concluyentes que pueden confundirse con evidencia de que no hay efecto. Es mejor no correr el test que correr uno que no puede responder la pregunta.

El cambio es estratégico e irreversible. Algunos cambios de posicionamiento, de arquitectura de producto o de modelo de negocio no son candidatos para A/B testing — son decisiones estratégicas que requieren el marco del diagnóstico estratégico, no del experimento controlado.

El contexto cambia más rápido que el test puede correr. En situaciones de alta variabilidad externa (crisis, estacionalidad extrema, cambios regulatorios súbitos), los resultados de un experimento de 4 semanas reflejan el período en que corrió, no la realidad general. En esos contextos, las decisiones basadas en datos históricos y juicio experto son más confiables que los experimentos.

09 — Preguntas frecuentes

Preguntas frecuentes sobre experimentación en marketing.

¿Experimentación es lo mismo que A/B testing?

No. El A/B testing es una técnica dentro de la experimentación — la más común, pero no la única. Lo que define a la experimentación es el proceso: hipótesis fundamentada, asignación aleatoria de grupos, medición estadísticamente válida y aprendizaje sistematizado. Sin ese proceso, un A/B test es solo un clic de botón en una herramienta que puede producir conclusiones incorrectas con apariencia de rigor.

¿Qué diferencia hay entre experimentación y analítica?

La analítica describe y diagnostica — registra lo que ocurrió y busca patrones. La experimentación establece causalidad — controla las condiciones para medir el efecto de un cambio específico. Sin experimentación, la analítica produce correlaciones que pueden o no ser causales. Son herramientas complementarias: la analítica identifica las preguntas; la experimentación las responde con evidencia causal.

¿Cuántos tests hay que correr para que sea valiosa?

No hay un número mágico, pero el patrón es claro: el valor crece con la velocidad y el volumen. Ron Kohavi encontró que solo el 10-30% de los tests produce mejoras significativas. Para obtener aprendizajes consistentes, un equipo necesita al menos 20-30 tests por año. Los equipos más maduros corren cientos simultáneamente. La clave es el sistema que procesa los aprendizajes — no el número de tests en sí.

10 — Referencias

Referencias y bibliografía.

Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press. Cap. 1–3.

Microsoft Research. (2024). Experimentation Platform (ExP). Microsoft Research.

Fisher, R. A. (1935). The Design of Experiments. Oliver & Boyd. — Fundamentos del testing de hipótesis aplicados a la experimentación moderna.

Ries, E. (2011). The Lean Startup. Crown Business. Cap. 7–8: "Measure."

Croll, A. & Yoskovitz, B. (2013). Lean Analytics. O'Reilly. Cap. 5.

Kaushik, A. (2009). Web Analytics 2.0. Sybex. Cap. 8.

Términos del glosario

A/B Test Métrica KPI Conversión Tasa de Conversión Datos Análisis de Datos Iteración Funnel CRO MVP Lean Startup

Siguiente artículo

Entendés qué es la experimentación y cuándo usarla. Ahora: cómo diseñar tu primer A/B test correctamente — hipótesis, control, variante y los pasos que la mayoría saltea.

A/B Testing básico →

Navegación

← Volver al subhubExperimentación Siguiente spoke →A/B Testing básico

Experimentaciónen marketing:hipótesis y prueba.