Experimentación:
la diferencia entre opinar
y saber.

Experimentación y A/B testing: método científico aplicado a marketing. Diseñar tests con significancia estadística, aprender de forma iterativa y construir conocimiento compuesto sobre qué funciona — y qué no.
¿Qué es experimentación y por qué importa?
La experimentación resuelve un problema fundamental: la opinión es barata, la evidencia es costosa. Todos tienen opinión sobre qué color de botón convierte más. La experimentación te dice cuál realmente convierte con tu audiencia, en tu contexto.
Ron Kohavi lo documentó en Trustworthy Online Controlled Experiments: en Microsoft, dos tercios de los experimentos no muestran mejora. Eso significa que sin experimentar, dos de cada tres cambios que implementás creyendo que mejoran algo — no lo hacen. La experimentación no es lujo — es protección contra el autoengaño.
La diferencia entre experimentación y “probar cosas” es el mismo que entre medicina basada en evidencia y remedios caseros. Ambos pueden funcionar, pero solo uno construye conocimiento sistemático. Un buen experimento tiene hipótesis, métrica primaria, sample size calculado y criterio de parada predefinido.
En el cluster Rendimiento, experimentación es el cuarto subhub porque depende de los tres anteriores: KPIs (qué medir), tracking (datos correctos) y atribución (entender canales). Sin esos tres, experimentar es disparar a oscuras.
Los 3 niveles de madurez experimental
Según cómo usa la experimentación para decidir, un equipo puede estar en uno de tres niveles.
Cambios sin testear
Se hacen cambios porque alguien cree que van a funcionar. No hay hipótesis, no hay control, no hay medición de impacto. El HiPPO (Highest Paid Person’s Opinion) decide. Los “tests” son comparaciones antes/después sin grupo control — imposible separar el efecto del cambio del efecto del contexto.
A/B testing estructurado
Hay hipótesis documentadas, sample size calculado, significancia estadística como criterio. Se corren 2-5 tests/mes con rigor. Los resultados se documentan y se comparten. Pero la experimentación es puntual — proyecto, no cultura.
Cultura de experimentación continua
Experimentar es el default, no la excepción. Backlog priorizado por impacto estimado, cadencia semanal de tests, resultados alimentan producto y estrategia. Se corren 10-50+ tests/mes. Cada test genera aprendizaje que informa los siguientes. El conocimiento es compuesto: se acumula.
La mayoría están en nivel 1: cambian cosas sin testear. El salto a nivel 2 (A/B testing con hipótesis, sample size y significancia) es donde la mayoría puede generar impacto inmediato. El nivel 3 requiere volumen, herramientas y cultura organizacional.
Los 5 pilares de un buen experimento
Un experimento que genera conocimiento real tiene cinco pilares.
Hipótesis clara: si X entonces Y porque Z
No “vamos a probar un botón rojo”. Sí: “si cambiamos el CTA de ‘Registrate’ a ‘Empezá gratis’, la tasa de conversión sube porque reduce fricción percibida de costo”. La hipótesis conecta cambio con resultado esperado con razón. Sin “porque Z”, no aprendés nada del resultado — sabés qué pasó pero no por qué.
Métrica primaria + guardrails
Una sola métrica primaria que define éxito/fracaso. Si querés mover conversión, tasa de conversión es la primaria. Guardrail métricas protegen contra gaming: si conversión sube pero calidad de lead cae, el test no ganó.
Sample size calculado antes de correr
~350-400 conversiones por variante para detectar lift del 10% con 80% poder. Si conversís al 2%, necesitás ~18.000 visitantes por variante. Calculá ANTES con tu baseline y tu MDE (mínimo efecto detectable). Si no tenés volumen, hacé cambios grandes en vez de tests incrementales.
Criterio de parada predefinido
Definí antes de empezar: sample size objetivo + duración mínima (7-14 días para capturar ciclos semanales) + duración máxima. No pares apenas alcancés significancia (peeking bias). No corras infinitamente. Si no alcanzás significancia en el tiempo definido, el efecto es muy pequeño para tu tráfico.
Documentación de aprendizaje
Cada test genera un aprendizaje, no solo un ganador. Documentá hipótesis, resultado, confianza, y — críticamente — qué aprendiste. Los tests “fallidos” son tan valiosos como los exitosos: te dicen qué NO mueve la métrica. Kohavi lo resumió: correr tests es fácil, aprender de ellos es difícil.
El mejor programa de experimentación que construí no fue el que corría más tests — fue el que construía conocimiento compuesto. Cada test informaba el siguiente. Documentábamos aprendizajes, no solo ganadores. Después de 6 meses, sabíamos más sobre nuestra audiencia que cualquier competidor. Eso es ventaja sostenible.
Lisandro IserteQué incluye y qué no incluye este subhub
Este subhub incluye
- A/B testing, multivariate, diseño de experimentos
- Significancia, poder, sample size, MDE
- Bandit algorithms, experimentación a escala
- Cultura de experimentación, aprendizaje iterativo
Este subhub no incluye
- Atribución multi-canal → Atribución y Medición
- Incrementality testing cross-canal → Atribución
- CRO táctico → Conversión y CRO
- Reporting → Reporting y Dashboards
Peeking bias: el error que infla tus resultados
Peeking es el error más común y más peligroso en experimentación: mirar resultados continuamente y parar cuando alcancés p<0.05. Parece razonable — ¿por qué seguir corriendo un test que ya tiene resultado? Porque el resultado es mentira.
Crook, Kohavi et al. lo cuantificaron: peeking infla la tasa de falsos positivos del 5% teórico al 20-30% real. Eso significa que 1 de cada 4 “ganadores” es un falso positivo. Implementás el cambio, no mejóra nada, y no entendés por qué. La razón: significancia estadística fluctua naturalmente durante el test — si parás en el momento “correcto”, captás una fluctuación al azar.
La solución: definí sample size y duración ANTES de empezar, y corré el test completo. Si necesitás mirar resultados intermedios, usá métodos que lo permiten: sequential testing (Wald), always-valid p-values, o bandits. Pero peeking naive con p-values clásicos es estadísticamente inválido.
Errores frecuentes
Peeking: parar cuando “ya ganó”
Infla falsos positivos al 20-30%. Definí sample size y duración antes. Corré completo. Si necesitás mirar antes, usá sequential testing.
Sample size insuficiente
100 conversiones por variante cuando necesitás 400. Termina en “no hay diferencia” por bajo poder, no porque no haya efecto. Calculá ANTES.
Demasiadas variantes
Cada variante adicional diluye tráfico. 5 variantes necesita ~2.5x el tráfico de 2 variantes. Multivariate crece exponencialmente: 3 elementos × 2 opciones = 8 variantes.
Confundir significancia estadística con práctica
Lift del 0.3% puede ser significativo con mucho tráfico. ¿Vale implementar? ¿Impacto material en negocio? Significancia estadística es necesaria pero no suficiente.
No documentar aprendizajes
Correr tests sin documentar hipótesis, resultado y aprendizaje es desperdiciar conocimiento. El valor compuesto está en la acumulación de aprendizajes, no en victorias individuales.
9 guías de experimentación
Organizadas en tres niveles según la complejidad.
Nivel inicial — Fundamentos 01¿Qué es la experimentación?
Marco completo: método científico aplicado a marketing y producto.
A/B testing básico
Fundamentos: cómo diseñar y correr tu primer test correctamente.
Significancia estadística
Qué significa p<0.05 y por qué no es suficiente por sí solo.
Diseño de experimentos
Hipótesis, métrica primaria, sample size, criterio de parada.
Multivariate testing
Testear múltiples elementos simultáneamente: cuándo y cómo.
Tamaño de muestra
Calcular sample size: MDE, significancia, poder, baseline.
Experimentación a escala
Correr decenas de tests simultáneamente sin interferencia.
Bandit algorithms
Optimización continua: explotar lo que funciona mientras explorás.
Cultura de experimentación
Organizaciones donde experimentar es default, no excepción.
Preguntas frecuentes
¿Cuánto tráfico necesito para A/B testing?
~350-400 conversiones por variante para detectar lift del 10% con 80% poder. Si convertís al 2%, ~18.000 visitantes por variante. Para lifts más pequeños, crece exponencialmente.
¿Cuándo parar un A/B test?
Definí criterio antes: sample size + duración mínima (7-14 días). No pares por peeking. Si no alcanzás significancia en el tiempo definido, el efecto es muy pequeño para tu tráfico.
¿Significancia estadística = éxito?
No. p<0.05 solo dice que probablemente no es azar. Lift del 0.5% puede ser significativo pero irrelevante. Evaluá siempre significancia práctica: ¿justifica implementar?
Referencias y bibliografía
Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press.
Crook, T., et al. (2009). Seven pitfalls to avoid when running controlled experiments on the web. KDD ’09.
Deng, A., & Shi, X. (2016). Data-driven metric development for online controlled experiments. KDD ’16.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
Thomke, S. (2020). Experimentation Works. Harvard Business Review Press.
Siroker, D., & Koomen, P. (2013). A/B Testing. Wiley.
Términos relacionados