Home/Biblioteca/Rendimiento/Experimentación
Subhub · Cluster Rendimiento

Experimentación:
la diferencia entre opinar
y saber.

Autor: Lisandro IserteActualizado: 2 de abril, 2026Lectura: 15 min.
Experimentación — Biblioteca · Lisandro Iserte
Definición rápida

Experimentación y A/B testing: método científico aplicado a marketing. Diseñar tests con significancia estadística, aprender de forma iterativa y construir conocimiento compuesto sobre qué funciona — y qué no.

¿Qué es experimentación y por qué importa?

La experimentación resuelve un problema fundamental: la opinión es barata, la evidencia es costosa. Todos tienen opinión sobre qué color de botón convierte más. La experimentación te dice cuál realmente convierte con tu audiencia, en tu contexto.

Ron Kohavi lo documentó en Trustworthy Online Controlled Experiments: en Microsoft, dos tercios de los experimentos no muestran mejora. Eso significa que sin experimentar, dos de cada tres cambios que implementás creyendo que mejoran algo — no lo hacen. La experimentación no es lujo — es protección contra el autoengaño.

La diferencia entre experimentación y “probar cosas” es el mismo que entre medicina basada en evidencia y remedios caseros. Ambos pueden funcionar, pero solo uno construye conocimiento sistemático. Un buen experimento tiene hipótesis, métrica primaria, sample size calculado y criterio de parada predefinido.

En el cluster Rendimiento, experimentación es el cuarto subhub porque depende de los tres anteriores: KPIs (qué medir), tracking (datos correctos) y atribución (entender canales). Sin esos tres, experimentar es disparar a oscuras.

Los 3 niveles de madurez experimental

Según cómo usa la experimentación para decidir, un equipo puede estar en uno de tres niveles.

1

Cambios sin testear

Se hacen cambios porque alguien cree que van a funcionar. No hay hipótesis, no hay control, no hay medición de impacto. El HiPPO (Highest Paid Person’s Opinion) decide. Los “tests” son comparaciones antes/después sin grupo control — imposible separar el efecto del cambio del efecto del contexto.

2

A/B testing estructurado

Hay hipótesis documentadas, sample size calculado, significancia estadística como criterio. Se corren 2-5 tests/mes con rigor. Los resultados se documentan y se comparten. Pero la experimentación es puntual — proyecto, no cultura.

3

Cultura de experimentación continua

Experimentar es el default, no la excepción. Backlog priorizado por impacto estimado, cadencia semanal de tests, resultados alimentan producto y estrategia. Se corren 10-50+ tests/mes. Cada test genera aprendizaje que informa los siguientes. El conocimiento es compuesto: se acumula.

La mayoría están en nivel 1: cambian cosas sin testear. El salto a nivel 2 (A/B testing con hipótesis, sample size y significancia) es donde la mayoría puede generar impacto inmediato. El nivel 3 requiere volumen, herramientas y cultura organizacional.

Los 5 pilares de un buen experimento

Un experimento que genera conocimiento real tiene cinco pilares.

1

Hipótesis clara: si X entonces Y porque Z

No “vamos a probar un botón rojo”. Sí: “si cambiamos el CTA de ‘Registrate’ a ‘Empezá gratis’, la tasa de conversión sube porque reduce fricción percibida de costo”. La hipótesis conecta cambio con resultado esperado con razón. Sin “porque Z”, no aprendés nada del resultado — sabés qué pasó pero no por qué.

2

Métrica primaria + guardrails

Una sola métrica primaria que define éxito/fracaso. Si querés mover conversión, tasa de conversión es la primaria. Guardrail métricas protegen contra gaming: si conversión sube pero calidad de lead cae, el test no ganó.

3

Sample size calculado antes de correr

~350-400 conversiones por variante para detectar lift del 10% con 80% poder. Si conversís al 2%, necesitás ~18.000 visitantes por variante. Calculá ANTES con tu baseline y tu MDE (mínimo efecto detectable). Si no tenés volumen, hacé cambios grandes en vez de tests incrementales.

4

Criterio de parada predefinido

Definí antes de empezar: sample size objetivo + duración mínima (7-14 días para capturar ciclos semanales) + duración máxima. No pares apenas alcancés significancia (peeking bias). No corras infinitamente. Si no alcanzás significancia en el tiempo definido, el efecto es muy pequeño para tu tráfico.

5

Documentación de aprendizaje

Cada test genera un aprendizaje, no solo un ganador. Documentá hipótesis, resultado, confianza, y — críticamente — qué aprendiste. Los tests “fallidos” son tan valiosos como los exitosos: te dicen qué NO mueve la métrica. Kohavi lo resumió: correr tests es fácil, aprender de ellos es difícil.

El mejor programa de experimentación que construí no fue el que corría más tests — fue el que construía conocimiento compuesto. Cada test informaba el siguiente. Documentábamos aprendizajes, no solo ganadores. Después de 6 meses, sabíamos más sobre nuestra audiencia que cualquier competidor. Eso es ventaja sostenible.

Lisandro Iserte

Qué incluye y qué no incluye este subhub

Este subhub incluye

  • A/B testing, multivariate, diseño de experimentos
  • Significancia, poder, sample size, MDE
  • Bandit algorithms, experimentación a escala
  • Cultura de experimentación, aprendizaje iterativo

Este subhub no incluye

Peeking bias: el error que infla tus resultados

Peeking es el error más común y más peligroso en experimentación: mirar resultados continuamente y parar cuando alcancés p<0.05. Parece razonable — ¿por qué seguir corriendo un test que ya tiene resultado? Porque el resultado es mentira.

Crook, Kohavi et al. lo cuantificaron: peeking infla la tasa de falsos positivos del 5% teórico al 20-30% real. Eso significa que 1 de cada 4 “ganadores” es un falso positivo. Implementás el cambio, no mejóra nada, y no entendés por qué. La razón: significancia estadística fluctua naturalmente durante el test — si parás en el momento “correcto”, captás una fluctuación al azar.

La solución: definí sample size y duración ANTES de empezar, y corré el test completo. Si necesitás mirar resultados intermedios, usá métodos que lo permiten: sequential testing (Wald), always-valid p-values, o bandits. Pero peeking naive con p-values clásicos es estadísticamente inválido.

Errores frecuentes

Peeking: parar cuando “ya ganó”

Infla falsos positivos al 20-30%. Definí sample size y duración antes. Corré completo. Si necesitás mirar antes, usá sequential testing.

Sample size insuficiente

100 conversiones por variante cuando necesitás 400. Termina en “no hay diferencia” por bajo poder, no porque no haya efecto. Calculá ANTES.

Demasiadas variantes

Cada variante adicional diluye tráfico. 5 variantes necesita ~2.5x el tráfico de 2 variantes. Multivariate crece exponencialmente: 3 elementos × 2 opciones = 8 variantes.

Confundir significancia estadística con práctica

Lift del 0.3% puede ser significativo con mucho tráfico. ¿Vale implementar? ¿Impacto material en negocio? Significancia estadística es necesaria pero no suficiente.

No documentar aprendizajes

Correr tests sin documentar hipótesis, resultado y aprendizaje es desperdiciar conocimiento. El valor compuesto está en la acumulación de aprendizajes, no en victorias individuales.

9 guías de experimentación

Organizadas en tres niveles según la complejidad.

Nivel inicial — Fundamentos 01

¿Qué es la experimentación?

Marco completo: método científico aplicado a marketing y producto.

02

A/B testing básico

Fundamentos: cómo diseñar y correr tu primer test correctamente.

03

Significancia estadística

Qué significa p<0.05 y por qué no es suficiente por sí solo.

Nivel intermedio — Diseño y ejecución 04

Diseño de experimentos

Hipótesis, métrica primaria, sample size, criterio de parada.

05

Multivariate testing

Testear múltiples elementos simultáneamente: cuándo y cómo.

06

Tamaño de muestra

Calcular sample size: MDE, significancia, poder, baseline.

Nivel avanzado — Escala y cultura 07

Experimentación a escala

Correr decenas de tests simultáneamente sin interferencia.

08

Bandit algorithms

Optimización continua: explotar lo que funciona mientras explorás.

09

Cultura de experimentación

Organizaciones donde experimentar es default, no excepción.

Preguntas frecuentes

¿Cuánto tráfico necesito para A/B testing?

~350-400 conversiones por variante para detectar lift del 10% con 80% poder. Si convertís al 2%, ~18.000 visitantes por variante. Para lifts más pequeños, crece exponencialmente.

¿Cuándo parar un A/B test?

Definí criterio antes: sample size + duración mínima (7-14 días). No pares por peeking. Si no alcanzás significancia en el tiempo definido, el efecto es muy pequeño para tu tráfico.

¿Significancia estadística = éxito?

No. p<0.05 solo dice que probablemente no es azar. Lift del 0.5% puede ser significativo pero irrelevante. Evaluá siempre significancia práctica: ¿justifica implementar?

Referencias y bibliografía

Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press.

Crook, T., et al. (2009). Seven pitfalls to avoid when running controlled experiments on the web. KDD ’09.

Deng, A., & Shi, X. (2016). Data-driven metric development for online controlled experiments. KDD ’16.

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

Thomke, S. (2020). Experimentation Works. Harvard Business Review Press.

Siroker, D., & Koomen, P. (2013). A/B Testing. Wiley.

Términos relacionados

Siguiente paso

Experimentación genera conocimiento. Reporting lo transforma en decisiones que la organización ejecuta.

Ir a Reporting y Dashboards →