Experimentación: la diferencia entre opinar y saber.
Atribución te dice qué canales correlacionan con conversiones. Experimentación te dice cuáles las causan — y en qué magnitud. Pero el método importa: dos tercios de los experimentos no muestran mejora y el peeking infla los falsos positivos al 30%. Sin rigor estadístico, experimentar es solo opinar con dashboards.

La experimentación es el método científico aplicado a marketing y producto. Diseñar A/B tests con hipótesis explícita, sample size calculado, criterio de parada predefinido y significancia estadística — y, sobre todo, documentar el aprendizaje. La meta no es ganar tests: es construir conocimiento compuesto sobre tu audiencia.
- ¿Qué es experimentación y por qué importa?
- Los 3 niveles de madurez experimental
- Los 5 pilares de un buen experimento
- Peeking bias — el error que infla tus resultados
- Qué incluye y qué no incluye este subhub
- Errores frecuentes
- 9 guías de experimentación
- Cómo se conecta este subhub con el resto del sistema
- Preguntas frecuentes
- Referencias y bibliografía
¿Qué es experimentación y por qué importa?
La experimentación resuelve un problema viejo: la opinión es barata, la evidencia es costosa. Todos tienen opinión sobre qué color de botón convierte más, qué titular pega mejor, qué precio rinde más. Casi nadie sabe — porque saber requiere comparar contra un grupo control y descartar el azar.
Ron Kohavi lo cuantificó en Trustworthy Online Controlled Experiments (Cambridge University Press, 2020), basado en su trabajo en Microsoft, Amazon y LinkedIn: dos tercios de los experimentos no muestran mejora. Significa que sin testear, dos de cada tres cambios que implementás creyendo que ayudan no hacen nada — o empeoran las cosas y nadie se entera. Experimentar no es lujo de equipos avanzados. Es protección contra el autoengaño cotidiano.
La diferencia entre experimentación y "probar cosas" es la misma que entre medicina basada en evidencia y remedios caseros. Ambos pueden funcionar — pero solo uno construye conocimiento sistemático. Un experimento serio tiene hipótesis explícita, una métrica primaria, sample size calculado antes de empezar, y criterio de parada predefinido. Sin esos cuatro elementos, lo que hacés es buscar el resultado que ya querías encontrar.
En el cluster Rendimiento, experimentación es el cuarto subhub porque depende de los tres anteriores: Analítica y KPIs define qué medir, Tracking garantiza que los datos lleguen sin mentir, y Atribución contextualiza qué canales correlacionan con qué resultados. Sin esas tres capas firmes, experimentar es disparar a oscuras y celebrar cuando la bala suena fuerte.
Los 3 niveles de madurez experimental
Según cómo usa la experimentación para decidir, un equipo opera en uno de tres niveles. La diferencia no es presupuesto — es disciplina.
Cambios sin testear (HiPPO)
Se hacen cambios porque alguien con autoridad cree que van a funcionar. No hay hipótesis, no hay control, no hay medición de impacto. El HiPPO — Highest Paid Person's Opinion — decide. Los "tests" son comparaciones antes/después sin grupo control, donde es imposible separar el efecto del cambio del efecto del contexto (estacionalidad, campañas paralelas, tendencia natural).
A/B testing estructurado
Hay hipótesis documentadas, sample size calculado antes, significancia estadística como criterio. Se corren 2 a 5 tests por mes con rigor. Los resultados se documentan y se comparten. Pero la experimentación sigue siendo puntual — un proyecto, no una cultura. Las decisiones grandes todavía las toma el HiPPO; los tests validan los detalles.
Cultura de experimentación continua
Experimentar es el default, no la excepción. Hay backlog priorizado por impacto estimado, cadencia semanal o quincenal de tests, y los resultados alimentan producto y estrategia. Se corren entre 10 y 50+ tests por mes. Cada test informa al siguiente. El conocimiento es compuesto: se acumula y diferencia a la organización de sus competidores.
La mayoría está en nivel 1. El salto a nivel 2 es donde el impacto inmediato es mayor: hipótesis + sample size + significancia detectan cambios que destruyen valor antes de implementarlos. El nivel 3 requiere volumen de tráfico, herramientas y, sobre todo, tolerancia organizacional a "perder" tests — algo más difícil de comprar que cualquier plataforma.
Los 5 pilares de un buen experimento
Un experimento que genera conocimiento real — no solo un ganador — apoya en cinco pilares. Quitá uno y el resultado deja de ser confiable.
Hipótesis clara: si X entonces Y porque Z
No "vamos a probar un botón rojo". Sí: "si cambiamos el CTA de 'Registrate' a 'Empezá gratis', la tasa de conversión sube porque reduce la fricción percibida de costo". La hipótesis conecta cambio con resultado esperado y, crítico, con razón. Sin "porque Z" no aprendés nada del resultado — sabés qué pasó pero no por qué, y lo que aprendiste no se transfiere al siguiente test.
Métrica primaria + guardrails
Una sola métrica primaria define éxito o fracaso. Si querés mover conversión, la primaria es tasa de conversión — punto. Después agregás guardrails: KPIs que protegen contra gaming. Si conversión sube pero la calidad del lead cae, o si el AOV se desploma, el test no ganó. Sin guardrails, optimizás métricas vanidosas a costa del negocio real.
Sample size calculado antes de correr
Aproximadamente 350-400 conversiones por variante para detectar un lift del 10% con 80% de poder estadístico. Si convertís al 2%, eso son ~18.000 visitantes por variante. Calculá ANTES con tu baseline y tu MDE (mínimo efecto detectable). Si no tenés volumen suficiente, hacé cambios grandes con efecto esperado mayor — los tests incrementales requieren mucho tráfico.
Criterio de parada predefinido
Definí antes de empezar: sample size objetivo, duración mínima de 7 a 14 días para capturar ciclos semanales completos, y duración máxima. No pares apenas alcanzás significancia — eso es peeking bias y arruina la validez. No corras infinitamente. Si no alcanzás significancia en el tiempo definido, el efecto es muy chico para tu volumen actual: ese también es un resultado válido y accionable.
Documentación del aprendizaje
Cada test genera un aprendizaje, no solo un ganador o un perdedor. Documentá la hipótesis, el resultado, el grado de confianza y, crítico, qué aprendiste sobre tu audiencia. Los tests "fallidos" valen tanto como los exitosos: te dicen qué no mueve la métrica. Kohavi lo resume así: correr tests es fácil, aprender de ellos es difícil — y el ROI compuesto está en lo segundo.
El mejor programa de experimentación que construí no fue el que corría más tests — fue el que documentaba aprendizajes, no solo ganadores. Cada test informaba el siguiente, cada hipótesis fallida nos enseñaba algo del comprador. Después de seis meses sabíamos más sobre nuestra audiencia que cualquier competidor con el doble de presupuesto. Eso no se compra: se compone.
Lisandro IsertePeeking bias — el error que infla tus resultados
El error más común y más caro en experimentación es peeking: mirar resultados continuamente y parar el test apenas el p-value baja de 0,05. Parece razonable — ¿para qué seguir corriendo un test que ya tiene "ganador"? Porque ese ganador es, con altísima probabilidad, una mentira.
Con peeking continuo, 1 de cada 4 "ganadores" es un falso positivo · cifras derivadas de Crook, Frasca, Kohavi & Longbotham (KDD '09)
La razón es estadística: la significancia fluctúa naturalmente durante el test antes de estabilizarse. Si parás en el momento "correcto" — ese pico transitorio donde el p-value baja a 0,04 — capturás una fluctuación al azar y la confundís con un efecto real. Implementás el cambio, no mejora nada en producción, y nadie entiende por qué el test "ganador" no se replica.
La solución es disciplina, no más herramientas: definí sample size y duración antes de empezar y corré el test completo. Si necesitás mirar resultados intermedios sin sesgar el resultado, usá métodos diseñados para eso — sequential testing (Wald), always-valid p-values, o multi-armed bandits. Pero peeking ingenuo con p-values clásicos es estadísticamente inválido, por más razonable que parezca.
Qué incluye y qué no incluye este subhub
Este subhub incluye
- A/B testing, multivariate y diseño de experimentos
- Significancia estadística, poder, sample size y MDE
- Bandit algorithms y experimentación a escala
- Cultura de experimentación y aprendizaje iterativo
Este subhub no incluye
- Atribución multi-canal → Atribución y Medición
- Incrementality testing cross-canal → Atribución y Medición
- CRO táctico → Conversión y CRO
- Reporting de resultados → Reporting y Dashboards
Errores frecuentes
Peeking: parar cuando "ya ganó"
Infla la tasa de falsos positivos del 5% al 20-30%. Definí sample size y duración antes; corré el test completo. Si necesitás mirar antes, usá sequential testing o always-valid p-values.
Sample size insuficiente
Correr un test con 100 conversiones por variante cuando necesitás 400 termina en "no hay diferencia" por bajo poder estadístico, no porque el efecto no exista. El test no respondió la pregunta — la dejó sin respuesta. Calculá ANTES.
Demasiadas variantes en paralelo
Cada variante adicional diluye el tráfico. Cinco variantes necesitan ~2,5x el tráfico de dos. El multivariate crece exponencialmente: tres elementos × dos opciones cada uno son ocho variantes — casi siempre fuera del alcance del tráfico real.
Confundir significancia estadística con práctica
Un lift del 0,3% puede ser estadísticamente significativo con mucho tráfico. ¿Vale la pena implementar y mantener el cambio? ¿El impacto es material para el negocio? La significancia estadística es necesaria pero no suficiente — el filtro práctico viene después.
No documentar aprendizajes
Correr tests sin registrar hipótesis, resultado y aprendizaje es desperdiciar conocimiento. El valor compuesto está en la acumulación, no en victorias individuales. Un equipo que corre 30 tests sin documentar pierde más conocimiento que uno que corre 10 con disciplina.
9 guías de experimentación
Las nueve guías están organizadas en tres niveles de complejidad. El orden recomendado de lectura: fundamentos → diseño y ejecución → escala y cultura.
Nivel inicial — Fundamentos 01¿Qué es la experimentación?
Marco completo: método científico aplicado a marketing y producto.
A/B testing básico
Fundamentos: cómo diseñar y correr tu primer test sin errores que rompan el resultado.
Significancia estadística
Qué significa p<0.05, qué no significa y por qué no es suficiente por sí sola.
Diseño de experimentos
Hipótesis, métrica primaria, guardrails, sample size y criterio de parada.
Multivariate testing
Testear varios elementos simultáneamente: cuándo es útil y cuándo confunde.
Tamaño de muestra
Calcular sample size: MDE, significancia, poder y baseline en la práctica.
Experimentación a escala
Correr decenas de tests simultáneos sin interferencia entre experimentos.
Bandit algorithms
Optimización continua: explotar lo que funciona mientras seguís explorando.
Cultura de experimentación
Organizaciones donde experimentar es default y cada equipo tiene autonomía para testear.
Cómo se conecta este subhub con el resto del sistema
Experimentar bien toca cada cluster del sistema — no es una técnica aislada de Rendimiento. Estos son los puntos de contacto.
EstrategiaPriorizar qué testear es estratégico — no se experimenta sobre todo, se elige qué hipótesis vale la pena validar primero. MarcaCopy de marca, mensajes clave y CTAs son territorio fértil para A/B testing — pero las decisiones grandes de identidad se sostienen por estrategia, no por p-value. OfertaTestear precios, bundles y packaging genera aprendizaje rápido sobre elasticidad — territorio donde el HiPPO se equivoca más seguido de lo que admite. MercadoEl JTBD se valida con experimentos — cada hipótesis sobre por qué compra el cliente se convierte en un test concreto que la confirma o la tira a la basura. CrecimientoCRO táctico es experimentación aplicada al funnel — todo el toolkit de este subhub aplica directo a optimizar páginas y flujos de conversión. RendimientoIncrementality testing es el bridge natural — los experimentos cross-canal validan lo que la atribución solo correlaciona. FidelizaciónCada cambio en mecánicas de retención y programas de loyalty se testea antes de escalar — el costo de un programa mal diseñado es enorme y permanente.Preguntas frecuentes
¿Cuánto tráfico necesito para A/B testing?
Aproximadamente 350-400 conversiones por variante para detectar lift del 10% con 80% de poder. Si convertís al 2%, ~18.000 visitantes por variante. Para lifts más chicos crece exponencialmente. Si no tenés volumen, hacé cambios grandes con efecto esperado mayor.
¿Cuándo parar un A/B test?
Definí el criterio antes: sample size objetivo + duración mínima de 7-14 días. No pares por peeking apenas alcanzás significancia. Si no la alcanzás en el tiempo definido, el efecto es muy chico para tu volumen — eso también es un resultado válido.
¿Significancia estadística equivale a éxito?
No. Un p<0.05 solo dice que probablemente no es azar. Un lift del 0,5% puede ser significativo con mucho tráfico pero irrelevante para el negocio. Evaluá siempre las dos: significancia estadística (¿es real?) y significancia práctica (¿justifica implementar?).
Referencias y bibliografía
Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press.
Crook, T., Frasca, B., Kohavi, R. & Longbotham, R. (2009). Seven Pitfalls to Avoid when Running Controlled Experiments on the Web. KDD '09: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 1105-1114.
Thomke, S. (2020). Experimentation Works: The Surprising Power of Business Experiments. Harvard Business Review Press.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
Siroker, D. & Koomen, P. (2013). A/B Testing: The Most Powerful Way to Turn Clicks Into Customers. Wiley.
Ries, E. (2011). The Lean Startup: How Today's Entrepreneurs Use Continuous Innovation to Create Radically Successful Businesses. Crown Business.
Términos relacionadosExperimentación genera conocimiento. Reporting es donde ese conocimiento se convierte en decisiones que la organización ejecuta — o en dashboards que nadie mira.
Ir a Reporting y Dashboards →