Subhub · Cluster Rendimiento

Experimentación: la diferencia entre opinar y saber.

Q: ¿Cuándo parar un A/B test?

Definí el criterio antes de empezar: sample size objetivo + duración mínima de 7 a 14 días para capturar ciclos semanales. NO pares apenas alcanzás significancia (peeking bias infla los falsos positivos al 20-30%). Tampoco corras infinitamente. Si no alcanzás significancia en el tiempo definido, el efecto es muy chico para tu volumen actual.

Q: ¿Significancia estadística equivale a éxito?

No. Un p<0.05 solo significa que el resultado probablemente no es azar. Un lift del 0.5% puede ser estadísticamente significativo con mucho tráfico pero prácticamente irrelevante. Evaluá siempre las dos: significancia estadística (¿es real?) y significancia práctica (¿el lift justifica implementar y mantener el cambio?).

Atribución te dice qué canales correlacionan con conversiones. Experimentación te dice cuáles las causan — y en qué magnitud. Pero el método importa: dos tercios de los experimentos no muestran mejora y el peeking infla los falsos positivos al 30%. Sin rigor estadístico, experimentar es solo opinar con dashboards.

Autor: Lisandro Iserte Actualizado: 27 de abril, 2026 Lectura: 13 min.

Experimentación — cuarto subhub del cluster Rendimiento en la Biblioteca de Lisandro Iserte

Definición rápida

La experimentación es el método científico aplicado a marketing y producto. Diseñar A/B tests con hipótesis explícita, sample size calculado, criterio de parada predefinido y significancia estadística — y, sobre todo, documentar el aprendizaje. La meta no es ganar tests: es construir conocimiento compuesto sobre tu audiencia.

Tabla de contenidos

¿Qué es experimentación y por qué importa?
Los 3 niveles de madurez experimental
Los 5 pilares de un buen experimento
Peeking bias — el error que infla tus resultados
Qué incluye y qué no incluye este subhub
Errores frecuentes
9 guías de experimentación
Cómo se conecta este subhub con el resto del sistema
Preguntas frecuentes
Referencias y bibliografía

¿Qué es experimentación y por qué importa?

La experimentación resuelve un problema viejo: la opinión es barata, la evidencia es costosa. Todos tienen opinión sobre qué color de botón convierte más, qué titular pega mejor, qué precio rinde más. Casi nadie sabe — porque saber requiere comparar contra un grupo control y descartar el azar.

Ron Kohavi lo cuantificó en Trustworthy Online Controlled Experiments (Cambridge University Press, 2020), basado en su trabajo en Microsoft, Amazon y LinkedIn: dos tercios de los experimentos no muestran mejora. Significa que sin testear, dos de cada tres cambios que implementás creyendo que ayudan no hacen nada — o empeoran las cosas y nadie se entera. Experimentar no es lujo de equipos avanzados. Es protección contra el autoengaño cotidiano.

La diferencia entre experimentación y "probar cosas" es la misma que entre medicina basada en evidencia y remedios caseros. Ambos pueden funcionar — pero solo uno construye conocimiento sistemático. Un experimento serio tiene hipótesis explícita, una métrica primaria, sample size calculado antes de empezar, y criterio de parada predefinido. Sin esos cuatro elementos, lo que hacés es buscar el resultado que ya querías encontrar.

En el cluster Rendimiento, experimentación es el cuarto subhub porque depende de los tres anteriores: Analítica y KPIs define qué medir, Tracking garantiza que los datos lleguen sin mentir, y Atribución contextualiza qué canales correlacionan con qué resultados. Sin esas tres capas firmes, experimentar es disparar a oscuras y celebrar cuando la bala suena fuerte.

Los 3 niveles de madurez experimental

Según cómo usa la experimentación para decidir, un equipo opera en uno de tres niveles. La diferencia no es presupuesto — es disciplina.

Cambios sin testear (HiPPO)

Se hacen cambios porque alguien con autoridad cree que van a funcionar. No hay hipótesis, no hay control, no hay medición de impacto. El HiPPO — Highest Paid Person's Opinion — decide. Los "tests" son comparaciones antes/después sin grupo control, donde es imposible separar el efecto del cambio del efecto del contexto (estacionalidad, campañas paralelas, tendencia natural).

A/B testing estructurado

Hay hipótesis documentadas, sample size calculado antes, significancia estadística como criterio. Se corren 2 a 5 tests por mes con rigor. Los resultados se documentan y se comparten. Pero la experimentación sigue siendo puntual — un proyecto, no una cultura. Las decisiones grandes todavía las toma el HiPPO; los tests validan los detalles.

Cultura de experimentación continua

Experimentar es el default, no la excepción. Hay backlog priorizado por impacto estimado, cadencia semanal o quincenal de tests, y los resultados alimentan producto y estrategia. Se corren entre 10 y 50+ tests por mes. Cada test informa al siguiente. El conocimiento es compuesto: se acumula y diferencia a la organización de sus competidores.

La mayoría está en nivel 1. El salto a nivel 2 es donde el impacto inmediato es mayor: hipótesis + sample size + significancia detectan cambios que destruyen valor antes de implementarlos. El nivel 3 requiere volumen de tráfico, herramientas y, sobre todo, tolerancia organizacional a "perder" tests — algo más difícil de comprar que cualquier plataforma.

Los 5 pilares de un buen experimento

Un experimento que genera conocimiento real — no solo un ganador — apoya en cinco pilares. Quitá uno y el resultado deja de ser confiable.

Hipótesis clara: si X entonces Y porque Z

No "vamos a probar un botón rojo". Sí: "si cambiamos el CTA de 'Registrate' a 'Empezá gratis', la tasa de conversión sube porque reduce la fricción percibida de costo". La hipótesis conecta cambio con resultado esperado y, crítico, con razón. Sin "porque Z" no aprendés nada del resultado — sabés qué pasó pero no por qué, y lo que aprendiste no se transfiere al siguiente test.

Métrica primaria + guardrails

Una sola métrica primaria define éxito o fracaso. Si querés mover conversión, la primaria es tasa de conversión — punto. Después agregás guardrails: KPIs que protegen contra gaming. Si conversión sube pero la calidad del lead cae, o si el AOV se desploma, el test no ganó. Sin guardrails, optimizás métricas vanidosas a costa del negocio real.

Sample size calculado antes de correr

Aproximadamente 350-400 conversiones por variante para detectar un lift del 10% con 80% de poder estadístico. Si convertís al 2%, eso son ~18.000 visitantes por variante. Calculá ANTES con tu baseline y tu MDE (mínimo efecto detectable). Si no tenés volumen suficiente, hacé cambios grandes con efecto esperado mayor — los tests incrementales requieren mucho tráfico.

Criterio de parada predefinido

Definí antes de empezar: sample size objetivo, duración mínima de 7 a 14 días para capturar ciclos semanales completos, y duración máxima. No pares apenas alcanzás significancia — eso es peeking bias y arruina la validez. No corras infinitamente. Si no alcanzás significancia en el tiempo definido, el efecto es muy chico para tu volumen actual: ese también es un resultado válido y accionable.

Documentación del aprendizaje

Cada test genera un aprendizaje, no solo un ganador o un perdedor. Documentá la hipótesis, el resultado, el grado de confianza y, crítico, qué aprendiste sobre tu audiencia. Los tests "fallidos" valen tanto como los exitosos: te dicen qué no mueve la métrica. Kohavi lo resume así: correr tests es fácil, aprender de ellos es difícil — y el ROI compuesto está en lo segundo.

El mejor programa de experimentación que construí no fue el que corría más tests — fue el que documentaba aprendizajes, no solo ganadores. Cada test informaba el siguiente, cada hipótesis fallida nos enseñaba algo del comprador. Después de seis meses sabíamos más sobre nuestra audiencia que cualquier competidor con el doble de presupuesto. Eso no se compra: se compone.

Lisandro Iserte

Peeking bias — el error que infla tus resultados

El error más común y más caro en experimentación es peeking: mirar resultados continuamente y parar el test apenas el p-value baja de 0,05. Parece razonable — ¿para qué seguir corriendo un test que ya tiene "ganador"? Porque ese ganador es, con altísima probabilidad, una mentira.

Cómo el peeking infla los falsos positivos Tasa real de falsos positivos en un test diseñado para 5% nominal (α=0.05)

α nominal · 5%

~10%

~17%

~28%

Sin peekingTest corrido completo hasta sample size objetivo

Peeking semanalUna mirada por semana con regla de parada

Peeking diarioRevisión diaria con parada al ver p<0.05

Peeking continuoMonitoreo constante en tiempo real

Con peeking continuo, 1 de cada 4 "ganadores" es un falso positivo · cifras derivadas de Crook, Frasca, Kohavi & Longbotham (KDD '09)

La razón es estadística: la significancia fluctúa naturalmente durante el test antes de estabilizarse. Si parás en el momento "correcto" — ese pico transitorio donde el p-value baja a 0,04 — capturás una fluctuación al azar y la confundís con un efecto real. Implementás el cambio, no mejora nada en producción, y nadie entiende por qué el test "ganador" no se replica.

La solución es disciplina, no más herramientas: definí sample size y duración antes de empezar y corré el test completo. Si necesitás mirar resultados intermedios sin sesgar el resultado, usá métodos diseñados para eso — sequential testing (Wald), always-valid p-values, o multi-armed bandits. Pero peeking ingenuo con p-values clásicos es estadísticamente inválido, por más razonable que parezca.

Qué incluye y qué no incluye este subhub

Este subhub incluye

A/B testing, multivariate y diseño de experimentos
Significancia estadística, poder, sample size y MDE
Bandit algorithms y experimentación a escala
Cultura de experimentación y aprendizaje iterativo

Este subhub no incluye

Atribución multi-canal → Atribución y Medición
Incrementality testing cross-canal → Atribución y Medición
CRO táctico → Conversión y CRO
Reporting de resultados → Reporting y Dashboards

Errores frecuentes

Peeking: parar cuando "ya ganó"

Infla la tasa de falsos positivos del 5% al 20-30%. Definí sample size y duración antes; corré el test completo. Si necesitás mirar antes, usá sequential testing o always-valid p-values.

Sample size insuficiente

Correr un test con 100 conversiones por variante cuando necesitás 400 termina en "no hay diferencia" por bajo poder estadístico, no porque el efecto no exista. El test no respondió la pregunta — la dejó sin respuesta. Calculá ANTES.

Demasiadas variantes en paralelo

Cada variante adicional diluye el tráfico. Cinco variantes necesitan ~2,5x el tráfico de dos. El multivariate crece exponencialmente: tres elementos × dos opciones cada uno son ocho variantes — casi siempre fuera del alcance del tráfico real.

Confundir significancia estadística con práctica

Un lift del 0,3% puede ser estadísticamente significativo con mucho tráfico. ¿Vale la pena implementar y mantener el cambio? ¿El impacto es material para el negocio? La significancia estadística es necesaria pero no suficiente — el filtro práctico viene después.

No documentar aprendizajes

Correr tests sin registrar hipótesis, resultado y aprendizaje es desperdiciar conocimiento. El valor compuesto está en la acumulación, no en victorias individuales. Un equipo que corre 30 tests sin documentar pierde más conocimiento que uno que corre 10 con disciplina.

9 guías de experimentación

Las nueve guías están organizadas en tres niveles de complejidad. El orden recomendado de lectura: fundamentos → diseño y ejecución → escala y cultura.

Nivel inicial — Fundamentos 01

¿Qué es la experimentación?

Marco completo: método científico aplicado a marketing y producto.

→ 02

A/B testing básico

Fundamentos: cómo diseñar y correr tu primer test sin errores que rompan el resultado.

→ 03

Significancia estadística

Qué significa p<0.05, qué no significa y por qué no es suficiente por sí sola.

→ Nivel intermedio — Diseño y ejecución 04

Diseño de experimentos

Hipótesis, métrica primaria, guardrails, sample size y criterio de parada.

→ 05

Multivariate testing

Testear varios elementos simultáneamente: cuándo es útil y cuándo confunde.

→ 06

Tamaño de muestra

Calcular sample size: MDE, significancia, poder y baseline en la práctica.

→ Nivel avanzado — Escala y cultura 07

Experimentación a escala

Correr decenas de tests simultáneos sin interferencia entre experimentos.

→ 08

Bandit algorithms

Optimización continua: explotar lo que funciona mientras seguís explorando.

→ 09

Cultura de experimentación

Organizaciones donde experimentar es default y cada equipo tiene autonomía para testear.

→

Cómo se conecta este subhub con el resto del sistema

Experimentar bien toca cada cluster del sistema — no es una técnica aislada de Rendimiento. Estos son los puntos de contacto.

EstrategiaPriorizar qué testear es estratégico — no se experimenta sobre todo, se elige qué hipótesis vale la pena validar primero. MarcaCopy de marca, mensajes clave y CTAs son territorio fértil para A/B testing — pero las decisiones grandes de identidad se sostienen por estrategia, no por p-value. OfertaTestear precios, bundles y packaging genera aprendizaje rápido sobre elasticidad — territorio donde el HiPPO se equivoca más seguido de lo que admite. MercadoEl JTBD se valida con experimentos — cada hipótesis sobre por qué compra el cliente se convierte en un test concreto que la confirma o la tira a la basura. Crecimiento CRO táctico es experimentación aplicada al funnel — todo el toolkit de este subhub aplica directo a optimizar páginas y flujos de conversión. RendimientoIncrementality testing es el bridge natural — los experimentos cross-canal validan lo que la atribución solo correlaciona. FidelizaciónCada cambio en mecánicas de retención y programas de loyalty se testea antes de escalar — el costo de un programa mal diseñado es enorme y permanente.

Preguntas frecuentes

¿Cuánto tráfico necesito para A/B testing?

Aproximadamente 350-400 conversiones por variante para detectar lift del 10% con 80% de poder. Si convertís al 2%, ~18.000 visitantes por variante. Para lifts más chicos crece exponencialmente. Si no tenés volumen, hacé cambios grandes con efecto esperado mayor.

¿Cuándo parar un A/B test?

Definí el criterio antes: sample size objetivo + duración mínima de 7-14 días. No pares por peeking apenas alcanzás significancia. Si no la alcanzás en el tiempo definido, el efecto es muy chico para tu volumen — eso también es un resultado válido.

¿Significancia estadística equivale a éxito?

No. Un p<0.05 solo dice que probablemente no es azar. Un lift del 0,5% puede ser significativo con mucho tráfico pero irrelevante para el negocio. Evaluá siempre las dos: significancia estadística (¿es real?) y significancia práctica (¿justifica implementar?).

Referencias y bibliografía

Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press.

Crook, T., Frasca, B., Kohavi, R. & Longbotham, R. (2009). Seven Pitfalls to Avoid when Running Controlled Experiments on the Web. KDD '09: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 1105-1114.

Thomke, S. (2020). Experimentation Works: The Surprising Power of Business Experiments. Harvard Business Review Press.

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

Siroker, D. & Koomen, P. (2013). A/B Testing: The Most Powerful Way to Turn Clicks Into Customers. Wiley.

Ries, E. (2011). The Lean Startup: How Today's Entrepreneurs Use Continuous Innovation to Create Radically Successful Businesses. Crown Business.

Términos relacionados

A/B Test Conversión CRO Métrica KPI Iteración MVP Lean Startup Tasa de Conversión Audiencia Lead Objetivo SMART Growth Marketing Propuesta de Valor Microconversión

Siguiente paso

Experimentación genera conocimiento. Reporting es donde ese conocimiento se convierte en decisiones que la organización ejecuta — o en dashboards que nadie mira.

Ir a Reporting y Dashboards →

Navegación del cluster

← Subhub anteriorAtribución y Medición Siguiente subhub →Reporting y Dashboards