Significancia estadística:
cuándo un test
es confiable.
La significancia estadística es el concepto más usado y más malentendido de la experimentación. Saber qué mide — y qué no mide — es lo que separa los equipos que aprenden de los experimentos de los que construyen sobre resultados falsos.

- Qué es la significancia estadística
- El mapa de errores: tipo I y tipo II
- Qué mide el p-value — y qué no mide
- Poder estadístico: la otra cara de la moneda
- El peeking problem: el error que más cuesta
- Cómo conecta con el sistema de marketing
- Errores frecuentes
- Cuándo el 95% no es suficiente
- Preguntas frecuentes
- Referencias y bibliografía
Qué es la significancia estadística.
La significancia estadística es una medida de cuán improbable sería observar los resultados de un experimento si en realidad no hubiera ningún efecto — si la variante y el control fueran idénticos. Se expresa a través del p-value (valor p): si el p-value es menor al nivel de significancia predefinido (típicamente 0.05), se declara el resultado "estadísticamente significativo" y se rechaza la hipótesis nula de que no hay diferencia entre grupos.
El marco conceptual proviene del trabajo de Ronald Fisher en los años 1920 y de Jerzy Neyman y Egon Pearson en los años 1930. Fisher propuso el p-value como medida de evidencia contra la hipótesis nula. Neyman y Pearson formalizaron el marco de decisión con errores de tipo I y tipo II, niveles de significancia y poder estadístico. El A/B testing moderno es esencialmente la aplicación de ese marco al comportamiento de usuarios digitales — con las adaptaciones necesarias para el alto volumen, la multitud de métricas y la velocidad de iteración del entorno digital.
El aspecto más crítico de la significancia estadística es lo que no mide. No mide la probabilidad de que la variante funcione. No mide el tamaño del efecto. No garantiza que el resultado sea reproducible. Y — esto es lo que más cuesta en la práctica — no protege contra los errores de diseño del experimento que producen significancia falsa.
02 — El mapa de erroresEl mapa de errores: tipo I y tipo II.
Todo experimento puede producir cuatro tipos de resultados. Dos son correctos; dos son errores. El mapa de errores es el instrumento que permite entender cuál es el riesgo de cada tipo de error y cómo el diseño del experimento lo controla.
El error tipo I: el falso positivo
El error tipo I ocurre cuando el experimento declara un efecto estadísticamente significativo cuando en realidad no hay ningún efecto. El nivel de significancia (alpha = 0.05) controla directamente la tasa de error tipo I: con alpha = 0.05, el 5% de los tests que corren sobre variantes sin efecto real van a producir un resultado "significativo" por puro azar. Esto es matemáticamente inevitable — y es la razón por la que la significancia estadística no garantiza que el resultado sea real, solo que es improbable si no hubiera efecto.
El error tipo II: el falso negativo
El error tipo II ocurre cuando el experimento no detecta un efecto real que sí existe. Es el error menos discutido — y el más frecuente en equipos con volúmenes moderados. Un test subpotenciado (con menos tráfico del necesario) produce falsos negativos con alta frecuencia: concluye que la variante no funciona cuando en realidad tiene un efecto real que el test no tiene suficiente sensibilidad para detectar. El poder estadístico controla la tasa de error tipo II: con poder del 80%, el 20% de los tests que corren sobre variantes con efecto real van a no detectarlo.
03 — El p-valueQué mide el p-value — y qué no mide.
El p-value es la probabilidad de observar los resultados del experimento (o resultados más extremos) si la hipótesis nula fuera verdadera — es decir, si la variante no tuviera ningún efecto. No es la probabilidad de que la variante funcione. No es la probabilidad de que el resultado sea real. No es el tamaño del efecto. Esta distinción es tan importante que la American Statistical Association publicó en 2016 una declaración oficial advirtiendo sobre los malentendidos del p-value en la comunidad científica.
Lo que el p-value SÍ mide
Si p = 0.03, el resultado observado tendría solo un 3% de probabilidad de ocurrir por azar si no hubiera diferencia real entre los grupos. Eso es evidencia estadística contra la hipótesis nula — no certeza de que la variante funciona.
Lo que el p-value NO mide
El p-value no dice nada sobre el tamaño del efecto. Un test con 500.000 usuarios puede producir un p-value de 0.001 para un uplift del 0.1% — estadísticamente significativo pero económicamente irrelevante. La significancia estadística y la significancia práctica son conceptos distintos que deben evaluarse juntos. Un test "significativo" con un efecto de 0.1% no justifica el costo de implementar el cambio en producción. El tamaño del efecto, medido con el intervalo de confianza, es tan importante como el p-value para la decisión de implementar.
La significancia estadística al 95% no significa que el resultado sea 95% probable que sea real. Significa que si no hubiera ningún efecto, habría un 5% de probabilidad de ver algo tan extremo como lo que vimos. Esos son enunciados matemáticamente distintos con consecuencias prácticas opuestas. El equipo que confunde los dos va a implementar el 20-25% de sus 'ganadores' sin que produzcan ningún beneficio real — y no lo va a saber, porque los datos post-implementación son ruidosos y la diferencia se pierde en la varianza normal del negocio.
Lisandro IsertePoder estadístico: la otra cara de la moneda.
Si la significancia estadística controla el riesgo de falsos positivos, el poder estadístico controla el riesgo de falsos negativos. El poder es la probabilidad de que el test detecte un efecto real cuando ese efecto existe con la magnitud especificada en el efecto mínimo detectable (MDE).
El poder depende de tres factores que deben definirse antes de correr el test: el nivel de significancia (alpha), el tamaño de la muestra y el MDE. La relación es directa: con mayor muestra y mayor MDE, el poder aumenta. Con menor muestra o menor MDE (querer detectar efectos más pequeños), el poder cae. El poder del 80% es la convención estándar — que significa aceptar un 20% de probabilidad de falso negativo. Para decisiones de alta importancia, un poder del 90% es más apropiado.
La calculadora de Evan Miller es la referencia práctica más accesible para calcular el tamaño de muestra necesario dado el poder deseado, el alpha y el MDE. Introducir el MDE como primer parámetro — antes que el tamaño de muestra — es la forma correcta de usar la calculadora: empezar por la pregunta de negocio (¿qué uplift mínimo hace económicamente valioso el cambio?) y derivar el tamaño de muestra a partir de ahí, no al revés.
05 — El peeking problemEl peeking problem: el error que más cuesta.
El "peeking" — mirar los resultados del test antes de que se alcance el tamaño de muestra predefinido, y detenerlo cuando la significancia "parece suficientemente buena" — es el error más frecuente y más costoso de la experimentación en marketing. Su prevalencia es comprensible: los equipos tienen presión de resultados, las herramientas muestran el p-value en tiempo real, y un resultado del 94% de confianza parece "casi suficiente." El problema es matemático, no intuitivo.
Si se mira el resultado de un test a los 7 días y se considera detenerlo si p < 0.05, y si no se cumple se espera otros 7 días y se considera de nuevo, y así sucesivamente — la tasa real de falsos positivos no es del 5%. Es del 22-40%, dependiendo de cuántas veces se mira. La razón es que el p-value fluctúa durante el test: con muestras pequeñas, la varianza es alta y las diferencias aleatorias entre grupos pueden producir momentáneamente p-values bajos. Si el test se detiene en esos momentos, se captura ruido como señal.
La solución en el diseño del experimento: (1) calcular el tamaño de muestra antes de comenzar, (2) definir la duración a partir de ese tamaño y el tráfico diario disponible, (3) no analizar los resultados hasta que se cumpla la duración predefinida. Los métodos de testing secuencial (Sequential Probability Ratio Test — SPRT, o los métodos de alpha spending) permiten miradas intermedias con corrección estadística adecuada — pero requieren configuración explícita en la herramienta de testing, y la mayoría de los equipos no los usa.
06 — ConexionesCómo conecta la significancia estadística con el sistema de marketing.
Experimentación y rendimiento
Toda la cadena de experimentación depende de la integridad estadística de sus resultados. Si el equipo practica peeking sistemáticamente, el repositorio de "tests ganadores" tiene una tasa de falsos positivos del 25-40% — lo que significa que entre 1 y 2 de cada 5 cambios implementados no tienen efecto real. Los reportes de rendimiento post-implementación que muestran "mejoró" en los días siguientes al cambio son ruidosos — el negocio varía naturalmente y la señal del cambio se confunde con la varianza de fondo. Sin estadística correcta, el sistema de aprendizaje se construye sobre fundamentos frágiles.
CRO y optimización
El CRO es el área donde la significancia estadística tiene mayor impacto operativo. Los equipos de CRO que practican peeking y detienen tests prematuramente implementan cambios que no funcionan — con el costo de ingeniería de implementación, el costo de oportunidad de no testear otras hipótesis, y el costo de confusión cuando los resultados post-implementación no confirman el uplift del test. La tasa de conversión real mejora cuando los tests se corren correctamente, no cuando se declaran ganadores rápido.
Estrategia, oferta y fidelización
El backlog de iniciativas estratégicas debería incluir el nivel de evidencia estadística que cada hipótesis de crecimiento ha alcanzado — lo que permite priorizar en base a evidencia, no solo en base a intuición. Los tests de pricing y onboarding requieren estándares estadísticos más altos (99% vs 95%) porque sus consecuencias son más difíciles de revertir. El lifecycle marketing se optimiza con tests de email y cadencia donde la significancia estadística correcta evita implementar cambios de comunicación que deterioran la relación con los clientes sin beneficio real.
Mercado y marca
La investigación de mercado cuantitativa — encuestas, análisis conjoint, tests de concepto — también produce p-values que requieren interpretación correcta. Los mismos principios aplican: tamaño de muestra predefinido, nivel de significancia apropiado para la decisión, y atención al tamaño del efecto además de la significancia. La medición de brand equity con encuestas periódicas requiere que los cambios entre períodos sean estadísticamente significativos antes de concluir que la equidad de marca mejoró o deterioró.
07 — Errores frecuentesErrores frecuentes con la significancia estadística.
Confundir significancia estadística con significancia práctica
Un test con 300.000 usuarios puede detectar con p < 0.001 un uplift de conversión del 0.1% — estadísticamente significativo, prácticamente irrelevante. El tamaño del efecto (el uplift relativo o absoluto observado) y su intervalo de confianza son tan importantes como el p-value para decidir si implementar. La pregunta correcta después de obtener significancia es: ¿el efecto observado es lo suficientemente grande como para justificar el costo de implementación?
Usar el 95% como umbral universal sin cuestionarlo
El 95% (alpha = 0.05) es una convención académica que Fisher propuso en 1925 como umbral de "suficientemente improbable para ser interesante." No es una verdad matemática universal. Para decisiones de bajo costo y alta reversibilidad, un 90% puede ser suficiente y permite detectar efectos con menos tráfico. Para decisiones de alto costo e impacto permanente, un 99% protege mejor contra el error. El umbral debe elegirse en función del costo relativo de los errores tipo I y tipo II para la decisión específica.
No calcular el tamaño de muestra a priori
Correr el test "hasta que tenga suficientes datos" — sin un criterio predefinido de cuánto es suficiente — produce tests con poder variable y resultados que no pueden interpretarse correctamente. El tamaño de muestra debe calcularse antes de comenzar, en base al MDE, el alpha y el poder deseado. El spoke de tamaño de muestra desarrolla este cálculo en detalle.
Reportar múltiples métricas sin corrección por comparaciones múltiples
Si el test mide 20 métricas simultáneamente, se espera que aproximadamente una de ellas muestre significancia al 95% por puro azar — aunque la variante no tenga ningún efecto real. Reportar solo las métricas que resultan significativas y no mencionar las que no lo son (cherry-picking) infla la tasa de falsos positivos. La solución: definir una métrica primaria antes del test, reportar todas las métricas predefinidas y aplicar correcciones estadísticas cuando se analiza significancia en múltiples métricas.
Cuándo el 95% no es suficiente — guía de aplicación.
Elevá el umbral a 99% cuando…
El cambio es difícilmente reversible. Un rediseño completo del flujo de onboarding, una nueva estructura de pricing, un cambio en los planes disponibles — son cambios que producen inercia organizacional y costo de rollback. El riesgo de un falso positivo al 95% justifica elevar el umbral cuando revertir el error es costoso.
El efecto en métricas de guardrail también está siendo evaluado. Cuando el test busca mejorar la conversión pero hay preocupación de que pueda deteriorar la retención, correr el análisis de guardrail al 99% protege contra concluir que "no hay deterioro" cuando en realidad el poder era insuficiente para detectarlo.
El 90% puede ser suficiente cuando…
El cambio es completamente reversible y el costo de implementación es bajo. Un test de asunto de email, un test de imagen en una landing page de bajo tráfico, un test de copy en un banner — son cambios que pueden revertirse en minutos. El costo del error tipo I (implementar algo que no funciona) es minimal. En esos casos, un umbral del 90% permite detectar efectos con 30-40% menos tráfico — lo que acelera el ciclo de aprendizaje.
El volumen de tráfico es limitado y el efecto esperado es moderado-grande. Para negocios con volúmenes de tráfico moderados, exigir el 95% en todos los tests puede requerir semanas de duración por test — lo que reduce drásticamente la velocidad de experimentación. Un consenso entre el rigor estadístico y la velocidad de aprendizaje puede encontrarse con umbrales del 90% para tests de bajo riesgo y 95%+ para tests de alto impacto.
09 — Preguntas frecuentesPreguntas frecuentes sobre significancia estadística.
¿Qué significa exactamente un p-value de 0.05?
Un p-value de 0.05 significa que, si la hipótesis nula fuera verdadera (si la variante no tuviera ningún efecto real), habría un 5% de probabilidad de observar una diferencia igual o mayor a la observada por puro azar. No significa que haya un 95% de probabilidad de que la variante funcione. No significa que el efecto tiene un 95% de probabilidad de ser real. Es exclusivamente una medida de cuán improbable sería el resultado si no hubiera ningún efecto.
¿Es 95% el nivel de significancia correcto para todos los tests?
No. El 95% es una convención, no una verdad universal. Para decisiones de bajo riesgo y alta reversibilidad, el 90% puede ser suficiente. Para decisiones de alto impacto y baja reversibilidad, el 99% es más apropiado. La elección debe reflejar el costo relativo de los errores tipo I y tipo II para la decisión específica que el test informa.
¿Qué es el poder estadístico y por qué importa?
El poder estadístico es la probabilidad de que el test detecte un efecto real cuando ese efecto existe con la magnitud del MDE. Un poder del 80% significa que el 20% de los tests que corren sobre variantes con efecto real no lo detectarán — error tipo II o falso negativo. El poder se aumenta con mayor tamaño de muestra. Un test subpotenciado produce demasiados falsos negativos y descarta cambios que sí funcionan.
Referencias y bibliografía.
Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press. Cap. 17–19: "Statistical Inference."
Neyman, J. & Pearson, E. S. (1933). "On the Problem of the Most Efficient Tests of Statistical Hypotheses." Philosophical Transactions of the Royal Society A.
Wasserstein, R. L. & Lazar, N. A. (2016). "The ASA Statement on p-Values: Context, Process, and Purpose." The American Statistician.
Miller, E. (2024). Sample Size Calculator for A/B Testing. evanmiller.org.
Ioannidis, J. P. A. (2005). "Why Most Published Research Findings Are False." PLOS Medicine.
Términos del glosario