HomeBibliotecaRendimientoExperimentaciónTamaño de Muestra
Spoke · Nivel Intermedio

Tamaño de muestra: el cálculo que decide si tu test vale algo

Un test lanzado con menos tráfico del necesario no es un test pequeño — es un test inválido. El tamaño de muestra no es un detalle técnico: es el criterio que separa el aprendizaje real del ruido estadístico disfrazado de datos.

Nivel Intermedio 14 min lectura Autor Lisandro Iserte Última actualización: 14 de abril de 2026
Tamaño de Muestra en A/B Testing: cuánto tráfico necesitás

Por qué el tamaño de muestra es el parámetro más ignorado

La mayoría de los equipos que hacen A/B testing por primera vez lanzan el test, lo miran cada día hasta que parece que hay un ganador claro, y lo detienen. Lo que no saben es que ese proceso — lanzar sin calcular el tamaño de muestra, mirar resultados intermedios, detener cuando parece que hay señal — produce una tasa de falsos positivos que puede superar el 50%, según documentan Kohavi, Tang y Xu en Trustworthy Online Controlled Experiments. Están tomando decisiones sobre ruido estadístico con la misma confianza que tomarían sobre evidencia sólida.

El tamaño de muestra no es burocracia estadística. Es el parámetro que determina si el test tiene poder para detectar mejoras reales sin declarar ganadoras a variantes que ganaron por azar. Jacob Cohen, en Statistical Power Analysis for the Behavioral Sciences, formalizó la relación entre tamaño de muestra, tamaño de efecto, significancia y poder — cuatro parámetros que están conectados matemáticamente: fijar tres determina el cuarto. Sin calcular el cuarto antes de lanzar el test, no se sabe si el test puede producir resultados confiables.

Los cuatro parámetros del cálculo

Tasa base p₀ La tasa de conversión actual antes del test. Es el denominador contra el que se mide el efecto. Cuanto más baja es la tasa base, más tráfico se necesita para detectar la misma mejora absoluta.
MDE δ Efecto mínimo detectable. La mejora más pequeña que vale la pena detectar. Un MDE del 10% relativo sobre una tasa base del 3% significa detectar si la variante llega al 3.3% o más.
Significancia α α = 0.05 La probabilidad máxima de declarar un ganador falso (falso positivo). El estándar de industria es 5% (α = 0.05). Bajar α a 0.01 requiere más muestra pero reduce el riesgo de errores.
Poder β 1-β = 0.80 La probabilidad de detectar el efecto si realmente existe. El estándar es 80%. Poder del 80% significa 20% de probabilidad de no detectar una mejora real — un falso negativo.

La fórmula y cómo usarla

Fórmula de tamaño de muestra por variante (test de dos proporciones)
n ≈ (z_α/2 + z_β)² × [p₀(1−p₀) + p₁(1−p₁)] / (p₁ − p₀)²
z_α/2Valor crítico para α. Con α = 0.05 → z = 1.96
z_βValor crítico para el poder. Con poder = 0.80 → z = 0.84
p₀Tasa de conversión base (control)
p₁Tasa de conversión esperada en la variante (p₀ × (1 + MDE))
nNúmero de visitas requeridas por variante (multiplicar por 2 para el total)

Ejemplo práctico: tasa base del 3% (p₀ = 0.03), MDE del 15% relativo (p₁ = 0.0345), α = 0.05, poder = 0.80. El resultado es aproximadamente n = 12.700 visitas por variante — 25.400 en total para el test completo. Si la página recibe 3.000 visitas semanales, el test necesita al menos 8-9 semanas. Si ese período supera los ciclos de estacionalidad del negocio, el test no es viable con esos parámetros: hay que aumentar el MDE (testear solo si la mejora esperada es mayor) o reducir α (aceptar mayor riesgo de falso positivo) o cambiar la página a testear.

La relación cuadrática entre el MDE y el tamaño de muestra es la más importante de internalizar: si se quiere detectar el doble de pequeño efecto (MDE del 7.5% en lugar del 15%), se necesitan cuatro veces más visitas. Esta relación es la que fuerza la pregunta correcta antes de lanzar cualquier test: ¿cuál es la mejora mínima que hace que valga la pena cambiar la implementación? Esa pregunta no es estadística — es de negocio. Y es la que el equipo tiene que responder antes de abrir cualquier calculadora de tamaño de muestra.

El tamaño de muestra es la pregunta que obliga a explicitar el valor de lo que se está testeando. Si no podés responder qué mejora mínima justifica cambiar la implementación, no estás listo para lanzar el test — todavía no sabés qué estás buscando.

Lisandro Iserte

El efecto mínimo detectable: cómo definirlo correctamente

El MDE es el parámetro más mal definido en la práctica de experimentación de marketing. La mayoría de los equipos lo fijan de forma arbitraria ("un 10% suena razonable") o al revés — calculan cuánto tráfico tienen disponible y deducen cuál MDE pueden detectar, sin preguntarse si ese MDE tiene sentido económico.

El MDE correcto se define a partir del impacto económico del cambio. Si implementar la variante ganadora tiene un costo de desarrollo de X horas, y la página genera Y conversiones por mes con un valor promedio de Z por conversión, el MDE mínimo que justifica la implementación es el porcentaje de mejora que genera suficiente revenue adicional para recuperar el costo de implementación en un plazo razonable. Croll y Yoskovitz, en Lean Analytics, formulan esta lógica como: los tests deben diseñarse para detectar mejoras que sean materialmente significativas para el negocio, no mejoras que sean estadísticamente distinguibles del ruido.

En el contexto de la relación CAC/LTV, el MDE correcto es aquel que produce un cambio material en la ecuación de unit economics: si un aumento del 5% en la tasa de conversión de una landing page reduce el CAC en un 4%, eso puede ser suficiente para justificar el test aunque el cambio parezca pequeño. Si el mismo 5% de mejora en una página de contenido de bajo tráfico produce un impacto económico despreciable, ese MDE no justifica el tiempo del equipo.

El problema del peeking

El peeking es la práctica de mirar los resultados del test antes de que alcance el tamaño de muestra previsto y tomar decisiones basadas en esos datos parciales. Es el error más frecuente en la experimentación de marketing, y tiene consecuencias estadísticas severas que Kohavi documenta extensamente.

El mecanismo es este: con muestras pequeñas, las tasas de conversión observadas fluctúan considerablemente alrededor del verdadero valor. En las primeras horas o días del test, es completamente normal que una variante que genuinamente no mejora la conversión aparezca con una ventaja del 20-30% — simplemente por varianza muestral. Si el equipo detiene el test en ese momento, declara un falso positivo. Si lo deja correr hasta que la señal "se estabilice", introduce sesgos de selección: está eligiendo cuándo parar en función de los datos, lo que invalida las garantías estadísticas del diseño original.

La solución no es "tener disciplina" — es diseñar el proceso de forma que el peeking no sea posible. Los métodos secuenciales, como el diseño de Wald o los test de significancia siempre válidos (always-valid p-values), permiten mirar los datos en cualquier momento sin inflar la tasa de falsos positivos, porque ajustan el umbral de decisión en función de cuántas veces se mira. Las plataformas modernas de experimentación como Optimizely y VWO implementan variantes de estos métodos para proteger contra el peeking. Sin esa protección, la regla operativa es simple: fijar la duración del test antes de lanzarlo y no tomar ninguna decisión hasta que esa duración se cumpla.

Cuándo el tráfico no alcanza y qué hacer

Muchas páginas simplemente no tienen el tráfico necesario para producir tests estadísticamente válidos en plazos razonables. Frente a ese escenario, hay cuatro alternativas legítimas — y una que no lo es.

Aumentar el MDE

Si solo se puede detectar mejoras del 20% o más, testear solo cambios que tienen potencial de producir ese nivel de impacto. Eso implica priorizar hipótesis de alto impacto — cambios radicales en el mensaje, la oferta o el diseño — en lugar de optimizaciones marginales.

Agregar más variantes en el mismo test

Bajo algunas condiciones, testear 3-4 variantes contra el mismo control puede ser más eficiente que tests A/B secuenciales cuando las variantes son mutuamente excluyentes.

Usar pruebas de una cola

Si existe una hipótesis direccional fuerte (solo interesa saber si la variante es mejor, no si es peor), un test de una cola requiere menos muestra que uno de dos colas. La compensación es que no se puede detectar si la variante empeora — aceptable cuando se tiene evidencia previa de que el cambio es neutral o positivo.

Medir métricas proxy con mayor sensibilidad

Si la conversión final tiene baja frecuencia, medir una métrica intermedia del funnel que ocurre con mayor frecuencia y está correlacionada con la conversión final. Un click-through del 8% es más fácil de testear que una conversión del 1.5%.

La alternativa que no lo es: lanzar el test de todos modos

Lanzar un test underpowered y reportar los resultados como si fueran válidos no es una cuarta opción — es producir desinformación. Un test con poder del 40% tiene una tasa de falsos positivos real del 25-30% incluso con un p-value nominal del 5%. Las decisiones de asignación de presupuesto y de diferenciación de oferta que se toman sobre esos resultados tienen alta probabilidad de empeorar los indicadores que intentan mejorar.

Implicaciones estratégicas

El cálculo de tamaño de muestra no es una tarea técnica aislada — es un ejercicio de priorización estratégica. Determina qué se puede aprender con el tráfico disponible y en qué página tiene más sentido invertir el esfuerzo de experimentación.

En el cluster de Crecimiento, el tamaño de muestra disponible en distintas páginas del funnel de conversión determina dónde el equipo de CRO puede experimentar de forma válida. Las páginas de alto tráfico al tope del funnel permiten detectar efectos pequeños rápidamente — son ideales para optimización iterativa. Las páginas de bajo tráfico al fondo del funnel (página de checkout, página de confirmación de pago) solo permiten detectar efectos grandes — requieren hipótesis de alto impacto. Esta lógica conecta con la priorización de iniciativas del cluster de Estrategia: el equipo debe mapear el tráfico disponible en cada punto del funnel contra el MDE alcanzable para decidir dónde concentrar los recursos de experimentación.

En el cluster de Oferta, los tests de experimentación de pricing son los que típicamente requieren mayor tráfico porque las tasas de conversión a pago son bajas y los efectos de cambios de precio pueden ser pequeños en términos relativos pero grandes en términos económicos. La determinación del MDE correcto en pricing requiere modelar el impacto en revenue — no solo en tasa de conversión — porque un precio más alto puede reducir conversiones pero aumentar el LTV de cada cliente adquirido, un balance que solo el ratio LTV/CAC puede revelar correctamente. En el cluster de Marca, el tamaño de muestra también aplica a los tests de métricas de marca — top of mind, consideración, asociaciones — que se miden en encuestas. El cálculo de cuántos encuestados se necesitan para detectar un cambio en brand equity sigue la misma lógica de poder estadístico, con la diferencia de que la métrica base es la proporción de encuestados que recuerdan la marca espontáneamente. En el cluster de Mercado, el diseño de tests con distintos segmentos de audiencia multiplica el requisito de muestra: si se quiere analizar si el efecto de la variante es distinto en el segmento ICP versus segmentos periféricos, se necesita suficiente muestra en cada segmento por separado para producir resultados confiables. La micro-segmentación más granular siempre tiene un costo en poder estadístico. En el cluster de Fidelización, los tests de campañas de lifecycle sobre bases de email tienen requisitos de muestra calculados sobre la tasa de apertura o clic, no sobre la conversión final, porque esas métricas intermedias ocurren con mayor frecuencia y permiten tests más rápidos. El tamaño de la base segmentada disponible para el test determina qué efectos se pueden detectar en cada campaña de retention. En el cluster de Rendimiento, la North Star Metric y las métricas del árbol de métricas tienen distintas frecuencias de ocurrencia — y por tanto distintos requerimientos de muestra. Testear cambios en la NSM directamente puede ser prohibitivamente lento; testear en métricas proxy intermedias del árbol permite ciclos de aprendizaje mucho más rápidos.

La estructura del árbol de métricas también orienta la elección de qué métrica medir en el test: las métricas más arriba en el árbol ocurren con mayor frecuencia y permiten tests más rápidos. El sistema de reporting del equipo debe documentar el tamaño de muestra alcanzado y el poder del test en cada experimento cerrado, no solo los resultados. En la toma de decisiones del equipo de marketing, el cálculo de muestra previo al lanzamiento debe ser un requisito formal — parte del proceso de aprobación de cualquier test, igual que la hipótesis y la métrica de éxito. La cultura de experimentación madura institucionaliza ese cálculo como parte del ritual de lanzamiento de tests. La práctica de A/B testing en crecimiento que no incluye ese cálculo produce ruido institucionalizado. El diseño del experimento es el lugar donde se decide si el aprendizaje va a ser confiable o no — y el tamaño de muestra es el parámetro central de ese diseño. En el cluster de Marca, los tests de activos distintivos —qué color, forma o personaje produce mayor reconocimiento— siguen la misma lógica: el número de encuestados necesarios para detectar una diferencia de 5 puntos porcentuales en reconocimiento se calcula con el mismo framework estadístico.

Errores frecuentes

Error 1: no calcular el tamaño de muestra antes de lanzar

Lanzar el test "para ver qué pasa" y detenerlo cuando se ve una señal es el origen de la mayoría de las decisiones incorrectas en CRO. El cálculo previo es obligatorio — no opcional.

Error 2: fijar el MDE sin análisis de impacto económico

Un MDE del 10% puede ser demasiado pequeño para justificar el costo de implementación en páginas de bajo tráfico, o demasiado grande para capturar mejoras reales en páginas de alta conversión. El MDE correcto se define desde el negocio, no desde la estadística.

Error 3: ignorar la duración mínima del test

Aunque se alcance el tamaño de muestra en 3 días, el test debe correr al menos 1-2 semanas para capturar la variabilidad del comportamiento por día de la semana. Los comportamientos del lunes son distintos a los del viernes, y un test que corre solo 3 días no es representativo de la semana completa.

Error 4: reutilizar la misma muestra para múltiples tests

Si se lanza un segundo test sobre los mismos usuarios que participaron en el primero sin período de limpieza, los efectos de aprendizaje y fatiga de los usuarios del primer test contaminan los resultados del segundo. Cada test necesita una asignación fresca de usuarios.

Preguntas frecuentes sobre tamaño de muestra

¿Cómo se calcula el tamaño de muestra para un A/B test?

Depende de cuatro parámetros: tasa de conversión base, efecto mínimo detectable (MDE), nivel de significancia (α, típicamente 0.05) y poder estadístico (1-β, típicamente 0.80). La relación es cuadrática con el MDE: detectar un efecto la mitad de grande requiere cuatro veces más muestra. Existen calculadoras online, pero el parámetro que requiere más criterio de negocio es el MDE.

¿Qué es el efecto mínimo detectable (MDE)?

Es el tamaño de mejora más pequeño que el test está diseñado para detectar con confianza estadística. Debe definirse desde el impacto económico mínimo que justifica implementar el cambio — no de forma arbitraria. Un MDE correcto responde: ¿qué mejora mínima hace que valga la pena el costo de desarrollo y despliegue de la variante ganadora?

¿Por qué testear con poco tráfico produce resultados incorrectos?

Con muestras insuficientes, la varianza es alta y los resultados fluctúan. Si el test se detiene cuando parece haber un ganador antes de completar la muestra (peeking), la tasa real de falsos positivos puede superar el 50% aunque el p-value nominal sea 0.05. Un test underpowered no es un test pequeño — es un test estadísticamente inválido.

Referencias y bibliografía

  • Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press. Cap. 17: "Statistics for Online Experiments" y Cap. 18: "The Importance of Sample Size."
  • Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Lawrence Erlbaum. Cap. 7: "The Significance of the Difference Between Two Proportions."
  • Croll, A. & Yoskovitz, B. (2013). Lean Analytics. O'Reilly. Cap. 5: "What Makes a Good Metric."
  • Johari, R. et al. (2022). "Always Valid Inference." arxiv.org — el paper que fundamenta los métodos secuenciales anti-peeking.
Términos del glosario

Siguiente: Experimentación a Escala

De tests aislados a programa continuo. Velocidad, tooling, gobernanza y la cultura que convierte aprendizajes en decisiones sistemáticas.

Continuar →