Spoke · Nivel inicial

A/B Testing básico:
cómo diseñar
tu primer experimento.

Un A/B test mal diseñado produce resultados incorrectos con apariencia de rigor — lo que es peor que no testear. El diseño correcto no es complejo, pero requiere decisiones explícitas antes de comenzar que la mayoría del equipo saltea.

Nivel inicialLectura: 18 min.Autor: Lisandro IserteÚltima actualización: 14 de abril de 2026
A/B Testing Básico — Biblioteca · Lisandro Iserte
01 — Qué es

Qué es un A/B test.

Un A/B test es un experimento controlado que divide aleatoriamente una audiencia en dos grupos: el control (que ve la versión actual) y el tratamiento (que ve la variante modificada). La diferencia en la métrica principal entre ambos grupos, medida con rigor estadístico, produce una estimación del efecto causal del cambio. Su fortaleza fundamental es la aleatorización: al asignar los usuarios de forma aleatoria, cualquier diferencia preexistente entre grupos (en comportamiento, demografía, dispositivo) se distribuye de forma equitativa — lo que permite atribuir las diferencias en resultados al cambio en la variante, no a diferencias en los grupos.

Ron Kohavi y colaboradores documentaron en sus Reglas de Oro de la Experimentación que el A/B testing bien ejecutado es el estándar de oro para la optimización de productos digitales — superior a cualquier análisis de datos históricos o modelo de atribución para establecer causalidad. La razón es estructural: los datos históricos confunden causa y efecto porque los usuarios que se exponen a distintas experiencias no son iguales. Solo la aleatorización produce grupos comparables.

02 — Anatomía de un test

Anatomía de un test bien diseñado.

Estructura de un A/B test — landing page B2B
Tráfico total al experimento 24.000 visitantes únicos (período: 3 semanas)
50% ASIGNACIÓN ALEATORIA 50%
Control (A) — 12.000 usuarios
Titular:"Software de gestión de proyectos"
CTA:"Probar gratis"
Formulario:6 campos
Hipótesis:versión actual sin cambios
Tratamiento (B) — 12.000 usuarios
Titular:"Cerrá proyectos 40% más rápido"
CTA:"Probar gratis"
Formulario:6 campos (sin cambios)
Variable:solo el titular (1 variable)
Control — conversión 2.4% (288 leads)
Tratamiento — conversión 3.1% (372 leads)
Uplift relativo +29.2% (p < 0.01)

El ejemplo muestra el principio más importante del diseño de A/B tests: una sola variable modificada. El titular cambió; el CTA, el formulario y todo lo demás permanecieron iguales. Esto garantiza que el uplift del 29.2% es atribuible al titular, no a una combinación de factores desconocida. Si hubieran cambiado el titular y el formulario al mismo tiempo, el resultado sería irrepetible e insegmentable.

03 — Los 6 pasos previos

Los 6 pasos antes de correr el test.

Un A/B test mal diseñado produce resultados que no pueden interpretarse correctamente — y los errores de diseño no se corrigen después de que el test comenzó. Estos seis pasos deben completarse antes de que cualquier usuario vea la variante.

Paso 1: definir la métrica primaria

Una sola métrica que el experimento busca mover. No dos, no tres — una. Si el test mueve múltiples métricas en distintas direcciones, no hay forma de declarar un ganador sin criterios subjetivos. La métrica primaria debe ser medible en tiempo real, sensible al cambio que se está testeando y directamente conectada con un objetivo de negocio. Para una landing page B2B, la métrica primaria es típicamente la tasa de conversión a lead — no el tiempo en página, no el scroll depth, no el número de páginas vistas.

Paso 2: definir las métricas de guardrail

Las métricas que no deben deteriorarse aunque la métrica primaria mejore. Si el test busca aumentar la tasa de conversión de trials pero el equipo de ventas reporta que la calidad de los leads cae (más conversiones, menos revenue), el experimento necesita una métrica de guardrail de calidad de lead. Los guardrails protegen contra optimizaciones locales que deterioran el sistema global.

Paso 3: calcular el tamaño de muestra

Antes de comenzar, calcular cuántos usuarios por variante se necesitan para detectar el efecto mínimo que haría económicamente viable implementar el cambio. Este cálculo depende de tres parámetros: la tasa base actual de la métrica, el efecto mínimo detectable (MDE) — el uplift relativo mínimo que justifica el cambio — y el poder estadístico deseado (típicamente 80%). El spoke de tamaño de muestra desarrolla este cálculo en detalle.

Paso 4: definir la duración

Dividir el tamaño de muestra por el tráfico diario promedio produce la duración mínima en días. A eso agregar un buffer para cubrir al menos un ciclo semanal completo. Si el test necesita 10.000 usuarios por variante y el sitio recibe 1.000 visitantes diarios con 50% elegibles para el test, la duración mínima es 20 días — redondeada a 3 semanas para capturar dos ciclos semanales completos.

Paso 5: verificar la implementación antes de lanzar

Antes de abrir el test al tráfico real, verificar que la asignación de grupos es aleatoria y balanceada, que el tracking de la métrica primaria funciona correctamente en ambos grupos, que no hay contaminación entre grupos (usuarios que ven ambas variantes), y que el Sample Ratio Mismatch (SRM) no está presente en el tráfico inicial. Un SRM — cuando el ratio de usuarios entre grupos difiere del 50/50 esperado — indica un bug de implementación que invalida el experimento.

Paso 6: documentar la hipótesis antes de ver resultados

Escribir explícitamente: la observación que motivó el test, el mecanismo causal propuesto, la predicción específica y el criterio de éxito. Este documento debe estar cerrado antes de que el test comience — y no debe modificarse durante la ejecución. La tentación de ajustar la hipótesis ex post para que concuerde con el resultado es uno de los sesgos más comunes en equipos de experimentación principiantes.

04 — La hipótesis correcta

Cómo formular la hipótesis correcta.

La hipótesis es el elemento que convierte un test en conocimiento — independientemente de si el resultado es positivo o negativo. Una hipótesis bien formulada tiene tres componentes obligatorios: la observación que la motiva, el mecanismo causal propuesto y la predicción específica con la métrica y el efecto esperado.

El formato estándar

"Observamos que [dato de comportamiento]. Creemos que esto ocurre porque [mecanismo causal]. Si [cambio específico], esperamos que [métrica] cambie en [dirección] por al menos [magnitud]."

Ejemplo de hipótesis débil: "Testear si un titular diferente mejora la conversión." Esta hipótesis no tiene mecanismo causal ni predicción específica — y si el resultado es positivo, el equipo no sabe por qué funcionó ni cómo replicarlo.

Ejemplo de hipótesis fuerte: "Observamos que el 68% de los usuarios que llegan a la landing page desde anuncios de LinkedIn provienen de cargos de gerencia y dirección. Creemos que el titular actual ('Software de gestión de proyectos') no conecta con su dolor específico de velocidad de ejecución. Si cambiamos el titular a uno orientado a resultados ('Cerrá proyectos 40% más rápido'), esperamos que la tasa de conversión a trial suba al menos un 15% relativo para este segmento." Esta hipótesis, si se confirma, enseña algo generalizable sobre la audiencia de LinkedIn. Si se rechaza, enseña que el dolor percibido no es velocidad — lo que también es información valiosa.

Un A/B test sin hipótesis es un juego de dados disfrazado de ciencia. El resultado, positivo o negativo, no produce conocimiento porque no había una pregunta específica que responder. La hipótesis es el compriso que el equipo hace antes de ver los datos — y sin ese compromiso, la interpretación del resultado siempre puede ajustarse para confirmar lo que el equipo ya creía.

Lisandro Iserte
05 — Duración y muestra

Duración y tamaño de muestra: las dos variables más ignoradas.

El error más costoso en A/B testing no es técnico — es estadístico. Detener el test antes de alcanzar el tamaño de muestra predefinido produce una tasa de falsos positivos real del 25-40%, no del 5% que el nivel de significancia del 95% promete. Kohavi y colaboradores documentaron que los equipos que practican "peeking" — mirar los resultados diariamente y detener el test cuando parece haber un ganador — publican cambios positivos que no tienen efecto real con una frecuencia alarmante.

El efecto mínimo detectable (MDE) — el parámetro más importante

El MDE es el uplift relativo mínimo que haría económicamente valioso implementar el cambio. Este parámetro es una decisión de negocio, no estadística: ¿cuánto necesita mejorar la conversión para que valga la pena el costo de implementar el cambio en producción y mantenerlo? Si el costo de implementación es bajo (cambiar un texto), un MDE del 5% puede ser relevante. Si el costo es alto (rediseño del flujo de checkout), solo un MDE del 20% o más justifica el esfuerzo.

La relación entre MDE y tamaño de muestra es inversa: detectar efectos más pequeños requiere muestras más grandes. Un test diseñado para detectar un MDE del 5% requiere aproximadamente 16 veces más tráfico que uno diseñado para detectar un MDE del 20% — manteniendo constante el poder estadístico. Esto significa que la mayoría de los negocios con volúmenes moderados solo pueden detectar efectos grandes con rigor estadístico en tiempos razonables. El cálculo correcto del tamaño de muestra comienza siempre por definir el MDE relevante para el negocio.

Duración mínima: siempre al menos una semana

El comportamiento de los usuarios varía significativamente entre días de la semana. Un test que corre solo de lunes a miércoles captura un segmento de comportamiento que no es representativo del conjunto de la semana. La regla práctica: correr al menos 7 días completos, independientemente de si el tamaño de muestra se alcanza antes. Si el tráfico es suficiente para alcanzar la muestra en 2 días, correr igualmente una semana para capturar la variabilidad del ciclo semanal.

06 — Conexiones

Cómo conecta el A/B testing con el sistema de marketing.

Crecimiento y CRO

El A/B testing es el motor operativo del CRO. Cada cambio propuesto en el funnel de conversión — desde la landing page hasta el checkout, desde el email de onboarding hasta el flujo de activación del producto — es una hipótesis que merece un test antes de implementarse a toda la base de usuarios. La adquisición paga se optimiza continuamente con tests de copy, audiencia y oferta — y los aprendizajes de esos tests alimentan el conocimiento sobre qué mensajes resuenan con qué segmentos. El SEO y el contenido también se benefician: tests de títulos, meta descriptions y estructuras de contenido informan qué formatos maximizan tanto el CTR desde la SERP como el tiempo en página.

Oferta y producto

El pricing es uno de los territorios donde el A/B testing produce mayor impacto económico — y donde mayor resistencia cultural existe para testear. Mostrar distintos precios a distintos segmentos, testear la estructura de planes, evaluar el impacto de períodos de trial más largos — son todas hipótesis que el A/B test puede responder antes de comprometer el modelo de negocio. La propuesta de valor se itera con tests de mensaje — qué ángulo conecta mejor con qué segmento en qué canal. El onboarding se optimiza con tests de secuencia y contenido que identifican el camino de activación con menor abandono y mayor retención a 30 días.

Rendimiento

El A/B testing está directamente conectado con los unit economics: el CAC se reduce cuando los tests mejoran la conversión del funnel, y el LTV aumenta cuando los tests mejoran la retención y la expansión. Los reportes de un equipo que experimenta deben incluir el pipeline de tests, los resultados y los aprendizajes — no solo las métricas de negocio actuales. La atribución se valida con experimentos: los modelos de atribución producen hipótesis sobre cuáles canales contribuyen más — y los experimentos de pausa o holdout confirman o refutan esas hipótesis con evidencia causal.

Estrategia, marca, mercado y fidelización

El diagnóstico estratégico mejora cuando el equipo tiene evidencia experimental sobre qué funciona — no solo datos correlacionales. La identidad verbal de la marca — tono, terminología, argumentos — puede informarse con tests de copy que revelan qué lenguaje resuena con distintos segmentos. La investigación de mercado genera hipótesis que los tests cuantitativos validan a escala. El lifecycle marketing itera con tests de cadencia, contenido y canal de las comunicaciones post-conversión.

07 — Errores frecuentes

Errores frecuentes en A/B testing.

Testear múltiples variables en el mismo test

Si la variante B difiere de A en el titular, el color del CTA y la imagen hero al mismo tiempo, el resultado del test no puede atribuirse a ningún elemento específico. Un uplift positivo no dice qué produjo el uplift. Un resultado negativo no dice qué elemento falló. Cada test debe modificar exactamente un elemento — o usar un diseño de multivariate testing explícitamente diseñado para separar los efectos.

Calcular la significancia durante el test (peeking)

Calcular el p-value diariamente y detener el test cuando baja del 0.05 produce una tasa real de falsos positivos del 25-40% — no del 5%. El diseño secuencial de tests (que sí permite miradas intermedias) requiere métodos estadísticos específicos (alpha spending functions, SPRT) que la mayoría de las herramientas de A/B testing no aplican por defecto. La regla simple: definir la duración antes, no mirar los resultados hasta que se cumpla.

No verificar el SRM antes de analizar

Si el grupo de control tiene 12.800 usuarios y el grupo de tratamiento tiene 11.200, hay un desequilibrio que indica un problema en la implementación. Cualquier resultado en ese experimento es potencialmente inválido — el desequilibrio puede provenir de diferencias de comportamiento entre grupos (usuarios que recargan más la página tienden a ver más la variante A, por ejemplo) que sesgan la comparación. El SRM debe verificarse como primer paso del análisis, antes de mirar la métrica primaria.

No documentar los resultados negativos

Los tests que "no funcionan" son tan informativos como los que sí funcionan — a veces más, porque eliminan hipótesis del espacio de búsqueda. Un equipo que solo documenta los tests positivos construye un repositorio de conocimiento sesgado que no representa el aprendizaje real del equipo. Los resultados negativos bien documentados — con la hipótesis explícita, el resultado observado y la explicación propuesta del por qué no funcionó — son el activo más valioso para el siguiente ciclo de hipótesis.

08 — Cuándo el A/B test es suficiente

Cuándo el A/B test es suficiente — y cuándo no.

El A/B test es suficiente cuando…

La hipótesis involucra un único elemento. Un titular, un CTA, un precio, un orden de campos del formulario, una imagen hero, un asunto de email, una oferta de descuento. Cuando la hipótesis es lo suficientemente específica como para aislar una variable, el A/B test es el diseño correcto y el más eficiente en términos de tráfico requerido.

El comportamiento esperado es independiente de otros elementos de la página. Si cambiar el titular no debería interactuar con el CTA (no hay razón para creer que el efecto del titular es diferente según qué CTA acompaña), el A/B test produce resultados generalizables. Si hay razones para creer que los elementos interactúan — que el efecto del titular depende del CTA — el MVT factorial es más informativo aunque requiere más tráfico.

El A/B test es insuficiente cuando…

La hipótesis involucra múltiples elementos que pueden interactuar. Si se quiere entender si el efecto del titular es distinto según el CTA que lo acompaña, solo el MVT con diseño factorial puede responder esa pregunta.

El cambio afecta a una fracción muy pequeña del tráfico. Tests en páginas de muy bajo tráfico (un artículo específico, una página de error, un segmento muy estrecho) pueden requerir meses de tráfico para alcanzar el tamaño de muestra necesario. En esos casos, juntar aprendizajes de tests en páginas de mayor tráfico y generalizar con criterio es más eficiente que correr un test subpotenciado.

09 — Preguntas frecuentes

Preguntas frecuentes sobre A/B testing básico.

¿Cuánto tiempo debe durar un A/B test?

Como mínimo una semana completa — para capturar el ciclo semanal de comportamiento. La duración correcta es la que permite alcanzar el tamaño de muestra calculado antes de comenzar. Si ese tamaño requiere 3 semanas de tráfico, el test dura 3 semanas. Detener antes infla dramáticamente la tasa de falsos positivos.

¿Qué pasa si el test no muestra significancia estadística?

Un resultado no significativo no es un resultado fallido — es información válida. Significa que el efecto de la variante es menor al efecto mínimo detectable que el test fue diseñado para encontrar. Las interpretaciones posibles: (a) la hipótesis era incorrecta; (b) el efecto existe pero es económicamente irrelevante; (c) el test no tuvo suficiente poder. Documentar el resultado nulo con el mismo rigor que un positivo es parte de un sistema de experimentación maduro.

¿Se puede hacer A/B testing sin una herramienta dedicada?

Sí. Para tests de email, las plataformas de email marketing tienen A/B testing nativo. Para landing pages, se puede usar una URL distinta por variante y asignar tráfico con redirect rules. El análisis estadístico puede hacerse en calculadoras online gratuitas. Lo que no puede faltar es la aleatorización genuina — asignar variantes sistemáticamente (pares/impares del ID) introduce sesgos que invalidan los resultados.

10 — Referencias

Referencias y bibliografía.

Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press. Cap. 3–5.

Kohavi, R. et al. (2014). Seven Rules of Thumb for Web Site Experimenters. KDD 2014.

Fisher, R. A. (1935). The Design of Experiments. Oliver & Boyd.

Ries, E. (2011). The Lean Startup. Crown Business. Cap. 7.

Croll, A. & Yoskovitz, B. (2013). Lean Analytics. O'Reilly. Cap. 5.

Términos del glosario

Siguiente artículo

Diseñaste el test. Ahora el concepto más malentendido de la experimentación: significancia estadística — qué mide realmente, qué no mide y por qué declarar ganadores prematuros es el error más costoso.

Significancia estadística →