¿Qué es un A/B Test?
Un A/B Test es un experimento controlado que distribuye a los usuarios al azar entre dos versiones de un mismo elemento y mide cuál produce un mejor resultado en una métrica definida de antemano. Es el método estándar para validar cambios con evidencia causal, no con opinión.
¿Qué es un A/B Test?
Un A/B Test —también llamado prueba A/B o split test— es un método de experimentación que permite tomar decisiones con evidencia causal en lugar de opiniones. La pregunta que estructura cada test siempre tiene la misma forma: si cambio X, ¿mejora Y?
Para responderla se divide a los usuarios al azar en dos grupos que corren en paralelo. El grupo A recibe la versión de control (la actual) y el grupo B recibe la variante modificada. Ambos quedan expuestos al mismo tiempo, sobre tráfico comparable, y se mide una única métrica objetivo definida antes del lanzamiento. El resultado no es una preferencia ni una intuición: es una diferencia medible entre dos comportamientos reales.
El origen metodológico está en Ronald A. Fisher, que en los años veinte formalizó el diseño de experimentos aleatorizados para ensayos agrícolas. La adaptación al mundo digital la consolidó Ronny Kohavi en Microsoft y Amazon, cuyo libro Trustworthy Online Controlled Experiments (2020) es la referencia canónica del campo. Kohavi insiste en un punto que suele olvidarse: la mayoría de las ideas que los equipos están seguros de que van a ganar, no ganan. La intuición del marketer experimentado no vence a la evidencia del experimento.
Lo que distingue al A/B Test de otras formas de análisis es su lógica causal. Una comparación antes/después puede estar contaminada por estacionalidad, cambios externos o diferencias en el tráfico. La prueba A/B, bien diseñada, aísla el efecto del cambio porque las únicas variables que difieren entre A y B son las que se modificaron deliberadamente.
El resultado accionable de un A/B Test bien ejecutado no es "ganó con 95% de confianza". Es: la variante B mejora el indicador elegido en este contexto, para esta audiencia, en este momento. Fuera de esas condiciones, el resultado deja de ser válido.
Lisandro IserteQué es y qué no es
La denominación "A/B Test" se aplica con frecuencia a cosas que no lo son. Distinguir el método del impostor evita decisiones tomadas con evidencia falsa.
Un A/B Test es
- Una asignación aleatoria de usuarios a dos versiones que corren en paralelo
- Una métrica única definida antes del lanzamiento, no después de ver datos
- Una hipótesis falseable: predice qué cambio espera ver y por qué
- Una decisión con regla previa: ganador, perdedor o sin diferencia
Un A/B Test no es
- Comparar el mes actual contra el anterior — eso es un análisis antes/después contaminado
- Lanzar dos versiones a audiencias distintas (una grupo, otra otro segmento)
- Cambiar varios elementos a la vez y atribuir el resultado a uno
- Detener el test cuando el resultado conviene (peeking)
Los 7 componentes clave de un experimento
Todo A/B Test válido tiene la misma arquitectura interna. Saltarse cualquiera de estos componentes no simplifica el test: lo invalida.
Pregunta de negocio
El punto de partida no es "quiero testear el botón", sino "quiero entender qué fricción está reduciendo la conversión en el checkout". La pregunta define qué vale la pena testear y qué no.
Hipótesis falseable
Una afirmación que puede resultar falsa: "cambiar el copy del CTA de 'Comprar' a 'Empezar gratis' va a aumentar el click-through porque reduce la percepción de compromiso inmediato". Sin hipótesis no hay aprendizaje posible, aunque el test gane.
Variable independiente
Lo único que cambia entre A y B: el copy, el diseño, el precio, el orden de los elementos, el incentivo. Si se cambian varias cosas a la vez, el resultado no tiene causa identificable. Una variable por test.
Variable dependiente
La métrica que se va a medir: tasa de conversión, revenue por visita, retención o una microconversión intermedia. Se define antes del lanzamiento, no después de ver los resultados.
Población y unidad de asignación
¿Se asigna por usuario, por sesión, por dispositivo o por cuenta? Elegir mal genera contaminación entre grupos y resultados imposibles de interpretar. Por usuario es el default para la mayoría de los casos en digital.
Ventana de medición
El tiempo necesario para capturar comportamiento real, considerando ciclos de compra, días de semana y estacionalidad. El cálculo de tamaño de muestra determina la duración mínima. Un test cortado antes de tiempo es tan inútil como uno que no termina nunca.
Regla de decisión
El criterio predefinido para declarar ganador, perdedor o sin diferencia. Sin esta regla, el test termina cuando el analista quiere, que suele ser cuando el resultado conviene. Eso no es un experimento: es una confirmación.
Tipos de A/B Test
La denominación "A/B Test" agrupa tres modalidades distintas con lógicas, costos y riesgos diferentes. Elegir la correcta depende del volumen de tráfico disponible y de la complejidad de la pregunta de negocio.
Control contra una variante. La forma más simple, más rápida de ejecutar y más fácil de interpretar. Para la mayoría de los casos reales en marketing digital y e-commerce, resuelve la pregunta sin agregar complejidad innecesaria.
- Lectura directa del resultado
- Tráfico requerido moderado
- Ejecución rápida
- Una sola hipótesis por test
- No detecta interacciones
Varias variantes contra un control. Útil cuando hay múltiples hipótesis para validar en paralelo, pero exige más volumen y más disciplina interpretativa para evitar falsos positivos por comparaciones múltiples.
- Valida N hipótesis a la vez
- Encuentra mejores variantes más rápido
- Tráfico requerido crece con cada variante
- Riesgo de falsos positivos
- Ajuste por comparaciones múltiples
Combina cambios en múltiples elementos al mismo tiempo y analiza sus interacciones. Potente, pero requiere mucho tráfico y una infraestructura de medición sólida. Rara vez es la primera elección. El multivariate testing aplicado se desarrolla en el cluster de Rendimiento con casos prácticos.
- Detecta interacciones entre elementos
- Optimiza combinaciones complejas
- Tráfico requerido crece multiplicativamente
- Interpretación exige estadística rigurosa
- Resultados más difíciles de comunicar
En los equipos con los que trabajo, ejecutar pruebas A/B es parte del día a día. Lo que cambió en los últimos años es la velocidad: hoy usamos IA para generar avatares digitales que producen versiones casi idénticas de un video con variaciones de tono o énfasis. Lo que antes requería una producción completa, ahora es un test que corre en paralelo sin fricción operativa.
Lisandro IserteCómo ejecutarlo bien (y los errores comunes)
Toda buena ejecución empieza antes del lanzamiento. Definir por escrito la hipótesis, la métrica primaria, las métricas guardrail —las que no deben empeorar—, la duración mínima y la regla de decisión. Calcular el tamaño de muestra con una calculadora antes de empezar: sin ese cálculo, el test corre a ciegas.
Durante la ejecución, correr al menos una semana completa para capturar variaciones por día de semana, idealmente dos si el ciclo de compra lo justifica. Al cerrar, documentar el contexto, hipótesis, resultado y aprendizaje. Los resultados "sin diferencia" son información válida: redirigen esfuerzo hacia donde sí puede haber impacto. Para profundizar en diseño estadístico riguroso, CXL publica una de las guías más rigurosas del sector sobre experimentación aplicada.
La mayoría de los A/B Tests que generan decisiones equivocadas no fallan por problemas técnicos. Fallan por errores de diseño que se cometen antes de lanzar.
Cambiar varias cosas y atribuir el resultado a una sola
Si se modifica el copy, el color y la imagen al mismo tiempo, no hay forma de saber qué causó el cambio en la métrica. Un test, una variable. Lo demás se guarda para el siguiente.
Mover los objetivos en el medio
Cambiar la métrica primaria, el segmento o el tracking una vez que el test está corriendo invalida todo lo acumulado. El resultado se parece a un test, pero no lo es.
Cortar por impulso (peeking)
Revisar el dashboard todos los días y detener el test cuando B va ganando infla los falsos positivos más de lo que la intuición sugiere. El test termina cuando alcanza el tamaño de muestra definido, no cuando el resultado conviene.
Correr tests que se pisan
Si dos experimentos comparten audiencia y punto del funnel, sus efectos se contaminan mutuamente. El primero queda ruidoso, el segundo queda comprometido. Coordinar el calendario de tests es tan importante como diseñarlos bien.
No documentar el aprendizaje
Si el resultado no queda escrito como aprendizaje reutilizable —qué se testeó, por qué, qué pasó, qué se decidió— el costo del test no se recupera nunca. Un repositorio de tests fallidos vale tanto como uno de ganadores.
Preguntas frecuentes sobre el A/B Test
¿Qué es un A/B Test?
Un A/B Test es un experimento controlado que divide a los usuarios al azar en dos grupos: el grupo A recibe la versión actual (control) y el grupo B recibe la versión modificada (variante). Ambas corren en paralelo sobre tráfico comparable y se mide una única métrica definida antes del lanzamiento. El resultado determina qué versión produce un mejor desempeño con evidencia causal, no con opinión.
¿Cuándo tiene sentido hacer un A/B Test?
Tiene sentido cuando hay tráfico suficiente para alcanzar significancia estadística, una hipótesis clara y falseable, una métrica concreta para medir el impacto, y control técnico para asignar variantes de forma aleatoria. Sin esas cuatro condiciones el resultado no es confiable. Para tráfico bajo, conviene usar métodos cualitativos o esperar a acumular volumen antes de testear.
¿Cuál es la diferencia entre A/B Test y test multivariante?
Un A/B Test compara dos versiones modificando una sola variable. Un test multivariante modifica múltiples elementos al mismo tiempo y analiza sus interacciones. El multivariante es más potente pero requiere un volumen de tráfico considerablemente mayor y disciplina interpretativa. Para la mayoría de los casos reales en marketing digital, el A/B Test clásico resuelve sin la complejidad del multivariante.
¿Cuántos usuarios necesito para que un A/B Test sea válido?
El tamaño de muestra depende de tres variables: la tasa de conversión actual, el efecto mínimo detectable que se quiere identificar, y el nivel de confianza estadística (típicamente 95%). Una calculadora de tamaño de muestra resuelve el cálculo antes de empezar. Como referencia: detectar una mejora del 10% sobre una conversión base del 3% requiere alrededor de 50.000 usuarios por variante. Sin ese cálculo previo, el test corre a ciegas.
¿Qué es el peeking en A/B testing y por qué es problemático?
El peeking es el hábito de revisar los resultados antes de que el test alcance el tamaño de muestra definido y detenerlo cuando una variante parece estar ganando. Infla los falsos positivos muy por encima del nivel de confianza nominal: un test con 95% de confianza al que se le hace peeking diario puede tener una tasa real de error superior al 30%. La regla es simple: el test termina cuando alcanza el tamaño de muestra calculado, no cuando el resultado conviene.
Referencias clave
Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press. Referencia canónica del campo: cubre asignación, métricas, sesgos y cultura de experimentación a escala.
Fisher, R. A. (1935). The Design of Experiments. Oliver & Boyd. El texto fundacional del diseño experimental aleatorizado. Toda la lógica del A/B Test moderno sale de acá.
Siroker, D. & Koomen, P. (2013). A/B Testing: The Most Powerful Way to Turn Clicks Into Customers. Wiley. Aplicación al marketing digital con casos concretos de Optimizely. Útil para entender ejecución operativa, menos riguroso en estadística que Kohavi.
Goodson, M. (2014). Most Winning A/B Test Results Are Illusory. Harvard Business Review. Síntesis breve de por qué tantos resultados positivos no replican: peeking, tamaño de muestra insuficiente y comparaciones múltiples.
Términos relacionados