A/B Testing:
experimentar
para convertir.
Un A/B test bien diseñado te dice qué funciona. Uno mal diseñado te dice lo que querés oír. La diferencia está en el rigor del proceso, no en la herramienta.

A/B testing: experimentar con rigor.
Un A/B test distribuye usuarios al azar entre dos versiones de algo — una página, un email, un CTA, un precio — y mide cuál produce mejor resultado en la métrica definida. Es el experimento central del CRO porque transforma opiniones en evidencia. “Creo que este headline funciona mejor” se convierte en “este headline convirtió un 12% más con 97% de confianza”.
Ron Kohavi, en Trustworthy Online Controlled Experiments (cap. 2: “Running and Analyzing Experiments”), establece el principio fundacional: la mayoría de las ideas no funcionan. En sus datos de Microsoft, Bing y LinkedIn, solo 1 de cada 3 cambios propuestos produce mejoras medibles. El A/B testing es el filtro que separa las ideas que funcionan de las que parecen buenas pero no lo son. Sin ese filtro, los equipos acumulan cambios no validados que pueden estar destruyendo conversión sin saberlo.
02 — DiseñoAnatomía de un test bien diseñado.
Un A/B test no es “probemos dos cosas y veamos”. Es un experimento controlado que requiere diseño previo. Eisenberg, en Always Be Testing (cap. 6: “Setting Up Tests”), sistematiza los componentes mínimos que todo test necesita antes de lanzarse.
El componente más ignorado es la hipótesis. “Vamos a testear botón rojo vs. verde” no es una hipótesis — es una acción sin fundamento. “Creemos que un CTA con verbo de beneficio (‘Empezá gratis’) convertirá más que uno genérico (‘Enviar’) porque reduce la ambigüedad sobre qué pasa al hacer clic” es una hipótesis. Si el test gana, aprendés que la claridad de beneficio mueve la conversión. Si pierde, aprendés que la barrera no era la ambigüedad del CTA y podés buscar en otra dirección.
Un test sin hipótesis es como una pregunta sin motivo: puede que te dé una respuesta, pero no sabés qué hacer con ella. Los mejores programas de CRO que vi no son los que corren más tests — son los que formulan mejores preguntas.
Lisandro IserteSignificancia, muestra y duración.
La estadística del A/B testing no es decoración académica — es lo que separa una decisión válida de una adivinanza. Kohavi dedica 5 capítulos de Trustworthy Online Controlled Experiments a este tema porque es donde la mayoría de los equipos fallan.
Significancia estadística
Un resultado es estadísticamente significativo cuando la probabilidad de que sea producto del azar es menor al umbral definido. El estándar es 95% de confianza (p < 0.05): hay menos de un 5% de chance de que la diferencia observada sea ruido. Esto no significa que el resultado sea “verdadero” — significa que es improbable que sea falso. Un 5% de falsos positivos implica que 1 de cada 20 tests “ganadores” puede ser ruido. Por eso los cambios críticos se testean con 99% (p < 0.01).
Tamaño de muestra
La muestra se calcula antes de arrancar el test, no después. Depende de tres variables: la tasa de conversión base, el efecto mínimo detectable (MDE) y el nivel de confianza. Si tu tasa base es 3% y querés detectar una mejora del 10% relativo (de 3% a 3,3%) con 95% de confianza, necesitás aproximadamente 35.000 usuarios por variante. Si querés detectar un efecto del 30% relativo (de 3% a 3,9%), necesitás aproximadamente 4.500. Cuanto menor el efecto que querés detectar, más muestra necesitás.
Duración mínima
Incluso si alcanzás la muestra en 3 días, corré el test al menos 2 semanas completas. El comportamiento del usuario varía por día de la semana: los martes y los sábados tienen patrones distintos. Un test que corre solo de lunes a viernes puede dar resultados sesgados. La experimentación rigurosa requiere disciplina temporal.
04 — PriorizaciónQué testear (y en qué orden).
El recurso más escaso en CRO no es la herramienta ni el tráfico — es el tiempo. Cada test consume semanas. Elegir qué testear primero es una decisión de priorización estratégica. CXL propone el framework PXL que evalúa cada hipótesis en tres dimensiones: potencial de impacto, facilidad de implementación y calidad de la evidencia que soporta la hipótesis.
La jerarquía de impacto en landing pages sigue un patrón consistente: headline y propuesta de valor tienen el mayor impacto potencial, seguidos de calidad de tráfico (cambiar a quién le mostrás la página), luego prueba social y reducción de fricción, y finalmente elementos visuales. Testear colores de botones cuando el headline no comunica el beneficio es optimizar el barniz mientras la estructura cruje.
En el funnel de conversión, priorizá tests en la etapa con mayor caída absoluta. Si el 65% de los usuarios abandona entre carrito y checkout, testear el formulario de checkout produce más impacto absoluto que testear el hero de la home. El framework ICE (Impact, Confidence, Ease) es una herramienta práctica para rankear hipótesis cuando tenés 20 ideas y recursos para 5 tests.
05 — ConexionesA/B testing y el sistema de marketing.
Estrategia
Los tests deben alinearse con los OKRs del equipo. Si la prioridad estratégica es mejorar la NSM, los tests que no impactan la métrica norte son distracciones. El árbol de métricas ayuda a identificar qué tests moverían las palancas más conectadas con el resultado final.
Marca
No todo se puede testear libremente. Los tests que comprometen la identidad de marca — cambiar el tono, usar tácticas de urgencia falsa, contradecir la identidad verbal — pueden ganar en el corto plazo y dañar la brand equity en el largo. La gobernanza de marca define los límites dentro de los cuales el CRO opera.
Oferta
El A/B testing de pricing es una de las palancas más poderosas y menos exploradas. Testear puntos de precio, packaging de planes y anclas de valor puede mover la tasa y el ticket promedio simultáneamente. La propuesta de valor también se testea: ¿qué ángulo del beneficio resuena más con el buyer persona?
Mercado
Los tests producen insights de mercado como efecto secundario. Si un headline centrado en ahorro de tiempo gana sobre uno centrado en ahorro de dinero, aprendés algo sobre las prioridades de tu segmento. La investigación de mercado alimenta las hipótesis de tests; los resultados de tests devuelven inteligencia de mercado. El JTBD del usuario se valida o se refina con cada test que corre.
Rendimiento
El A/B testing requiere tracking impecable. Si los eventos de conversión están mal configurados, los resultados del test son basura. La analítica provee la tasa base necesaria para calcular muestra. Y el reporting debe incluir un log de tests con hipótesis, resultados y aprendizajes para construir conocimiento acumulativo. Los unit economics cuantifican el valor de cada punto de mejora: si subir la tasa 1% genera $30.000/mes, el programa de testing se justifica financieramente.
Fidelización
Los tests no terminan en la primera conversión. El onboarding se testea (¿qué secuencia de emails activa más usuarios?). Las campañas de lifecycle se testean (¿qué trigger reduce más el churn?). El CLV es la métrica guardia definitiva: un test que mejora la conversión inicial pero empeora la retención es un test que perdió — aunque el dashboard de corto plazo diga que ganó. La retención revela si la conversión fue genuina o forzada.
06 — Errores frecuentesErrores frecuentes.
Peeking: mirar resultados y parar antes de tiempo
El error más dañino y más común. Kohavi demuestra que mirar los resultados diariamente y parar cuando “se ve bien” infla los falsos positivos al 20-30%. Es como lanzar una moneda 10 veces, parar cuando saló cara 6 veces y declarar que la moneda está sesgada. Definí la duración antes de arrancar y no la cambies.
Testear demasiadas variables a la vez
Cambiaste el headline, el color, la imagen y el CTA. La variante ganó. ¿Qué causó la mejora? No sabés. No podés replicar el aprendizaje. Testá una variable por vez. Si necesitás testear múltiples variables simultáneamente, usá tests multivariados (MVT) con muestra adecuada.
No medir métricas guardia
Un test que sube la tasa de signup un 15% pero baja la activación un 20% es un test perdedor — aunque el dashboard de conversión muestre verde. Siempre definí métricas guardia: las métricas que no deben empeorar como condición para implementar el cambio.
Declarar “inconcluso” cuando la variante pierde
Un test donde la variante pierde no es inconcluso — es un resultado. Aprendés que tu hipótesis era incorrecta, lo que descarta una dirección y redirige esfuerzos. Los equipos maduros documentan los tests perdedores con el mismo rigor que los ganadores.
Extrapolar resultados a otros contextos
Un test que funcionó en la landing page de Google Ads no necesariamente funciona en la landing de email. El tráfico es distinto, la intención es distinta, el customer journey es distinto. Cada contexto merece su propio test.
Cómo usar A/B testing para diagnosticar.
El A/B testing no es solo una herramienta de optimización — es una herramienta de aprendizaje. Cada test responde una pregunta sobre tu audiencia y tu oferta. El sistema funciona cuando los resultados se acumulan en un “repositorio de aprendizajes” que informa los próximos tests y las próximas decisiones de producto, copy y estrategia.
La secuencia de diagnóstico con A/B testing: primero usá el funnel de conversión para identificar la etapa con mayor caída. Después usá investigación cualitativa (grabaciones, encuestas, la psicología de la conversión) para generar hipótesis de por qué ocurre la caída. Formulá la hipótesis como test. Corré el test con rigor. Documentá el resultado. Repetí. Cada vuelta del ciclo produce una organización más inteligente — y eso es lo que el CRO a escala sistematiza.
08 — Preguntas frecuentesPreguntas frecuentes sobre A/B testing.
¿Cuánto tiempo debe durar un A/B test?
Mínimo 2 semanas completas para capturar variaciones de día de la semana. El tiempo real depende del tráfico y del efecto mínimo detectable. Calculadoras como las de Evan Miller permiten estimar antes de arrancar.
¿Qué es la significancia estadística?
Es la probabilidad de que la diferencia observada no se deba al azar. El estándar mínimo es 95% de confianza (p < 0.05). Algunos equipos usan 90% para tests exploratorios y 99% para cambios de alto impacto en el funnel.
¿Qué hago si no tengo suficiente tráfico?
Hacé CRO cualitativo: análisis heurístico, tests de usuario con 5-8 personas, grabaciones de sesión. También podés testear cambios más grandes (que requieren menos muestra para detectar). Lo que no podés hacer es fingir significancia con muestras pequeñas.
Referencias y bibliografía.
Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press. Cap. 2: “Running and Analyzing Experiments.”
Eisenberg, B. & Eisenberg, J. (2006). Always Be Testing. Wiley. Cap. 6: “Setting Up Tests.”
Laja, P. (2023). “The PXL Prioritization Framework.” CXL Institute. cxl.com
Ries, E. (2011). The Lean Startup. Crown Business. Cap. 7: “Measure.”
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. Cap. 16: “Causes Trump Statistics.”
Cialdini, R. (2006). Influence: The Psychology of Persuasion. Harper Business. Cap. 6: “Scarcity.”
Términos del glosario