Spoke · Nivel intermedio

Diseño de experimentos:
más allá del
A/B test simple.

El A/B test es el punto de partida, no el límite. Factoriales, holdouts, geo-lifts y experimentos de incrementalidad responden preguntas que el A/B test simple no puede — y elegir el diseño correcto determina si el experimento produce el aprendizaje que el negocio necesita.

Nivel intermedioLectura: 16 min.Autor: Lisandro IserteÚltima actualización: 14 de abril de 2026
Diseño de Experimentos — Biblioteca · Lisandro Iserte
01 — El principio

El principio del diseño experimental.

El diseño de un experimento es la serie de decisiones que determinan qué pregunta puede responder ese experimento y con qué grado de confianza. Un A/B test mal diseñado no es un experimento de bajo calidad — es una herramienta que genera datos sin información útil. El diseño correcto comienza con la pregunta, no con la herramienta: primero definir qué se quiere saber, después elegir el diseño que puede responderlo con el tráfico y el tiempo disponibles.

Ronald Fisher, que formalizó el diseño experimental en los años 1920-1930 trabajando con experimentos agrícolas en Rothamsted, estableció los tres principios que siguen siendo válidos en la experimentación digital: replicación (suficientes observaciones para separar el efecto del ruido), aleatorización (asignación aleatoria para eliminar sesgos de selección) y control local del error (aislar fuentes de variación conocidas para aumentar la sensibilidad del test). Cada diseño experimental — desde el A/B test más simple hasta el experimento factorial más complejo — es una implementación de estos tres principios adaptada a distintas preguntas y restricciones de recursos.

02 — Los 4 diseños

Los 4 diseños y cuándo usar cada uno.

Diseño
Pregunta que responde
Tráfico requerido
Mejor caso de uso
A/B Test clásico2 grupos, 1 variable
¿Este cambio específico mejora la métrica?
Bajo
1x base
Copy, CTA, imagen, layout — cambio de un elemento
Factorial 2×24 grupos, 2 variables
¿Cómo interactúan dos elementos entre sí?
Medio
4x base
Titular + CTA, precio + oferta, mensaje + canal
Holdout experimentGrupo excluido vs toda la base
¿Cuál es el impacto acumulado de largo plazo?
Bajo-medio
depende del grupo holdout
Email lifecycle, programas de retención, features de producto
Geo-lift / IncrementalityRegiones tratadas vs control
¿La campaña produce ventas incrementales reales?
Alto
requiere masa crítica por región
TV, radio, OOH, campañas de Meta sin exclusión granular

La elección entre diseños no es solo técnica — es una negociación entre la precisión de la pregunta que el experimento puede responder y los recursos (tráfico, tiempo, complejidad operativa) que requiere. El A/B test clásico es el diseño correcto para la mayoría de las preguntas de optimización. Los diseños más complejos se justifican cuando la pregunta específica que necesita respuesta no puede resolverse con un A/B test simple.

03 — Experimentos factoriales

Experimentos factoriales: medir las interacciones.

El experimento factorial es la respuesta al problema de los A/B tests secuenciales: si testeas el titular primero y el CTA después, no podés saber si el efecto del titular que mediste se mantiene con cualquier CTA o solo con el CTA que estaba presente cuando lo testeaste. Si los elementos interactúan — si el efecto de uno depende del valor del otro — los tests secuenciales producen aprendizajes incorrectos.

El diseño 2×2 en la práctica

Un factorial 2×2 con Factor A (titular: versión actual vs nueva) y Factor B (CTA: "Probar gratis" vs "Solicitar demo") produce cuatro grupos: A1B1 (control actual + prueba gratis), A1B2 (control actual + solicitar demo), A2B1 (nuevo titular + prueba gratis), A2B2 (nuevo titular + solicitar demo). Con 25% del tráfico en cada grupo, el diseño permite estimar el efecto del titular promediado sobre ambos CTAs, el efecto del CTA promediado sobre ambos titulares, y la interacción (¿el efecto del titular es distinto según el CTA?).

El costo es el tráfico: un factorial 2×2 requiere 4 veces más observaciones que un A/B test simple para la misma sensibilidad. Para un sitio que necesita 10.000 usuarios por variante en un A/B test, el factorial 2×2 necesita 10.000 por cada una de las 4 combinaciones — 40.000 usuarios en total. Ese requerimiento hace que los factoriales sean prácticos solo en páginas o flujos de alto tráfico.

Cuando NO usar factorial

Si no hay una razón específica para creer que los elementos interactúan — si el efecto del titular debería ser independiente del CTA — los tests secuenciales son más eficientes. Testear el titular primero (con el CTA actual como constante) y luego testear el CTA (con el nuevo titular ganador como constante) requiere menos tráfico y produce el mismo resultado en la mayoría de los casos donde la interacción es pequeña o inexistente.

04 — Holdout experiments

Holdout experiments: medir los efectos de largo plazo.

Un holdout experiment mantiene un grupo de usuarios excluido de una iniciativa — una feature de producto, un programa de email, una campaña de retención — mientras el resto de la base la recibe. El grupo de holdout actúa como control a largo plazo, permitiendo medir el efecto acumulado de la iniciativa sobre períodos de semanas o meses — algo que un A/B test de 2-3 semanas no puede capturar.

Los casos de uso principales

Lifecycle email programs: Si el equipo lanza un programa de 8 emails de onboarding durante 30 días, el impacto en la retención a 90 días no puede medirse con un A/B test corto. Un holdout del 10% de los nuevos usuarios que no recibe ningún email del programa permite comparar la retención a 90 días entre el grupo tratado y el holdout — midiendo el impacto causal del programa completo, no de ningún email individual.

Features de producto con efectos de habituación: Algunas features toman semanas en incorporarse al comportamiento del usuario. Un A/B test que termina a los 14 días puede subestimar el impacto de largo plazo de una feature que los usuarios adoptan gradualmente. El holdout permite medir el efecto cuando el usuario tiene suficiente exposición para cambiar su comportamiento.

Campañas de retención: Medir si una campaña de win-back realmente recupera usuarios que habrían churnado de todos modos, o si solo recupera usuarios que habrían vuelto solos, requiere un holdout que no recibe la campaña — el único control válido para esa pregunta causal.

El holdout experiment es el instrumento que separa el impacto real de una iniciativa de marketing del ruido de fondo del negocio. Sin un grupo de control que no recibe la iniciativa, cualquier mejora observada después del lanzamiento puede ser causalidad o puede ser coincidencia. El holdout es la única forma honesta de saber cuál es cuál — y la mayoría de los equipos nunca lo usa porque requiere tener la disciplina de no tratar al 100% de los usuarios desde el primer día.

Lisandro Iserte
05 — El framework completo

El framework de diseño: de la hipótesis al aprendizaje.

El diseño de un experimento no comienza en la elección del tipo (A/B, factorial, holdout) — comienza en la hipótesis y termina en la documentación del aprendizaje. El tipo de experimento es solo una de las decisiones dentro del framework completo.

Paso 1: especificar la hipótesis causal

La hipótesis debe especificar: la observación motivadora, el mecanismo causal, la predicción con métrica y magnitud esperada. Sin estos tres componentes, el diseño del experimento no puede optimizarse para responder la pregunta correcta. El tipo de experimento correcto emerge de la hipótesis — no al revés.

Paso 2: elegir el diseño en función de la hipótesis

Si la hipótesis involucra un elemento → A/B test. Si involucra la interacción entre dos elementos → factorial. Si el efecto es de largo plazo → holdout. Si la intervención no permite aleatorización a nivel de usuario → geo-lift o incrementality testing. El diseño es la arquitectura que hace que el experimento pueda responder la hipótesis específica.

Paso 3: definir métricas y criterios de éxito a priori

Antes de correr el test: métrica primaria, métricas de guardrail, nivel de significancia, poder deseado, MDE y duración. Todos estos parámetros deben estar fijados en un documento antes de que el primer usuario entre al experimento. Los cambios post-hoc a los criterios de éxito son la forma más común de sesgo en equipos de experimentación principiantes — y la más difícil de detectar desde fuera.

Paso 4: documentar el aprendizaje independientemente del resultado

Un experimento bien diseñado produce aprendizaje independientemente de si la hipótesis se confirma o se rechaza. La documentación del aprendizaje debe incluir: el resultado numérico con intervalo de confianza, la conclusión sobre la hipótesis, la explicación propuesta del mecanismo causal observado y las hipótesis que el resultado genera para el próximo ciclo. Conectar el aprendizaje de cada experimento con el backlog de hipótesis futuras es lo que convierte tests aislados en un sistema de conocimiento acumulativo.

06 — Conexiones

Cómo conecta el diseño experimental con el sistema de marketing.

Rendimiento

El diseño correcto de experimentos determina la calidad de la evidencia que alimenta las decisiones de optimización de presupuesto. Un holdout experiment sobre un programa de email de retención produce evidencia causal del CAC de retención — información que ningún modelo de atribución puede proveer. Los unit economics se calculan con más precisión cuando hay evidencia experimental sobre el impacto causal de cada iniciativa — no solo correlaciones en datos históricos.

Crecimiento y CRO

El CRO avanzado requiere más que A/B tests simples: los factoriales identifican qué combinaciones de elementos producen el mayor uplift, y los holdouts miden si las mejoras de conversión se mantienen en el tiempo o se diluyen. La adquisición paga se valida con geo-lift tests que confirman si la inversión en medios produce ventas incrementales o si solo captura demanda que habría ocurrido de todos modos. Los growth loops se validan con experimentos que separan el crecimiento orgánico del generado por la iniciativa específica.

Oferta, marca, mercado y fidelización

Los experimentos de pricing requieren diseños factoriales cuando se quiere entender cómo interactúan precio y packaging — no solo qué precio convierte más en aislamiento. Los tests de mensaje de marca requieren holdouts de largo plazo para medir el impacto en brand equity — no solo la conversión inmediata. La investigación de mercado genera hipótesis; el diseño experimental correcto determina si esas hipótesis pueden responderse con el tráfico y los recursos disponibles. El lifecycle marketing se optimiza con holdouts que miden el impacto acumulado de los programas completos, no con tests aislados de emails individuales.

Estrategia

La priorización estratégica de iniciativas mejora cuando el equipo puede estimar el valor esperado de cada experimento — el uplift potencial si la hipótesis se confirma, multiplicado por la probabilidad de que se confirme. Los equipos con mayor madurez de diagnóstico estratégico priorizan el backlog de hipótesis de la misma forma que priorizan el backlog de producto — por valor esperado ajustado por riesgo y por el costo de aprendizaje del experimento necesario para validarlas.

07 — Errores frecuentes

Errores frecuentes de diseño experimental.

Elegir el tipo de experimento antes de definir la hipótesis

El error de proceso más común: el equipo decide "vamos a hacer un A/B test" antes de tener una hipótesis específica. El diseño correcto emerge de la pregunta que se quiere responder — no al revés. Si la hipótesis involucra interacciones entre elementos, el A/B test simple no puede responderla. Si el efecto es de largo plazo, un test corto no puede medirlo. El tipo de experimento es la consecuencia del diseño, no el punto de partida.

No definir el grupo holdout antes del lanzamiento

El error más frecuente con los holdout experiments: lanzar la iniciativa al 100% de los usuarios y después intentar construir un grupo de control retroactivamente comparando con períodos históricos. La comparación con períodos históricos confunde el efecto de la iniciativa con la estacionalidad, los cambios de contexto y otras variables que cambian entre períodos. El holdout group debe definirse antes del lanzamiento — es la única forma de tener un control válido.

Cambiar los criterios de éxito a posteriori

Si el test no muestra significancia en la métrica primaria pero muestra un resultado "interesante" en una métrica secundaria, y el equipo decide retroactivamente declarar esa métrica como primaria — el resultado no es válido estadísticamente. Este patrón, conocido como "HARKing" (Hypothesizing After Results are Known), es una de las principales fuentes de resultados irreproducibles en investigación y en experimentación de marketing. Los criterios de éxito deben documentarse antes de lanzar y no modificarse.

Usar diseños complejos sin el volumen que requieren

Un factorial 2×2 en una página de bajo tráfico puede requerir 6 meses para alcanzar el tamaño de muestra necesario. Durante ese tiempo, el contexto cambia, la relevancia de la hipótesis puede haberse agotado y el experimento completo puede quedar obsoleto antes de completarse. Calibrar la complejidad del diseño al volumen de tráfico disponible — y aceptar que algunas preguntas no pueden responderse con el tráfico actual — es parte del diseño responsable de experimentos.

08 — Cómo usar el diseño para diagnosticar

Cómo usar el diseño de experimentos para diagnosticar el sistema.

El diseño experimental, aplicado sistemáticamente al diagnóstico del funnel, produce un mapa de causalidad que ningún análisis de datos históricos puede generar. Tres aplicaciones concretas para equipos de marketing intermedio:

Diagnosticar dónde está la fricción real en el funnel

En lugar de optimizar cada etapa del funnel de forma aislada, diseñar experimentos que aíslan qué etapa produce el mayor impacto en la métrica final cuando se interviene. Un test de onboarding que mide el impacto en retención a 90 días (no solo en completación del onboarding) puede revelar que optimizar el paso 3 del onboarding produce más retención que optimizar los pasos 1 y 2 combinados — un resultado contraintuitivo que solo emerge cuando la métrica del experimento está conectada con el resultado de negocio real, no con la métrica de flujo local.

Separar el efecto de la iniciativa del ruido de fondo

Con un holdout del 10% de la base que no recibe ninguna comunicación de retención, el equipo puede medir si la tasa de retención general del negocio está mejorando por las iniciativas específicas o por factores externos (estacionalidad, mejoras de producto, cambios de contexto del mercado). Sin ese holdout, cualquier mejora en retención puede atribuirse a las iniciativas — o puede ser ruido de fondo. El holdout provee el contrafactual necesario para separar las dos fuentes.

Validar los modelos de atribución con evidencia causal

Los modelos de atribución producen hipótesis sobre cuáles canales contribuyen más. Los experimentos de pausa o geo-lift validan esas hipótesis con evidencia causal: si la atribución multi-canal asigna el 30% del crédito al SEO orgánico, un experimento que suspende el SEO de un segmento o geografía durante 4 semanas puede estimar si ese 30% refleja una contribución causal real o una correlación sin causalidad.

09 — Preguntas frecuentes

Preguntas frecuentes sobre diseño de experimentos.

¿Cuándo usar un holdout experiment en lugar de un A/B test?

El holdout es la elección correcta cuando el efecto de una iniciativa se acumula en el tiempo y un A/B test corto no lo capturaría completo. Los casos más frecuentes son programas de email de lifecycle, features de producto con efectos de habituación, y campañas de retención donde el impacto en churn se mide a 60-90 días. Un test clásico de 14 días no puede medir el efecto de largo plazo de ninguna de estas iniciativas.

¿Qué es un experimento factorial y cuándo lo necesito?

Un factorial testea múltiples factores simultáneamente usando todas las combinaciones posibles — midiendo el efecto de cada factor individualmente y las interacciones entre ellos. Se necesita cuando hay razones para creer que el efecto de un elemento depende del valor de otro. Requiere 4 veces más tráfico que un A/B test simple (para un 2×2), lo que lo hace práctico solo para páginas de alto volumen.

¿Cómo se documenta correctamente el aprendizaje de un experimento?

La documentación correcta incluye: la hipótesis original con mecanismo causal, el diseño y parámetros estadísticos, el resultado numérico con intervalo de confianza, la conclusión sobre la hipótesis, la explicación propuesta del mecanismo observado, y las hipótesis que el resultado genera. Un experimento bien documentado produce valor tanto si confirma como si rechaza la hipótesis — porque en ambos casos reduce la incertidumbre del espacio de decisión futuro.

10 — Referencias

Referencias y bibliografía.

Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press. Cap. 6–9: "Experiment Design."

Kohavi, R. et al. (2019). Online Controlled Experiments at Large Scale. arXiv:1904.02664.

Fisher, R. A. (1935). The Design of Experiments. Oliver & Boyd.

Montgomery, D. C. (2017). Design and Analysis of Experiments. 9th ed. Wiley. Cap. 5: "Factorial Designs."

Ries, E. (2011). The Lean Startup. Crown Business.

Términos del glosario

Siguiente artículo

Dominás el diseño de experimentos. Ahora: cuándo testear múltiples variables simultáneamente, qué volumen necesitás para que el MVT sea confiable y cómo interpretar interacciones sin caer en falsos positivos.

Multivariate Testing →