Incrementality testing: la única forma de medir causalidad real
Todos los modelos de atribución miden correlaciones. El incrementality testing mide si la campaña realmente causó ventas que no habrían ocurrido sin ella. Es el test más difícil de diseñar y el más honesto de interpretar.
- Qué es el incrementality testing
- Por qué la atribución tradicional no mide causalidad
- Tipos de test: geo-lift, holdout y PSA tests
- Cómo diseñar un geo-lift test
- Cuándo el resultado sorprende y qué hacer
- Implicaciones estratégicas
- Errores frecuentes
- Lo que aprendiste en este subhub
- Preguntas frecuentes
Qué es el incrementality testing
El incrementality testing es un método experimental que mide el impacto causal real de una inversión de marketing: cuántas conversiones o ventas adicionales se generaron que no habrían ocurrido sin esa inversión. La palabra clave es causal. A diferencia de todos los modelos de atribución —incluyendo la algorítmica— que asignan crédito basándose en correlaciones entre touchpoints y conversiones, el incrementality testing usa un grupo de control para aislar el efecto de la campaña del comportamiento que habría ocurrido de todos modos.
La pregunta que responde no es "¿qué canal recibe crédito por esta conversión?" sino "¿esta conversión habría ocurrido si no hubiésemos invertido en este canal?" — una pregunta radicalmente distinta. El canal que en el modelo de atribución aparece con ROAS de 5 puede tener incrementalidad de 0 si todos los usuarios que convirtieron gracias a él habrían comprado de todos modos sin el anuncio. El canal que parece ineficiente en la atribución puede tener alta incrementalidad si sus conversiones son genuinamente adicionales. Esta distinción tiene consecuencias directas en las decisiones de presupuesto: los euros que se invierten en canales de bajo impacto incremental —aunque tengan buen ROAS en el reporte— son euros que no generan crecimiento real.
Por qué la atribución tradicional no mide causalidad
El problema de fondo de todos los modelos de atribución —desde last-click hasta data-driven attribution— es la selección. Los usuarios que convierten no son una muestra aleatoria de todos los usuarios expuestos a una campaña: son los usuarios que tenían mayor propensión preexistente a comprar. Y son exactamente esos usuarios los que más buscan información del producto (más touchpoints en Search), los que más abren emails, los que más hacen clic en los anuncios.
El resultado es que los modelos de atribución ven más touchpoints en los journeys que convierten — y concluyen que esos canales son más efectivos. Pero en parte, esos canales simplemente llegaron a más usuarios que ya iban a comprar. El retargeting es el caso más claro: muestra anuncios a usuarios que ya visitaron la web (alta intención preexistente), y esos usuarios convierten más que la población general no porque el retargeting los convenció sino porque ya estaban convencidos. El ROAS del retargeting se infla sistemáticamente por esta razón.
El único método que rompe ese ciclo de selección es la asignación aleatoria: dividir los usuarios (o geografías) de forma aleatoria entre los que reciben la campaña y los que no la reciben, y comparar sus tasas de conversión. La asignación aleatoria garantiza que los grupos son comparables en todo lo demás excepto en la exposición a la campaña. La diferencia en conversión entre ambos grupos es entonces el efecto causal limpio.
La pregunta que el incrementality testing responde es la que toda inversión de marketing debería responder y casi nunca responde: ¿si no hubiésemos gastado este dinero, habríamos vendido menos? A veces la respuesta incómoda es no.
Lisandro IserteTipos de test: geo-lift, holdout y PSA tests
Geo-lift tests
El geo-lift test asigna regiones geográficas aleatoriamente a grupo de tratamiento (la campaña sigue activa) y grupo de control (la campaña se pausa o reduce). Se comparan las ventas o conversiones en ambas geografías durante el período del test. Si las geografías de tratamiento crecen significativamente más que las de control, ese diferencial es el incremento atribuible a la campaña. Es el diseño preferido cuando no es posible asignar usuarios individuales aleatoriamente — que es el caso en la mayoría de los canales de publicidad digital programática.
Holdout experiments (ghost ads)
En los holdout experiments, la plataforma asigna aleatoriamente un porcentaje de la audiencia objetivo a ver una "publicidad fantasma" (un anuncio de servicio público u otro contenido neutro) en lugar de la campaña real. El grupo de holdout tiene las mismas características que el grupo expuesto — la única diferencia es que no vio la campaña. La comparación de tasas de conversión entre ambos grupos es la incrementalidad de la campaña. Meta e Instagram ofrecen "Brand Lift Studies" y "Conversion Lift" basados en este principio. Google ofrece "Conversion Lift" en Display y YouTube.
PSA tests (Public Service Announcement)
Una variante de los holdout experiments donde el grupo de control ve anuncios de una causa pública (en lugar del anuncio real) para controlar el costo del espacio publicitario. Es más caro que el holdout simple pero produce una comparación más pura al garantizar que el grupo de control está igualmente "ocupado" con contenido publicitario de similar frecuencia.
Cómo diseñar un geo-lift test
El diseño correcto de un geo-lift test tiene cinco pasos. Primero, seleccionar el pool de geografías: deben ser unidades con suficiente volumen de conversiones para producir resultados estadísticamente significativos. Muchas geografías pequeñas son preferibles a pocas geografías grandes — producen mayor poder estadístico y mejor aleatorización.
Segundo, verificar la comparabilidad previa: antes del test, las geografías de control y las de tratamiento deben tener historiales de conversión similares. El método más usado es comparar las tendencias de conversión de las últimas 8-12 semanas. Si hay grandes diferencias históricas entre los grupos, la aleatorización no fue suficiente y el diseño debe ajustarse.
Tercero, determinar la duración mínima del test. La calculadora de tamaño de muestra para tests de incrementalidad requiere tres parámetros: el volumen de conversiones semanal en las geografías de control, el efecto mínimo detectable (el porcentaje de incremento que se quiere poder detectar), y el nivel de significancia estadística deseado (típicamente 95%). El test debe correr hasta alcanzar ese período, incluso si los resultados parecen claros antes.
Cuarto, analizar los resultados con el método correcto. La métrica central es el iROAS (incremental ROAS): las conversiones incrementales del grupo de tratamiento (conversiones reales del grupo de tratamiento menos las conversiones esperadas basadas en el comportamiento del grupo de control) divididas por el costo de la campaña. Un iROAS de 2.1 significa que por cada euro invertido en la campaña, se generaron 2.1 euros de revenue que no habrían ocurrido sin ella. El iROAS se compara con el ROAS de atribución estándar: si el ROAS de atribución es 5 y el iROAS es 1.8, hay una sobreestimación del 64% por parte de los modelos de atribución.
Quinto, documentar los resultados con intervalos de confianza. Un iROAS de 2.1 con intervalo de confianza del 95% de [0.8, 3.4] incluye valores cercanos a 0, lo que significa que no podemos rechazar con confianza suficiente la hipótesis de que la campaña tuvo incrementalidad cero. Un iROAS de 2.1 con intervalo [1.7, 2.5] es un resultado sólido. La incertidumbre del resultado debe comunicarse explícitamente — presentar solo el punto central sin el intervalo es un error de storytelling con datos.
Cuándo el resultado sorprende y qué hacer
El resultado más frecuentemente sorprendente del incrementality testing es descubrir que un canal con buen ROAS en atribución tiene baja incrementalidad real. El retargeting es el caso más documentado: muchas empresas descubren que el 40-70% de las conversiones atribuidas al retargeting habrían ocurrido de todos modos sin esos anuncios. Los usuarios que tenían alta intención de compra se muestran en las audiencias de retargeting y compran — pero lo habrían hecho incluso sin ver los anuncios.
La respuesta correcta cuando un canal tiene baja incrementalidad no es necesariamente eliminarlo — es ajustar el presupuesto y las audiencias para maximizar el impacto incremental. En retargeting, esto puede significar reducir la frecuencia de exposición, ajustar las ventanas de audiencia para excluir los usuarios más cerca del fondo del funnel (que habrían convertido solos), o redirigir el presupuesto hacia el retargeting de usuarios en fases más tempranas del customer journey donde el anuncio tiene mayor poder persuasivo.
El otro resultado sorprendente es descubrir que un canal que parecía ineficiente en la atribución tiene alta incrementalidad. Esto ocurre frecuentemente con canales de awareness —podcast advertising, out-of-home, patrocinios— que generan conversiones que no tienen clic rastreable y que por eso no aparecen en los modelos de atribución digital. El geo-lift test puede revelar que las ciudades donde el bus publicitario estuvo activo tienen un incremento de ventas orgánicas que no aparece en ningún reporte de atribución.
Implicaciones estratégicas
El incrementality testing cambia fundamentalmente cómo se evalúan las inversiones de marketing. En el cluster de Estrategia, produce la evidencia más sólida disponible para la asignación de presupuesto entre canales: saber qué canales generan ventas incrementales y cuáles simplemente capturan demanda que habría llegado de todos modos es el insumo más valioso para la priorización de iniciativas. El sistema de toma de decisiones del equipo que incorpora resultados de incrementality testing periódico tiene menor riesgo de sobre-invertir en canales de captura y sub-invertir en canales de generación de demanda.
En el cluster de Crecimiento, el incrementality testing es el complemento necesario de la optimización del CAC: el CAC calculado sobre conversiones de atribución puede ser materialmente distinto al CAC calculado sobre conversiones incrementales. El equipo que optimiza el CAC de atribución puede estar mejorando una métrica que no refleja el crecimiento real. El CAC incremental —inversión dividida solo por las conversiones que no habrían ocurrido sin la campaña— es el numerador correcto para evaluar si la inversión en adquisición tiene sentido. La optimización de conversión (CRO) también se beneficia del marco de incrementalidad: en lugar de probar variantes de landing page sobre conversiones brutas, probarlas sobre conversiones incrementales garantiza que las mejoras medidas son reales y no capturas de demanda preexistente.
En el cluster de Marca, el incrementality testing es el método que puede demostrar que la inversión en brand awareness tiene retorno medible. Un geo-lift test que pausa las campañas de TV en algunas geografías y mide el impacto en las ventas orgánicas produce la evidencia causal que ningún modelo de atribución digital puede dar. Si las geografías sin TV muestran caída en las búsquedas de marca y en las tasas de conversión orgánica, ese dato justifica la inversión en brand equity con evidencia experimental. En el cluster de Fidelización, los holdout tests en campañas de retención revelan si esas campañas realmente retienen clientes que se habrían ido, o simplemente incentivan a clientes que habrían renovado de todos modos a pagar menos por el descuento del email de retención. Si el 80% de los clientes en el grupo de holdout renuevan sin ningún email, el email de retención tiene baja incrementalidad sobre la renovación pero puede estar degradando el margen innecesariamente. En el cluster de Mercado, el incrementality testing puede revelar diferencias de efectividad de los canales por segmento de mercado: el mismo canal puede tener alta incrementalidad en el segmento ICP y baja incrementalidad en segmentos periféricos, información que informa tanto la segmentación de las campañas como el diseño del journey multicanal por segmento. En el cluster de Oferta, los tests de incrementalidad son la herramienta correcta para evaluar el impacto de las promociones: descubrir si el descuento del 15% genera ventas incrementales o simplemente adelanta compras que habrían ocurrido de todos modos a precio completo es la información que el equipo de experimentación de pricing necesita para diseñar una política de descuentos que no erosione el margen sin beneficio real.
Errores frecuentes en incrementality testing
Error 1: terminar el test antes de alcanzar significancia estadística
El error de "peeking" —mirar los resultados antes de que el test alcance el tamaño de muestra previsto y tomar decisiones basadas en esos datos parciales— produce conclusiones incorrectas con mayor frecuencia de lo que intuitivamente se espera. El test debe correr hasta la duración prevista, independientemente de lo que los datos intermedios muestren.
Error 2: no comparar la comparabilidad previa de los grupos
Si las geografías de control tienen históricamente más ventas que las de tratamiento, cualquier diferencia durante el test puede reflejar esa brecha preexistente, no el efecto de la campaña. Verificar la comparabilidad del historial previo es obligatorio antes de lanzar el test.
Error 3: no documentar los intervalos de confianza
Reportar solo el punto central del iROAS sin el intervalo de confianza es un error de presentación que puede llevar a conclusiones erróneas. Un iROAS de 2.3 con intervalo [0.5, 4.1] no es estadísticamente distinto de 0 con confianza razonable. El nivel de incertidumbre del resultado debe estar explícito en cualquier comunicación a la dirección.
Error 4: usar los resultados del test directamente para decisiones granulares
El incrementality testing da resultados a nivel de canal o campaña — no a nivel de audiencia individual o creatividad. El iROAS de la campaña completa de retargeting no dice cuál audiencia específica tiene mejor incrementalidad. Para eso se necesitarían tests adicionales segmentados. La granularidad de las decisiones debe ser consistente con la granularidad de los datos del test.
Lo que aprendiste en este subhub
El subhub de Atribución y Medición construyó el sistema completo de medición causal: desde los fundamentos de la atribución hasta el método experimental que establece causalidad real.
Preguntas frecuentes sobre incrementality testing
¿Qué es el incrementality testing?
Es un método experimental que mide cuántas conversiones generó una campaña que no habrían ocurrido sin ella. Usa grupos de control asignados aleatoriamente para aislar el efecto causal de la campaña del comportamiento que habría ocurrido de todos modos. Es el único método que mide causalidad, no correlación.
¿Qué es un geo-lift test?
Un geo-lift test es un diseño de incrementality testing que usa regiones geográficas como unidades de asignación. Algunas geografías son el grupo de tratamiento (campaña activa) y otras son el grupo de control (campaña pausada). La diferencia en conversiones entre ambos grupos durante el test es el impacto incremental de la campaña.
¿Cuánto tiempo necesita un test de incrementalidad?
El tiempo mínimo depende del volumen de conversiones y del efecto mínimo detectable. Con alto volumen, puede ser suficiente en 2-4 semanas. Con bajo volumen, puede necesitar 6-12 semanas. El test debe correr hasta la duración prevista por la calculadora de tamaño de muestra — terminarlo antes produce resultados no confiables.
Referencias y bibliografía
- Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press. Cap. 14: "Observational Causal Studies."
- Vaver, J. & Koehler, J. (2011). "Measuring Ad Effectiveness Using Geo Experiments." Google Research. research.google
- Chapelle, O. & Oguz, T. (2021). "Choice of Planner in Incrementality Testing." Meta Research. research.facebook.com
- Davenport, T. & Harris, J. (2007). Competing on Analytics. Harvard Business School Press. Cap. 5: "Competing with Analytics."
Siguiente subhub: Experimentación
A/B testing, significancia estadística, diseño de experimentos y cultura de experimentación. El sistema que convierte decisiones de marketing en conocimiento verificable.
Ir al siguiente subhub →