Spoke · Nivel Avanzado

Bandit algorithms: cuando optimizar durante el test vale más que esperar

Q: ¿Qué es un multi-armed bandit en marketing?

Un multi-armed bandit (MAB) es un algoritmo de optimización adaptativa que asigna tráfico de forma dinámica entre variantes de un test, aumentando progresivamente el porcentaje de usuarios que ven la variante con mejor rendimiento mientras el test está activo, en lugar de mantener una división fija 50/50 hasta el cierre. El nombre proviene de la analogía con las máquinas tragamonedas (one-armed bandits): si tuvieras múltiples máquinas con probabilidades de premio desconocidas, el MAB define la estrategia óptima para maximizar el premio total mientras explorás cuál máquina es mejor.

Q: ¿Cuándo usar bandit algorithms en lugar de A/B testing?

Los bandits son preferibles al A/B test clásico cuando el costo de mostrar una variante inferior durante el test es alto y no se puede tolerar: por ejemplo, en campañas de alto presupuesto con ventana corta, en personalización en tiempo real donde el comportamiento del usuario cambia rápidamente, o en sistemas de recomendación donde la variante inferior genera fricción inmediata. El A/B test clásico sigue siendo mejor cuando el aprendizaje sobre mecanismos importa más que la optimización inmediata, cuando se quiere un resultado estadístico interpretable con garantías frecuentistas, y cuando el volumen es suficiente para completar el test en un plazo razonable.

Q: ¿Los bandit algorithms comprometen la validez estadística?

Sí, en el sentido clásico frecuentista. Los bandits están diseñados para maximizar el resultado durante el test (exploration-exploitation trade-off), no para producir una estimación imparcial del efecto de cada variante. Esto significa que los p-values calculados con métodos estadísticos clásicos no son válidos en experimentos con bandits, porque la asignación de tráfico no fue aleatoria fija. Los análisis correctos de bandits usan frameworks bayesianos o métodos de inferencia adaptativa que tienen en cuenta la política de asignación dinámica. Si el objetivo es aprender cuánto mejor es una variante (y por qué), el A/B test con análisis frecuentista clásico produce inferencias más claras.

El A/B test clásico mantiene el tráfico dividido en partes iguales hasta el final. El bandit algorithm redirige tráfico hacia la variante ganadora desde el primer día. La elección entre ambos no es técnica — es estratégica.

Nivel Avanzado ⏱ 13 min lectura Autor Lisandro Iserte Última actualización: 14 de abril de 2026

Bandit Algorithms: optimización adaptativa en tiempo real

Contenido

Qué es un multi-armed bandit
El trade-off exploración-explotación
Algoritmos bandit principales
Bandit vs A/B test: comparación directa
Cuándo usar bandits — y cuándo no
Implicaciones estratégicas
Errores frecuentes
Preguntas frecuentes

Qué es un multi-armed bandit

Un multi-armed bandit (MAB) es un algoritmo de optimización adaptativa que asigna tráfico de forma dinámica entre variantes de un experimento, aumentando progresivamente el porcentaje de usuarios que ven la variante con mejor rendimiento mientras el test está activo. A diferencia del A/B test clásico, que mantiene una división fija de tráfico (típicamente 50/50) durante toda la duración del experimento, el bandit ajusta esa división continuamente en función de los resultados acumulados hasta ese momento.

El nombre proviene de la teoría de decisiones estadísticas: un "one-armed bandit" es una máquina tragamonedas (referencia al brazo de la palanca), y el problema del multi-armed bandit plantea la pregunta de cómo distribuir las tiradas entre múltiples máquinas con probabilidades de premio desconocidas para maximizar el premio total, aprendiendo cuál es la mejor máquina mientras se juega. Richard Bellman formalizó este tipo de problema en los años 50 como parte de la programación dinámica; Peter Whittle demostró en 1980 que la solución óptima tiene una forma elegante conocida como el índice de Gittins. La aplicación a experimentos de marketing fue popularizada por el crecimiento de las plataformas de recomendación y personalización en la década de 2010.

La tensión conceptual entre el MAB y el A/B test clásico es real y productiva. Kohavi defiende el A/B test para la mayoría de los contextos de marketing digital porque produce inferencias estadísticas más claras y transferibles. Los equipos de Recommendation Systems de Netflix, Spotify y Amazon defienden los bandits para sistemas de personalización donde el contexto cambia rápidamente y el costo de mostrar contenido subóptimo es alto. Ambas posiciones son correctas para sus contextos — el error es asumir que una herramienta es universalmente superior.

El trade-off exploración-explotación

El problema central que los bandit algorithms resuelven es el trade-off exploración-explotación: cuánto tráfico dedicar a aprender cuál variante es mejor (exploración) versus cuánto dedicar a mostrar la variante que actualmente parece mejor (explotación). El A/B test clásico resuelve este trade-off de forma rígida: toda la duración del test es exploración (tráfico dividido equitativamente), y la explotación ocurre solo después del cierre (implementar la variante ganadora). El bandit resuelve el trade-off de forma continua: en cada instante, el algoritmo decide cuánto explorar y cuánto explotar basándose en la evidencia acumulada.

Ciclo de decisión de un bandit algorithm

Observar resultados actuales El algoritmo recibe los datos de conversión de cada variante hasta ese momento: cuántos usuarios vieron cada variante y cuántos convirtieron.

Estimar la distribución de probabilidades Para cada variante, el algoritmo estima una distribución de probabilidad sobre su tasa de conversión real — no un número puntual, sino un rango con incertidumbre.

Seleccionar la variante para el próximo usuario El algoritmo elige qué variante mostrar al próximo usuario según su estrategia (Thompson sampling, UCB, epsilon-greedy). Las variantes con mayor rendimiento estimado reciben más tráfico.

Actualizar con el nuevo resultado El resultado del usuario (convirtió o no) actualiza la estimación de probabilidades para esa variante. El ciclo se repite para cada usuario nuevo.

La ventaja matemática del bandit sobre el A/B test es que minimiza el regret — la diferencia acumulada entre el resultado obtenido y el resultado que se hubiera obtenido si desde el primer momento se hubiera mostrado solo la variante óptima. Con un A/B test de 4 semanas donde la variante B es un 15% mejor, el 50% del tráfico durante esas 4 semanas ve la variante inferior — ese costo no existe o es mucho menor con un bandit bien implementado. Esta ventaja es real pero condicional: se materializa cuando el test es largo respecto al ciclo de decisión del usuario y cuando la diferencia entre variantes es sustancial.

Algoritmos bandit principales

Epsilon-greedy

El más simple: con probabilidad ε (epsilon, típicamente entre 0.05 y 0.2), el algoritmo elige una variante aleatoriamente (exploración); con probabilidad 1-ε, elige la variante con la mayor tasa de conversión estimada hasta el momento (explotación). Simple de implementar pero subóptimo: la exploración es aleatoria en lugar de dirigida hacia las variantes con mayor incertidumbre.

UCB (Upper Confidence Bound)

El algoritmo de Upper Confidence Bound selecciona la variante con el mayor valor de su cota superior de confianza — la que maximiza la suma de la tasa de conversión estimada más un término de incertidumbre que decrece a medida que una variante acumula más observaciones. UCB dirige la exploración hacia las variantes que menos se han observado, no aleatoriamente. Es más eficiente que epsilon-greedy y tiene garantías de regret logarítmico (el regret crece muy lentamente con el tiempo).

Thompson Sampling

El algoritmo bayesiano más utilizado en la práctica. Para cada variante, Thompson Sampling mantiene una distribución de probabilidad sobre su tasa de conversión real (prior Beta actualizada con los datos observados). En cada decisión, muestrea un valor de cada distribución y elige la variante con el mayor valor muestreado. Esto produce exploración natural: las variantes con alta incertidumbre (distribuciones anchas) tienen mayor probabilidad de producir valores muestreados altos, lo que les garantiza exposición. Spotify, Airbnb y Google lo usan extensamente en sus sistemas de recomendación y personalización.

Bandit vs A/B test: comparación directa

Dimensión	A/B Test clásico	Bandit algorithm
Asignación de tráfico	Fija (50/50 hasta el cierre)	Adaptativa (más a la variante ganadora)
Costo durante el test	50% del tráfico en variante potencialmente inferior	Minimiza la exposición a variante inferior
Validez estadística	Alta — p-values frecuentistas válidos con diseño correcto	Requiere análisis bayesiano o adaptativo especializado
Claridad del aprendizaje	Alta — estimación imparcial del efecto	Menor — la asignación dinámica sesga las estimaciones
Estacionariedad	Asume que el efecto no cambia durante el test	Puede adaptarse a cambios de comportamiento en el tiempo
Contexto óptimo	Tests donde el aprendizaje transferible importa	Optimización en tiempo real con costo alto de variante inferior

El bandit es la respuesta correcta cuando el costo de aprender es más alto que el costo de equivocarse. El A/B test es la respuesta correcta cuando el costo de equivocarse sin entender por qué es más alto que el costo de mostrar la variante inferior durante el test. La mayoría de los equipos de marketing están en el segundo caso.

Lisandro Iserte

Cuándo usar bandits — y cuándo no

Los bandit algorithms son la herramienta correcta en contextos específicos donde sus ventajas superan la pérdida de claridad estadística.

Casos donde los bandits son superiores

Campañas de corta duración con alto presupuesto: cuando el test debe producir resultados en 48-72 horas (Black Friday, lanzamiento de producto, campaña temporal), no hay tiempo para un A/B test con significancia estadística clásica. El bandit asigna presupuesto a la variante con mejor rendimiento desde las primeras horas, minimizando el costo de la exploración en el período más valioso. La conexión con la optimización del CAC en adquisición paga es directa: en campañas con alta inversión diaria, cada hora de exposición a la variante inferior tiene costo económico medible.

Sistemas de recomendación y personalización: cuando el objetivo es recomendar el mejor contenido, producto o mensaje para cada usuario individual en tiempo real, el bandit contextual — una extensión del MAB que incorpora características del contexto del usuario para personalizar la exploración — es el framework estándar. Los sistemas de recomendación de lifecycle marketing personalizado que seleccionan qué email enviar a qué segmento en qué momento usan variantes de bandits contextuales.

Entornos no estacionarios: cuando el comportamiento del usuario cambia rápidamente (por noticias, estacionalidad, acciones de competidores), el bandit puede detectar y adaptarse a esos cambios más rápido que un A/B test diseñado para un entorno estable. Los experimentos de diseño clásico asumen que el efecto a medir es estable durante el test — supuesto que se viola en entornos muy dinámicos.

Casos donde el A/B test clásico es superior

Tests donde el aprendizaje transferible importa más que la optimización inmediata: si el objetivo es entender qué tipo de headline funciona mejor en general (para aplicar ese aprendizaje a futuras páginas), el A/B test produce una estimación imparcial del efecto que el bandit no puede dar. El repositorio de aprendizajes del programa de experimentación se construye con inferencias de A/B tests, no con resultados de bandits.

Tests de hipótesis causales: cuando se quiere saber si un cambio específico causó una mejora (y por qué), el A/B test con diseño experimental riguroso produce la inferencia causal más clara. El bandit optimiza — no explica. Para establecer causalidad, el incrementality testing y el A/B test bien diseñado son los únicos métodos válidos.

La implicación para el cluster de Estrategia es que la elección entre bandit y A/B test es una decisión de costo de oportunidad: ¿qué es más valioso — reducir el regret durante el test o obtener una estimación imparcial del efecto? Esa respuesta depende del contexto de negocio, no de una preferencia técnica. En el cluster de Oferta, los bandits tienen aplicación directa en la selección dinámica de qué bundle o plan mostrar a distintos visitantes según su comportamiento previo — sin necesidad de esperar al cierre de un A/B test para redirigir el tráfico. En el cluster de Marca, el riesgo de los bandits en tests de posicionamiento es que la optimización por conversión de corto plazo puede seleccionar mensajes que reducen la construcción de brand equity de largo plazo — un efecto que el algoritmo no puede medir porque ocurre fuera de la ventana del test. En el cluster de Mercado, los bandits contextuales que incorporan características del segmento de usuario producen personalización más precisa que los A/B tests que tratan a toda la audiencia como homogénea. El journey multicanal puede adaptarse en tiempo real con bandits que seleccionan el canal y el mensaje de siguiente touchpoint según el historial de comportamiento del usuario. En el cluster de Fidelización, los bandits en campañas de lifecycle optimizan el contenido y el timing de los emails de onboarding basándose en las respuestas de cada usuario, reduciendo la churn en los primeros 30 días sin necesidad de esperar a un A/B test completo. El CLV de clientes onboardeados con secuencias optimizadas por bandit tiende a ser mayor porque el proceso de activación es más personalizado. En el cluster de Rendimiento, los resultados de los bandits alimentan el dashboard de marketing con métricas de rendimiento en tiempo real que el A/B test solo puede mostrar al cierre. La asignación de presupuesto entre creatividades en plataformas de publicidad paga ya usa variantes de bandits en los algoritmos de Smart Bidding de Google y Advantage+ de Meta — aunque los anunciantes no siempre sean conscientes de ello.

La significancia estadística que se busca en los A/B tests convencionales no aplica directamente a bandits — pero el impacto en la relación CAC/LTV sí es comparable en ambos frameworks. En el cluster de Marca, la lealtad y retención que construye un onboarding optimizado con bandits tiene efectos de largo plazo que la optimización de conversión de corto plazo puede ignorar. En el cluster de Mercado, el análisis de momentos de verdad identifica qué touchpoints son los mejores candidatos para implementar optimización adaptativa.

Errores frecuentes

Error 1: usar A/B test cuando la variante inferior tiene alto costo por usuario

Si mostrar una mala creatividad a un usuario de alto valor en una campaña de alto CPM tiene consecuencias económicas inmediatas, mantener el 50% del tráfico en esa variante durante 3 semanas no es estadísticamente neutro — es costoso. En esos contextos, un bandit bien implementado reduce ese costo materialmente.

Error 2: aplicar análisis frecuentista clásico a resultados de bandits

Calcular un p-value sobre los datos de un experimento con asignación adaptativa produce un resultado estadísticamente inválido. La asignación dinámica viola los supuestos de los tests frecuentistas clásicos. El análisis correcto de un bandit usa inferencia bayesiana o métodos adaptivos diseñados para ese propósito. Reportar un p-value de 0.04 de datos de un bandit como si fuera válido es un error metodológico grave.

Error 3: usar bandits cuando se necesita aprendizaje transferible

El bandit maximiza el resultado durante el test — no produce una estimación imparcial de cuánto mejor es la variante ganadora ni por qué mecanismo. Si el objetivo es construir conocimiento sobre el comportamiento del usuario para informar futuras decisiones, el A/B test produce inferencias más útiles. El repositorio de aprendizajes que alimenta el programa de experimentación se construye con A/B tests, no con bandits.

Error 4: ignorar la no-estacionariedad como supuesto

Los bandits estándar asumen que la tasa de conversión real de cada variante es estable en el tiempo. Si hay efectos de novedad (los usuarios responden mejor a lo nuevo al principio y luego vuelven al comportamiento base), el bandit puede declarar prematuramente ganadora a una variante que solo tiene un efecto temporal.

Preguntas frecuentes sobre bandit algorithms

¿Qué es un multi-armed bandit en marketing?

Es un algoritmo de optimización adaptativa que asigna tráfico de forma dinámica entre variantes de un test, aumentando progresivamente el tráfico hacia la variante con mejor rendimiento mientras el experimento está activo. A diferencia del A/B test que mantiene división fija hasta el cierre, el bandit optimiza durante el test minimizando el tiempo que se muestra la variante inferior.

¿Cuándo usar bandit algorithms en lugar de A/B testing?

Los bandits son superiores cuando el costo de mostrar la variante inferior durante el test es alto y no tolerable: campañas de corta duración con alto presupuesto, sistemas de recomendación en tiempo real, entornos no estacionarios. El A/B test clásico es mejor cuando el aprendizaje transferible importa más que la optimización inmediata y cuando se necesita una estimación estadística imparcial del efecto.

¿Los bandit algorithms comprometen la validez estadística?

Sí, en el sentido frecuentista clásico. La asignación adaptativa viola los supuestos de los tests estadísticos estándar. El análisis correcto de bandits usa inferencia bayesiana o métodos adaptativos especializados. Aplicar p-values frecuentistas a datos de un bandit produce resultados estadísticamente inválidos.

Referencias y bibliografía

Szepesvári, C. (2010). Algorithms for Reinforcement Learning. Morgan & Claypool. Cap. 2: "Multi-Armed Bandits."
Russo, D. et al. (2018). "A Tutorial on Thompson Sampling." Foundations and Trends in Machine Learning. arxiv.org
Kohavi, R., Tang, D. & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press. Cap. 22: "Bandit Algorithms."
Lattimore, T. & Szepesvári, C. (2020). Bandit Algorithms. Cambridge University Press. Cap. 6: "Upper Confidence Bound."

Términos del glosario

Siguiente: Cultura de Experimentación

Cómo construir desde cero la cultura que convierte la experimentación en el modo por defecto de tomar decisiones. Los hábitos, el liderazgo y la tolerancia al fallo que lo hacen posible.

Continuar →

← Experimentación a Escala Cultura de Experimentación →