1. ¿Qué es el Bayesian A/B Testing?
El Bayesian A/B Testing es un enfoque de experimentación basado en la estadística bayesiana, donde el objetivo es conocer la probabilidad de que una variante (B) sea mejor que la versión de control (A) dada la evidencia recopilada.
A diferencia del método frecuentista, que se basa en el valor p (p-value) y la significancia estadística, el bayesiano se centra en la probabilidad posterior, es decir, en cómo se actualiza tu creencia inicial (o distribución previa) con los datos observados.
En otras palabras, en lugar de contestar a la pregunta “¿Podemos rechazar la hipótesis nula al 95% de confianza?”, el enfoque bayesiano responde:
“Dada la información que tenemos, ¿cuál es la probabilidad de que la Variante B sea mejor que la Variante A?” y “¿cuál es la magnitud probable de esa mejora?”.
2. Diferencias entre el enfoque Frecuentista y Bayesiano
2.1 Frecuentista
- Hipótesis nula (H0) e hipótesis alternativa (H1): se parte de la suposición de que no hay diferencia (H0), y se calcula la probabilidad de observar un resultado tan extremo o más, asumiendo la verdad de H0.
- Uso de p-value: si el p-value es menor que un umbral (generalmente 0,05), se dice que hay evidencia para rechazar H0.
- Ventaja: tradición, alta adopción y métodos muy establecidos.
- Desventaja: interpretación del p-value puede ser confusa (un p-value bajo no implica certeza al 100% de que B > A). Además, frena la evaluación continua de los datos (monitoring) por el riesgo de “p-hacking”.
2.2 Bayesiano
- Creencia inicial (prior): se elige una distribución previa que refleje nuestras expectativas antes de empezar el experimento (por ejemplo, que la conversión de A y B podrían ser similares).
- Evidencia (datos observados): se recogen los resultados del experimento (tasas de clic, conversiones, etc.).
- Creencia posterior: la distribución previa se actualiza con los datos para dar lugar a la distribución posterior.
- Ventajas:
- Da información más directa: “Hay un 80% de probabilidad de que B sea mejor que A”.
- Permite el monitoreo continuo y la toma de decisiones en tiempo real (no es necesario esperar hasta reunir un tamaño de muestra predefinido).
- Ofrece intervalos creíbles (una versión bayesiana de intervalos de confianza) que suelen ser intuitivos de interpretar.
- Desventaja:
- Se requiere un mayor entendimiento estadístico y la selección de distribuciones previas (priors) puede ser subjetiva.
3. Paso a Paso del Bayesian A/B Testing
- Definir la métrica a medir
- Por ejemplo, Tasa de Conversión (CR) para una landing page, CTR en un newsletter, etc.
- Elegir la distribución previa (prior)
- Una opción habitual es una distribución Beta(α, β) cuando se trabaja con tasas de conversión (porque la Beta es conjugada de la Binomial).
- Si no tienes información previa, puedes usar priors “no informativas” o muy anchas (p. ej. Beta(1,1), que es equivalente a la Uniforme).
- Recolectar datos
- A medida que obtienes conversiones y no conversiones para A y B, actualizas los parámetros de la distribución (α y β) para cada variante.
- Actualización Bayesiana (Bayes’ Theorem)
- Para cada variante, la posterior puede expresarse como Beta(α + conversiones, β + “no conversiones”).
- Esto significa que tu “creencia” sobre la tasa de conversión se va afinando con los datos reales.
- Comparar A y B
- Una forma sencilla es muestrear (Monte Carlo) millones de veces valores de la distribución posterior de A y B y contar el porcentaje de muestras donde B > A.
- Este porcentaje es la probabilidad de que B sea mejor que A. Además, puedes calcular cuánto mejor, en promedio.
- Toma de decisión
- Establece un umbral de certeza que consideras suficiente para declarar un ganador. Por ejemplo, “Si hay más de un 95% de probabilidad de que B supere a A, B será la nueva versión en producción”.
- También puedes definir un Expected Loss: la pérdida esperada de elegir B si en realidad no es tan buena. Si esa pérdida es demasiado alta, mantienes A.
- Monitorización continua (opcional)
- Con el enfoque bayesiano, puedes revisar diariamente cómo evoluciona la probabilidad de B > A, sin preocuparte tanto por “corregir” la significancia estadística como en el método frecuentista.
- Si la probabilidad de que B sea mejor supera de largo tu umbral, podrías cerrar el test antes de lo planeado. Del mismo modo, si se ve que B es muy inferior, puedes descartar ese camino rápido.
4. Ejemplo Ilustrativo (Simplificado)
Imagina que estás testeando dos variantes de un formulario de registro:
- Variante A (control)
- 500 visitas, 50 conversiones (10% CR).
- Variante B (experimento)
- 480 visitas, 58 conversiones (~12% CR).
Para una prior Beta(1,1) (uniforme), la posterior para:
- A sería Beta(1 + 50, 1 + 450) = Beta(51, 451).
- B sería Beta(1 + 58, 1 + 422) = Beta(59, 423).
Luego, muestreando (simulación Monte Carlo) la tasa de conversión de A y B a partir de sus distribuciones posteriores:
- Observas que en el 87% de las simulaciones, B > A.
- El intervalo creíble al 95% para la conversión de B va, digamos, de 10,5% a 13,8% (es solo un ejemplo).
Conclusión: B tiene un 87% de probabilidad de ser mejor que A, pero aún no llega a tu umbral interno de, por ejemplo, 95%.
Tal vez decides seguir corriendo el experimento una semana más o, si estás contento con un 87% de probabilidad de mejora, lo adoptas ya.
5. Ventajas Prácticas
- Interpretación más intuitiva
- Saber directamente “qué tan probable es que B sea mejor que A” facilita la comunicación con stakeholders.
- No bloquea el monitoreo
- En un test frecuentista clásico, cada vez que miras los resultados, aumentas el riesgo de error (p-hacking). En el enfoque bayesiano, la probabilidad se recalcula sin invalidar el experimento.
- Incorporación de conocimiento previo
- Si tienes históricos que sugieren que tu Tasa de Conversión está en torno al 5%, puedes usar un prior Beta con α y β elegidos para reflejar esa experiencia previa.
- Manejo de efectos de valor
- Se puede adaptar no solo a tasas de conversión sino también a métricas monetarias (p.ej. gasto promedio), utilizando distribuciones adecuadas (Gamma, Normal, etc.).
6. Desventajas y Retos
- Elección de priors
- Puede generar controversias o confusiones si no se hace de forma justificada y transparente.
- Curva de aprendizaje
- Implementar el método bayesiano y su interpretación requiere más conocimiento estadístico, aunque existen librerías y plataformas que lo simplifican (por ejemplo,
pymc
,RStan
, “BayesAB” en R, etc.).
- Implementar el método bayesiano y su interpretación requiere más conocimiento estadístico, aunque existen librerías y plataformas que lo simplifican (por ejemplo,
- Coste computacional
- Para modelos muy complejos o grandes volúmenes de datos, la simulación (p.ej., Monte Carlo Markov Chain) puede ser intensiva, aunque para A/B Tests típicos no suele ser un problema.
7. Recomendaciones para su Implementación
- Arranca Simple
- Experimenta con una prior Beta(1,1) y testea métricas de conversión básicas para familiarizarte con el método.
- Documenta tu prior
- Explica por qué elegiste esa distribución inicial. Si partes de cero, la uniformidad Beta(1,1) es un arranque popular.
- Si tienes datos históricos, considera una prior Beta(α, β) que refleje la distribución anterior de tu CR.
- Establece un Threshold de Decisión
- Decide la probabilidad mínima para declarar un ganador (p.ej., 95% de que B sea mejor).
- Define también el “Expected Loss” máximo que toleras si te equivocas.
- Usa Simulaciones
- Haz un muestreo (Monte Carlo) para obtener la probabilidad de que B > A y el intervalo creíble de la diferencia.
- Monitorea sin Miedo
- Revisa tus resultados de forma más frecuente si lo deseas, viendo cómo evoluciona la posterior.
- Toma decisiones de “seguir”, “parar” o “cambiar” en base a la probabilidad actual.
- Considera Plataformas o Librerías Especializadas
- Librerías en Python (PyMC, PyStan, ArviZ) o R (RStan, brms) hacen más sencillo el modelado bayesiano.
- Algunas herramientas de experimentación (Optimizely, VWO) ya ofrecen opciones de metodología bayesiana.
El Bayesian A/B Testing es una alternativa poderosa al A/B Testing frecuentista que aporta interpretaciones más directas y facilita el monitoreo continuo.
Aunque requiere un mayor entendimiento estadístico, la recompensa está en la flexibilidad y la información más clara que se obtiene: en vez de un mero p-value, tendrás una probabilidad tangible de que tu variante sea mejor que la de control, además de un rango creíble sobre la magnitud de esa mejora.
Si buscas mayor agilidad en la toma de decisiones y un enfoque más intuitivo para comunicar los resultados, el Bayesian A/B Testing puede ser una gran opción para optimizar tus experimentos digitales de manera constante y confiable.