Sobre terminaciones "afortunadas" de la Lotería de Navidad y el límite gausiano de la distribución binomial

¡Compártelo!
  • 5
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
    5
    Shares

Hace ya 199 años desde que en 1812 se celebrase en Cádiz la «Lotería Moderna» como forma urgente de recaudar sin recurrir a impuestos. Fue el origen de lo que hoy se llama el «Sorteo Extraordinario de la Lotería de Navidad».

Contando los dos sorteos simultáneos de 1938, uno en cada mitad del país sumido en la guerra civil, el de este año 2011 será el número 200 201.

Madrid 1935: Celebración del «premio gordo».
¡Qué bien se lo pasaba el de la derecha! (fuente)

Pueden parecer muchos, pero a efectos estadísticos no son tantos, y si alguien se fija solamente en «estadísticas brutas», se puede llegar a interpretaciones erróneas como la que hoy quiero desmitificar: la de la existencia de terminaciones más y menos afortunadas.

La empresa de venta de loterías por Internet Ventura24 difundió hace unos días una infografía sobre diversos datos curiosos del sorteo, incluyendo una lista de las terminaciones que más veces han aparecido en el premio gordo.

La infografía es irreprochable: solamente presenta un resumen de datos históricos.

Pero el uso del título «terminaciones más afortunadas« puede inducir al lector a pensar que realmente existen más probabilidades (a priori) de que salgan unos números en lugar de otros. Como quiero contar hoy, esto no es así. O mejor, y hablando con propiedad, no existe evidencia estadística suficiente ni de lejos que apoye esa idea.

Fijémonos en esta parte de la infografía:

Parte de infografía publicada por Ventura24 (créditos)

Un análisis ingenuo podría concluir, grosso modo, diciendo que hay que evitar el 1 y comprar cada número acabado en 4 o 5 que se ponga por delante. Quien piense así, realmente lo ignora todo sobre estadística.

En realidad el número de veces que el gordo acaba en una terminación dada tras un número dado de sorteos es una variable aleatoria discreta que sigue la conocida distribución binomial.

Esta distribución nos dice que la probabilidad de obtener un número k de veces un resultado tras N repeticiones de un experimento cuyas probabilidades de acierto son p, viene dado por:

\( f(k;N,p) = {N \choose k} p^k (1-p)^{N-k} ! \)

Dos propiedades básicas de cualquier distribución son su media y su desviación estándar (o su cuadrado la varianza). Para el caso que estamos estudiando, donde N=200 (el número de sorteos) y p=0.1 (cada dígito tiene un 10% de probabilidad de ser la terminación del gordo), el valor de la media vale:

\( hat{n} = N p = 200 cdot 0.1 = 20 \)

Es decir, que tras 200 sorteos podemos esperar que cada dígito se haya repetido 20 veces: ¡lógico!. De hecho vemos bastantes terminaciones en la infografía que han ocurrido exactamente ese número de veces. ¿Pero y los demás? Para ver cómo de raros son, calculamos la desviación estándar de nuestra distribución:

\( sigma_{hat{n}} = sqrt{ N p(1-p) } = \sqrt{ 200 \cdot 0.1 \cdot 0.9} = 4.2426 \)
En relación a la media, es un valor bastante alto, lo que quiere decir que podemos esperar «bastante» variación. Para cuantificar ese «bastante», dibujamos la función de masa de probabilidad completa de la binomial:
Donde observamos que se parece bastante a una distribución Gausiana. Lo que no es casualidad: toda binomial tiende a una gausiana cuando el número de repeticiones tiende a infinito.

Aprovechando este parecido, emplearemos el intervalo de confianza típicamente usado en Gausianas para concluir que, con una probabilidad del 99.7% el valor experimental se encontrará en el intervalo de más/menos 3σ (desviaciones estándar).

Con los números de arriba, este intervalo es:

\( 99.7% rightarrow [hat{n}- 3 sigma_{hat{n}}, hat{n}+3 sigma_{hat{n}} = [7.27, 32.7]  \)

Casualidad, o más bien no, la terminación menos «afortunada» ha aparecido 8 veces y las más «afortunadas» en 32 ocasiones.

La infografía contenía también las veces que se habían obtenido cada una de las terminaciones de dos cifras del gordo. En ese caso, tendríamos p=0.01 (ya que hay 100 posibles terminaciones de dos cifras) con lo que la binomial correspondiente arroja una media de 2 y una desviación estándar de 1.41. Un valor tan alto de la incertidumbre (la desviación estándar) en comparación con la media quiere decir que tras 200 sorteos aún es pronto para que los resultados encajen perfectamente con la distribución a la que asintóticamente tienen que converger (aunque ya se va pareciendo, pero no tan exactamente como las terminaciones del último dígito de las que hablo arriba).

Si se comparan las fórmulas de la media y la desviación estándar que puse arriba, se puede ver que crecen con el número de repeticiones ( N ) y con su raíz cuadrada (sqrt{N}), respectivamente. Eso quiere decir que conforme ( N ) crece, la incertidumbre, en proporción, se reduce.

Esta es la segunda entrada que le dedico a la distribución binomial, si quieres puedes leer la anterior.


¡Compártelo!
  • 5
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
    5
    Shares
Etiquetado con: , ,