Correlación, causalidad… y grafos: lo más fundamental (e ignorado) en estadística

Una deficiente comprensión de conceptos estadísticos y la enorme presión a que los investigadores de todas las áreas nos vemos sometidos para publicar podría ser la causa de que la mayoría de los estudios científicos de áreas médicas, biológicas y de ciencias sociales lleguen a conclusiones erróneas con tal de publicar.Hace ya ocho años que el profesor John Ioannidis publicó esta rotunda afirmación [1], para sorpresa de parte de la comunidad científica y alivio de otros que por fin veían señalado al elefante en la habitación. Pero los años pasan y es frustrante ver que seguimos igual, tanto por parte de algunos autores (como el criticado aquí) como por periodistas que se “tragan” acríticamente cualquier cosa que comience por el manido “un estudio científico demuestra que…“.

(Créditos: XKCD-es)

Por esto he decidido dedicar (otra) entrada a aclarar concepciones erróneas que pululan sobre la estadística, una de las herramientas más potentes que tenemos y sin embargo con peor fama entre el público general precisamente por su mal uso.

Sé que otros blogs ya han hablado del tema “causalidad vs. correlación”, así que le doy a dar un enfoque nuevo: explicar la verdadera relación que existe entre correlación, causalidad y grafos.

Chocolate y premios Nobel

“Los países con mayor consumo de chocolate tienen más premios Nobel, por lo que se recomienda su consumo para mejorar la inteligencia.”

¿Te parece absurdo? A mí mucho. Pues esta asociación se llegó a publicar en una revista científica [2] y generó una ristra de titulares en todo tipo de medios, p.ej. aquí, aquí o aquí.

Los autores del estudio hipotetizaban que el efecto de los flavonoides del cacao sobre las capacidades cognitivas era tan importante que permitía la aparición de más premios Nobel allí donde más se consume. Rápidamente aparecieron críticas en las revistas científicas [3], donde se señalaba (entre otros puntos débiles del estudio) que muchos otros índices aparte del chocolate tienen una alta correlación con el número de premiados así que… ¿cuál es realmente la causa última?

Por ejemplo, entre los índices que correlaban salió el número de tiendas de IKEA en cada país:

Dos variables se dice que están correladas cuando el aumento (o disminución) de una provoca un cambio claro en la otra, lo que se suele traducir en que los datos representados como gráfica “parecen caer” sobre una línea en lugar de ser una “nube amorfa”.

No creo que guardar los libros en armarios con nombres de pueblos noruegos te haga más listo. De hecho, puede que para llegar a ser un Nobel tenga más importancia el nivel socioeconómico de un país que la “inteligencia” de sus gentes.

Lo que se quería resaltar con esta anécdota de las tiendas IKEA es que, buscando, seguro se acabarán encontrando relaciones absurdas, así que sólo la correlación no justifica en absoluto la existencia de una relación de causa-efecto. De hecho, y aunque esto sea ya otro tema, la ausencia de correlación tampoco implica que no exista relación causa-efecto, ya que siempre quedará una probabilidad (pequeñísima) de haber obtenido una combinación de datos especialmente adversa.

Un error demasiado común

Antes de pasar a explicar el porqué aparecen estas correlaciones sin relación causal directa, quiero recopilar algunos “un estudio científico demuestra que…” para echar unas risas:

  • Lo del corazón partío les pasa factura a los solteros: “Los felizmente casados sobreviven más que los solteros tras un ‘by-pass’” (ElMundo)
  • Lo mejor para dormir tranquilo es no enterarse de las noticias: “La sobreinformación es la causante del «síndrome de fatiga informativa»” (ABC)
  • No es por no moverse del sofá, no, sino por mirar una pantalla: “Ver la televisión acorta la vida hasta en cinco años” (El Economista)
  • Y este estudio fue ya de traca: “El tamaño del pene está relacionado con el crecimiento del PIB: Un investigador de la Universidad de Helsinki (Finlandia) ha llegado a la conclusión en un reciente estudio que el tamaño promedio del pene en un país, tiene directa relación con el crecimiento del Producto Interno Bruto (PIB) de cada nación.” (Noticias Terra)
Eje vertical: PIB. Eje horizontal: tamaño medio del miembro masculino. No, no es coña: alguien quiso imaginarse una correlación en esta nube de puntos…o quiso hacerse famoso. (Fuente)

Grafos y causalidad

Vamos al meollo: ¿por qué aparece correlación entre variables? Hay varias posibilidades:
  • (1) Causalidad directa: Una variable realmente se encuentra entre las causantes de la otra.
  • (2) Causalidad indirecta: Existe un tercer hecho (o varios) que relaciona indirectamente los dos bajo estudio.
  • (3) Casualidad con los datos: Si se seleccionan muy mal los datos, con sesgo intencionado o simplemente muy pocas muestras, puede “parecer” que hay correlación simplemente por azar. A veces también ocurre que simplemente existe correlación sin relación causal remota; p.ej. el precio del tomate en Cuenca puede subir a la par que el número de cines abiertos en China.
Los casos (1) son los típicos explorados en Física, donde existen modelos bastante buenos de sistemas sencillos y cerrados donde se controlan todas las variables de los experimentos. Los casos (3) suelen ser fácilmente identificables con el sentido común, p.ej. el caso del PIB y el tamaño del pene que menciono arriba.

Los casos verdaderamente problemáticos son los segundos, los de causalidad indirecta. Y aquí vemos el papel que juegan los grafos.

Uno de los modelos gráficos más usados en estadística es el que representa las variables como nodos y las relaciones causales como arcos dirigidos (con “flechitas”). Este modelo se llama red Bayesiana y es un formalismo matemático extremadamente potente.Veamos un ejemplo clásico en este tema: las relaciones entre que haya llovido (LL), que la hierba esté húmeda (H) y que hayan funcionado los aspersores o rociadores para regar (R). Se tienen tres nodos y las relaciones son:

(Créditos)

Cada flecha A -> B indica que A influye (es una causa) de B. Leamos la información que codifican los arcos del ejemplo:

  • LL->R: Si llueve no se enciende el aspersor, ya que no hace falta.
  • R->H: Si se ha regado, la hierba estará mojada.
  • LL->H: Si llueve, la hierba estará mojada.

Aunque no vamos a entrar en estos detalles, las “flechitas” no son siempre deterministas sino que normalmente implican incertidumbre, p.ej. si llueve hay un 80% de probabilidad de que no se enciendan los aspersores. Esto no es ninguna limitación, al contrario: permiten trabajar con información del mundo real donde casi todos los modelos tienen componentes desconocidas.

Correlación y distribuciones marginales

Por fin llegamos al quid de la cuestión: ¿qué pasa cuando estudiamos la correlación entre variables de un grafo?
Esto es lo que normalmente se hace con los estudios médicos y de otro tipo: se escogen dos (o más) variables entre las que se hipotetiza una relación causal y se pone a prueba mediante técnicas estadísticas (e.g. test chi2, etc.). Ahora, si la realidad es que A implica B, el modelo real es:

y se debería encontrar correlación. Por tanto, la clave para poder asociar correlación con causalidad de manera rotunda es estar seguros de que la única causa posible de B es A… o que tiene más causas pero todas ellas son independientes de A. Algo bastante difícil de asegurar en cualquier modelo complejo como puede ser la salud de una persona donde intervienen tantos y tantos factores.

Veamos algo más interesante: qué ocurre cuando se ignoran hechos. Por ejemplo, imaginemos un evento C que es la causa de A y de B, como representa este grafo:

La distribución de probabilidad que modela perfectamente este sistema depende de tres variables, pero según la teoría de modelos gráficos podemos separarla (“factorizar” es el término matemático) en el producto de las funciones que modelan cada relación causal por separado:

 P(a,b,c) = P(a|c) P(b|c) P(c)
¿Qué problema tiene esto? Pues que si estudiamos solamente A y B, olvidándonos de C, realmente se trabaja con la función:

P(a,b)
donde se dice que C ha sido “marginalizado“, y toda la información de sus arcos pasan a crear un nuevo “arco” entre A y B… ¡Aunque inicialmente no existía relación causal alguna entre ellas!

En resumen: si se estudian dos variables dejando fuera causas comunes, se detectará una correlación entre ellas aunque no exista relación causal directa alguna. Este es el mayor peligro en cualquier estudio científico.

Curiosamente este efecto depende del sentido de las flechas: si ahora estudiamos solamente las variables A y B dejando fuera una C que es efecto de ambas, no detectaremos correlación entre A y B. Si reflexionas un momento sobre qué significan las flechas entenderás por qué esto es así de manera intuitiva.

Una regla general para saber si el ignorar un nodo C introduce correlación entre A y B es esta: si los caminos desde A a B se encuentran en una configuración “flecha-flecha” (como en este último dibujo), no aparece correlación, y sí aparece en cualquier otro caso.

Un ejemplo práctico: delincuencia y boy scouts

Quería terminar con un ejemplo numérico para aclarar los conceptos a quien nunca antes de hoy hubiese oído hablar de probabilidades marginales y cia. Lo he sacado de este excelente curso de la PennState University (EEUU).

Tenemos los siguientes datos sobre 800 chicos a los que se clasifica por nivel socioeconómico (S), si son o no boy-scouts (B) y si tienen o no antecedentes delictivos (D):

¿Qué pasa si estudiamos la hipotética relación entre ser boy-scout y delinquir? Pues que tendríamos que “ignorar” (marginalizar) el nivel socioeconómico, sumando los datos sobre los distintos niveles (aquí un ejemplo del proceso) y llegando a:

Estos números, sometidos a tests estadístico gritan un: sí, existe correlación (negativa) entre ser boy-scout y delinquir. Luego: ¿los boy-scout son mejores personas? No tan rápido…

¿Y si el modelo subyacente a los datos fuese que el nivel socioeconómico fuese la causa de ambos, ser boy-scout y delinquir, sin que exista relación directa alguna entre estas últimas?

Posible modelo causal alternativo: c: Nivel socioeconómico,  a: ser boy-scout, b: delinquir.

Poner a prueba este modelo es sencillo: se puede determinar si existe relación causal directa entre “a” y “b” en el grafo del dibujo poniendo a prueba la correlación de la distribución condicional de éstas para cada valor dado de “c”:

P(a,b|c)

En la práctica esto se traduce en volver a la tabla original:

Y hacer tres pruebas de correlación entre ser boy-scout y delinquir para cada trozo de 2×2 de los datos, uno por cada nivel socioeconómico (low, medium, high).

Estas pruebas dan un resultado de correlación nula (la hipótesis nula arroja χ2=0.16), luego la apresurada hipótesis de que ser boy-scout te hace menos propenso a delinquir era errónea: el detonante real es el nivel socioeconómico, que a su vez condiciona que un chico se pueda permitir hacerse boy-scout o no.

Aunque el artículo me ha quedado “algo” denso y largo, ¡espero que lo hayas disfrutado! Puedes leer más en los enlaces que dejo abajo.

Referencias:

Publicado en Análisis estadísticos, Estadística Etiquetado con: , ,
  • Fantástica entrada, aunque a día de hoy me cuesta creer que haya investigadores que no sepan que las correlaciones no implican causalidad, pero claro, algunas conclusiones se ven motivadas por las necesidades de publicar. Otro ejemplo actual son las correlaciones positivas encontradas entre exposición habitual a videojuegos violentos y conductas agresivas, que han tenido ciertas repercusiones políticas en EEUU, y han creado cierto sensacionalismo en torno a los videojuegos y una gran literatura científica bajo estas conclusiones erróneas. Algunas técnicas, como el emparejamiento de puntuaciones de propensión, han mostrado cómo controlando variables contaminantes, la correlación se reduce hasta niveles no significativos. En este caso en concreto, se cree que la correlación estaría contaminada por la mayor preferencia de los niños con una personalidad más agresiva por los videojuegos violentos.

    • Pues si no se dan cuenta del error vamos a tener que ir pensando que es porque no quieren…

    • Es incluso peor de lo que se imagina: estaría hablando de que no existe realmente una comunidad científica, sólo un puñado de sujetos que hablan de una manera muy técnica.

    • Francesc

      Estoy de acuerdo hasta…
      “En este caso en concreto, se cree que la correlación estaría contaminada por la mayor preferencia de los niños con una personalidad más agresiva por los videojuegos violentos.”
      Para negar la relación causa-efecto, la estás inviertiendo. Es como si dijeras que comprarte una sombrilla no causa comprarte un helado, sino que es la compra del helado la que te lleva a comprarte una sombrilla. En cualquier caso, necesitas hacer correctamente el estudio y aportar datos. Se me ocurren otras posibles explicaciones para la correlación como poca atención de sus padres/madres

    • Francesc, es una hipótesis muy comentada por algunos autores, pero como apuntas hay otras. Mi estudio es una revisión crítica sobre el tema, no he tratado la hipótesis que comento, que ha sido un ejemplo.

      Editado: De todas formas, da igual si la relación se invierte cuando lo que importa es el efecto de una variable dta. sobre otra, y no al revés. En la hipótesis que he apuntado, la mayor preferencia de los niños con una personalidad más agresiva conduciría a sacar conclusiones erróneas de la correlación, pero no se afirma que los niños menos violentos no jueguen a videojuegos violentos, sino que lo hagan en menor medida, y es aquí donde dichos videojuegos no tienen efecto sobre su comportamiento agresivo, ni incrementan la agresividad de los más agresivos. Todo ello teniendo en cuenta que la agresividad durante la infancia y adolescencia es más variable y que suele normalizarse y decrecer con el desarrollo y la adquisición de factores de protección, que son más importantes que los de riesgo ante las conductas violentos.

  • ¡Qué curre! Una entrada muy molona; a mis alumnos de robótica cognitiva seguro que les suena de algo ;P

  • Terrio

    Hay una obra de Les Luthiers donde se critica de un modo muy claro el mal uso de la correlación. Se llama “Romance del joven conde, la sirena y el pájaro cu-cú (y la oveja)” En la presentación que hacen de la canción hay un estudio con aves que con humor muestra una correlación mal hecha. A veces en clases particulares la he utilizado de ejemplo, y es un modo divertido de aprender.

  • A esto que tú llamas “grafos” a secas le llamábamos “redes bayesianas” en una asignatura de 5º de Informática, y llegaban a ser bastante amplios tanto en anchura como en profundidad. Y tienen una infinidad de utilidades, por si alguien lo dudaba.

    • Ya ves si tiene utilidades… un buen trozo de la tesis eran “dibujos de bolitas” de éstas!
      Sobre el nombre, no quise mencionar BN hasta casi el final para no asustar mucho en el título.

      ¡Un abrazo, por cierto! 😉

  • Yo una vez vi un estudio de un estudiante de doctorado donde, para hacer patente este falacia tan común, presentaba una correlación negativa entre PIB y grosor del pene. Muy divertida.

  • Anonymous

    Cierto. Pero a mí lo q me sorprende no es que se confundan correlación con casualidad, sino que se crea q pueda conocerse causalidad ninguna. Vamos señores, q la trampa es muy vieja! No cabe explicarse nada “desde las causas”.

  • Anonymous

    Otra motivo de correlacion espúrea es cuando las variables son discontínuas (con fuerte bimodalidad, por ejemplo), o si no comparten el mismo rango: representados los valores en un plano te encuentras a veces cierta orientación, pero no de los puntos, sino de las ‘nubes’ bivariantes que se forman. La correlación de las variables puede ser real o no, depende, pero si queremos saberlo hay que emplear sensatamente los grados de libertad (basándonos en el numero de nubes, no en el número de puntos). Pues si, es complicadillo explicar esto sin un dibujo, je je

    Gracias por el post

    • Gracias por la anotación… mi formación en estos temas se ha limitado a unas series de problemas concretos con variables continuas, así que ni se me ocurrió.

  • Este y otros artículos similares deberían ser asignatura obligada en Bachillerato

  • La forma que tiene de mostrar el cálculo de la correlación hace imposible distinguir a->b de b->a, por tanto sus indagaciones bayesianas sobre los modelos cabeza-cabeza y cola-cola no son muy aprovechables.

    Hay que pensar que a correlaciona con b cuando la diferencia entre la unión y su intersección difiere de cero, y esa operación es simétrica, cuando el implicador no lo es. Por tanto, hace falta una prueba ciega para complementar lo que se pretende demostrar.

  • Manu

    Perfecto.
    Me encantó.

  • JJ

    Como ya han dicho, es probable que los científicos (por lo menos los que hayan cursado una asignatura seria de Estadística y Probabilidad) sepan diferenciar entre correlación y causalidad, solo se adaptan al sistema absurdo de méritos.
    En realidad el problema es más profundo: hay una falta general de asimilación del contenido cuantitativo, sea cual sea el formato en el que se presenta. A esto obviamente no ayuda mucho que haya tal ignorancia en Estadística (y en ciencia en general) entre los periodistas de los medios de comunicación globales.
    Me ha gustado mucho tu post, solo le veo un problema; el hecho de utilizar una notación formal para presentar las ideas nos sirve a nosotros, pero el común de los ciudadanos escapa de aquello que suene a esotérico como de la peste.
    Como apunte humorístico, échale un vistazo a esta web, Correlated, tiene multitud de ejemplos hilarantes de correlación.

    • Gracias JJ.
      Sobre el tema de si usar notación formal/formalismos no sabe uno nunca a qué nivel del gris irse para no asustar a muchos, sin decepcionar a otros que esperen algo, aunque sea un pequeño, de fórmulas y conceptos técnicos.

      Buena la web de correlated.org.
      Saludos.

    • JJ

      Si te entiendo perfectamente, estamos en la situación del cura que afea a sus feligreses en misa la actitud de los que no van a misa… Si solo consiguiésemos que los periodistas de los medios más asentados fuesen más cuidadosos ya nos podríamos dar con un canto en los dientes.

  • Excelente artículo. Enhorabuena.

    Saludos

  • Pingback: Los españoles, en la cola de la OCDE en competencias básicas: análisis estadístico con gráficas | Ciencia explicada()