Curso exprés de estadística para periodistas (y otra "gente de letras")

Muchos nos escandalizamos al ver publicadas en los medios burdas manipulaciones que hacen uso de la estadística para hacer que los datos acaben confesando cualquier cosa que interese a la línea editorial del medio. Quienes las escriben en informes, estudios o las comunican en ruedas de prensa probablemente lo hacen a sabiendas de que están manipulando la información, pero me queda la esperanza de que los periodistas que les dan difusión no son nada críticos por simple desconocimiento de que están siendo manipulados.

A pesar del título, mi intención con esta “guía” es simplemente reclamar el uso del sentido común tanto por parte del periodista que escribe en un importante medio de comunicación (es una gran responsabilidad) como por cualquiera de los que los leemos (es nuestra obligación ser críticos).

Ejemplo de regresión lineal, una manera
clásica de aproximar datos por una línea

En concreto, me centraré en la parte del sentido común que se llama matemática estadística. Sí: las matemáticas no son más que cadenas de razonamientos basados en una forma de pensar “lógica” y ordenada. No hay nada raro,  cualquiera puede entenderlo sin tener dos doctorados ni tres masters, en serio. Por eso he intentado evitar en toda esta guía palabrejas raras mientras ha sido posible, sustituyéndolas por ejemplos y explicaciones que espero sean asequibles a cualquiera.

Empezamos por los conceptos más simples y llegaremos a algunos un poquito más abstractos, pero no por ello menos importantes (¡todo lo contrario!).

1. Porcentajes

Es algo extremadamente básico, pero a gente que no es “de ciencias” les cuesta mucho estar seguros de interpretar o calcular bien un simple porcentaje.

Pasar de números a porcentajes:

Si tenemos un total de N elementos, y queremos calcular qué porcentaje representan K elementos, lo que se hace en realidad es una regla de tres, cogiendo la proporción que hay entre K y N, y llevándola al caso en que N es 100 (por eso se llama porcentaje, de cien). En forma de regla de tres de la que enseñan en el colegio, sería:

K  –>   ¿p?
N   –> 100

Que se resuelve igualando la relación (fracción) de cada lado:

[ frac{K}{N} = frac{p}{100} ]

que se despeja multiplicando por 100 en ambos lados. Es decir, el porcentaje se calcula dividiendo K entre N y multiplicando por 100:

porcentaje = 100 * K / N

Ejemplo: De un total de 140.000 votos un partido obtiene 35.000, o en porcentaje:

porcentaje = 100 * 35.000 / 140.000 = 25 %

Pasar de porcentajes a números:

Si tenemos un porcentaje p (en tanto por ciento, %) y queremos saber cuántos elementos representan de un total de N:

elementos = N * p / 100

Ejemplo: De un total de 47 millones de españoles, un 21,8% viven bajo el umbral de la pobreza, por lo que en número de personas:

personas = 47.000.000 * 21,8 / 100 = 10.246.000

2. Porcentajes encadenados y relativos

Porcentajes encadenados:

A veces se hace referencia a un porcentaje dentro de otro porcentaje, como en: “un 20% de la población está en paro, y de esos, un 40% tienen hijos a su cargo” (¡datos inventados!). Si queremos saber a cuántas personas se refiere ese 40%, con respecto al total de la población, tenemos que multiplicar porcentajes, aunque eso sí, pasándolos antes a tantos por uno, para finalmente convertirlos de nuevo a tantos por cien.

Un ejemplo: Para el caso de antes, tenemos que pasar ambos porcentajes a tantos por uno:

20% = 20/100 = 0,2 (tanto por uno)
40% = 40/100 = 0,4 (tanto por uno)

Ahora los multiplicamos:

0,2 * 0,4 = 0,08 (tanto por uno)

Y lo pasamos a tanto por cien:

0,08 * 100 = 8%

Es decir, que el 40% del 20% es un 8% del total. La misma idea se puede repetir para más de dos porcentajes encadenados hasta el número de encadenamientos que se quiera.

Porcentajes relativos: 

Con “relativos” me refiero a esas veces en que queremos decir cuánto ha aumentado o disminuido una cantidad. Por ejemplo, “la empresa X ha ganado este año un 10% más que el año anterior”, o “el número de accidentes se ha reducido en un 20%”.

Si tenemos los datos en bruto del antes y después, el porcentaje se calcula pasando a porcentaje la diferencia entre ambos datos, relativos al valor inicial, ¡ojo!.

Ejemplo 1: De ganar 2000€ ha pasado a ganar 2300€, con lo que:

Diferencia: 2300€ – 2000€ = 300€ (positivo)
En porcentaje con respecto a 2000€:     100 * 300€ / 2000€ = 15% de aumento

Ejemplo 2: De ganar 2300€ ha pasado a ganar 2000€, con lo que:

Diferencia: 2000€ – 2300€ = -300€  (negativo)
En porcentaje con respecto a 2300€:   100* (-300€) / 2300€ = -13,04% de disminución

3. ¡Es exponencial, maldita sea!

Continuando con el tema anterior, hay un fallo tremendamente común, relacionado con series de incrementos en porcentajes. Imagina que el PIB de un país, o las ganancias de una empresa, siguen esta secuencia:

2005: +4%
2006: +5%
2007: +6%
2008: +5%

Lo más normal es encontrarse titulares como:

En 2008 se creció menos que en 2007

Pues hay que tener muy claro que porque 5% sea menos de 6% ¡¡eso no tiene por qué decir que se haya crecido menos!!

La cuestión es que el 6% de 2007 se calculó como el crecimiento sobre el total de 2006, pero el crecimiento de 2008 se calculó sobre el total de 2007… ¡que era mayor que el de 2006!

En cada caso habría que echar números y ver cuánto se creció cada año en valor absoluto (no en porcentaje) usando las fórmulas del punto 1, y esas cantidades son las que habría que comparar.

Otro concepto que es común no entender es el de “crecimiento constante“, que comúnmente (y erróneamente) se asocia a un crecimiento en porcentaje constante a lo largo de los años. Es decir, un “crecimiento constante” del PIB de un país NO consiste en crecer todos los años un 2%, ni un 1% ni ningún otro porcentaje… Si se piensa, se verá claro que en realidad crecer un X% todos los años cada vez cuesta más, porque se aplica al valor total del año anterior, que cada vez es más grande. En realidad, un “crecimiento constante en porcentaje” implica un crecimiento en valor absoluto exponencial, que no es una evolución en línea recta ni mucho menos:

Ejemplo de función exponencial (fuente)

Como dato para reflexionar: ningún proceso en la Naturaleza es capaz de aguantar creciendo exponencialmente de manera indefinida.

4. Conceptos básicos de estadística

Si tenemos un gran número de datos, miles o millones de ellos, necesitamos resumirlos de alguna forma porque sino nunca podríamos analizarlos ni entender cómo van cambiando en el tiempo.

Un primer paso es ver de qué manera se distribuyen los números, en lo que se llama distribución de probabilidad. Para entender qué significa esto, imagina una gráfica, en el que el eje horizontal representa los valores de los datos (p.ej. la edad de una población, la nota de los alumnos, etc.). Si ahora dividimos ese eje en trocitos o segmentos y vamos contando cuántos datos caen en cada uno de esos trocitos, acabamos teniendo un número en cada segmento, que podemos dibujar como una altura vertical. Esto se llama histograma:

Distribución Gausiana (fuente)

Esa forma gráfica nos da una enorme cantidad de información. Si aparece un único pico, como en el dibujo de arriba, significa que existe un valor “normal” alrededor del cuál están el resto, y que existe solamente una minoría lejos de ese valor.

No siempre tiene que ser así, ya que por ejemplo pueden existir dos picos, que significaría que los datos se pueden agrupar en torno a dos o más “modos”. En este ejemplo se ven dos modos (distribución bimodal):

Distribución bimodal (fuente)

Pues bien, los histogramas, cuando el tamaño de los segmentos se va reduciendo hasta llegar a ser minúsculos, es lo que se llama función de densidad de probabilidad (fdp). Por ese nombre quizás no os suene, pero la más conocida seguro que te resulta familiar: distribución Gausiana o normal.

Conocer el histograma o fdp es conocer perfectamente los datos. Pero lamentablemente, nunca se publican. Es mucho más rápido dar una serie de números que resumen la información de los histogramas (los “momentos“). El más usado de todos es el valor medio. Es un concepto muy útil pero puede ser tremendamente engañoso.

La media de una serie de datos es simplemente la suma de todos ellos, dividido por el número de datos.  Si los datos realmente sólo tienen un pico (primera figura de arriba), la media estará muy cerca de ese pico. Pero si en cambio tiene varios picos (segunda figura) la media nos saldrá en mitad de los picos, en un valor que quizás no es nada común.

Esto es por ejemplo lo que ocurre con los salarios medios, donde, cada vez más, existen dos picos (los sueldos extraordinariamente altos, y los modestos de las clases populares) por lo que ese salario medio realmente es cada vez menos significativos.

Por favor, periodistas: siempre, siempre, siempre, pedid, exigid los histogramas completos de los datos, ya que es la información más verídica. Si eso no es posible, al menos pedid la desviación estándar de los datos. Una media y una desviación estándar da una idea mucho más precisa de los datos que únicamente la media.

5. Dar datos significativos en comparaciones

Este punto es más de sentido común que de conceptos matemáticos propiamente dichos.

Manipulación/error de tipo 1:  No dar toda la información. Como ejemplo, este titular:

Las comunidades autónomas gobernadas por el partido de Rajoy gastaron en el primer trimestre un 10,1% más, casi el cuádruple que el resto (2,6%)

Obviamente se trata de un intento de manipulación (espero que nadie se ofenda por elegir ese periódico en particular, existen errores en todos ellos). El hecho numérico está ahí y nadie lo puede negar, pero habría que analizar:

  • ¿De qué depende el gasto? Tamaño de población, gasto en infraestructuras, etc.
  • ¿De qué presupuestos partían el año anterior? Si el resto ha aumentado un 2,6%, quizás aún así sigan estando muy por encima del valor absoluto (o incluso en gasto medio por habitante) de las comunidades a las que se pretende criticar. 
Manipulación/error de tipo 2:  Diferencias no significativas. Un clásico en accidentes de tráfico, entre otros.

Explicado sin términos matemáticos, en lenguaje llano: si tenemos un dato cuya componente aleatoria, de azar, es más grande que la diferencia entre meses o entre años, sencillamente no podemos decir si sube o baja, al menos no con rotundidad. Hay que ser prudente al realizar afirmaciones sobre datos muy variables.

Ejemplo: Decir a media mañana que las acciones de la compañía X han subido o bajado un 0.5% con respecto al día anterior, pues como que no tiene mucho sentido si se está viendo que antes ha oscilado entre un -3% y un +3% en unas pocas horas.

6. Un cúmulo de datos estadísticos… ¿o no?
A menudo se presentan varios indicadores estadísticos en plan “mira todo lo que tengo para justificar X”, cuando en realidad todos esos indicadores no son más que distintos aspectos de una única realidad.

Un ejemplo:

  • “El estado de la economía es malo, hay un 20% de paro”.
  • “El estado de la economía es apocalíptico: hay un 20% de paro, un 15% de hogares sin ningún ingreso, los pequeños hurtos han subido un 40% y las colas en comedores sociales han aumentado un 35%”.

Todos los hechos del segundo punto realmente se podrían trazar a un único origen (quizás, el problema del paro), por lo que no aportan nada nuevo: son solamente reflejos de un mismo hecho.

Resumen de la idea: Varios datos estadísticos se pueden sumar al apoyo de una tesis sólo si reflejan hechos totalmente independientes.

7. El engaño de los “datos medios”

Ya hemos visto arriba que la media puede dar una buena idea de por dónde van los datos… sólo si existe un único “modo”, es decir, todos los datos están aproximadamente centrados en torno a un valor.

A veces se utilizan los valores medios para hacer cuentas, y con eso sacar supuestos valores medios de otros conceptos. Pues bien:

¡NO!: Con un valor medio no se hacen cuentas
Este punto es un poco más complejo de ver, pero realmente merecerá la pena el esfuerzo de entenderlo para evitar cometer errores como en este artículo de Invertia sobre el porcentaje del sueldo que se nos va en gasolina en cada país.

Uno puede sentirse tentado de obtener los siguientes datos:

  • Sm = Sueldo medio mensual en un país.
  • P = Precio de los 100 litros de gasolina que se suponen el estándar de gasto mensual. 
Y ahora decir que el porcentaje del sueldo que se nos va en gasolina es:

p_media = 100 * P / Sm

Para entender donde está el problema, empecemos por el principio. Si “S” es el sueldo de una persona en particular (no el medio de un país), entonces sí que el porcentaje de sueldo que se le va en gasolina es:

p = 100 * P / S
Pero como dijimos arriba, la verdadera información sobre cómo se distribuyen unos datos viene dada por el histograma (o función densidad de probabilidad), en este caso, de sueldos. 
Por desgracia, si tenemos el histograma de una variable (en este caso S) y la transformamos de alguna manera (en este caso 100*P/S), el histograma de esa otra variable (en este caso p) tendrá en general una forma muy rara y difícil de calcular. Salvo en contadas ocasiones (que la variable origen sea Gausiana y la función de transformación sea simplemente multiplicar por un número) tampoco se cumple que podamos calcular la media del dato transformado simplemente transformando la media del dato origen. 
Si lo que acabas de leer te parece un trabalenguas, espero que un dibujo te lo aclare: 
(Fuente)
Lo que se ve es el histograma de unos datos de origen (en el eje horizontal), que se transforman mediante una función cualquiera (la curva) y se proyectan en el eje vertical que representa el dato de salida. Obviamente, una distribución “bonita” de entrada puede acabar dando cualquier cosa, como ese “churro” de histograma que se ve en la izquierda. 
En el caso de la gasolina con el que empezamos, tenemos que la función por la que se hace pasar la media es similar a 1/x (una hipérbola), con lo que los datos presentados en el artículo serían sólo una primera aproximación que ni podemos saber cuánto se acercará a la realidad.
8. Correlación vs. causalidad
Este último tema es mucho más sutil que los anteriores, e incluso algunos científicos parecen confundirse a veces.

En mi opinión, el ejemplo por antonomasia de este tipo de “error”, casi en clave de humor, es:

El tamaño del pene está relacionado con el crecimiento del PIB: Un investigador de la Universidad de Helsinki (Finlandia) ha llegado a la conclusión en un reciente estudio que el tamaño promedio del pene en un país, tiene directa relación con el crecimiento del Producto Interno Bruto (PIB) de cada nación.

Aunque hay que reconocer que el estudio no parece achacar que el tamaño del pene sea la causa del mayor o menos PIB del país, la forma de presentarlo puede hacer creer al lector que esa es la opinión del autor. En cambio, hay muchas otras noticias en las que el error sí aparece más claro (ejemplos: ésta o ésta)

La cuestión es simple: que se presente correlación entre dos variables no implica que esa sea el origen o la causa de ningún hecho. 

Existe un fundamento matemático detrás de este razonamiento, basado en una forma de teoría de probabilidades que se llama modelos gráficos, en los que cada “hecho” se representa como un nodo y las relaciones causales entre ellas se representan por arcos.

En esta teoría matemática, imaginemos que tenemos un conjunto de 3 hechos, que afectan a un cuarto hecho, y ese, a su vez, afecta a otros tres. Eso se representaría con la figura de la izquierda:

Efecto de ignorar un “hecho” que vincula los tres de arriba con los tres de abajo (fuente)

Pues bien, ojo al dato: según esta teoría de grafos, si ignoramos el hecho intermedio que aparece en blanco (lo que se llama marginalizar ese dato), e interpretamos los datos únicamente de los otros seis hechos, descubriríamos que existen correlaciones, que parecerían indicar causalidad, entre casi todos ellos. Eso se ve con las flechas de la figura de la derecha.

Moraleja de todo esto: Cuando los datos parezcan indicar causalidad entre dos hechos, nunca, repito, NUNCA, debemos descartar que realmente lo que esté ocurriendo es que hayamos olvidado tener en cuenta un hecho o factor intermedio, que realmente sea la causa última.

Con esta entrada participo en la edición 2.7 del Carnaval de Matemáticas, organizado en este blog.

Share

Publicado en: Análisis estadísticos, Estadística Etiquetado con: ,
  • http://www.blogger.com/profile/13634197623962536515 Alfonso de la Fuente Ruiz

    Por añadir mi granito de arena al tema de los porcentajes, enlazo un artículo que escribí hace algún tiempo sobre la aberración porcentual: http://alfonsoycia.blogspot.com/2008/12/la-aberracin-porcentual.html

  • http://www.blogger.com/profile/11270328266132861271 evovi

    El punto 8. es clave!!. En el mundo laboral se utiliza la correlación con una ligereza pasmosa según los intereses del que presenta los datos.
    El ejemplo del pene es llamativo, pero yo utilizo otro ejemplo de cosecha propia que es más formal y enuncio así: La correlación entre el numero de personas por la calle con el paraguas abierto y el hecho que llueva o no, es altísima, ¿cierto?. Si llueve hay paraguas y si no llueve no hay paraguas. Pues entonces en época de sequía propongamos que todo el mundo despliegue su paraguas y como eso está muy correlacionado con el hecho que llueva, !pues seguro que empezará a llover!.

  • http://www.blogger.com/profile/17475187146971096281 Agustin

    Mtra. Alicia muy interesante introducción al manejo de las Matemáticas en las Estadísticas, por supuesto que es una información muy entendible y útil, muchas gracias por compartirla.

    Un abrazo y le reitero mi admiración y mi respeto.

    Atentamente:

    Agustín Becerra Gutiérrez.

  • http://www.blogger.com/profile/05601891090942182257 DFT

    En ves de usar la media y la desviación estandar. Porque no usar la mediana?

  • http://www.blogger.com/profile/14366486594637400850 Felipe

    Mi más sincera enhorabuena por todo el blog y más en concreto por esta entrada; con esta capacidad de síntesis y esta claridad (sin palabros, como muy bien dices) se hace inteligible cualquier disciplina, aunque sean las matemáticas (nunca nos hemos llevado bien las matemáticas y yo)

    Con blogs como este estamos un paso más cerca de conseguir que el conocimiento sea Universal, y con ello acabar con la ignorancia (aunque no haya una correlación directa ;)

    • http://www.blogger.com/profile/04450377732634807411 José Luis Blanco

      Muchas gracias por tu entusiasta felicitación. ¡Con mensajes así hacen que merezca la pena escribir! :-)

      Y ojalá sea como dices y la ignorancia vaya decayendo…no soy muy optimista a corto plazo por lo que vemos a diario, pero quizás sea un movimiento que tarde generaciones en notarse y acabe funcionando.

      Saludos.

  • http://www.blogger.com/profile/04417802002241776372 Paco Núñez-Romero Olmo

    Como profesor de Periodismo, subdirector de un periódico y doctor en Periodismo que se dedica a hacer investigaciones cuantitativas usando SPSS y recurriendo a amigos estadísticos para que me ayuden a no decir “mentiras”, te mereces el premio Nobel y quiero que vengas un día a clase a contar esto a mis alumnos de Periodismo, y otro día a mis cursos de doctorado a contárselo a los alumnos de doctorado, y otro día a mis reuniones del grupo de investigación, a ver si así consigo que mis compañeros dejen de tildarme de loco freaky… jejeje
    Muchas gracias.

    • http://www.blogger.com/profile/04450377732634807411 José Luis

      ¡Jajaja! Cuando quieras Paco ;-) Qué alegría me da saber que al menos en las facultades de “letras” hay gente consciente de lo que significa la incertidumbre para no acabar metiendo la pata al escribir.

      Sigue así con los alumnos y los compañeros, que eres el que tiene la razón. Eso sí, que te llamen “friki” dudo que lo puedas evitar!

      Un saludo.

  • Anonymous

    Con todo el respeto del mundo, no me entero con tu explicación (aunque ya sepa de lo que estás hablando). No es este el primer artículo que leo de esta página y me parece que hay gente que, aunque rebose de conocimiento, no sabe transmitirlo a un público desconocedor de la materia en cuestión porque no se da cuenta de que lo más sencillo es siempre lo más efectivo para que la gente aprenda. Muchos profesores se pierden en tecnicismos, en fórmulas que dan por hecho, en presuponer que como ellos lo entendieron así, sus alumnos también lo harán. Ni mucho menos, y te lo dice un estudiante de medicina con matrículas de honor que no se tiene por tonto, pero que cuando intento explicar algo, dejo de lado las “enes”, las “raíces cúbicas” las “tendencias a no se qué” e intentan crear cuentos simples para niños simples. Pues en definitiva yo soy un niño simple también.

  • Anonymous

    Esta muy bién tu tarea de divulgación pero sobra tu arrogancia! A lo mejor un periodista de esos que tanto ninguneas te puede dar una lección de qualquier tema interesante o práctico para tu vida.

    Buena guia!

  • Anonymous

    Segun las estadisticas hay una correlación directa entre las contestaciones escritas por trolls y la ocultación de su identidad.

  • http://www.blogger.com/profile/11952204997580324215 Daryl

    En malaprensa.com hay una buena colección sobre los errores en los medios periodisticos, preferentemente escritos. Y las meteduras de pata con los porcentajes son una constante.

    En lo que caen muchos medios es en un desconocimiento básico de la demografia. Se dan muchas noticias (numero de suicidios, crimenes violencia de género, robos..etc) atribuyendo muchos casos a Cataluña, Madrid o Andalucia y por contra reseñando su escasa incidencia en la Rioja o Melilla. Para beneficio de los periodista dire que muchas veces el error y/o tendenciosidad viene de la fuente oficial que da el dato o del politico que dramatiza la noticia, por ejemplo cuando citan el numero de parados de forma absoluta. No estaria de mal que al menos se contextualizaran las noticias: las mayoria de los hechos es normal que se den en Cataluña, Andalucia o Madrid por la obviedad de tener mayor población

  • http://diego.net/ Diego

    Recomiendo la lectura de “un matematico lee el periodico” de john allen paulos

  • Anonymous

    Te informo de que cuando yo estudié, el Colegio de Sociólogos estuvo monitorizando las estadísticas en prensa para hacer un informe y los resultados eran desalentadores.
    No se si continúan haciéndolo, pero puedes preguntar. Quizá hayan abandonado por desesperación.
    Yo, como sociólogo, “flipo en colores” con las encuestas que se publican en prensa. Y más con la interpretación de los datos. Eso si es de risa.
    Luego se atreven a decir que las encuestas fallan. Lo raro es que alguna vez acierten tal y como se hacen la mayoría.

    • http://www.blogger.com/profile/04450377732634807411 José Luis

      Gracias por la info.

      Yo alucino sólo con la interpretación estadística, así que supongo que quienes entendáis de qué preguntas se deben y no se deben hacer, os echaréis las manos a la cabeza aún más.

      Un saludo.

  • http://www.blogger.com/profile/14819042373273083848 Jose Luis Loren

    Muchas gracias por la explicación. Me dedico profesionalmente a la analítica digital y os sorprenderíais las aberraciones que se hacen con los datos.
    Una cosa que me “encanta” es el cálculo de medias con otras medias… simplemente expectacular!

    En referencia a las medias yo utilizo un ejemplo muy gráfico: si yo me como un pollo y tu ni lo catas, la media dice que nos hemos comido medio pollo cada uno… así que te importaría pagarme la mitad?

    :P

  • victor

    Para empezar la gente de letras debería tener interés en rectificar esos errores cosa que no tienen, llevo toda mi vida intentándolo.

Recibir por correo electrónico:

Varios

Naukas   Mapping Ignorance