25 de enero de 2021

Sobre medias y medianas, y sobre muertos "al año"

¿Cuántas personas mueren al año en España por eventos meteorológicos extremos? Antes de seguir leyendo, piense usted una cifra aproximada sobre cuál cree usted que es la respuesta a esa pregunta. Los eventos meteorológicos extremos se refieren a inundaciones, tormentas, olas de calor o de frío, y con muertes nos referimos a las causadas de forma directa por el evento mismo. Piense en las noticias de los últimos años en España sobre estos eventos e imagínese cuál cree usted que sería tal vez la respuesta.

¿Lo tiene?

Bien. A lo mejor su cifra se parece a alguna de estas, que son las muertes de los años 2005-2017, que he extraído de los informes de 2007 a 2019 de una institución alemana llamada Germanwatch, que publica cada año unos índices de riesgo climático:

PeriodoMuertes
200541
200623
200712
20089
200923
201021
201111
201221
20139
20149
201522
201619
20179  

La media de esos 13 datos es 17,6. Y la mediana (el número central, si los ordenamos de menos a más) es 19. Si a mí me hubieran preguntado sobre este tema esta mañana mi respuesta se habría parecido también a esta: "no sé, 15, 20, tal vez treinta".

Por eso me ha sorprendido mucho ver este titular hoy en El País: España pierde al año 700 vidas y 900 millones de euros por los eventos meteorológicos extremos. Me parecía un número desorbitado y que no tenía nada que ver con mis recuerdos de los últimos años. La noticia se basa, precisamente, en la última edición, recién publicada, del Índice de Riesgo Climático de Germanwatch (resumen en español; texto completo en inglés), con datos hasta 2019. 

La media de 700 vidas perdidas al año (más precisamente 696) se refiere, según la noticia, al periodo de 20 años 2000-2019, pero no la he encontrado en el informe último (que no da los datos de fallecidos de cada país, sino solo sus posiciones relativas en el ranking). Imagino que El País la habrá sacado de algún material enviado a los medios que no está disponible en la web, o tal vez se la hayan facilitado desde el instituto tras una consulta directa. Pero sí aparece, con pequeñas variaciones, en los informes de 2011 a 2019, disponibles online, que dan los datos absolutos de cada país para cada año y para la media de los últimos veinte años. Y en efecto, en ellos aparece que la media de los veinte años anteriores (periodo que se va desplazando de 1990-2009 hasta 1998-2017) está entre 695 y 706 fallecidos.

Descartando que esa media sea un error, la explicación más razonable a esta discrepancia tan grande entre los datos anuales publicados por la propia institución, para 2005-2017, y la media del periodo 1998-2017 es que en el periodo para el que no disponemos de los datos anuales (1998-2004) haya algún valor extremo que afecta de manera dramática al valor medio. Mi sospecha es que ese valor extremo proviene de la ola de calor del año 2003, que el INE calculó que podría haber causado 13.000 fallecidos en exceso de los esperados (aunque investigadores del Instituto Carlos III, el mismo que publica ahora las estimaciones de excesos de fallecimientos por el covid-19, calcularon solo un exceso de unas 3.200 muertes para la ola de calor de 2003).

Si en efecto Germanwatch está usando para 2003 una cifra similar o ligeramente superior a 13.000 fallecidos (que divididos entre 20 dan 650), se explicaría en gran medida que la media de todos los periodos de 20 años que incluyen el año 2003 tenga valores próximos a 700, aunque en la inmensa mayoría de los años incluidos en esos periodos la cifra de fallecidos esté en torno a 15 a 20.

Estaríamos ante un magnífico ejemplo ilustrativo del problema de usar la media como valor resumen de una distribución de datos que tiene algún valor extremo. Es matemáticamente correcto decir que la media de 20 valores, de los cuales 19 están en torno a 15 a 20, y uno es 13.500, estará en torno a 690. Pero cuando usamos esa media para escribir frases como "España pierde al año 700 vidas" estamos creando la imagen de algo que sucede de manera más o menos habitual o regular, y estamos, casi con seguridad, creando una idea equivocada en los lectores. 

Precisamente el gran problema de la media es que es muy sensible a los valores extremos. La mediana en cambio no tiene esos problemas. Para el periodo 2000 a 2019, aun suponiendo que todos los datos que nos faltan fueran mayores a los que tenemos (los de 2005 a 2017), la mediana sería como mucho 23.

Es decir, que usando la mediana, el titular de El País habría dicho que "España pierde al año 23 vidas ... por los eventos meteorológicos extremos". Dato que se parecería mucho al dato habitual, al de 19 de los 20 años... y sería totalmente diferente al dato excepcional, el de 2003. Se puede argumentar que precisamente, como hablamos de eventos extremos, un resumen como la mediana, que de alguna manera ignora el evento más extremo de los 20 años, es también engañoso. 

Al final, tanto la media como la mediana tienen sus limitaciones. Si queremos hablar de un año "típico" la mediana es más informativa. Pero si, precisamente porque hablamos de eventos atípicos, extremos, no queremos que se pierda la información del más extremo de todos, tendríamos que buscar la manera de hacerlo. Tal vez, mejor que con la media, podríamos hacerlo simplemente, usando la cifra total de los últimos 20 años (España perdió 14.000 vidas en los últimos 20 años...).

Desconozco si quien ha redactado la noticia y el titular en El País ha sido consciente de todos estos problemas. Sospecho que más probablemente ha tomado el dato medio que le daba Germanwatch y lo ha dado por bueno sin caer en la cuenta de que estaba ante una media de 19 datos similares y un dato estratosféricamente atípico, situación en la cual el uso de la media para hablar de lo que sucede "al año" no parece nada buena idea.

1 comentario:

  1. ¿Y la sugerencia velada de que esos datos extremos son por causa del cambio climático?

    ResponderEliminar

Si quieres que otros lectores puedan debatir contigo, por favor, no firmes como "Anónimo" a secas. Usa la opción "Nombre/URL" e invéntate un nombre, aunque sea "Anónimo33", "ABC" o "123", para que podamos dirigirnos a ti. Gracias.