Mostrando entradas con la etiqueta covid-19. Mostrar todas las entradas
Mostrando entradas con la etiqueta covid-19. Mostrar todas las entradas

8 de junio de 2022

Cuando un gráfico dice lo contrario de lo que debería

 Una vez más @juvenal_tw me envía un caso maravilloso de malaprensa, en este caso gráfica, en una noticia de La Razón, con este titular:

La covid no toca fin: 3.076 muertos desde Semana Santa

El mensaje de la noticia es claro desde su titular: ¡eh, chicos, que esto no ha terminado! Para ilustrar la idea, la buena gente de La Razón ha tenido a bien plantar este gráfico:

Gráfico representando el número de fallecidos por covid acumulado en distintas fechas, desde el 15 de octubre de 2020 hasta la actualidad

Donde el lector que se deje llevar por la forma del gráfico ve, así a bote pronto, un acelerón tremendo en los fallecimientos registrados en las últimas fechas. Pero resulta que ese fortísimo acelerón no existe. Es una impresión visual totalmente engañosa causada por el simple hecho de que las fechas representadas en el eje horizontal no están separadas entre sí por una distancia proporcional a los días transcurridos entre ellas.

En realidad el eje horizontal está mal rotulado, donde dice 2020 debería decir 2021, y donde dice 2021 debería decir 2022. Hecha esa corrección, la distancia entre las diferentes fechas que van del 15 de octubre de 2021 al 15 de febrero de 2022 parece más o menos proporcional a los días transcurridos entre las distintas fechas. Pero luego, los tres meses y medio que van del 15 de febrero al 31 de mayo se representan en un espacio mínimo, que correspondería como a una semana en el tramo anterior.

Y así resulta que en los casi tres meses y medio transcurridos del 5 de noviembre al 15 de febrero se habrían registrado unos 8.600 fallecimientos (95.995-87.423), y en los tres meses y medio que van del 15 de febrero al 31 de mayo, unos 10.800 (106.797-95.995), un ligero aumento, que sin embargo en el gráfico parece un cambio radical de tendencia. 

Un gráfico que representara correctamente esos datos tendría esta forma (respetando el eje vertical que parte de 80.000, que tampoco es de mi gusto, pero hoy no nos metemos en esa discusión):


Donde se ve que el mayor cambio de tendencia se dio en realidad entre primeros de enero y mediados de febrero, y que desde entonces el ritmo de los fallecimientos sería algo menor. Esta se vería mejor incluso en un gráfico de barras con el número promedio de fallecidos registrados por día en cada periodo. Con los datos del gráfico sería algo así:


Ahí se ve claramente que en los últimos 3 meses y medio los datos han sido mejores que en el mes y medio de primeros de enero a mediados de febrero. Pero eso puede ser engañoso, claro, porque estamos comparando periodos de muy diferente duración. Lo suyo habría sido trabajar un poquito más y buscar los datos por periodos de la misma duración (quincenas o meses, por ejemplo) para ver realmente cómo ha cambiado la cosa recientemente.

Usando los datos de Our World in Data, a mí me sale esto, mirando el promedio diario en el aumento del número de fallecidos registrados desde mediados de octubre, por quincenas:


Con los datos quincenales puede verse que el pico de enero-febrero se prolongó hasta finales de marzo y que desde entonces hubo una ligera subida y luego una bajada. Prácticamente lo contrario de lo que muestra el gráfico original de La Razón. La verdad es que parece difícil hacerlo peor.

13 de enero de 2022

¿Gente resucitando en Toledo?

 Esto sería lo que estaría pasando según la portada de hoy de La Tribuna de Toledo:

Si la mortalidad baja más de un 100%, la mortalidad debe ser negativa. Es decir, ¡resurrecciones!
En páginas interiores vemos que la cuenta que han hecho es esta: a 12 de enero de 2021 había en Toledo 53 fallecidos; a 12 de enero de 2022 hay 23 fallecidos. La diferencia es 30. Y el error, clásico, pero imperdonable a estas alturas es calcular la diferencia como porcentaje de los fallecidos de este año (30/23=1,30 o 130%) en lugar de calcularla, como es lógico, cuando quieres calcular el descenso respecto a lo que pasaba el año pasado, en relación con el número de fallecidos de entonces, lo que daría una reducción del 57% (30/53=0,566).
La versión online de La Tribuna ya ha corregido el error. Pero que un disparate así llegue a la portada muestra que aún, desgraciadamente, fallan demasiadas cosas en las habilidades numéricas básicas de muchos periodistas.

[Corregido un error en la cuenta entre paréntesis 30/53]

12 de enero de 2022

No, el lunes no hubo 247 fallecidos por covid-19

Da un poco de pena que después de casi dos años de publicación (casi) diaria de los boletines del ministerio con datos sobre la pandemia todavía estemos así, pero ayer, una vez más, vi en unos cuantos medios que se empeñan en intrepretarlo mal, ya no sabe uno si por desidia, torpeza, mala fe o qué exactamente. 

Algunos titulares de ayer:

Onda Cero: Datos coronavirus España: La incidencia supera los 3.000 casos en un día con 247 fallecidos

La Sexta: La incidencia rebasa los 3.000 puntos con 134.942 casos y 247 fallecidos por COVID en el último día

Cope: La incidencia supera los 3.000 casos tras sumar 134.942 positivos y 247 fallecidos en un día 

Seguro que otros muchos medios, y muchos comentaristas, repetirían lo de los "247 fallecidos en un día". Pero es falso, por el mismo motivo que era falso lo que dijo Pablo Casado de que había habido "100 muertos por covid" en un día, cuando discutía con Ayuso sobre las cenas de Navidad.

En los titulares, y en las declaraciones de Casado, y en tantas y tantas noticias de los últimos dos años se está confundiendo el número de fallecidos que se han añadido en un día a la base de datos del ministerio con el número de fallecidos el día anterior. Sé que no soy nada original al señalar este error, pero es que parece increíble que sigamos sin aprenderlo.

Para verlo más claramente podemos comparar las informaciones sobre el número de fallecidos de los boletines del ministerio del lunes 10 de enero (con datos hasta el 9) y el martes 11 de enero (con datos hasta el 10). Estas son las tablas con el total de los fallecidos hasta la fecha, y los de los últimos siete días:

 

Tablas extraídas de informes del ministerio. Se ve que el total de fallecidos desde el comienzo de la panedemia ha aumentado en 247 personas entre el informe del día 10 y el del día 11. Los fallecidos en los últimos 7 días han aumentado en 90.
El famoso número de 247, que no aparece expresamente en ningún boletín, es el cálculo que hacen los medios restando al total de fallecidos del boletín del martes los que aparecían en el boletín del lunes (lo señalado en rojo). Pero como llevamos casi dos años con esto, toda persona que se haya interesado mínimamente por estos datos, y esto debería incluir, pienso yo, a cualquier periodista que escriba sobre ellos, ya tiene que saber que esos fallecidos sumados a la base de datos no son fallecidos del día anterior. 

Lo tendría que saber porque se ha repetido mil veces que los datos no se incorporan de manera inmediata. Lo tendría que saber también porque el total de "fallecidos en los últimos siete días" sólo ha aumentado 90 (que es poco compatible, lógicamente, con que el último día se hayan añadido 247). Pero sobre todo lo tendría que saber ¡¡¡porque al lado de esas tablas, en los dos informes, aparecen sendos gráficos con la cifra de fallecidos día por día, en los últimos 14!!!

Estos son los gráficos de los informes del lunes y el martes, que aparecen, insisto, en la misma página que las tablas anteriores:

 

En el último gráfico desaparecen los datos del día 27 de diciembre, y se añaden los del 10 de enero, que son 29 fallecidos. Comparando ambos gráficos (como comparan las tablas de dos días), los periodistas pueden calcular los números que he añadido yo al gráfico de abajo, en rojo, indicando cuantos fallecidos adicionales se han adjudicado a la cuenta de cada día de los últimos 14, entre un informe y otro. Los famosos 247 fallecidos añadidos a la base de datos son la suma de esos 14 números rojos (que llegan a 213) más los cuatro casos mencionados en la nota al pie (diagnosticados en los últimos 7 días, pero sin fecha de fallecimiento en su ficha), más otros 30 casos que se han debido de añadir en días anteriores al 28 de diciembre.

La verdad es que el ministerio podría facilitar esa información sin mucho esfuerzo, publicando un gráfico del estilo de este: 

Pero como he dicho, eso no es excusa para que nadie que haya trabajado con estos informes pueda seguir titulando como si hubiera 247 fallecidos en el día en el que se añaden 247 fallecidos a la base de datos, particularmente en un momento en el que se juntan retrasos de fin de semana (por eso se añaden muchos casos a los días 8 y 9) y retrasos por las fiestas navideñas.

Lo cual nos deja, claro, con el problema de que, debido a estos retrasos, no sabemos realmente cuantos fallecidos por covid hubo el lunes 10, ni lo sabremos hasta dentro de bastante tiempo. No fueron 247 pero desde luego, cuando tengamos los datos finales, no serán 29. No sería raro que pasen de 100. Pero realmente no lo sabemos. 

¿Cómo informar sobre las cifras de fallecidos más recientes, entonces? Creo que no hay ninguna solución perfecta. Puede darse la cifra de nuevos casos registrados, insistiendo en que son nuevos casos declarados o conocidos, pero que son de varias semanas. Algo así hacen muchos medios, que dieron ayer por ejemplo la cifra de 247 casos como "nuevos casos registrados" o "nuevas notificaciones", evitando decir (aunque otra cosa es lo que la gente entienda) que son fallecidos en un día.

Pero eso no me parece realmente muy informativo. El número de notificados no corresponde ni al de fallecidos ayer, ni al de ningún otro día, ni al de ningún periodo significativo. Creo que lo más útil sería recurrir, como hacemos con los casos, a una suma o un promedio de los últimos 7 o 14 días.  Así, por ejemplo, ayer se podría haber titulado con los 463 fallecidos semanales de la tabla de arriba, o con la media diaria derivada de esa cifra, que son 66 fallecidos. O bien, sabiendo que los datos del último día son muy incompletos, usar los datos de siete días hasta el día anterior (sacados del gráfico) y titular con los 508 fallecidos, o 73 diarios, hasta el domingo. En realidad ese dato es una subestimación, con seguridad. Tal vez dentro de una semana sepamos que la media del 3 al 9 de enero ha sido más bien de 90 o 100 casos. Pero está más cerca de la realidad, desde luego, que los famosos 247.

29 de marzo de 2021

No, Madrid no acumula el 40% de los casos de covid-19 en las últimas semanas

Hace tres días escribía aquí sobre lo difícil que es ver una relación clara entre las medidas adoptadas por los diferentes gobiernos y la evolución de la pandemia, a pesar del entusiasmo con el que voces políticas y mediáticas se lanzan a hacerlo. Que una buena parte de los comentarios a la entrada se dediquen precisamente a eso mismo muestra lo necesario del mensaje.

Pero todavía se puede hacer peor. Por ejemplo, puede uno usar los datos de los informes oficiales sobre lo sucedido el día anterior, que sabemos después de un año de pandemia que son muy incompletos y poco fiables, para escribir un titular falso, como este, de La Vanguardia, el pasado viernes:

Madrid acumula el 40%
de los contagios en España

Veamos cómo se justifica esa afirmación en el el texto:

Madrid aporta desde hace al menos un mes alrededor del 40% de los contagios diarios en España.... En el último mes, los casos detectados en Madrid representan entre el 35% (26 de febrero) a más del 40% la ultima semana (ayer, 40,5%) de toda España. Ello lleva aparejado inevitablemente un incremento de la ocupación hospitalaria.

Según he comprobado, esos porcentajes son los que salen al comparar, en los boletines que publica, de lunes a viernes, el Ministerio de Sanidad (aquí el último, del viernes), los datos de Madrid y los datos nacionales en la columna "Casos diagnosticados el día previo". Y efectivamente, en el último mes, esos porcentajes han rondado el 40%.

Pero en esos mismos informes hay otras dos columnas con los casos diagnosticados los últimos 7 días y los últimos 14 días. ¿Cuál es el porcentaje de Madrid sobre el total nacional en esas columnas? Pues casi todos los días del último mes ha estado en torno al 25%. 

¿Cómo es posible que los casos del día anterior, durante un mes, ronden el 40% y los casos de los últimos 7 o 14 días, en el mismo periodo, ronden el 25%? La razón, como ya he anticipado más arriba, es que los datos publicados cada día sobre los casos detectados o los fallecimientos del día anterior son muy incompletos, porque muchos datos no se incorporan a la base de datos del ministerio hasta unos días después de haber sucedido. Esto es algo que sabe cualquier persona que haya seguido los datos de la pandemia en el último año con alguna atención, y que se supone que debería saber también cualquier periodista que escriba sobre ello.

Ese retraso, además, no es uniforme y constante, ni a lo largo del tiempo, ni entre diferentes lugares. Y al menos en las últimas semanas, los datos del día anterior de la Comunidad de Madrid están más cerca de los datos definitivos, para ese mismo día, que se acaban conociendo algunos días después, que los de otras partes. Por eso, en los datos del día anterior la Comunidad de Madrid parece tener un porcentaje mucho mayor de los casos totales de los que al final tiene, cuando las estadísticas se consolidan con datos atrasados, que entran en mayor proporción de otros lugares.

En definitiva: la Comunidad de Madrid tiene últimamente una incidencia de casos de covid-19 superior a la media española, y por eso tiene también, lógicamente, un porcentaje de los casos totales (en torno al 25%) mayor que el que le correspondería, en proporción a su población (que es el 14% de la población española). Pero no, no tiene el 40% de los casos.

Un dato falso y llamativo es siempre candidato a propagarse como la pólvora. Y así ha sucedido, según he sabido, por este hilo fantástico de Mariluz Congosto, que explica la propagación por la red de la noticia falsa, y de los desmentidos, que inevitablemente están relacionadas con las filias y fobias políticas . Como sucede tantas otras veces, hay mucha más difusión del bulo que de su rectificación.

Dejo a la consideración de cada uno la estimación de si el error de La Vanguardia fue inocente o no.  Hay una buena pista en otro hilo de Twitter, citado por el anterior, del mismo viernes 26, en el que @velardedaoiz2, dirigiéndose a la autora de la noticia, señala su error. Que tres días después la noticia no se haya rectificado deja en muy mal lugar a la periodista, y al medio en el que trabaja.

1 de diciembre de 2020

¿Por qué exagerar lo que ya es suficientemente grave?

 Una nota breve sobre la portada de hoy en El País (gracias a @juvenal_tw por el aviso):

Es un titular francamente desafortunado, y simplemente falso.

Como se ve en el texto las "300 muertes al día" son el resultado de dividir entre los 30 días de noviembre las aproximadamente 9.200 muertes notificadas por el Ministerio de Sanidad durante el mes pasado. En efecto, en el último boletín del mes de octubre, publicado el viernes 30, se hablaba de 35.878 fallecidos; y en el boletín publicado ayer, 30 de noviembre, se contabilizaban 45.069. La diferencia es de 9.191, o redondeando, 9.200 fallecimientos más.

Pero todos los periodistas que trabajan con las cifras del COVID-19, y desde luego también los de El País, saben, y nos han contado, que hay muchos retrasos en las notificaciones, y que no todos los fallecidos notificados en noviembre corresponden a fallecimientos sucedidos ese mes. De hecho, el propio PDF del ministerio lleva un enlace a la base de datos con la que se generan sus tablas y que incluye, entre otras cosas, el número de fallecidos, por comunidades autónomas, y por fecha de fallecimiento.

En ella puede verse que el número de fallecidos en noviembre contabilizados hasta ahora es de 6.279. Es decir, en el mes de noviembre se han sumado a las bases de datos 9.200 fallecimientos, de los cuales 6.279 son de ese mes, y el resto, casi 3.000, de meses anteriores (entre ellos al menos 1.326 fallecidos antes del 11 de mayo, y añadidos de manera extraordinaria a la base de datos el 4 de noviembre). Esos retrasos y actualizaciones son chocantes,y sería deseable que no sucedieran, porque nos hacen dudar a todos de la fiabilidad de las cifras actuales. Pero los periodistas de El País los conocen, y por tanto tienen poca excusa para un titular como el que han publicado.

Los muertos de noviembre son, hasta donde se sabe hoy, unos 210 diarios. Como sabemos que en los próximos días se añadirán nuevos casos a la lista, porque viene sucediendo así, podemos esperar que la cifra final esté más bien en torno a los 250 diarios, que es más o menos el promedio de los primeros veinte días del mes, sobre los que las cifras pueden ser ya cercanas a las definitivas. Aunque también es posible que, dada la reducción de casos detectados que empezó hacia el 5 de noviembre, las cifras de fallecidos hayan empezado a bajar ya hace unos días y aún no lo sepamos. 

En todo caso, decir ahora que noviembre "deja 300 muertes al día" es una distorsión manifiesta de la realidad. No se puede incluir en un promedio diario de noviembre los muertos de abril o mayo que se han sumado este mes a la base de datos.

Creo que es un borrón lamentable e impropio de un medio que está haciendo en general un gran trabajo de elaboración y presentación de los datos de la pandemia. Y que oscurece la otra parte de la información que sí es correcta y muy relevante: noviembre es el peor mes desde abril. Para señalar esto no hacía falta contar como fallecidos en noviembre los de meses anteriores.

31 de julio de 2020

¿Por qué cambiar las escalas de colores en los mapas?

Fíjense en estos dos mapas. Los dos proceden de la web de Instituto Carlos III, en la sección llamada "Panel Covid-19". El color de las provincias se refiere a la incidencia acumulada del virus durante la última semana (lunes a domingo) disponible, expresada en número de casos detectados por 100.000 habitantes.

Este era el mapa disponible en la versión de la web actualizada el 3 de julio, con datos de la semana del 22 al 28 de junio:



Y este es el mapa disponible ahora mismo, actualizado ayer 30 de julio, con datos de la semana del 20 al 26 de julio:



Un primer problema con estos mapas es que la graduación de la paleta de colores es tan tenue que es difícil ver diferencias que pueden ser importantes. Por ejemplo, en la versión publicada ayer, es prácticamente imposible ver ninguna diferencia entre, pongamos, Lugo, Asturias y Cantabria, que tenían, en la semana de referencia, 8,50, 2,05 y 7,06 casos por 100.000 habitantes, respectivamente. La diferencia entre Granada (6,89) y Almería (31,95) es ligeramente más observable. Pero la gama de colores parece sugerir que fuera de Aragón y Cataluña casi todas las provincias se movieran en una banda de datos muy estrecha. No es así en realidad, pero la paleta de colores elegida, que me parece muy poco afortunada, impide ver las diferencias que no sean estruendosas.

Por otro lado, comparando los dos mapas, la impresión es que estamos un poco peor ahora que a finales de junio. El virus se ha extendido más por Aragón y Cataluña, algo por Navarra, y en los demás territorios parece que todo está igual que hace un mes. Sin embargo, en la semana acabada el 28 de junio, representada en el primer mapa, estábamos en 4,16 casos por 100.000 habitantes, de media, en España, y en la semana terminada el 26 de julio estamos en 27,28 casos, unas siete veces más.

¿Cómo es que los mapas son tan parecidos? Pues porque la escala de colores de estos mapas, que yo he dejado fuera deliberadamente en los recortes que les he presentado arriba, ha cambiado, y mucho.

A la izquierda, la escala de colores del mapa publicado el 3 de julio, a la derecha la del mapa del 30 de julio:








Lo que el 3 de julio era el valor máximo, azul oscurísimo (Lleida, con 85,99 casos por 100.000 habitantes), está en el mapa del 30 de julio por debajo de la mitad de la escala, (Navarra, con 80,55 casos). De hecho, en el mapa del 30 de julio parecería que Lleida está mejor que en el del 3 de julio, cuando en realidad ha subido de 85,99 casos a 202,56.

Da la impresión de que cada semana se recalculan las escalas, jugando solo con un color (azul) y dejando que el programa haga la distribución lineal de colores entre el máximo de la semana y el valor cero. Como la mayoría de los valores están agrupados en la banda baja, el resultado es un mapa poco legible, como he señalado. Y además, los mapas de cada actualización son incomparables con los publicados anteriormente.

El caso es muy parecido al que se discutía en Twitter hace unos días, sobre los mapas publicados por el estado de Georgia:
El tuit produjo una interesante conversación. Algunas respuestas señalaban simplemente que estos mapas no tenían la intención de mostrar cambios en el tiempo, sino solo diferencias entre lugares en un momento dado, y que por lo tanto no había problema en los cambios de escalas (que al avanzar el mes fueron haciéndose mayores: el color rojo unos días más tarde denotaba lugares con más de 11.000 casos acumulados por 100.000 habitantes).

Lo mismo sucede en el caso del Instituto Carlos III: la web ofrece en cada momento un solo mapa (en realidad, en cada actualización están disponibles el mapa de una semana y la anterior, con la misma escala). Si el lector tiene en la memoria una idea vaga de los mapas de semanas anteriores, que ya no están en la web oficial (como el que yo he recuperado, usando la Internet Wayback Machine), es cosa suya, y no hay una presentación engañosa, uno junto a otro, de mapas con escalas diferentes.

Y en efecto, es casi seguro que no estamos ante un intento deliberado de engañar, sino más bien ante un uso poco meditado de las herramientas informáticas, porque sí, el visitante habitual de esta web tendrá en su memoria los mapas de semanas pasadas, y la constante revisión de las escalas dificulta una buena recepción de la información. Es como si los mapas de colores de las temperaturas en los mapas del tiempo cambiaran a lo largo del año, para adaptarlos a las bandas de temperaturas presentes en cada momento, y así el rojo intenso representara temperaturas de más de 40 ºC en verano, de 25 ºC en otoño y de 15 ºC en invierno. No sería buena idea.

Y creo que lo que hace el Instituto Carlos III tampoco lo es, la verdad.