In just 15 days the total number of #COVID19 cases in Georgia is up 49%, but you wouldn’t know it from looking at the state’s data visualization map of cases. The first map is July 2. The second is today. Do you see a 50% case increase? Can you spot how they’re hiding it? 1/ pic.twitter.com/wAgFRmtrPk
— Andisheh Nouraee (@andishehnouraee) July 17, 2020
Errores y chapuzas de la prensa española: números equivocados, gráficos incorrectos, fallos lógicos, conceptos erróneos, mala interpretación de estadísticas o datos científicos...
31 de julio de 2020
¿Por qué cambiar las escalas de colores en los mapas?
Fíjense en estos dos mapas. Los dos proceden de la web de Instituto Carlos III, en la sección llamada "Panel Covid-19". El color de las provincias se refiere a la incidencia acumulada del virus durante la última semana (lunes a domingo) disponible, expresada en número de casos detectados por 100.000 habitantes.
Este era el mapa disponible en la versión de la web actualizada el 3 de julio, con datos de la semana del 22 al 28 de junio:
Y este es el mapa disponible ahora mismo, actualizado ayer 30 de julio, con datos de la semana del 20 al 26 de julio:
Un primer problema con estos mapas es que la graduación de la paleta de colores es tan tenue que es difícil ver diferencias que pueden ser importantes. Por ejemplo, en la versión publicada ayer, es prácticamente imposible ver ninguna diferencia entre, pongamos, Lugo, Asturias y Cantabria, que tenían, en la semana de referencia, 8,50, 2,05 y 7,06 casos por 100.000 habitantes, respectivamente. La diferencia entre Granada (6,89) y Almería (31,95) es ligeramente más observable. Pero la gama de colores parece sugerir que fuera de Aragón y Cataluña casi todas las provincias se movieran en una banda de datos muy estrecha. No es así en realidad, pero la paleta de colores elegida, que me parece
muy poco afortunada, impide ver las diferencias que no sean
estruendosas.
Por otro lado, comparando los dos mapas, la impresión es que estamos un
poco peor ahora que a finales de junio. El virus se ha extendido más por
Aragón y Cataluña, algo por Navarra, y en los demás territorios parece
que todo está igual que hace un mes. Sin embargo, en la semana acabada el 28 de junio, representada en el primer mapa, estábamos en 4,16 casos por 100.000 habitantes, de media, en España, y en la semana terminada el 26 de julio estamos en 27,28 casos, unas siete veces más.
¿Cómo es que los mapas son tan parecidos? Pues porque la escala de colores de estos mapas, que yo he dejado fuera deliberadamente en los recortes que les he presentado arriba, ha cambiado, y mucho.
A la izquierda, la escala de colores del mapa publicado el 3 de julio, a la derecha la del mapa del 30 de julio:
Lo que el 3 de julio era el valor máximo, azul oscurísimo (Lleida, con 85,99 casos por 100.000 habitantes), está en el mapa del 30 de julio por debajo de la mitad de la escala, (Navarra, con 80,55 casos). De hecho, en el mapa del 30 de julio parecería que Lleida está mejor que en el del 3 de julio, cuando en realidad ha subido de 85,99 casos a 202,56.
Da la impresión de que cada semana se recalculan las escalas, jugando solo con un color (azul) y dejando que el programa haga la distribución lineal de colores entre el máximo de la semana y el valor cero. Como la mayoría de los valores están agrupados en la banda baja, el resultado es un mapa poco legible, como he señalado. Y además, los mapas de cada actualización son incomparables con los publicados anteriormente.
El caso es muy parecido al que se discutía en Twitter hace unos días, sobre los mapas publicados por el estado de Georgia:
El tuit produjo una interesante conversación. Algunas respuestas señalaban simplemente que estos mapas no tenían la intención de mostrar cambios en el tiempo, sino solo diferencias entre lugares en un momento dado, y que por lo tanto no había problema en los cambios de escalas (que al avanzar el mes fueron haciéndose mayores: el color rojo unos días más tarde denotaba lugares con más de 11.000 casos acumulados por 100.000 habitantes).
Lo mismo sucede en el caso del Instituto Carlos III: la web ofrece en cada momento un solo mapa (en realidad, en cada
actualización están disponibles el mapa de una semana y la anterior,
con la misma escala). Si el lector tiene en la memoria una idea vaga de
los mapas de semanas anteriores, que ya no están en la web oficial (como
el que yo he recuperado, usando la Internet Wayback Machine), es cosa suya, y no hay una presentación engañosa, uno junto a otro, de mapas con escalas diferentes.
Y en efecto, es casi seguro que no estamos ante un intento deliberado de engañar,
sino más bien ante un uso poco meditado de las herramientas
informáticas, porque sí, el visitante habitual de esta web tendrá en su
memoria los mapas de semanas pasadas, y la constante revisión de las
escalas dificulta una buena recepción de la información. Es como si los
mapas de colores de las temperaturas en los mapas del tiempo cambiaran a lo largo del año, para adaptarlos a las bandas de
temperaturas presentes en cada momento, y así el rojo intenso
representara temperaturas de más de 40 ºC en verano, de 25 ºC en otoño y
de 15 ºC en invierno. No sería buena idea.
Y creo que lo que hace el Instituto Carlos III tampoco lo es, la verdad.
3 comentarios:
Gracias por participar. Si quieres que otros lectores puedan debatir contigo, por favor, no firmes como "Anónimo" a secas. Usa la opción "Nombre/URL" e invéntate un nombre, aunque sea "Anónimo33", "ABC" o "123", para que podamos dirigirnos a ti, y tus comentarios no se confundan con los de otras personas.
Los comentarios de las entradas menos recientes son revisados por mí y no se publican inmediatamente.
Suscribirse a:
Enviar comentarios (Atom)
Este asunto presenta un problema de diseño muy interesante, sobre todo si se quiere plasmar la evolución temporal: ¿cómo codificamos la escala de color si desconocemos el rango de valores?
ResponderEliminarEsta claro que trabajar con un rango dinámico no es lo ideal, porque lleva a confusión. Pero si lo que queremos es usar un rango fijo, ¿cómo lo delimitamos?
En este caso conocemos el límite inferior, 0, pero no el superior... y no lo conoceremos hasta que demos por cerrada la racogida de datos, cosa que no parece cercana en el tiempo.
Una opción bastante naíf consistiría en estipular que el límite superior es el de toda la población (en este caso 100.000, dado que ese es el indicador que se está usando). El problema de esta solución radica en que para que la escala de color muestre algo interesante, debería haber regiones con tasas de infectados bastante más altas de las que se están recogiendo. Con los datos actuales, tanto 90/100000 como 250/100000 recibirían prácticamente el mismo tono (si usamos una escala continua de color) o el casi seguro el mismo color si aplicamos una escala con n clases.
Otra posibilidad consistiría en usar estimaciones de modelos predictivos para estipular el límite superior, pero entiendo que este método es bastante más laborioso.
Lo dicho, un problema de diseño más complejo de lo que pueda parecer a simple vista.
Sí, tu observación es muy importante. No es posible saber, de antemano, hasta dónde llegarán los valores máximos, y diseñar, por tanto, una escala inamovible presenta un problema no fácil de resolver.
EliminarPero simplemente la experiencia propia de hace pocos meses, y la de otros países, podría ayudar a haber establecido una escala con valores máximos realistas. Y los tramos se podrían hacer manualmente para evitar que valores notablemente distintos, pero lejanos al máximo, parecieran prácticamente iguales. Y se podrían usar varios tonos, de varios colores, en lugar de solo tonos de azul, para representar mejor toda la variedad de situaciones.
Se me olvidaba: lo de los diferentes colores lo usan en el mapa de "razón de tasas" en la misma web. Algo parecido podría hacerse para el mapa que representa las tasas.
Eliminar