6 de abril de 2020

Nihilismo estadístico y datos sobre Italia y España

El otro día publiqué unas gráficas sobre la asociación existente entre la incidencia conocida del COVID-19 en nuestras comunidades autónomas y la letalidad de la enfermedad, medida también en relación a los casos conocidos. Vimos que esa asociación efectivamente existía, con ciertos matices, y era mucho mayor si excluíamos a tres comunidades autónomas peculiares.

El gráfico actualizado es este:

Gráfico 1. Incidencia y letalidad por CCAA, hasta el 5 de abril. Elaboración propia con datos de INE  y Datadista


Las comunidades "ordinarias" están ahora menos alineadas, y por ello la R2, que mide el grado de asociación entre las dos variables, para esas comunidades, ha bajado de un 0,73 a un 0,56.

En realidad, no está claro que la incidencia de una enfermedad en la población y la letalidad de esa enfermedad (fallecidos/enfermos) tenga que estar relacionada. En teoría, no debería estarlo. En mi entrada del otro día yo apuntaba algunas posibles hipótesis explicativas de la aparente relación: que los sistemas sanitarios de los lugares con más casos estuvieran más sobrecargados, y estuvieran respondiendo peor; o que la incidencia mayor fuera en realidad una señal de una llegada más temprana de la enfermedad, con lo cual un mayor porcentaje de los enfermos contabilizados habría tenido tiempo para recorrer todo el curso de la enfermedad, y llegar, en su caso, a la curación o el fallecimiento.

Otra posibilidad, es que en los lugares con mayor incidencia, también por desbordamiento del sistama de salud, y agotamiento de recursos, se esté haciendo el test a personas, en promedio, que están más graves, y por tanto, a un porcentaje menor de los realmente infectados. En  esa situación la diferencia en la incidencia entre regiones sería mayor de la que estamos midiendo, y al contrario, la diferencia real en la letalidad de la enfermedad entre CCAA sería menor de la aparente.

Todo esto lleva al debate sobre hasta qué punto todas estas medidas que manejamos son valiosas o no. Cada vez que publico algo en el blog o en Twitter sobre el tema, una proporción considerable de las respuestas y comentarios va en la dirección de decir que es inútil, o incluso contraproducente, hacer gráficos y análisis con datos que sabemos que son incompletos, heterogéneos, procedentes de fuentes que cuentan con criterios muy diferentes...

El sábado mi muy admirado Nate Silver publicó un artículo titulado Coronavirus Case Counts Are Meaningless*, es decir, que el recuento de casos de coronavirus no tiene valor, y que podría interpretarse en esa línea (aunque en realidad, como imaginarán por el asterisco, no dice exactamente lo que el titular sugiere).

Entiendo perfectamente el razonamiento. Yo mismo insisto muchísimo, cuando doy clases a periodistas, en lo esencial que es prestar mucha atención, cuando se hace cualquier análisis con datos, a comprender bien el origen de los mismos. La famosa pregunta de "¿usted cómo lo sabe?" que hay que hacer a toda fuente de datos: ¿cómo ha definido su objeto de estudio? ¿cómo lo ha contado?. Muchísimos de los errores que cometemos al estudiar datos provienen de no hacer esa tarea, y tomar como comparables datos que no lo son.

Y sin embargo, en circunstancias como las actuales, creo que no se puede caer en el nihilismo estadístico, que viene a decir que como sabemos que los datos son imperfectos y heterogéneos, los tests defectuosos, su ritmo de aplicación variable, unos lugares cuentan los fallecidos en sus casas, otros no... no podemos hacer literalmente nada de valor con los números de los que disponemos, tenemos que levantar los brazos y rendirnos.

Los datos son limitados y problemáticos, pero no inútiles. Hay que estar atentos, en lo posible, a todas las informaciones relevantes para saber cómo se elaboran, y sobre todo, si ha cambios en cómo se obtienen. Por ejemplo, cuando podamos hacer tests de forma masiva, el número de casos confirmados aumentará muchísimo, sin que, obviamente, eso signifique que la epidemia empeora. Y algo más problemático, como indica Silver: cambios menos radicales en el ritmo de testeo, que quizá pasen desapercibidos, nos pueden hacer creer que hay cambios de tendencias que en realidad son solo resultado del cambio en la forma de medir.

Todo esto puede pasar, sí, y hay que estar atento a ello. Pero no nos debe llevar tampoco a suponer que los métodos de medida son tan terriblemente heterogéneos, y tan variables, de unos sitios a otros, que nada se puede comparar con nada. Porque mucha de esa heterogeneidad y variabilidad puede ser también errática, ir en múltiples direcciones en diferentes lugares, de forma que unos errores se compensen con otros, y el resultado siga siendo, a grandes rasgos, informativo.

Hasta que punto las medidas son informativas se puede estimar también por las relaciones entre unas y otras. En este sentido, les dejo con algunos gráficos sobre España e Italia, los dos países, por lo que sabemos hasta ahora, en fuentes oficiales, más castigados por la pandemia. Puede verse como en Italia también hay una relación aparente, como la que veíamos el otro día para España, entre incidencia de la enfermedad y letalidad de la misma (fallecidos/casos conocidos).

Gráfico 2. Incidencia y letalidad del COVID-19 en Italia, hasta el 5-abr. Elaboración propia con datos del
Dipartimento della Protezione Civile
El gráfico 3 presenta otra relación muy reveladora, entre la incidencia de la enfermedad por regiones y comunidades autónomas, y la mortalidad (fallecidos/población). En el caso de España he excluido el caso anómalo de La Rioja, pero se incluyen Navarra y el País Vasco. Puede verse que la asociación es fuerte,  lo que hace pensar, claramente, que los "casos confirmados" no son una medida sin valor, o por lo menos hasta ahora, deben estar midiendo cosas similares dentro de cada uno de los dos países, sin grandes variaciones entre las regiones y comunidades.

Gráfico 3. Incidencia y mortalidad del COVID-19 en España (excepto La Rioja) e Italia, por CCAA y regiones, hasta el 5-abr. Elaboración propia con datos de INE, Datadista y Dipartimento della Protezione Civile

Una gráfica como esa hace pensar también que no es descabellado comparar datos entre regiones de ambos países: la similitud de los valores hace pensar que están midiendo cosas parecidas, y por tanto comparables, aunque obviamente, con un cierto grado de incertidumbre, de forma que lo importante no es tanto centrarse en las pequeñas diferencias, sino en las más grandes.

Es decir: serán siempre provisionales, siempre revisables, hay que ir con pies de plormo... pero los datos que tenemos sí nos sirven para comprender mejor la realidad.

20 comentarios:

  1. Este comentario ha sido eliminado por el autor.

    ResponderEliminar
    Respuestas
    1. No, no necesitamos esperar a eso para saber que no estamos ante un espectáculo mediático.
      Hay docenas o centenares de testimonios de personal sanitario que lo desmienten.

      Eliminar
    2. Este comentario ha sido eliminado por el autor.

      Eliminar
    3. Este comentario ha sido eliminado por el autor.

      Eliminar
    4. Cualquier médico con el que hables te contarán que no han visto nada igual en décadas. Por lo tanto, estamos, sin duda, ante un fenómeno que no es un espectáculo mediático.

      Y tenemos muchísimos datos para saberlo. En ningún momento digo que "no hace falta esperar a los datos".

      Digo, precisamente, que no tiene sentido creer que porque no tenemos todos los datos, homogéneos y uniformes, "no sabemos nada".

      Eliminar
    5. Este comentario ha sido eliminado por el autor.

      Eliminar
    6. Dices: "que no parezca que me lo invento yo. Basta con leer a un estadístico experto en mortalidad para poner todo esto en perspectiva, en lugar de los grititos de los medios, de los que se hace eco Malaprensa."

      Argumento de autoridad mal utilizado. Porque ese artículo sí dice que "de manera agregada, la cifra final de defunciones en términos anuales, cuando todo esto pase, quizás resulte menos impactante." Pero claro, lo está comparando con la situación de días pasados en marzo, en los que ha habido un aumento de la mortalidad del 75%, respecto a otros años. Eso serían unos 300.000 muertos extra, sobre los 400.000 de un año normal.

      Y el artículo, que pretendes usar para defender lo de "espectáculo mediático" y "grititos de los medios" termina así: "En primer lugar, poner en valor una vez más el personal del sector sanitario en España, que son realmente el pilar que está sosteniendo el Sistema de Salud que, como hemos querido dejar patente, se está viendo gravemente amenazado estos días. En segundo lugar, aunque estos días de confinamiento puedan llevarnos al desánimo, permanecer en casa es nuestra pequeña contribución a que la epidemia no se extienda y así el sistema sanitario no presente más grietas. No podemos dejar al personal del sector sanitario solo en esta lucha. Seamos responsables y no dejemos pasar la oportunidad de contribuir con nuestro comportamiento individual a la lucha contra la epidemia."



      Eliminar
    7. Este comentario ha sido eliminado por el autor.

      Eliminar
    8. Ya, ya claro, lo que dice la autoridad que coincide con tus ideas es lo que piensa de verdad. Lo demás lo dice solo porque tiene que pasar por el aro político-mediático, pero no hay que tomarlo en serio.
      Y los que no decimos las cosas que a ti te gustan es porque también pasamos por el aro y nos unimos a no sé qué causa.

      Eliminar
    9. Este comentario ha sido eliminado por el autor.

      Eliminar
  2. Está claro que las personas fallecidas por coronavirus ya no van a morir de otra cosa. Pero de ahí a decir que es un espectáculo mediático...

    Parece seguro decir que han muerto más de 10000 personas (en España). Si eso no tiene importancia, supongo que un asesinato, o un accidente de avión, o un atentado multitudinario, tendrán menos importancia todavía. Comparándolo con las muertes de todo el año, no significan nada. Tampoco está claro por qué hay que compararlo con las muertes del año. Podemos compararlo con las muertes de la década, o del siglo. Y entonces ya seguro que ni se nota.

    Vaya espectáculo mediático que fue el tsunami de 2004, también. Si sólo murieron unos cientos de miles. Comparado con los 50 o 60 millones que mueren cada año en el mundo, nada. Además, muchos ya se habrían muerto a estas alturas. Y venga a sacarlo en la tele. ¡Qué pesados!

    De todas las estupideces que he oído estos días, ésta es la más grande con diferencia. Y encima citando un artículo que ni siquiera dice eso.

    ResponderEliminar
    Respuestas
    1. Este comentario ha sido eliminado por el autor.

      Eliminar
    2. Este comentario ha sido eliminado por el autor.

      Eliminar
  3. Comprenderás que es lo mismo (aunque igual no). Comparar la suma de los muertos "normales" de este año más los muertos por coronavirus (es decir, el total) con los normales de otros años, es lo mismo que comparar los de coronavirus con el total de este año. Una cosa es significativa si la otra lo es.

    Te lo vuelvo a preguntar. ¿Por qué un año y no una década o un siglo? Y sobre todo, ¿por qué no un mes?

    Por cierto, yo no te he puesto a parir. No he dicho que seas estúpido (aunque tampoco he dicho que no). Sólo he dicho que has dicho una estupidez. Veo que los matices cuesta entenderlos. Un beso.

    ResponderEliminar
  4. Este comentario ha sido eliminado por el autor.

    ResponderEliminar
  5. Este comentario ha sido eliminado por el autor.

    ResponderEliminar
  6. Leí tu artículo justo después de esta entrevista a un epidemiólogo italiano que llega a esta conclusión que pego pe final, la entrevista aquí: https://www.elconfidencial.com/mundo/europa/2020-04-07/coronavirus-oms-italia-veneto-romagnani_2537147/

    Llegamos a la conclusión de que la circulación del virus alrededor de una misma persona, aunque ya esté infectada, agrava su patología.

    ResponderEliminar
  7. Menos mal que no es un espectáculo mediático. https://twitter.com/javierpadillab/status/1248365735002415104

    ResponderEliminar
  8. Este comentario ha sido eliminado por un administrador del blog.

    ResponderEliminar
  9. Para más inri sobre la fiabilidad de los datos que manejan nuestras instituciones: hoy 17 de Abril han "resucitado" 103 personas en Cataluña.
    Más allá de la anécdota numerística, parece una total falta de respeto y consideración hacia las personas fallecidas el tener esos vaivenes en las cifras y esa falta de criterio al contabilizarlas.

    Saludos y mis mejores deseos, Josu.
    Esperando que sigas siendo adalid del rigor en estos tiempos.

    ResponderEliminar

Si quieres que otros lectores puedan debatir contigo, por favor, no firmes como "Anónimo" a secas. Usa la opción "Nombre/URL" e invéntate un nombre, aunque sea "Anónimo33", "ABC" o "123", para que podamos dirigirnos a ti. Gracias.