27 de octubre de 2017

Vuelan las inversiones de Cataluña a Zaragoza... o más bien (algunas) volaron

Me alerta un lector del blog de esta noticia publicada ayer en la sección Crónica Global de El Español:

Corporación Guissona lleva a Zaragoza una inversión de 400 millones

El primer párrafo deja muy clara la causalidad en esa salida de inversión catalana hacia Aragón:
Primero fue la estampida de las sedes sociales de las mayores corporaciones catalanas, proceso que estos días continúa a todo trapo. Ahora empieza la fuga de las inversiones. En este caso, vuelan de Cataluña nada menos que 400 millones de euros.
Se trata de una inversión importantísima, que podría crear más de 4.000 empleos en Aragón (y que se explica en el resto de la noticia sin más referencia a la situación política catalana).

El problema es que este es un mal ejemplo para ilustrar la idea de que "ahora empieza la fuga de inversiones", ya que la decisión estaba tomada hace tiempo. Tanto que ya en febrero informaba de la misma inversión y en muy similares términos El Periódico de Cataluña:

El grup Guissona invertirà 400 milions en un centre a Aragó

Desconozco completamente las razones del grupo Guissona para invertir en Aragón, y no en Cataluña. Bien podría ser que entre sus consideraciones estuviera ya la incertidumbre política derivada del procés. En todo caso, lo que no puede ser es que las decisiones anunciadas en febrero fueran consecuencia de los eventos de septiembre y octubre. A pesar del lío en el que estamos metidos, todavía se mantienen algunas verdades básicas, como que las causas son anteriores a los efectos. La noticia de El Español se podría haber ahorrado el primer párrafo y hubiera sido perfectamente válida. Pero alguien no se pudo resistir a meter una morcilla irrelevante y falsa.

3 de octubre de 2017

No, los votos "contados" por la Generalitat no suman el 100,88%

Llego un poco tarde a la discusión, que es evidentemente menor, comparada con todo lo que está en juego estos días. Pero es una muestra más del descuido con que trabajan al parecer (algunos de) nuestros medios  (gracias a Ibon por llamarme la atención sobre ello).

Ayer muchos de ellos usaron como argumento para poner en duda los resultados ofrecidos por la Generalitat, que sumando los porcentajes de votos afirmativos, negativos, en blanco y nulos, sumaban más del 100, concretamente el 100,88%.

Lo pueden leer así en Abc, El Mundo, La Razón, Antena 3, Levante, La Opinión, HuffPost, RTVE (en el texto, no en el titular). Y seguro que habrá salido en otros medios, y habrá sido objeto de comentario en tertulias.

En realidad, obviamente, los "resultados" de la Generalitat son un truño, pero por otros motivos, porque el referéndum no se celebró con garantías, ni hubo verdadero control ni del proceso de votación, en el que cualquier persona podía votar una o más veces, incluso sin estar censado en Cataluña, ni de que el recuento se hiciera limpiamente. Simplemente, los resultados no valen para nada ni se pueden tomar en serio.

Ahora bien, dejado eso claro, el supuesto error encontrado por los medios no es tal, porque están sumando porcentajes que no tienen la misma base. Desde siempre, en España, los votos se cuentan así:


Suman 100%Suman 100%Suman 100%
Censo
% participación% válidos% blancos
% sí
% no
% nulos
% abstención

Es decir, los porcentajes de participación y abstención se calculan sobre el censo, y suman 100. Los de válidos y nulos se calculan sobre los participantes, y suman también 100. Y los porcentajes de votos en blanco, y de síes y noes (si fueran elecciones, cambien el % de síes y noes por los porcentajes de los partidos), se calculan sobre el total de votos válidos, es decir, de un total que excluye a los nulos y también suman 100.

Y así sucede exactamente con los resultados publicados ayer: 

Emitidos2.262.425 Válidos2.242.296
Censo
2.262.424 contados
Blancos45.586
Válidos(2.242.296)*2.020.144
No176.566
Nulos20.129
% abstención

Las cuatro categorías cuyos datos se han dado en valores absolutos (el total de válidos lo he calculado yo) suman el total de votos que se dijo que se habían contabilizado (en realidad "sobra" un voto). Y si lo convertimos en porcentajes sale esto:

100,00%100,00%
Censo
2.264.424 contados
Válidos
(99,11%)*
Blancos2,03%
90,09%
No7,87%
Nulos0,89%
% abstención

Que son exactamente los porcentajes facilitados por la Generalitat (de nuevo, con el añadido del porcentaje de válidos sobre emitidos). 

Simplemente, el porcentaje de votos nulos no se puede sumar a los porcentajes de válidos, síes y noes, porque son porcentajes de cantidades diferentes. Y por eso precisamente lo que les "sobra" a todos esos medios en sus cuentas coincide, centésima arriba o abajo, con el porcentaje del voto nulo, que han sumado, mal, a los otros porcentajes.

Como digo, esto es así "desde siempre" en las elecciones y referéndums en España. Si se suma el porcentaje del voto nulo a los porcentajes de votos blancos y de síes y noes (o de votos a partidos), saldrá siempre más de 100, porque están sumando porcentajes que están calculados sobre diferentes bases.

Como muestra, aquí están los resultados del referéndum de la Constitución Europea, publicados por El Mundo, en febrero de 2005:

save image

Los porcentajes de síes, noes y blancos suman justamente el 100%. ¡¡Si se suman los nulos saldría un 100,86%!! Casi exactamente como ayer.

En 2005 ni El Mundo ni nadie vio nada raro, porque no hay nada raro. El porcentaje de voto nulo se calculó sobre el voto total emitido. Los porcentajes de voto válido, síes y noes se calculan sobre el voto válido, que excluye precisamente el voto nulo. Todo cuadraba en 2005 y todo cuadraba ayer.

Las cuentas de ayer podrían ser perfectamente inventadas. No tenemos manera de saberlo. Y aunque fueran "buenas" se basan en urnas llenas de votos emitidos sin ninguna garantía. Por eso no valen para nada. Pero desde luego, si hay "trampas", estas no están en que los votos sumen 100,88%. 

22 de septiembre de 2017

¿Qué dice la ley canadiense de claridad sobre las zonas con mayoría "unionista"?

Hace unos meses el blog Hay Derecho publicó un artículo sobre la "Ley de Claridad" canadiense, que veo citado reiteradamente en Twitter con aprobación.

El artículo se titulaba "El derecho a decidir y las comarcas. O por qué en Quebec los independentistas no quieren un referéndum". En él se argumentaba, resumiendo mucho, que desde el lado secesionista, en Cataluña, se suele citar la Ley de Claridad canadiense como un modelo a imitar, en el que un Estado (Canadá), ha aceptado la idea de que una provincia se pueda separar, y ha regulado cómo se podría llevar a cabo ese proceso ordenadamente. Sin embargo,  esa ley contiene algunos elementos muy importantes que son deliberadamente olvidados por los secesionistas, porque  aplicados al caso catalán podrían llevar a que una hipotética Cataluña independiente tuviera que desprenderse, probablemente, de las partes más pobladas, incluyendo Barcelona y toda su área metropolitana.

Esto es así, porque según el artículo, la ley canadiense se basa en tres principios. Primero, que en caso de un referéndum con una pregunta clara y una mayoría también clara (cosas a decidir políticamente) a favor de la independencia en una provincia, el gobierno de Canadá estaría obligado a entrar en negociaciones sobre el tema. Segundo, que ese momento sería, en efecto, solo el comienzo de una negociación. ¿Y el tercer principio? Este, según el artículo:
-El tercero es que la cesión [sic] no ha de darse necesariamente sobre toda la provincia canadiense en la extensión territorial que hoy tiene. En este requisito quiero insistir hoy, pues en gran parte explica el citado y sorprendente giro de los secesionistas. 
Conforme a la citada Ley, y como parte de esa negociación, si existen en la provincia consultada ciudades y territorios en los que la proporción de unionistas sea sustancial y claramente mayoritaria, aquélla, para separarse, debe aceptar desprenderse de ellos para que puedan (por ejemplo, formando para ello una nueva provincia) seguir siendo parte de Canadá.
Esta le parece al autor de la entrada en el blog una idea muy sensata. Si la mayoría de votos puede separar Cataluña de España, entonces la mayoría de votos puede separar algunas partes de Cataluña de esta. Y de hecho, basándonos en encuestas y en resultados electorales habituales, podríamos especular que en un referéndum bien hecho, habría mayorías unionistas claras en Barcelona y su área metropolitana (que tienen casi la mitad de la población de Cataluña) y en muchas otras zonas. Siguiendo la Ley de Claridad de Canadá, en la hipotética negociación entre los gobiernos español y catalán sobre los términos de la independencia, el gobierno catalán estaría obligado a aceptar que todas esas zonas de mayoría unionista siguieran siendo parte de España.

Esta idea, no particularmente original, puede ser defendible... pero no está en la Ley de Claridad canadiense. En ninguna parte de su articulado se dice NADA sobre qué debería pasar si en algunas "ciudades y territorios" hay una clara mayoría unionista. Esto es una pura invención del articulista.

Y desde luego, que los límites de la provincia que se separa puedan ser revisados tampoco ese uno de los principios esenciales de la ley, como se argumenta en el artículo.

La ley es esta (curiosamente Hay Derecho no la enlaza), y si leen ustedes su preámbulo verán que sí se recoge, entre otros, los dos principios inicialmente mencionados (que una pregunta clara, y un resultado claro, obligaría a Canadá a entrar en negociaciones), pero no el tercero.

Si leen el articulado, tampoco encontrarán lo que dice Hay Derecho sobre la obligación de aceptar la secesión de la provincia de "ciudades y territorios" con mayoría unionista. Sólo encontrarán una referencia a las fronteras de la provincia que potencialmente se haría independiente, y es esta, en el último artículo de la ley:
Limitation
(2) No Minister of the Crown shall propose a constitutional amendment to effect the secession of a province from Canada unless the Government of Canada has addressed, in its negotiations, the terms of secession that are relevant in the circumstances, including the division of assets and liabilities, any changes to the borders of the province, the rights, interests and territorial claims of the Aboriginal peoples of Canada, and the protection of minority rights.
Es decir, que entre las cosas que el gobierno de Canadá tiene que negociar están,  "los [posibles] cambios en las fronteras de la provincia". "Any changes". Puede haber cambios, o no, y pueden deberse a diferentes razones. Si hubiera una zona con una clara mayoría unionista, es posible que el gobierno de Canadá argumentase que debería separarse de la provincia y el gobierno provincial podría aceptar ese argumento o no. Sería parte de la negociación.

Pero todo eso es solo una posibilidad, una especulación. Una hipótesis sobre en qué circunstancias una de las partes propondría cambios en las fronteras. En ningún caso es un principio esencial de la ley, ni hay mandato legal alguno de que "si existen en la provincia consultada ciudades y territorios en los que la proporción de unionistas sea sustancial y claramente mayoritaria, aquélla, para separarse, debe aceptar desprenderse de ellos".

Pura invención, impropia de un blog jurídico.

¿Pidiendo "Demokrazia" en Barcelona?

Soy un gran fan de The Economist. Pero, como dice una amiga mía, en la estela del famoso From Lost to the River, "Everywhere they boil beans". O sea, en todas partes cuecen habas.

Y así, esta semana, The Economist ilustra una crónica firmada en Barcelona, y que comienza hablando de las grandes manifestaciones anuales de la Diada, con esta foto:



Lo de "Demokrazia", claro, da una pista de que hay un error. Y en efecto, la foto (de Efe), corresponde a una manifestación el sábado pasado, día 16, en Bilbao, en apoyo al referéndum convocado en Cataluña. 

Muy probablemente quien ha escogido la foto no ha sido quien ha escrito la crónica desde Barcelona, sino alguien en Londres que ha tirado de base de datos para buscar una foto vistosa de una manifestación en favor de referéndum, y que no sabe que "Demokrazia" no es catalán, ni conoce la calle Autonomía de Bilbao, tan reconocible para muchos vascos.

Pero las bases de datos de las agencias suelen llevar muy clarita indicación sobre dónde se ha sacado la foto. O en la agencia Efe se han liado con la etiqueta geográfica, o el periodista de The Economist no la miró, o bien (glups) no sabe que Bilbao no está en Cataluña.

Al final, mal resultado, que por otra parte, me parece que hoy en día debería ser evitable. Porque hace años se entiende que el corresponsal en el extranjero no pudiera supervisar cosas como esta, pero hoy podría ser práctica estándar enviar la foto elegida al autor de la noticia para que diera su visto bueno y se evitaran errores como este.

5 de septiembre de 2017

Quien dice 42 dice 0,3 [corregido: Quien dice 42 dice 11]

[Atención: en mi texto original me he basado para calcular los días medios de baja al año en un gráfico de la misma noticia, que era también erróneo, como me ha advertido Juan Carlos López en su comentario. Corrijo el texto en consonancia. Y el titular de esta entrada ya no corresponde al texto.]

Me avisa por Twitter @juvenal_tw (gracias, Jesús), de esta página de ayer en La Razón, que parece que abría la sección de economía:


El titular es un disparate, claro. Primero está el problema de usar expresiones tipo "cada familia gasta X euros al año en electricidad", o, como aquí, "cada trabajador está 42 días de baja al año", cuando lo que se quiere decir es que "la familia media gasta X euros al año en electricidad" o que "el trabajador medio está 42 días de baja al año". Supongo que se usan por aquello de la brevedad, y es de esperar que la gente (la mayoría) los entienda bien, pero no me acaban de gustar.

Pero ese es el menor de los problemas. De hecho, el texto de la noticia elimina esa confusión, cuando dice:
La suma de todas ellas [las bajas laborales] pone de manifiesto que en España cada trabajador permanece de media 41,63 días fuera del ámbito laboral por causa de una enfermedad...
Pero ese texto, como el titular, mantiene el error ENORME que hace que sea todo un disparate. Esa media de 42 días (redondeando) no es por trabajador, ni siquiera por trabajador que se toma alguna baja alguna vez está de baja por enfermedad, sino que es la duración media de cada baja laboral. De hecho, dado que muchas enfermedades pueden llevar a varios periodos de baja, si se calculara la media de días de baja al año, solo entre los trabajadores que han tomado alguna baja estado alguna vez de baja, esta sería con seguridad mayor de 42 días.

Pero lo que dice la noticia es otra cosa: dice que "cada trabajador permanece de media" 41,63 días de baja al año. Y eso es falso completamente. Sólo sería cierto si, por una casualidad cósmica, el trabajador medio se tomase tuviera exactamente una baja al año, y por tanto, coincidiría la duración media de cada baja con la el número de días de baja tomados al año por el del trabajador medio.

[Los dos párrafos siguientes son erróneos. Véase la corrección más abajo]

Pero eso no solo no es así, sino que en un gráfico de la misma noticia podemos ver que está lejísimos de ser cierto: la media de días de baja tomados cada mes por cada 1.000 trabajadores es de 23,49 días. Multiplicado por 12 meses, nos darían 281,88 días de baja al año por cada 1.000 trabajadores. Es decir, que como media, cada año, el trabajador español está de baja 0,281 días, o redondeando 0,3 días.

Donde dice 42 (o 41,63) debería decir 0,3 (o 0,28). Han multiplicado el dato correcto (¿sin saberlo? ¿a sabiendas?) por 148. En la sección de Economía. En su primera página. En su noticia principal. Y no pasa nada.

Corrección: He cometido error de principiante al dar por bueno el gráfico de la propia noticia. Además, mi crap detector me ha fallado calamitosamente: menos de un día de baja al año de media es realmente demasiado poco. Y es que como advierte Juan Carlos López en su comentario, enlazando a la seguridad social, en realidad no hay 20 y tantos días de baja por 1.000 trabajadores y mes, sino 20 y tantas bajas (el número que aparece ahora en la web de la Seguridad Social llega hasta junio, y por eso no coincide con el de la noticia).

Rehago los cálculos con datos de la Seguridad Social, hasta junio. No encuentro los datos totales, solo los que excluyen a los autónomos, pero nos da una idea (se parece mucho al global): la duración media de los procesos había sido de 38,17 días, y la incidencia mensual por 1.000 trabajadores (número de bajas, no de días) 24,14. Proyectado a 12 meses, resultaría en 38,17*24,14*12= 11.057 días de baja por cada 1.000 trabajadores, o 11,1 días al año por cada trabajador (en 2016 fueron 9,9, según la misma cuenta).

El error es mucho menor del que yo había estimado inicialmente. El dato correcto es "sólo" una cuarta parte del dato publicado por La Razón. Sigue chocando que nadie de las varias personas que deberían supervisar un texto así en La Razón se diera cuenta, primero, de que su dato era exageradamente alto y segundo, de que era inconsistente con sus propios gráficos (que producirían el cálculo, también erróneo, que yo he dado esta mañana).

7 de julio de 2017

Usted escriba la noticia, y déjeme a mí el titular

Me escribió ayer por Twitter un lector, comentándome como dos medios habían contado la misma información, dando titulares prácticamente opuestos.

Lo curioso es que los textos de las noticias no eran tan diferentes.

Vean sus primeros párrafos:

Medio A
El presidente de la Cámara de Comercio de Estados Unidos en España, Jaime Malet, ha asegurado este miércoles "hay compañías que creen (en el proceso soberanista) y no invierten en Cataluña", aunque ha celebrado que sean mayoría las empresas norteamericanas que no confían en la independencia. [Negritas en el original]
Medio B
El procés soberanista que vive Catalunya no está afectando en general a las empresas extranjeras, en concreto a las norteamericanas, porque no se creen que acabe con la independencia, según ha manifestado al presidente de la Cámara de Comercio de los Estados Unidos en el Estado español, Jaime Malet, en un acto organizado con motivo de la celebración del 120º aniversario de la compañía Carburos Metálicos. 
Malet ha reconocido que a la mayoría de los inversores el procés no les ha influido en su decisión, pero sí que habido empresarios que han dejado de invertir no tanto por el procés como por el hecho de que esta política está dejando un país ''fracturado socialmente por la mitad entre los que están a favor de la independencia y los que no lo están''. [Negritas en el original]
Mensaje básico es el mismo: la mayoría de las empresas no se han visto afectadas, pero algunas sí.

Veamos ahora los titulares:

Medio A
La Cámara estadounidense advierte que las compañías no invierten en Cataluña por el proceso

Medio B
La Cámara de EE.UU. afirma que el 'procés' no ha afectado a las inversiones

Ninguno de los dos es fiel a la noticia. El medio A convierte la excepción en regla. El medio B convierte lo que sucede en la mayoría de los casos en lo que sucede en todos los casos.

Con muy poco esfuerzo, ambos titulares podrían haber reflejado mejor la idea de que hay una regla general, con excepciones. Por ejemplo:

Medio A
Original
La Cámara estadounidense advierte que las compañías no invierten en Cataluña por el proceso
Alternativa
La Cámara estadounidense advierte que algunas compañías no invierten en Cataluña por el proceso

Medio B
Original
La Cámara de EE.UU. afirma que el 'procés' no ha afectado a las inversiones
Alternativa
La Cámara de EE.UU. afirma que el 'procés' apenas ha afectado a las inversiones

En ambos casos, casualmente, basta añadir cuatro letras al titular, para cambiar, para mejor, su ajuste al contenido de la noticia.

Es extraño que ninguno de los dos medios haya sabido hacerlo bien. O tal vez, claro, es que no han querido, viendo cuáles son el Medio A y el Medio B.

30 de mayo de 2017

Las mujeres asesinadas ¿aumentan un 47% o disminuyen un 18%?

Me alerta por Twitter Antonio Pamos de este titular en El Mundo:

Aumentan un 47% las mujeres asesinadas. Subtítulo: Hasta mayo, son 28 las que han muerto a manos de sus parejas o exparejas, nueve más que en el mismo periodo del año pasado


La noticia tiene todos los elementos del anecdato: "en lo que va de año", número absoluto pequeño, y comparación sólo con el año anterior. O sea, un número cierto, pero nada informativo. De hecho, en los años pasados, a estas alturas del año (mayo, que aún no ha terminado, pero en el periódico no se pueden esperar a hacer balance) el titular equivalente habría sido este (fuente):


  • Aumentan un 36% las mujeres asesinadas (2016)
  • Disminuyen un 46% las mujeres asesinadas (2015)
  • Disminuyen un 7% las mujeres asesinadas (2014)
  • Aumentan un 47% las mujeres asesinadas (2013)
  • Disminuyen un 30% las mujeres asesinadas (2012)
  • Disminuyen un 4% las mujeres asesinadas (2011)
  • Aumentan un 33% las mujeres asesinadas (2010)
  • Disminuyen un 22% las mujeres asesinadas (2009)
  • Disminuyen un 7% las mujeres asesinadas (2008)
  • Disminuyen un 9% las mujeres asesinadas (2007)
  • Aumentan un 39% las mujeres asesinadas (2006)
  • Disminuyen un 15% las mujeres asesinadas (2005)
  • Disminuyen un 7% las mujeres asesinadas (2004)

Es decir, un año "vamos mejor" otro año "vamos peor". Unos años por mucho, otros por poco. ¿Valor informativo de las noticias con estos titulares? Ninguno.

Porque lo que hacen esas noticias es convertir en noticiosa la pura oscilación errática, los dientes de sierra de esta gráfica:



Sube-baja-sube-baja... y en el largo plazo más bien baja (un poco). Este año sube, después de un año de los menos malos. Y se pone al nivel similar a los de muchos otros años anteriores...

Todo ello para un periodo absurdo y arbitrario de análisis como es el de "en lo que va de año". Periodo que si sustituyéramos por "en los últimos doce meses" nos daría un resultado totalmente distinto, como se ve en este gráfico:



Resulta que si comparamos los últimos 12 meses con los 12 anteriores, las víctimas han descendido un 18%.

¿Tal vez El Mundo debería haber titulado "Disminuyen un 18% las mujeres asesinadas"? Tampoco necesariamente, porque la gráfica nos muestra que incluso un periodo de 12 meses no es lo suficientemente largo como para eliminar los dientes de sierra (aunque sí los suaviza).

Pero al menos se puede defender que, estemos en marzo, en julio, o en diciembre, comparar siempre los últimos 12 meses frente a los 12 anteriores mantiene cierta coherencia y continuidad en las comparaciones. Lo que es absurdo es comparar tres, siete o nueve meses con otros tres, siete o nueve, según la época del año en la que estemos.

Pero en fin, me temo que es una causa perdida. Muchos periodistas creen honestamente que su trabajo es contar el "aquí y ahora", aunque el "aquí y ahora" sea sube-baja-sube-baja. Pues que lo sea. El brilli-brilli del mini-dato instantáneo les deslumbra. Pero ese es el material de los periódicos. Las tendencias de fondo son para historiadores o sociólogos.

22 de marzo de 2017

Only one city in a Muslim majority country excluded from new electronic device ban in US bound flights

This post intends to call attention to a little fact that I have not seen mentioned anywhere else. The new electronic device ban for flights arriving to the United States covers all airports from muslim majority countries that have direct regular commercial service to the United States operated by national companies, bar just one.

The Bureau of Transport Statistics has a number of customizable datatables that you can download. I created one covering all commercial international flights departing or arriving to the United States in 2016 (it only covers the first nine months). Then I manually selected all flights arriving from muslim majority countries. This is what I got:

-->
CountryCityTotal flights to the US (Jan-Sep 2016)
AlgeriaAlgiers1
AzerbaijanBaku138
BahrainManama1
BangladeshDhaka1
EgyptCairo240
JordanAmman437
KazakhstanAlmaty1
KuwaitKuwait125
MalaysiaBayan Lepas1
MoroccoCasablanca299
Marrakech1
PakistanKarachi76
QatarDoha2903
Saudi ArabiaJeddah471
Riyadh272
SenegalDakar207
Sierra LeoneFreetown1
TurkeyAnkara1
Istanbul2984
United Arab EmiratesAbu Dhabi1773
Dubai4336
Total Muslim majority countries14269


There were flights from 21 cities in muslim majority countries, but eight of them had only one direct flight in the first nine months of 2016. That leaves only 13 cities with more than occasional flights to the USA. Ten of them are covered by the electronic device ban. 

The three not included are Dakar (Senegal), Karachi (Pakistan), and Baku (Azerbaijan).

However, all flights from Dakar were operated by Delta and South African Airlines, not by national companies. Flights from Karachi, all arriving at JFK, were operated by Pakistan International Airlines (PIA), but apparently PIA now only flies to JFK via Manchester.

That would mean that the electronic device ban in practice includes all direct regular flights to the United States from Muslim majority countries operated by companies from those countries, except in the single case of flights from Baku to New York, which are operated by Azerbaijan Airlines. And it certainly covers all flights from Muslim countries in the MENA (Middle East and North Africa) region.

Thus, what has been presented as a case-by-case decision looks much more like a blanket ban for companies from Muslim majority countries. This reinforces the doubts about whether this is a security decision or something else.

-->

22 de febrero de 2017

Los peligros de la moda

Cuando doy algún curso de estadística básica suelo incluir una sección explicando que para resumir una información numérica de una serie de casos hay otras herramientas distintas a la media, y que son a veces preferibles, pero no siempre.

Una de esas herramientas es la moda, que es simplemente el valor más común. Por ejemplo, en 2015 esta era la distribución de los hogares españoles por número de personas que vivían en ellos (Encuesta Continua de Hogares, INE):


Total% vertical
Total18.346,20100,00%
1 persona4.584,2024,99%
2 personas5.606,7030,56%
3 personas3.854,7021,01%
4 personas3.243,2017,68%
5 personas818,34,46%
6 personas177,40,97%
7 personas39,40,21%
8 personas o más22,10,12%


El tamaño medio era de 2,51 personas, pero la moda era 2, simplemente porque dos era el valor más frecuente: había más hogares con dos personas que hogares de cualquier otro tamaño.

Ahora bien, que la moda sea 2 no quiere decir que la mayoría de los hogares tengan dos residentes. Como se ve en la tabla los hogares con dos personas son solamente el 30,56% de los hogares. Algo menos de un tercio. Dos es el tamaño más frecuente, si se compara con cada uno de los otros tamaños posibles de hogar, uno a uno. Pero dos no es más frecuente que todos los demás tamaños de hogar juntos. 

Por definición, la moda es simplemente el valor más frecuente de todos los valores considerados, pero no tiene por qué ser el valor mayoritario, es decir el valor que tienen la mitad más uno más de la mitad de los casos considerados. De hecho, cuando el número de valores diferentes es muy grande, la moda puede que sea un valor que tenga solo un 10% o un 5% de los casos. Es "el más común" comparado con cada uno de los otros. Pero no debe confundirse  "el más común" con "el mayoritario".

Veamos lo que sucede, como ilustración, en esta tabla que representa la estructura de población por edades de una sección censal de la ciudad de Madrid, tomada de la última estimación del padrón:


EdadesPoblación% vertical
0-4423,90%
5-9363,40%
10-14333,10%
15-19242,20%
20-24373,50%
25-29686,30%
30-34948,80%
35-39868,00%
40-44676,30%
45-49837,70%
50-54716,60%
55-59928,60%
60-64787,30%
65-69484,50%
70-74403,70%
75-79464,30%
80-84484,50%
85-89494,60%
90-94222,10%
95-9960,60%
100 y más10,10%


La moda es la edad de 30 a 34 años (marcada en verde). Es el valor "más frecuente" ya que, individualmente considerado, ningún otro grupo de edad tiene más habitantes. Pero no es el valor "mayoritario", ni "el más común" en el sentido de que sea más frecuente que todos los demás juntos. Ni muchísimo menos: sólo el 8,8% de los habitantes de esa sección tienen esa edad.

[Actualización: como me han hecho ver en los comentarios, con el diccionario en la mano parece que soy yo el que está equivocado al identificar "mayoritario" con "mayor de la mitad". Es cierto. Aún así, creo que yo nunca escribiría que "la mayoría de los residentes en España tienen de 40 a 44 años". En todo caso, mi crítica principal al uso de la moda tiene que ver con los párrafos siguientes, que no se ven afectados por esta cuestión lingüística.]

La tabla ilustra otro asunto importante: aunque la moda es un concepto fácilmente comprensible (lo más frecuente) puede ser también, en ocasiones como esta, en la que hay muchos valores, con frecuencias similares, un poco errático. El segundo valor más frecuente es de la edad de 55 a 59 años (marcada en rosa). Y tiene solo dos personas menos que el valor modal. Es decir, que un mínimo cambio de tres personas más en un grupo o en otro nos llevaría a decir que la edad modal de esa manzana de casas es de 55 a 59 años. Una edad 25 años superior a la que obtenemos ahora, que nos daría una impresión subjetiva muy diferente, sin que la estructura de edad cambiase apenas nada. 

En todo caso, la cuestión clave aquí es que la moda es el valor más frecuente, pero no "el mayoritario". Cuando hay muchos valores distintos, como en este caso, casi seguro que no es mayoritario. Seguramente está muy lejos de serlo. Y es posible que además no sea particularmente "representativo" de la población de que se trate.

Todo esto se les ha escapado a los amigos de El Confidencial que han volcado en un mapa de España, a partir de la misma fuente de la que procede la tabla anterior, la edad modal de todas las secciones censales de España (gracias a Carlos García por la pista). La intención es estupenda, pero hay dos problemas importantes.

Primero, que el texto confunde continuamente la edad modal ("más común") con la edad "mayoritaria". Para empezar, en el propio mapa, la leyenda indica que cada color representa un "grupo de edad mayoritario" y la misma expresión aparece en el cuadro flotante con el nombre del municipio y el número de sección cuando pasamos el ratón por las diferentes partes del mapa. En una gráfica se representa también la distribución de las secciones según cual sea la edad "mayoritaria". Y en el texto se repite varias veces la idea de que lo representado en los diferentes lugares es el grupo "mayoritario".

Pero no, pese a lo que diga el mapa los menores de 5 años no son el grupo "mayoritario" en Navares de las Cuevas (Segovia), ni en ninguna otra parte (probablemente). Y en La Riba de Escalote (Soria), los 4 habitantes de 90 a 94 años que había el 1 de enero de 2016 no eran tampoco la "mayoría" de los 15 habitantes empadronados.

Segundo: como he señalado antes la moda puede ser un poco errática en su comportamiento. Diferencias muy pequeñas entre secciones censales similares pueden dar lugar a que la moda sea distinta en 20 o en 30 años. Un ejemplo entre cientos que podríamos encontrar: la sección censal de Madrid cuya tabla hemos visto antes con moda 30-34 años es vecina de otra con moda 55-59. Las dos aparecen, por tanto, en el mapa, con colores que las representan como muy diferentes respecto a la edad "mayoritaria". En el gráfico siguiente vemos la distribución de población en las dos:

Las distribuciones no son demasiado distintas, pero una tiene la moda 25 años por encima de la otra. Sin embargo, tiene más niños y menos viejos. De hecho, si calculamos la edad media (aproximada) encontramos que es más baja (45,2 años) en la sección que tiene la moda 55-59 que en la sección que tiene la moda 30-34 (47,6 años). Y la mediana (la edad que tiene por debajo y por encima a la mitad de la población) es la misma en los dos casos: el tramo 45-49 años.

Cosas parecidas pueden pasar en muchos otros lugares: secciones vecinas que parecen muy distintas, y en lugar no lo son tanto.

En definitiva, a pesar del trabajazo que han hecho en El Confidencial, el mapa (y el artículo) no resulta demasiado informativo. La moda da saltos entre lugares cercanos y similares, sin significar mucho en realidad. En algunos lugares la moda es muy alta o muy baja, lo que da pistas de población joven o envejecida, pero seguramente exagerando las diferencias.

Con un pequeño trabajo adicional, sustituyendo la moda por la mediana o por la media (que se puede calcular aproximadamente, sustituyendo cada tramo de edad por su punto central), habrían producido un mapa más realista y más informativo. Lástima.