22 de febrero de 2017

Los peligros de la moda

Cuando doy algún curso de estadística básica suelo incluir una sección explicando que para resumir una información numérica de una serie de casos hay otras herramientas distintas a la media, y que son a veces preferibles, pero no siempre.

Una de esas herramientas es la moda, que es simplemente el valor más común. Por ejemplo, en 2015 esta era la distribución de los hogares españoles por número de personas que vivían en ellos (Encuesta Continua de Hogares, INE):


Total% vertical
Total18.346,20100,00%
1 persona4.584,2024,99%
2 personas5.606,7030,56%
3 personas3.854,7021,01%
4 personas3.243,2017,68%
5 personas818,34,46%
6 personas177,40,97%
7 personas39,40,21%
8 personas o más22,10,12%


El tamaño medio era de 2,51 personas, pero la moda era 2, simplemente porque dos era el valor más frecuente: había más hogares con dos personas que hogares de cualquier otro tamaño.

Ahora bien, que la moda sea 2 no quiere decir que la mayoría de los hogares tengan dos residentes. Como se ve en la tabla los hogares con dos personas son solamente el 30,56% de los hogares. Algo menos de un tercio. Dos es el tamaño más frecuente, si se compara con cada uno de los otros tamaños posibles de hogar, uno a uno. Pero dos no es más frecuente que todos los demás tamaños de hogar juntos. 

Por definición, la moda es simplemente el valor más frecuente de todos los valores considerados, pero no tiene por qué ser el valor mayoritario, es decir el valor que tienen la mitad más uno más de la mitad de los casos considerados. De hecho, cuando el número de valores diferentes es muy grande, la moda puede que sea un valor que tenga solo un 10% o un 5% de los casos. Es "el más común" comparado con cada uno de los otros. Pero no debe confundirse  "el más común" con "el mayoritario".

Veamos lo que sucede, como ilustración, en esta tabla que representa la estructura de población por edades de una sección censal de la ciudad de Madrid, tomada de la última estimación del padrón:


EdadesPoblación% vertical
0-4423,90%
5-9363,40%
10-14333,10%
15-19242,20%
20-24373,50%
25-29686,30%
30-34948,80%
35-39868,00%
40-44676,30%
45-49837,70%
50-54716,60%
55-59928,60%
60-64787,30%
65-69484,50%
70-74403,70%
75-79464,30%
80-84484,50%
85-89494,60%
90-94222,10%
95-9960,60%
100 y más10,10%


La moda es la edad de 30 a 34 años (marcada en verde). Es el valor "más frecuente" ya que, individualmente considerado, ningún otro grupo de edad tiene más habitantes. Pero no es el valor "mayoritario", ni "el más común" en el sentido de que sea más frecuente que todos los demás juntos. Ni muchísimo menos: sólo el 8,8% de los habitantes de esa sección tienen esa edad.

[Actualización: como me han hecho ver en los comentarios, con el diccionario en la mano parece que soy yo el que está equivocado al identificar "mayoritario" con "mayor de la mitad". Es cierto. Aún así, creo que yo nunca escribiría que "la mayoría de los residentes en España tienen de 40 a 44 años". En todo caso, mi crítica principal al uso de la moda tiene que ver con los párrafos siguientes, que no se ven afectados por esta cuestión lingüística.]

La tabla ilustra otro asunto importante: aunque la moda es un concepto fácilmente comprensible (lo más frecuente) puede ser también, en ocasiones como esta, en la que hay muchos valores, con frecuencias similares, un poco errático. El segundo valor más frecuente es de la edad de 55 a 59 años (marcada en rosa). Y tiene solo dos personas menos que el valor modal. Es decir, que un mínimo cambio de tres personas más en un grupo o en otro nos llevaría a decir que la edad modal de esa manzana de casas es de 55 a 59 años. Una edad 25 años superior a la que obtenemos ahora, que nos daría una impresión subjetiva muy diferente, sin que la estructura de edad cambiase apenas nada. 

En todo caso, la cuestión clave aquí es que la moda es el valor más frecuente, pero no "el mayoritario". Cuando hay muchos valores distintos, como en este caso, casi seguro que no es mayoritario. Seguramente está muy lejos de serlo. Y es posible que además no sea particularmente "representativo" de la población de que se trate.

Todo esto se les ha escapado a los amigos de El Confidencial que han volcado en un mapa de España, a partir de la misma fuente de la que procede la tabla anterior, la edad modal de todas las secciones censales de España (gracias a Carlos García por la pista). La intención es estupenda, pero hay dos problemas importantes.

Primero, que el texto confunde continuamente la edad modal ("más común") con la edad "mayoritaria". Para empezar, en el propio mapa, la leyenda indica que cada color representa un "grupo de edad mayoritario" y la misma expresión aparece en el cuadro flotante con el nombre del municipio y el número de sección cuando pasamos el ratón por las diferentes partes del mapa. En una gráfica se representa también la distribución de las secciones según cual sea la edad "mayoritaria". Y en el texto se repite varias veces la idea de que lo representado en los diferentes lugares es el grupo "mayoritario".

Pero no, pese a lo que diga el mapa los menores de 5 años no son el grupo "mayoritario" en Navares de las Cuevas (Segovia), ni en ninguna otra parte (probablemente). Y en La Riba de Escalote (Soria), los 4 habitantes de 90 a 94 años que había el 1 de enero de 2016 no eran tampoco la "mayoría" de los 15 habitantes empadronados.

Segundo: como he señalado antes la moda puede ser un poco errática en su comportamiento. Diferencias muy pequeñas entre secciones censales similares pueden dar lugar a que la moda sea distinta en 20 o en 30 años. Un ejemplo entre cientos que podríamos encontrar: la sección censal de Madrid cuya tabla hemos visto antes con moda 30-34 años es vecina de otra con moda 55-59. Las dos aparecen, por tanto, en el mapa, con colores que las representan como muy diferentes respecto a la edad "mayoritaria". En el gráfico siguiente vemos la distribución de población en las dos:

Las distribuciones no son demasiado distintas, pero una tiene la moda 25 años por encima de la otra. Sin embargo, tiene más niños y menos viejos. De hecho, si calculamos la edad media (aproximada) encontramos que es más baja (45,2 años) en la sección que tiene la moda 55-59 que en la sección que tiene la moda 30-34 (47,6 años). Y la mediana (la edad que tiene por debajo y por encima a la mitad de la población) es la misma en los dos casos: el tramo 45-49 años.

Cosas parecidas pueden pasar en muchos otros lugares: secciones vecinas que parecen muy distintas, y en lugar no lo son tanto.

En definitiva, a pesar del trabajazo que han hecho en El Confidencial, el mapa (y el artículo) no resulta demasiado informativo. La moda da saltos entre lugares cercanos y similares, sin significar mucho en realidad. En algunos lugares la moda es muy alta o muy baja, lo que da pistas de población joven o envejecida, pero seguramente exagerando las diferencias.

Con un pequeño trabajo adicional, sustituyendo la moda por la mediana o por la media (que se puede calcular aproximadamente, sustituyendo cada tramo de edad por su punto central), habrían producido un mapa más realista y más informativo. Lástima.

22 comentarios:

  1. En cuanto al ejemplo que has puesto (la estimación de padrón), creo que se mezcla con otra cuestión que parece contraintuitiva y es poco conocida: cuanto menor es la muestra, mayor desviación en los resultados. El famoso ejemplo del hospital: http://naukas.com/2014/09/16/un-acertijo-bebes-y-probabilidad/

    ResponderEliminar
  2. El que se ha hecho un lio es usted: confunde mayoría con mayoría absoluta. Vamos a ver. Hay dos tipos de mayorias: mayoría simple (o relativa) y mayoría absoluta. La mayoría simple o relativa (o mayoria a secas si se entiende por el contexto) es el valor más frecuente si este no llega a ser más de la mitad. La mayoría absoluta es el valor más frecuente si este es más de la mitad. Y aquí comete usted otro error muy común: el de definir mayoría absoluta (mayoria a secas le llama usted) como la mitad más uno, cuando una mayoría absoluta puede ser un poquito menos (la mitad más medio si la muestra es impar) o mucho más (la mitad más (N/2)-1 por ejemplo).

    ResponderEliminar
  3. Silvia,
    Es cierto que mayoría, a secas, sin adjetivos, puede tener un significado ambiguo. En un parlamento hablamos de mayoría simple cuando un candidato o una ley obtiene más síes que noes, aunque esos síes sean menos de la mitad de los miembros del parlamento (porque hay otros miembros que se abstienen). En ese caso sí solemos decir que esa ley tiene un apoyo mayoritario.

    Pero ojo: lo hacemos cuando el resultado es, pongamos (sobre 100), 40 a favor, 35 en contra, y 25 abstenciones. Pero si hubiera 10 votos a favor, 8 en contra, y 82 abstenciones, costaría mucho decir que la ley tiene un apoyo "mayoritario". Por el mismo motivo, si la división no es en dos o tres grupos (sí, no, abstención) sino en 10 o 15, o 30, como si estuviéramos votando la canción que más nos gusta en Eurovisión, decir que la canción con más votos, con el 4,8% de los votos, ha tenido un apoyo "mayoritario" es estirar mucho el concepto. ¿Ha ganado? Sí. ¿Es la minoría mayor? Sí ¿Tiene el apoyo de "la mayoría de la gente"? Para mí, no.

    Por el mismo motivo, cuando en un caso como este tenemos 21 grupos de edad, y menos del 10% de la población pertenece al más frecuente de ellos, decir que ese grupo de edad es "mayoritario" me parece que es inadecuado.

    ResponderEliminar
  4. Si en una votación la canción con más votos ha obtenido el 4,8%, no veo que decir que ha tenido un apoyo mayoritario sea estirar mucho el concepto. Basta tener claro cuál es el concepto que se utiliza. Buscando rápido los dos primeros que he encontrado para "mayoría" son:
    1. Parte de un conjunto o grupo que representa el porcentaje mayor o más grande de todo el conjunto o grupo.
    2. Grupo de votos del mismo signo que constituye el porcentaje mayor de los emitidos en una votación.
    Con estas definiciones en la mano, decir que tiene el apoyo de "la mayoría de la gente" es correcto.
    En todo caso, aquí el problema no es solo que con tres personas más en el grupo "55-59 años" cambia la moda, sino que incluso CON LOS MISMOS DATOS, un cambio en la agrupación por intervalos puede cambiar la moda también.
    Por cierto, existen fórmulas más precisas para estimar la mediana que utilizar el punto medio del intervalo, pero bueno, incluso así sería mejor opción que estar a vueltas con la moda.

    ResponderEliminar
    Respuestas
    1. Pero entonces ya se vuelve un problema de semántica. ¿Es cierto lo que dices? Sí, totalmente, pero algunos como Josu (y yo) tenemos otra idea de mayoría, que realmente es más representativa de la realidad.

      Lo de verdades, mentiras y estadísticas viene porque diciendo verdades como puños se puede dar una visión totalmente equivocada de la realidad, y de eso va este blog.

      Un ejemplo sería la diferencia entre el sistema D'Hont utilizado en el congreso y el de una persona, un voto (o hasta tres votos) del parlamento. Ambos son formas de voto distintas, pero una obviamente se acerca mucho más a la realidad que la otra. El 75% de la gente no ha votado al PP, sin embargo tiene el 75% de los escaños en el parlamento. Ambas son democracia, ambas expresan la voluntad del pueblo, pero una más que otra.

      Yo creo que si nos encontramos dos términos académicamente correctos, habrá que elegir el que mejor represente a la realidad.


      Un saludo

      Eliminar
    2. Yeil,
      Coincido con tu primera parte. Puede acabar siendo un problema de semántica. Y puede que la definición de diccionario que dice Juan Vidal incluya una "mayor minoría" de sólo el 4,8%... Pero no creo que sea el uso común. De hecho, las dos acepciones que él cita de mayoría, que son las que da directamente Google cuando buscas la palabra (pero no sé exactamente cuál es su fuente), van acompañadas por los siguientes ejemplos:

      mayoría
      nombre femenino
      1.
      Parte de un conjunto o grupo que representa el porcentaje mayor o más grande de todo el conjunto o grupo.
      "la mayoría (67 %) de los clientes de los bancos o cajas de ahorros se mantiene fiel a la entidad con la que habitualmente opera; en las selvas impenetrables se refugian la mayoría de las especies amenazadas por los depredadores"

      2.
      Grupo de votos del mismo signo que constituye el porcentaje mayor de los emitidos en una votación.
      "el partido ganó las elecciones por mayoría; nosotros no cuestionamos la mayoría que obtuvo, sino el uso que hace de la mayoría"

      Claramente, quien buscó ejemplos para mayoría no pensaba en "mayorías" del 4,8%.

      Por otra parte, no entiendo muy bien tu analogía con el sistema electoral, pero en todo caso, en ella dices varias cosas erróneas. Presentar "El sistema D'Hondt utilizado en el Congreso" como opuesto al sistema de "una persona, un voto" muestra una confusión importante sobre lo que es el sistema electoral y sobre los mecanismos a través de los cuales nuestro sistema "premia" o "castiga" a algunos partidos, lo que tiene que ver algo con D'Hondt y mucho más con otras cosas (el número de distritos y el pequeño tamaño medio de los mismos). Las elecciones europeas, o las municipales, son también con sistema D'Hondt y son mucho más proporcionales que las elecciones al Congreso, por ejemplo.

      Por supuesto, el PP no tiene el 75% de los escaños, no sé de dónde has sacado ese número.

      Eliminar
    3. Las acepciones de "mayoría" son las que da el diccionario de Oxford de español: https://es.oxforddictionaries.com/definicion/mayoria. Las que da la RAE (http://dle.rae.es/?id=OgHvXOA) son algo más genéricas y tampoco mencionan que haya que superar la mitad de votos.
      Si nos encontramos dos términos académicamente correctos, es de esperar que ambos representen correctamente la realidad. Tendremos entonces que estudiar en qué contexto están definidos, porque elegir "el que mejor represente a la realidad" es muy subjetivo. Si ya sabemos lo que "mejor representa la realidad", no hace falta recurrir a los diccionarios.

      Eliminar
    4. Es un caso claro de malamalaprensa. Todo se basa en una definición errónea de la palabra mayoría. En un sitio como éste, uno esperaría un poco más de deportividad para reconocer los errores, en lugar de aferrarse patéticamente a los ejemplos, que tampoco dicen nada a su favor, realmente.

      Eliminar
    5. Gracias a Juan por la aclaración sobre la fuente de las definiciones que da Google. No sabía que era el diccionario Oxford de español. Es una elección curiosa.

      Y en efecto, ni las definiciones de Oxford ni la de la RAE implican que la mayoría sea más de la mitad (eso sería, según la RAE, la mayoría absoluta).

      A mí me sigue pareciendo confuso, y nunca usaría la palabra mayoría para referirme a la minoría mayor, cuando esta es tan pequeña como un 8% o un 10%.

      Y creo que "la mayoría" de los hablantes de español también se sentiría incómodo con frases basadas en ese uso. Por ejemplo: la mayoría de los españoles vive en Andalucía, o la mayoría de los españoles viven en la provincia de Madrid (ambas correctas, según el diccionario); la mayoría de los españoles vive en municipios de 100.000 a 500.000 habitantes; la mayoría de los extranjeros que viven en España son marroquíes; la mayoría de los ocupados en España trabaja en la rama del comercio al por menor.

      De todas formas, y respondiendo también a ERG, mi crítica al artículo no se limitaba al uso de la expresión "mayoritario" para referirse a la moda, sino también a que la moda, cuando hay muchas categorías, puede tener un comportamiento errático, y cambiar mucho de valor con muy pequeñas diferencias en la distribución. Eso da lugar a que en el mapa aparezcan representados grandes saltos de valor entre secciones contiguas que no responden a diferencias profundas, como ilustraban con el ejemplo de dos secciones contiguas en Madrid. Creo que esa crítica, que es realmente la fundamental sobre la mala decisión de usar la moda, sigue siendo poco discutible.

      Eliminar
    6. Siguiendo esta discusión, he actualizado el texto de la entrada en el blog.

      Eliminar
    7. Sí, sí. Mi comentario se refería sólo a esa parte. El resto sigue siendo válido y es una crítica muy acertada. Me parece también muy interesante el apunte de Juan Vidal de que incluso con los mismos datos, cambiando los intervalos, se pueden obtener resultados muy diferentes.

      Eliminar
    8. Sigue definiendo mayoría como la mitad más uno. 6/11 es mayoría absoluta y no llega a la mitad más uno: es la mitad más medio. Ya que actualiza el texto actualizelo bien. La definición correcta de mayoría absoluta es más de la mitad de los votos.

      Eliminar
  5. Ante la ambigüedad del término "mayoría" urge recuperar el concepto de "pluralidad de votos".

    ResponderEliminar
  6. Sí, tienes razón, no venía muy a cuento, creo que lo introduje por un debate que estaba teniendo sobre el tema en otro sitio. Los números efectivamente no eran del 75%, no se si porque recordaba datos antiguos o porque mi memoria me la jugó. El caso es que es el 60 y algo por ciento, lo cual tampoco cambia mucho las cosas, pues realmente apenas poco más del 30% les votó. Que conste que no he dicho que el congreso sea proporcional si se compara con otros sistemas todavía más proporcionales. Decía que el sistema del congreso es mucho más proporcional que el del senado, donde el elegido es aquel que saca más votos. Si tomamos el hecho (irreal) de que todo el mundo de sus 3 votos a su partido, resulta que el partido que tenga un 21% de los votos se lleva tres de los cuatro diputados si el resto de partidos no llega al 21%, incluso aunque se de el ejemplo de 21-20-20-20-20.

    Por eso lo puse como ejemplo de que incluso siendo todo correcto, se puede dar una visión errónea de la realidad. Pues democracia es y hay que aceptarlo nos guste o no, pero obviamente el congreso es mucho más representativo que el senado, de la misma manera que utilizar la palabra mayoría para algo que supone un 10% es poco representativo de la realidad.

    Un saludo

    ResponderEliminar
    Respuestas
    1. Yeil,
      El PP en 2016 tuvo el 33,01% del voto y 137 diputados, que son (137/350*100) el 39,14% de los diputados. En tu primera intervención no mencionabas el Senado. Creo que tuviste un lapsus. Ahora entiendo algo mejor lo que querías decir. Por supuesto, el sistema del Congreso es mucho más proporcional que el del Senado, donde el PP, con un voto similar (aunque es más difícil calcularlo, al votarse individualmente a los candidatos) consiguió una clara mayoría absoluta.

      Eliminar
  7. Me parece que toda la discusión sobre lo que es o no es "mayoria" es la variante semántica del célebre adagio "los datos confesaran cualquier cosa con la tortura adecuada".

    Si nos refugiamos en lo que dice el DRAE vamos listos. El DRAE no son las tablas de la Ley y muchas veces (no por su culpa sino por el uso de la gente) parece más bien un menú a la carta que más que aclarar genera confusiones. Ver por ejemplo enervar.

    Creo que cuando se utiliza el término mayoria se tiene que referir a un valor próximo a la mayoria absoluta o que marque diferencias con el resto. Esta diferencia está condicionada por el contexto y la forma de presentar los datos.

    Por ejemplo. Estamos a dia 10 y quiero comprar yogures. El tendero tiene 8 yogures de los cuales 1 que caduca el 11, 1 el 12, 1 el 13, 1 el 14, 1 el 15, 1 el 16 y 2 el 20. Y va y nos dice: ¡¡llevese estos yogures que la mayoria caducan dentro de 10 dias!!. ¿Como que la mayoria?. Si, según el DRAE Mayoria "La mayor parte de un número o de una serie de cosas que se expresa." y por fecha de caducidad la mayor parte es la del dia 20.
    Ahora imaginemos que en vez de unidades son miles y el receptor el jefe de un supermercado. ¡¡Menudas risas que se iba a echar a costa de la "Mayoria"!!

    Como dijo Sherlock Holmes (y si no lo hizo le pensaba muy a menudo) ¡¡Dame los datos que los calificativos ya los pongo yo!!

    ResponderEliminar
    Respuestas
    1. Obviamente, la única forma de resolver una discusión sobre el significado de una palabra es acudir a los diccionarios. Más allá de eso, lo único que queda es lo que a cada uno le dé la gana entender, pero así nunca se va a llegar a un acuerdo.

      El ejemplo no hay por donde cogerlo. En primer lugar, nadie compraría unos yogures en esas circunstancias, independientemente del significado de la palabra mayoría que uses.

      Aparte de eso, vamos a analizar el procedimiento. Tenemos una discusión sobre el significado de una palabra. Unos dicen que significa A y otros B. Buscamos un ejemplo en el que alguien usa la palabra con el significado A y otra persona la interpreta con el significado B. Lógicamente, no se entienden y es un desastre. Conclusión: el significado B es el correcto. ¿Y por qué no el A? Es evidente que el problema viene por usar significados distintos, no por el significado concreto que usa cada uno. De hecho, podrían usar ambos un tercer significado totalmente erróneo y entenderse sin problemas. Está claro que ese procedimiento no sirve para deducir el significado de una palabra.

      Eliminar
    2. ERG,
      No, los diccionario no son "la única forma de resolver una discusión sobre el significado de una palabra".

      El caso obvio son las palabras nuevas que aún no han sido recogidas en los diccionarios. Por ejemplo, prueba a buscar mónger o mónguer en el diccionario de la RAE y verás que, como suele decir alguna gente "no existe". Pero "sí existe", claro, porque la gente lo usa, y lo entiende.

      Aparte de eso, toda definición es un intento de recoger en unas pocas palabras lo que la gente quiere decir con otra. Ese "lo que la gente quiere decir" puede ser unívoco, claro, universal para algunas palabras. Y mucho más impreciso, variable, confuso, para otras.

      El diccionario intenta capturar esa complejidad con una definición lo más correcta posible, pero a su vez, la definición puede tener un significado impreciso, como es este caso.

      Yo simplemente me planteo, si enseñas a una muestra aleatoria de hablantes españoles una caja con 6 canicas, 2 negras, 1 roja, 1 azul, 1 verde y 1 blanca y les preguntas ¿Te parece que se puede decir que "la mayoría de las bolas son negras"? ¿Cuántos hablantes te dirían que esa frase es correcta? Yo creo que muy pocos, pero no he hecho el experimento.

      Eliminar
  8. Sigo diciendo que la única manera de resolver la situación es el diccionario. Si surge una discusión sobre una palabra nueva que no está todavía en el diccionario, nunca se va a poder resolver. Unos dirán una cosa y otros otra, y no se pasará de ahí.

    La palabra mayoría tiene una definición precisa en los dos diccionarios que se han mencionado. Otra cosa es que no se quiera admitir.

    Lo que por supuesto no sirve para decidir el significado de una palabra es lo que dice la gente. Ya estoy viendo un artículo aquí criticando a un periodista por escribir "A ver si es verdad" en lugar de "Haber si es verdad".

    ResponderEliminar
    Respuestas
    1. ¿Y cómo crees que se escriben los diccionarios si no es atendiendo a "lo que dice (y escribe) la gente"?

      Eliminar
  9. Los diccionarios se hacen atendiendo a otros criterios, aparte del uso actual: criterios etimológicos, históricos, de conformidad con la norma culta, de claridad, de buen gusto...

    Ahora hago yo una pregunta. ¿Es correcto escribir "Haber si es verdad" en lugar de "a ver si es verdad" sólo porque mucha gente lo hace?

    ResponderEliminar
    Respuestas
    1. Respondo: no, no es "correcto". Aunque es un error identificar el diccionario con lo "correcto". De hecho los diccionarios incluyen también usos vulgares y populares, como la famosa "almóndiga" que a mí me ensañaron de pequeñito que estaba "mal dicha" pero que el diccionario recoge, eso sí, indicando que es vulgar.

      De todos modos, tu pregunta me parece que no es una buena analogía, porque no es un problema de semántica, ni se refiere a un problema ambiguo.

      No quiero repetirme. Para mí está claro que usar la palabra "mayoría" para referirse a un 8% o un 10% de un grupo no es un uso común en castellano. ¿Es compatible con lo que dice, literalmente, el diccionario? Sí, lo es. Por lo tanto, es "correcto", según la interpretación de que toda discusión sobre el significado de las palabras empieza y termina en lo que diga el diccionario.

      Pero a mí ese argumento, contrario a lo que yo veo que es el uso más extendido de la palabra, me parece insuficiente.

      Eliminar

Si quieres que otros lectores puedan debatir contigo, por favor, no firmes como "Anónimo" a secas. Usa la opción "Nombre/URL" e invéntate un nombre, aunque sea "Anónimo33", "ABC" o "123", para que podamos dirigirnos a ti. Gracias.