3 de mayo de 2013

¿Errores en la EPA? Sí, claro, porque es una encuesta

Algunos de ustedes habrán visto estos días la discusión en ciertos medios de comunicación sobre la fiabilidad de la Encuesta de Población Activa (EPA), asunto que viene de lejos, ya que con cierta frecuencia alguna gente muy ignorante, muy despistada o muy interesada (táchese lo que no proceda) pone en duda que los datos de la EPA, y en particular los de desempleo, sean correctos.

La crítica habitual suele tener que ver con que la EPA es, como su nombre indica, una encuesta, a "sólo" 60.000 familias (unas 180.000 personas mayores de 16 años), y las encuestas son, supuestamente, menos fiables que los registros, como el del Servicio Público de Empleo, donde los parados están inscritos uno a uno, con su nombre y apellidos. Esta es una crítica que a primera vista puede sonar razonable, pero que es errónea por muchos motivos, que se explican bastante bien en este artículo de El País, publicado el pasado mes de febrero, unos días después de que nada menos que el presidente de la CEOE, Joan Rosell, diera pábulo a ese tipo de críticas. Kiko Llaneras y Jorge Galindo, de Politikon.es, lo explican también muy clarito en este texto que publicaron ayer. Las encuestas como la EPA, por las razones que se explican en esos dos textos, son el estándar internacional usado en todos los países para medir la ocupación y el desempleo, y son en todas partes preferidas a los datos del registro de personas apuntadas en los servicios de empleo.

Otra crítica menos habitual, y completamente disparatada, es la que lanzó William Chislett en El País el pasado lunes, afirmando que la tasa de desempleo de la EPA estaría mal porque cuenta como parados nada menos que a dos millones de jóvenes que están estudiando. Como bien explicó, en un rápido artículo de respuesta, José Fernández-Albertos en Eldiario.es, esa afirmación es taxativamente falsa, como lo es en general el razonamiento del artículo de Chislett.  Que esto lo diga un alumno despistado que por primera vez usa datos de EPA en un trabajo de una asignatura tendría un pase. Que lo diga un veterano investigador asociado del Instituto Elcano clama al cielo.

Ahora bien, que haya gente ignorante criticando la EPA por malas razones no quiere decir que la EPA no esté, efectivamente, precisamente porque es una encuesta, sujeta a cierto margen de error. De hecho, el INE publica cada trimestre los errores de muestreo relativos para las principales magnitudes de la encuesta (sección 4 de las tablas con resultados principales, sección 8 de las tablas con resultados detallados). Aunque la propia página del INE que divulga la EPA no lo explica bien, en otros documentos (como este) se explica que ese error de muestreo es lo que suele llamarse en estadística el error estándar de la distribución muestral, y debe utilizarse de la siguiente manera (con datos de 2004):

A partir de la estimación y su error de muestreo otros intervalos de confianza pueden formarse con análoga interpretación, por ejemplo:
  • estimación ± 1 vez el error de muestreo = intervalo de confianza del 67%.
  • estimación ± 2 veces el error de muestreo = intervalo de confianza del 95%.
  • estimación ± 3 veces el error de muestreo = intervalo de confianza del 99,7%.
Por ejemplo, la estimación del total de parados en el tercer trimestre del año es 2.031.300 con un error de muestreo relativo del 1,14%. Esto significa que existe una gran confianza, en términos de probabilidad una confianza del 95%, de que el valor verdadero del total de parados se encuentre en el intervalo comprendido entre 1.984.986 y 2.077.614 (esto es, 2.031.300 ± 2 x 23.157).

Aplicando ese razonamiento a la EPA recién publicada, cuyo error de muestreo  para el número de desempleados es de 0,86%, diríamos que el margen de error para un intervalo de confianza al 95% es de 106.674 personas (6.202.700*0,0086*2). Y por tanto, solo podemos decir con un 95% de confianza que el número verdadero de parados se encuentra entre 6.095.330 y 6.308.670. [Actualización: como apunta Félix en los comentarios, esas cifras dan una falsa impresión de precisión. Debería redondearse al menos a los millares, y decir que la cifra real de paro está entre 6.095.000 y 6.309.000.]

El error de muestreo relativo es muy pequeño para las grandes cifras (el número de activos, el número de parados) y va creciendo para las cifras más pequeñas, al estimar el paro por sectores, por edades, por provincias, o por combinaciones de varias de estas cosas (en realidad, en números absolutos, el error decrece, pero respecto a la propia cifra estimada, el error crece). Así, por ejemplo, el error de muestreo relativo para los parados en Andalucía es el 1,47% y para los de Cantabria el 5,11%. El margen de error relativo, para un intervalo de confianza al 95% sería, en esos dos casos de ± 3,94% y ±10,22%. Es decir, que los parados andaluces son, con un 95% de confianza, 1.473.700 ±43.327, y los cántabros 56.900 ±5.816. [Actualización: Después de hacer la operación, mejor redondear.]

Dicho de otra manera, a medida que hablamos de cifras más y más pequeñas, la EPA es (relativamente) más imprecisa en la estimación. Y por tanto, también, las variaciones de unos trimestres a otros, o de unos años a otros, las debemos de interpretar con más cuidado cuando se refieren a números pequeños, ya que al ser el margen de error relativamente mayor, pueden aparecer oscilaciones en la muestra que no respondan exactamente a la realidad.

Por lo tanto, es bastante arriesgado, basándonos en la EPA, escribir noticias como estas de Elmundo.es y de Expansión de hace unos días, con titulares que subrayaban que las empresas públicas habrían ampliado su plantilla en el último año, mientras el resto del sector público la reduce. El argumento se basa en que la EPA del primer trimestre muestra que hay ahora 159.300 personas empleadas en empresas públicas, frente a 147.700 hace un año, lo que supondría un aumento de plantilla de 8.400 personas (el 7,9%). ¿Pero cuál es el margen de error de esas estimaciones? No lo sabemos con exactitud, porque no aparece ese detalle en la página web del INE. Pero podemos estimarlo aproximadamente con el error muestral, sí publicado, de otras cifras de carácter nacional de similar tamaño. Por ejemplo, el error muestral relativo del número de activos en la rama de actividad de suministro de agua, saneamiento y residuos, que son según la EPA 145.100, es de 5,88%. Por lo tanto, para el 95% de confianza, el margen de error sería de ±11,8%, es decir, de ± 17.000.

Si el margen de error fuera similar para la estimación del número de empleados en empresas públicas, una variación, en un año, de un 7,9% estaría dentro del margen de error, y por tanto, podría deberse simplemente a una variación aleatoria en la muestra. De hecho, la evolución en los últimos años del número de empleados en empresas públicas, según la EPA ha sufrido ocasionalmente caídas y ascensos bruscos, incluso en un solo trimestre, que seguramente se deben a la aleatoriedad.

En definitiva, que por ser la EPA una encuesta tiene, es verdad, errores, derivados  de que se estudia una muestra, y no toda la población. Pero esos errores no son las burradas que dicen Rosell y Chislett, sino mucho más pequeños. Por ejemplo, para el 95% de confianza, el margen de error en el número de parados de la última EPA sería de ±106.674 personas, como hemos visto arriba. Para otras cifras más pequeñas el error es también más pequeño, en números absolutos, pero mayor en términos relativos al número que estimamos. Por lo tanto, al analizar cambios y variaciones en esos números pequeños debemos tomar extremo cuidado. O acabaremos diciendo tontás.

6 comentarios:

  1. Buen Trabajo, todo muy claro

    ResponderEliminar
  2. Felicidades una vez más por la claridad de la explicación.

    ResponderEliminar
  3. Hola Josu. Yo trabajo mucho con estadística y probabilidad aunque en un contexto muy distinto (mis datos de entrada son resultados de mediciones físicas y no respuestas a las preguntas de una encuesta) y creo que lo has explicado muy bien. No obstante, quisiera hacer algunas puntualizaciones.

    Para empezar, los intervalos de confianza que has presentado sólo son ciertos si la distribución es la normal o gaussiana. Es, con mucho, la más usual y además muchas otras tienden a ella si se combinan pero no siempre es el caso. Si se sabe que la distribución es asimétrica, no puede ser normal. Un ejemplo de esto sería la distribución de ingresos en la población. Un buen test para verificar si es normal es ver si la media y la mediana están cerca.

    Otra cuestión es que no me parece correcto dar más cifras significativas que las que realmente conoces. En el caso de la EPA, las cifras de paro se dan redondeadas a la centena cuando el margen de error es de más de 100.000. Eso en el campo científico es inaceptable, pues los resultados se deben redondear a la primera o segunda cifra del error. Es decir, que, en mi opinión, con los datos de esta encuesta se debería decir que el número de parados esta entre 6.100.000 y 6.300.000.

    ResponderEliminar
  4. Hola Félix,

    Te respondo a los comentarios. Sobre lo primero: sí, es que cuando tomamos muestras de poblaciones la distribución muestral se acerca mucho a la normal por la Teoría del Límite Central. Sobre todo cuando la muestra es grande, como en este caso, la distribución de las muestras, incluso para porcentajes pequeños, se aproxima a la normal.

    Sobre lo segundo, es cierto, según lo escribía pensé que sería mejor redondear, pero para no liar a los lectores lo dejé como salía exactamente con el cálculo del error muestral. Creo de todos modos que con una muestra tan grande redondear a los centenares de miles es un poco exagerado. Pero sí es verdad que como mínimo se debería redondear a los miles. Así, creo que sería más correcto decir que el paro estaba en el primer trimestre del año entre 6.095.000 y 6.309.000, con un 95% de confianza (y sabiendo, por cierto, que ese dato es una media de las 13 semanas del trimestre, no es el dato de ningún momento particular).

    ResponderEliminar
  5. La EPA tiene un curioso atractivo para mí, tal vez el interés de algo que creo capaz de comprender con mediana profundidad pero del que aún se me escapan cosas. Comentarios a tu post, muy bien explicado:
    - También leí el disparatado artículo de Chislett. Está claro que la EPA no cuenta como desempleados a los estudiantes que no buscan trabajo: son población inactiva, no desempleados. Pero sí me llevó a pensar que hay estudiantes que buscan trabajo a tiempo parcial, que para la EPA contarían como desempleados (no para el SEPE), aunque el problema social que suponen es menor que el de, pongamos, unos padres de familia que pierden el empleo a tiempo completo que sustenta a toda la familia (incluido, posiblemente el estudiante). También me llevó a pensar que el paro juvenil tiene siempre un sesgo al alza relacionado con la menor titulación de los activos (incluyendo a los desempleados). Los que siguen estudiando no cuentan en el numerador ni en el denominador; seguramente sería útil conocer el paro juvenil una vez reducida la variable de la titulación.
    - He leído incluso en blogs extranjeros cómo el paro EPA puede estar inflado por el gran empleo sumergido de España (no es un problema del método sino del país). Y ahí es donde no lo entiendo: entiendo que pueda haber un incentivo para mentir en el paro registrado (el subsidio por desempleo), pero, ¿en la EPA?

    ResponderEliminar
  6. Dalet,
    - Sobre lo primero, nada que añadir. Para la EPA si estás realmente buscando trabajo y disponible para trabajar, aunque lo que busques sea a tiempo parcial, eres un parado, estudies o no.
    - Sobre lo segundo: es muy difícil de decir, pero sin duda habrá un cierto porcentaje de los que trabajan en la economía sumergida que cuando viene alguien a encuestarles (o les llama por teléfono) en nombre de una institución oficial como el INE desconfían lo suficiente para mentir. El problema es que es muy difícil estimar qué porcentaje es ese, y si es lo suficientemente grande como para hinchar la cifra del paro de una manera sustancial.

    ResponderEliminar

Si quieres que otros lectores puedan debatir contigo, por favor, no firmes como "Anónimo" a secas. Usa la opción "Nombre/URL" e invéntate un nombre, aunque sea "Anónimo33", "ABC" o "123", para que podamos dirigirnos a ti. Gracias.