25 de octubre de 2013

EPA: ¿Estamos seguros de que ha bajado el paro?

Ayer me lancé a la piscina el El Purgatorio de La Brújula, espero que no pasándome de listo (estadísticos en la audiencia: hagan todas las observaciones que consideren oportunas), al subrayar que con la EPA publicada ayer en la mano, en realidad no estamos del todo seguros de que el paro haya bajado en el tercer trimestre, o de que el número de ocupados haya aumentado.

La razón es que la EPA es una encuesta, y como toda encuesta, aunque sea muy grande, tiene un margen de error (ya hablé de esto hace poco). Y el caso es que en esta última EPA las variaciones respecto al trimestre anterior son tan pequeñas que entran dentro del margen de error, para un 95% de confianza.

Lo explico aquí con un poco más de detalle: según el propio INE estos son los errores de muestreo de la EPA recién publicada:

Errores de muestreo relativos, de la población
de 16 y más años por comunidad autónoma
y relación con la actividad económica
Unidades:Porcentaje
OcupadosParados
2013TIII2013TIII
Total Nacional0,370,87
Andalucía1,071,98
Aragón1,515,32
Asturias, Principado de1,905,83
Balears, Illes2,106,87
Canarias2,133,21
Cantabria1,765,11
Castilla y León0,963,78
Castilla - La Mancha1,223,08
Cataluña1,032,85
Comunitat Valenciana1,492,66
Extremadura1,923,96
Galicia1,072,72
Madrid, Comunidad de1,234,25
Murcia, Región de2,385,05
Navarra, Comunidad Foral de1,786,87
País Vasco1,224,98
Rioja, La2,407,94
Ceuta9,1815,46
Melilla11,028,90



No voy a explicar aquí lo que significan esos números, porque se pueden interpretar siguiendo las instrucciones del propio INE (con datos de 2004):
A partir de la estimación y su error de muestreo otros intervalos de confianza pueden formarse con análoga interpretación, por ejemplo:
  • estimación ± 1 vez el error de muestreo = intervalo de confianza del 67%.
  • estimación ± 2 veces el error de muestreo = intervalo de confianza del 95%.
  • estimación ± 3 veces el error de muestreo = intervalo de confianza del 99,7%.
Por ejemplo, la estimación del total de parados en el tercer trimestre del año es 2.031.300 con un error de muestreo relativo del 1,14%. Esto significa que existe una gran confianza, en términos de probabilidad una confianza del 95%, de que el valor verdadero del total de parados se encuentre en el intervalo comprendido entre 1.984.986 y 2.077.614 (esto es, 2.031.300 ± 2 x 23.157).
Aplicando la misma fórmula a los datos de este trimestre: 
  • El número de ocupados estimado a nivel nacional es de 16.823.200, con un error de muestreo estimado de 0,37% (62.246). El margen de error para un intervalo con un nivel de confianza del 95% es por tanto de (2*62.246)=124.492.  Por tanto, tenemos una confianza del 95% de que el verdadero número se encuentra en el intervalo (redondeando) entre 16.699.000 y 16.948.000 (es decir,  16.823.200 ± 124.492).
  • El número estimado de parados a nivel nacional es de 5.904.700, con un error de muestreo estimado de 0,87% (51.371). El margen de error para un intervalo con un nivel de confianza del 95% es por tanto de (2*51.371)=102.742.  Por tanto, tenemos una confianza del 95% de que el verdadero número se encuentra en el intervalo (redondeando) entre 5.802.000 y 6.007.000 (es decir, 5.904.700 ± 102.742).
Resulta que ambos intervalos de confianza incluyen la cifra estimada en la EPA anterior de cada uno de los conceptos. En efecto, entonces el número estimado de ocupados eran 16.783.800, y el deparados 5.977.500, y las dos cifras están dentro de las horquillas que ahora estimamos para el número de ocupados y parados. O dicho de otra manera, si estimamos que el número de parados ha disminuido en 72.800 personas, pero el margen de error al estimar los parados es de 102.742 personas... no estamos del todo seguros de si el número de parados ha aumentado o disminuido. Lo mismo sucede con los ocupados: creemos que han aumentado 39.500 personas, pero nuestra estimación tiene un margen de error de 124.492 personas, por lo que en realidad, podrían haber disminuido. 

Estas observaciones rápidas que hice ayer en realidad hay que matizarlas por dos razones. Primero: porque las cifras con la que comparamos, que son las estimaciones de la EPA anterior, también tienen su propio margen de error. Igual que ahora decimos que el número de parados está entre 5.802.000 y 6.007.000 hace tres meses deberíamos haber dicho que el paro estaba entre 5.866.000 y 6.089.000.  De manera que el cálculo bien hecho estadísticamente es más complejo que lo que yo acabo de hacer. En realidad habría que hacer lo que se llama en estadística un contraste de hipótesis, que nos permitiría estimar la probabilidad de que, si el paro no hubiera variado, hubiéramos obtenido muestras con esa diferencia. Pero para una muestra tan compleja como la de la EPA esto no lo puede hacer un aficionado con las fórmulas estándar para muestreo aleatorio simple, sino que es necesario que lo hagan expertos estadísticos con conocimientos detallados de la muestra utilizada.


Además, como comenté en el programa, las dos muestras de la EPA no son totalmente independientes. Dije de memoria que cada familia permanece en la muestra tres trimestres, y que esta, por tanto, se renueva por tercios, pero leo ahora en la explicación metodológica (pag. 19) que en realidad cada familia permanece seis trimestres, y que por tanto la muestra se renueva solamente por sextas partes. Eso afecta a la comparación entre los resultados de las dos encuestas, y habría de ser tenido en cuenta en el contraste de hipótesis.


Con todo (y a salvo de que me corrijan los expertos), creo que la observación básica es correcta: la EPA es una encuesta, la mejor y más grande que se hace en España, probablemente. Como tal encuesta, es una maravilla que nos permite, entrevistando a una parte muy pequeña de la población (180.000 personas de 38 millones), estimar con bastante precisión un montón de datos económicos que nos interesan mucho. Pero como decía ayer, las encuestas no son mágicas, y no permiten calcular exactamente cuando parados hay, sino solo aproximadamente. 


Es comprensible que al hablar y escribir sobre una encuesta, por economía del lenguaje, utilicemos, para describir los resultados, el punto central (y más probable) de la horquilla de datos estimados. Y que usemos también esos datos para hacer las comparaciones entre diferentes momentos en el tiempo. Pero cuando da la casualidad, como en esta ocasión, de que las variaciones de un trimestre a otro son muy pequeñas, no podemos olvidar el margen de error, porque no podemos estar del todo seguros de que lo que vemos como aumentos del número de ocupados o descensos del número de parados, sea real o sea simplemente resultado del azar.

8 comentarios:

  1. En lo que te tienes que fijar no es en las cifras, si no en la tendencia. ¿ha cambiado el signo de la segunda derivada? hasta que la segunda derivada no cambie de signo, no lo hará la primera. Hasta que no cambie de signo la primera derivada, no se empezará a crear empleo. Desde el cambio de signo hasta que se empiecen a notar los resultados puede pasar también bastante tiempo, por eso el ministro Sebastián ya avisaba a los jóvenes que con suerte su situación se arreglaría para 2018-2020, una clara señal para que cogieran la maleta y se fueran.

    Por cierto, que hay que tener en cuenta que esta cifra no depende sólo del empleo que se crea y se destruye, también hay que tener en cuenta el éxodo de jóvenes y extranjeros, las jubilaciones y la gente que desea incorporarse al mercado de trabajo tras terminar los estudios. Es posible que mejore la situación simplemente porque las masivas jubilaciones de los baby-boomers de aquí a unos años dejarán más vacantes para que lo ocupen los parados de ahora.

    ResponderEliminar
  2. Para ver si hay una tendencia es necesario tener en cuenta el margen de error para ver si existen diferencias estadísticamente significativas, para no caer en el error de pensar que existe una tendencia cuando no es así. Vamos, que sí que son importantes las cifras, de hecho es lo que comenta Josu, con las cifras en la mano puedes comprobar si esa variación es relevante (por medio de Chi Cuadrado o Regresión logística).

    ResponderEliminar
  3. Gracias por contarlo tan clarito. Te oí en La Brújula y ¡ya tienes una seguidora más!

    Lo que no llego a explicarme es por qué necesitamos una encuesta para conocer el número de parados...

    ResponderEliminar
  4. Respuesta a manup: la encuesta de la EPA la necesitamos (o al menos yo aprecio tenerla) para poder comparar los datos de distintos países. Para ello, la encuesta está realizada de forma objetiva, con unos parámetros claros y una reglamentación común (reglamentos 577/1998, 1897/2000 y 2257/2003 de la Comisión Europea, cogiendo datos de Wikipedia). Si no fuera por este estándar, y que la encuesta la realiza un ente autónomo (en el caso de España, el INE) difícilmente podríamos fiarnos de los datos oficiales publicados por unos Gobiernos con un interés claro en manipularlos (no estoy diciendo que lo hagan, por supuesto).

    ResponderEliminar
  5. ¿Paro? ... que paro. Bueno, como todos sabemos Andalucia está a la cabeza del paro en España pero dudo seriamente de estos datos por varios motivos, entre ellos los siguientes:
    Al pueblo donde voy, en Jaén, hay un" poligono industrial " que realmente es una zona residencial de lujo, con la típica fachada de nave industrial pero con el adosado y la piscina en la parte posterior.
    A un amigo, parado y pintor de brocha gorda, le dieron un prestamo para comprar un coche SOLO con el carnet de demanda de empleo como aval del pago.
    Son tremendas las viviendas a todo lujo y los coches -a nombre de la abuela- de gente que está la mayor parte del año en paro; eso es optimizar los recursos, jajajaja.
    Un saludo

    ResponderEliminar
  6. Para hacerlo bien, habría que tener en cuenta la dependencia entre las EPA's. Si supiéramos qué encuestados están en las dos muestras se podría hacer el análisis teniendo en cuenta eso. Una solución es considerar que hay perfiles parecidos, por ejemplo, la tasa de paro de la población con edades entre 25 y 30 años y con un determinado nivel de formación en Andalucía estará más relacionada con la tasa de paro de ese mismo perfil en Galicia que con el resto de población en Andalucía, y así con otras variables, incluyendo el trimestre de la epa como otra variable más. Una técnica muy útil para tener en cuenta esa dependencia es la de utilizar modelos mixtos generalizados, (modelos multinivel). Esta técnica es utilizada además para estimaciones en dominios dónde no se tiene suficiente muestra. Haciendo estudios de simulación y mediante técnicas de bootstrap, se observa qeu esta técnica presenta menos sesgo y mayor precisión en las estimaciones que las estimaciones basadas exclusivamente en el diseño muestral.
    Saludos.

    ResponderEliminar
  7. Hola; aunque con las reservas lógicas, pego un tema que creo es interesante.

    Hola, me llamo David Herrera Trabajo en el INEM (hoy SPEE). Os quiero contar una pequeña anécdota para que ilustre otro de los disparates que ha llevado a España a estar como está. Atiendo a un señor, sus rasgos denotan que es de origen marroquí. No habla español..., practicamente nada. Le pido la identificación y oh, no tiene NIE, tiene DNI. Está nacionalizado. Rapidamente me pregunto cómo una persona que está nacionalizada, no sabe hablar castellano. Y no es porque sea marroquí de nacimiento, es que me asombra cómo se puede vivir 10 años en un país y no aprender el idioma, al menos para mantener una conversación, y mucho más, como se llega a obtener la nacionalidad. Pero vamos, que opino lo mismo de los alemanes que llevan aquí un década y ni papa. Seguimos. Observo su vida laboral. Comienza el alucine. El hombre trabajó en su día un añito, practicamente justo, de forma más o menos seguida, en bastantes empresas, en muchas termina por baja voluntaria. En una de ellas genera situación legal de desempleo (es despedido) y con el año raspado solicita paro. Bien, 4 meses de contributiva. Al agotamiento, subsidio con cargas familiares (residentes en marruecos) y mayor de 45 años, 24 meses de subsidio. Tras cobrar el subsidio, milagrosamente, y tras estar 28 meses (casi dos años y medio) como demandante de empleo, parado, oh milagro, se coloca al mes de terminar de cobrar. Vuelve a trabajar de forma más o menos seguida en distintas empresas, en algunas de las cuales termina con baja voluntaria y tal. Misma dinámica laboral. 2 meses por aquí, 1 mes nada, 3 meses por allá... Y he aquí que el hombre junta justito 180 días, qué milagro. Pues hala, subsidio de cotización insuficiente con cargas, 21 meses. Tras el agotamiento, cobra el prodi, 6 meses más de subsidio. En todo ese tiempo ni una colocación, nada, ni un trabajito. Entre medias, el señor se ve que pidió la nacionalidad y se la dieron. Bien , ahora, tras cobrar todo lo cobrable, se larga a otro país de la UE, con su condición de ciudadano comunitario. Una reflexión. Este hombre ha venido de otro país, supuestamente a buscarse la vida, ha trabajado año y medio, y se le ha dado 55 meses de prestaciones por desempleo, más de 4 años y medio, y la nacionalidad. Cuando estaba cobrando prestaciones ni siquiera se ha molestado en aprender castellano. Juro que el caso es verídico. He visto algún caso más bestia todavía, pero esto ha pasado esta misma mañana y he alucinado. Así nos va. Igual de vergonzoso es la situación con los casos que llegan de nacionales de nacimiento que buscan la misma dinámica de trabajar lo justito para generar derecho. La cosa es que es todo legal, al señor no se le puede decir ni mu. Si a esta picaresca, nacional y extranjera, se le añade el resto de problemas del país, ...... Y entretanto un AUTONOMO trabajando, tributando y inspeccionado cada dos por tres , no tiene ni derecho a paro, ni sabe como alimentar a su familia…..
    Saludos

    ResponderEliminar
    Respuestas
    1. "Inspeccionado cada dos por tres" no creo.
      Porque si fuera cierto que la inspección controla tanto, el marroquí habría sido pillado trabajando en negro, que es lo que ha estado haciendo casi todo el tiempo con toda probabilidad. Seguramente para un autónomo como el mencionado.

      España parece basarse en su funcionamiento en que las Administraciones no administran ni inspeccionan, los pequeños empresarios y autónomos se las arreglan como pueden pero desde luego tributando poquísimo, y los parados trabajan en negro a salto de mata porque con las prestaciones tampoco podrían vivir.
      Todo son sobreentendidos según los cuales tiramos (mal) porque todo funciona mal.
      El único sector formal de verdad de la economía es el de grandes empresas y sus empleados (más o menos) legales. Y esos subcontratan cada vez más al sector semiinformal y también se las arreglan para para pagar poco más de un 10% de impuestos... más o menos legalmente.

      Por supuesto ese sistema es el que favorece a los "listos" que saben explotar sus intersticios, agujeros y disfuncionalidades. No a los inteligentes, que son los que emigran.
      Parece raro que un analfabeto que no sabe español se bandee tan bien en el enrevesado sistema de engaño mutuo que tenemos montado, pero quien sabe. Lo más probable es que sea teledirigido, bien por un pariente que sí sabe latín, bien por un empresario que en realidad le haya estado empleando habitualmente, en negro o bajo diferentes vestidos legales.

      Eliminar

Si quieres que otros lectores puedan debatir contigo, por favor, no firmes como "Anónimo" a secas. Usa la opción "Nombre/URL" e invéntate un nombre, aunque sea "Anónimo33", "ABC" o "123", para que podamos dirigirnos a ti. Gracias.