Algunos de ustedes habrán visto estos días la discusión en ciertos medios de comunicación sobre la fiabilidad de la Encuesta de Población Activa (EPA), asunto que viene de lejos, ya que con cierta frecuencia alguna gente muy ignorante, muy despistada o muy interesada (táchese lo que no proceda) pone en duda que los datos de la EPA, y en particular los de desempleo, sean correctos.
La crítica habitual suele tener que ver con que la EPA es, como su nombre indica, una encuesta, a "sólo" 60.000 familias (unas 180.000 personas mayores de 16 años), y las encuestas son, supuestamente, menos fiables que los registros, como el del Servicio Público de Empleo, donde los parados están inscritos uno a uno, con su nombre y apellidos. Esta es una crítica que a primera vista puede sonar razonable, pero que es errónea por muchos motivos, que se explican bastante bien en este
artículo de El País, publicado el pasado mes de febrero, unos días después de que nada menos que el
presidente de la CEOE, Joan Rosell, diera pábulo a ese tipo de críticas. Kiko Llaneras y Jorge Galindo, de Politikon.es, lo explican también muy clarito en
este texto que publicaron ayer. Las encuestas como la EPA, por las razones que se explican en esos dos textos, son el estándar internacional usado en todos los países para medir la ocupación y el desempleo, y son en todas partes preferidas a los datos del registro de personas apuntadas en los servicios de empleo.
Otra crítica menos habitual, y completamente disparatada, es la que lanzó
William Chislett en El País el pasado lunes, afirmando que la tasa de desempleo de la EPA estaría mal porque cuenta como parados nada menos que a dos millones de jóvenes que están estudiando. Como bien explicó, en un rápido artículo de respuesta,
José Fernández-Albertos en Eldiario.es, esa afirmación es taxativamente falsa, como lo es en general el razonamiento del artículo de Chislett. Que esto lo diga un alumno despistado que por primera vez usa datos de EPA en un trabajo de una asignatura tendría un pase. Que lo diga un veterano investigador asociado del Instituto Elcano clama al cielo.
Ahora bien, que haya gente ignorante criticando la EPA por malas razones no quiere decir que la EPA no esté, efectivamente, precisamente porque es una encuesta, sujeta a cierto margen de error. De hecho, el INE publica cada trimestre los errores de muestreo relativos para las principales magnitudes de la encuesta (sección 4 de las
tablas con resultados principales, sección 8 de las
tablas con resultados detallados). Aunque la propia página del INE que divulga la EPA no lo explica bien, en otros documentos
(como este) se explica que ese error de muestreo es lo que suele llamarse en estadística el
error estándar de la distribución muestral, y debe utilizarse de la siguiente manera (con datos de 2004):
A partir de la estimación y su error de muestreo otros intervalos de confianza pueden formarse con análoga interpretación, por ejemplo:
- estimación ± 1 vez el error de muestreo = intervalo de confianza del 67%.
- estimación ± 2 veces el error de muestreo = intervalo de confianza del 95%.
- estimación ± 3 veces el error de muestreo = intervalo de confianza del 99,7%.
Por ejemplo, la estimación del total de parados en el tercer trimestre del año es 2.031.300 con un error de muestreo relativo del 1,14%. Esto significa que existe una gran confianza, en términos de probabilidad una confianza del 95%, de que el valor verdadero del total de parados se encuentre en el intervalo comprendido entre 1.984.986 y 2.077.614 (esto es, 2.031.300 ± 2 x 23.157).
Aplicando ese razonamiento a la EPA recién publicada, cuyo error de muestreo para el número de desempleados es de 0,86%, diríamos que el margen de error para un intervalo de confianza al 95% es de 106.674 personas (6.202.700*0,0086*2). Y por tanto, solo podemos decir con un 95% de confianza que el número verdadero de parados se encuentra entre 6.095.330 y 6.308.670. [Actualización: como apunta Félix en los comentarios, esas cifras dan una falsa impresión de precisión. Debería redondearse al menos a los millares, y decir que la cifra real de paro está entre 6.095.000 y 6.309.000.]
El error de muestreo relativo es muy pequeño para las grandes cifras (el número de activos, el número de parados) y va creciendo para las cifras más pequeñas, al estimar el paro por sectores, por edades, por provincias, o por combinaciones de varias de estas cosas (en realidad, en números absolutos, el error decrece, pero respecto a la propia cifra estimada, el error crece). Así, por ejemplo, el error de muestreo relativo para los parados en Andalucía es el 1,47% y para los de Cantabria el 5,11%. El margen de error relativo, para un intervalo de confianza al 95% sería, en esos dos casos de ± 3,94% y ±10,22%. Es decir, que los parados andaluces son, con un 95% de confianza, 1.473.700 ±43.327, y los cántabros 56.900 ±5.816. [Actualización: Después de hacer la operación, mejor redondear.]
Dicho de otra manera, a medida que hablamos de cifras más y más pequeñas, la EPA es (relativamente) más imprecisa en la estimación. Y por tanto, también, las variaciones de unos trimestres a otros, o de unos años a otros, las debemos de interpretar con más cuidado cuando se refieren a números pequeños, ya que al ser el margen de error relativamente mayor, pueden aparecer oscilaciones en la muestra que no respondan exactamente a la realidad.
Por lo tanto, es bastante arriesgado, basándonos en la EPA, escribir noticias como estas de
Elmundo.es y de
Expansión de hace unos días, con titulares que subrayaban que las empresas públicas habrían ampliado su plantilla en el último año, mientras el resto del sector público la reduce. El argumento se basa en que la EPA del primer trimestre muestra que hay ahora 159.300 personas empleadas en empresas públicas, frente a 147.700 hace un año, lo que supondría un aumento de plantilla de 8.400 personas (el 7,9%). ¿Pero cuál es el margen de error de esas estimaciones? No lo sabemos con exactitud, porque no aparece ese detalle en la página web del INE. Pero podemos estimarlo aproximadamente con el error muestral, sí publicado, de otras cifras de carácter nacional de similar tamaño. Por ejemplo, el error muestral relativo del número de activos en la rama de actividad de suministro de agua, saneamiento y residuos, que son según la EPA 145.100, es de 5,88%. Por lo tanto, para el 95% de confianza, el margen de error sería de ±11,8%, es decir, de ± 17.000.
Si el margen de error fuera similar para la estimación del número de empleados en empresas públicas, una variación, en un año, de un 7,9% estaría dentro del margen de error, y por tanto, podría deberse simplemente a una variación aleatoria en la muestra. De hecho, la evolución en los últimos años del número de empleados en empresas públicas, según la EPA ha sufrido ocasionalmente caídas y ascensos bruscos, incluso en un solo trimestre, que seguramente se deben a la aleatoriedad.
En definitiva, que por ser la EPA una encuesta tiene, es verdad, errores, derivados de que se estudia una muestra, y no toda la población. Pero esos errores no son las burradas que dicen Rosell y Chislett, sino mucho más pequeños. Por ejemplo, para el 95% de confianza, el margen de error en el número de parados de la última EPA sería de ±106.674 personas, como hemos visto arriba. Para otras cifras más pequeñas el error es también más pequeño, en números absolutos, pero mayor en términos relativos al número que estimamos. Por lo tanto, al analizar cambios y variaciones en esos números pequeños debemos tomar extremo cuidado. O acabaremos diciendo tontás.