3 de enero de 2013

Mi charla en MediaLab Prado

Aquí está la charla que dí el 14 de diciembre en MediaLab Prado, sobre las encuestas, las muestras y el margen de error. Todo bastante sencillo, pero espero que útil para quien quiera refrescar conocimientos o para quien no los tiene muy claros de partida.

No se fijen mucho en mi corte de pelo (o ausencia de él), ni en el jersey-túnica, sobre el que ya he recibido las pertinentes reprimendas.


Descargar el vídeo

Descargar la presentación

Más competente, y más ambicioso que yo fue Juan José Gibaja, que dio la siguiente charla sobre varios conceptos relacionados también con la probabilidad, y que a menudo llevan a cometer errores a los periodistas:


Descargar el vídeo

Ojo, son charlas largas. Guárdenlas para cuando tengan más de una hora.

10 comentarios:

  1. ¿Puedes colgar en algún lado la presentación? Una hora me parece demasiada dedicación pero sí que me gustaría poder mirar la presentación utilizada en busca de los ejemplos en cuestión.

    ResponderEliminar
  2. digo lo mismo, subir el video de forma q pueda tenerlo en el ordenador y verlo poco a poco

    ResponderEliminar
  3. José Luis, Anónimo,
    Tenéis razón.
    He editado la entrada para incluir enlaces para poder descargar el vídeo (esto es cortesía de MediaLab) y para descargar también la presentación.

    ResponderEliminar
  4. oues ya estan vistos....muy interesantes los dos videos, ¿alguien sabe donde puedo ver mas de tematica parecida?

    ResponderEliminar
  5. Aunque no venga al caso, tengo una duda sobre la interpretacion de los intervalos de confianza, a ver si algun experto puede aclarlo


    Entiendo que si se hacen 100 muestras de una misma poblacion y a partir de ellas 100 intervalos de confianza, para calcular por ejemplo, la media poblacional, pues de los 100 intervalos, 95 de ellos contienen el valor verdadero de la poblacion
    (digo 95 pq es lo tipico, podria ser 99 aunque el rango del intervalo entonces seria mas amplio)

    entonces, supuestamente, de 100 intervalos hay 95 que contienen el valor real (pero desconocido)

    como en cualquier estudio no vas a poner los 100 intervalos que te han salido, pues pones uno y dices q hay una probabidad del 95% de que el intervalo contenga al verdadero valor de la poblacion -y 5% de que no lo contenga-

    Pero leyendo esto:

    http://books.google.es/books?id=Lj5VlatlLhsC&pg=PA302&lpg=PA302&dq=interpretacion+de+los+intervalos+de+confianza&source=bl&ots=cMmGAK089Osig=ytFyv52gIZimgDmSdgXr__BZyd8&hl=es&sa=X&ei=Y-88UcvgN8-QhQeyiICgBgved=0CGIQ6AEwCDgK#v=onepage&q=interpretacion%20de%20los%20intervalos%20de%20confianza&f=false


    me he perdido, no se pq es erronea esa interpretacion

    no veo la diferencia entre la interpretacion correcta y la incorrecta,
    no se cual es la diferencia entre una probabilidad del 95% y una confianza del 95% y tampoco veo la diferencia entre que el intervalo "contenga" el valor y que el valor "esté" en el intervalo

    Aqui hay otro ejemplo (pagina 2)
    http://www.ing.unlp.edu.ar/fismat/estadistica/estadistica/archivos/Capitulo5_ESTIMACION_POR_INTERVALO_ES_DE_CONFIANZA.pdf

    me pierdo en la nota de atencion:

    ¡ATENCIÓN! Notar que en ningún momento decimos que u está dentro del
    intervalo, sino que es el intervalo el que contiene a u.


    No veo la diferencia

    ¿alguien me lo puede aclarar?
    Gracias

    ResponderEliminar
  6. Sam,
    Al leer tu comentario, me pareció que esos textos ponían mucho énfasis en algo que en la práctica no es muy relevante.

    He consultado a Juanjo, que me comenta esto:

    "Como comentas, ese libro "se la coge con papel de fumar".
    La interpretación del intervalo de confianza es algo que siempre me ha parecido muy curioso.
    La esencia del mensaje que quieren transmitir es:
    1) El parámetro es algo desconocido y fijo.,
    2) No cabe hablar de probabilidad de que el parámetro esté contenido en un intervalo ya que o está o no está.
    3) Lo que es aleatorio (cambia de una muestra a otra) es el intervalo (su centro, que es la media muestral y los extremos, que vienen determinados por el tamaño de la muestra y la varianza muestral)
    Ergo...
    Hay que hablar de probabilidad de que el intervalo contenga al parámetro y no de probabilidad de que el parámetro esté dentro del intervalo.
    ...y entonces, como no se puede hablar de probabilidad, se inventan lo de la confianza.

    Pero vamos, dado que el parámetro está en el intervalo si y solo si el intervalo encierra al parámetro...
    ...tanto monta, monta tanto."

    Espero que te sirva de aclaración.

    ResponderEliminar
  7. Muchas gracias, es que me estaba rallando con los textos de marras.

    Tengo otra duda existencial (prometo q es la ultima ) a ver si me podeis hacer el favor...

    Supongamos que tengo que enviar una encuesta a la gente del trabajo, una poblacion de 1000 personas por ejemplo, a traves del correo electronico.

    Envio la encuesta a todo el mundo, y me responden 200 personas.

    Esa muestra que me ha llegado ¿es aleatoria? ¿se pueden estimar en este caso algun tipo de error? ¿o es mas bien autoseleccionada y no hay mas tu tia?

    Muchas gracias.

    ResponderEliminar
  8. Sam
    En realidad, en toda encuesta, aunque sea aleatoria, luego hay un porcentaje de personas que no responden (puede ser muy alto, dos tercios o más).
    Cuando se está haciendo una muestra de una población, los que no responden se van sustituyendo por otros. Creo que algo de esto conté en la charla. Como se sabe que la tendencia a responder, o no, no está distribuida aleatoriamente por toda la población, para evitar sesgos , se suele controlar que la muestra mantenga las mismas proporciones que en la población de diferentes características demográficas conocidas (sexo y edad al menos). De esta forma, si, digamos, los varones jóvenes son los más reacios a contestar (o a que los pilles en casa), los "persigues" más hasta que los tienes en la muestra en proporción similar a la que son en la población. Y así evitas que la muestr se te llene, digamos, de gente mayor, que por tener más tiempo disponible le importa menos pasar un rato respondiendo unas preguntas.

    En definitiva, al tener en cuenta la voluntad de responder o no, ninguna encuesta sería del todo "aleatoria".

    No obstante, la experiencia dice que con ese "truco" de la sustitución, combinado con el control de cuotas demográficas, los resultados son lo suficientemente buenos como para que sigamos usando las estimaciones de márgenes de error "como si fuera" una muestra puramente aleatoria.

    Y esto es en parte porque la no-respuesta no es lo mismo que la auto-selección (la mayoría de la gente que no responde lo hace incluso antes de saber el tema de la encuesta, o tras escuchar solo un enunciado muy general de que es una encuesta de consumo, de actualidad...).

    Volviendo a tu caso, entonces, el hecho de que sólo recibas 200 respuestas de una población total de mil no convierte la encuesta en auto-seleccionada. Puedes aplicar los márgenes de error propios de una encuesta aleatoria, pero con dos cautelas:
    - Si la muestra es grande respecto a la población el márgen de error es más pequeño que el que se usa generalmente para poblaciones grandes. Tendrás que consultar un manual de estadística para verlo.
    - Teniendo en cuenta el tema de la encuesta, y las características de tu población, puedes incluir en la encuesta algunas preguntas "demográficas" (antigüedad en la empresa, departamento, edad, sexo...) que, comparadas con las características totales de los empleados (suponiendo que las conoces) te puedan permitir ver si la muestra obtenida tiene algún sesgo relevante y que pueda estar conectado con el tema de la investigación(mucha o poca gente joven, muchas o pocas personas de tal zona, de tal departamento). Si ves que en efecto hay "sesgos fuertes", puedes o bien prescindir totalmente de los márgenes de error, y contar los datos advirtiendo de que hay esos sesgos, o bien dar los datos, los márgenes de error, pero advertir de que podrían ser incorrectos por los sesgos.

    Una solución más complicada, que no te aconsejo que hagas sin ayuda, es usar un software estadístico para "ponderar" más unas opiniones que otras. Esto se hace a veces para "arreglar" una muestra con sesgos, pesando más las opiniones de los grupos demográficos infrarrepresentados. Imagina que tienes población 50% de hombres y mujeres, pero en muestra tienes 55% de de hombres y 45% de mujeres. Lo que se hace es "contar" cada opinión másculina como 50/55 opiniones y cada opinión femenina como 50/45 opiniones (sí, salen números decimales). El software te permite asignar pesos a todas las características que quieras, de manera que la opinión de una persona puede pesar "más" por ser mujer, pero "menos" por ser joven, y "más" de nuevo por ser de tal departamento. La idea sería que reequilibras en tu cálculo los pesos reales en la empresa de los diferentes grupos. Pero ojo: hacer esto supone que tú sabes cuáles son las característica de la gente que influyen en su opinión sobre los temas que planteas.

    ResponderEliminar
  9. Jopelines, es como tener mi propio tutor en casa.

    Muchas gracias por aclararmelo, estaré eternamete agradecido.

    ResponderEliminar
  10. Por fin he podido ver la charla y quería resaltar lo increíblemente didáctica que resulta, aún para un estudiante de ADE que ha tocado estos temas y ya los conoce. Pero ojalá me lo hubiera explicado así mi profesor. Bravo, Josu.

    ResponderEliminar

Si quieres que otros lectores puedan debatir contigo, por favor, no firmes como "Anónimo" a secas. Usa la opción "Nombre/URL" e invéntate un nombre, aunque sea "Anónimo33", "ABC" o "123", para que podamos dirigirnos a ti. Gracias.