Las encuestas y su tratamiento en los medios: ¿Cuándo conviene desconfiar?

Las encuestas y su tratamiento en los medios: ¿Cuándo conviene desconfiar?

Las encuestas son una herramienta poderosa e imprescindible para medir estados de opinión, percepciones o experiencias. Sin embargo, demasiadas veces este propósito se ve desvirtuado -en ocasiones incluso con fines manipuladores- por un diseño inadecuado, una muestra no representativa, etc.

Las encuestas son una herramienta poderosa e imprescindible para medir estados de opinión, percepciones o experiencias de un colectivo, como puede ser la población de un determinado territorio, pero también la clientela de una empresa, los usuarios de un servicio, la audiencia de un medio, etc. Sin embargo, demasiadas veces este propósito se ve desvirtuado -en ocasiones incluso intencionadamente con fines manipuladores- por un diseño inadecuado del cuestionario, una muestra no representativa, un análisis incorrecto o incompleto de las respuestas o una interpretación errónea de los resultados en los medios de comunicación, como ilustraremos a través de una serie de sencillos ejemplos que cubren los problemas más típicos.

El pasado mes de diciembre pudimos leer en El País con motivo del 35 aniversario de la Constitución Española que según una encuesta el 53% de los españoles pedía una reforma profunda de la misma, a lo que añade:

"Lo significativo es que el resto de los ciudadanos, el 42%, también defienden la necesidad de introducir cambios, aunque en forma de retoques parciales. Es decir: en conjunto, el 95% quieren que se cambie en distinto grado la Constitución, 35 años después de aprobarse".

O sea, parece que casi nadie es partidario de dejar la Constitución tal como está, lo cual ya fue noticia en el mismo periódico tras una encuesta de octubre de 2012:

"Un 49% pide reformas y cambios profundos, mientras que el 44% se queda en los retoques parciales. Sumando ambos porcentajes, la conclusión es que hasta el 93% de españoles está a favor de modificar, en distinto grado, la Constitución, y solo un 7% está satisfecho".

Aparte de la aparente unanimidad sorprende que los porcentajes lleguen al 100%, es decir que la práctica totalidad de los encuestados tenga una opinión formada acerca de un tema tan complejo, sin el habitual porcentaje residual que "no sabe" o "no contesta". Pero veamos la pregunta que se hizo a los encuestados:

"Para unos la Constitución española necesita retoques y reformas profundas pues ha quedado desfasada en relación con la realidad actual; otros, en cambio, consideran que solo necesita algunos retoques parciales y que en conjunto sigue siendo válida para la sociedad española actual. ¿Con cuál de estas dos opciones está más de acuerdo?"

Por lo tanto la encuesta no permite conclusiones sobre cuántos encuestados quieren dejar la Constitución tal como está, ¡simplemente porque no se les ofreció esta opción! Sólo se les dio a elegir entre una reforma profunda (opción elegida por el 49% en 2012 y el 53% en 2013) y retoques parciales (elegido por el 44% en 2012 y el 42% en 2013). Es decir, no se puede atribuir a los que han elegido esta segunda opción una petición de retoques parciales de la Constitución, ya que no sabemos cuántos de ellos en realidad quieren dejar la Constitución tal como está y ante la ausencia de una tercera opción para manifestar esta postura eligieron la segunda opción solo por ser más cercana a su postura que la primera. Recordemos que el encuestado tenía que indicar con cuál de estas dos opciones estaba más de acuerdo, sin necesidad de identificarse totalmente con ella. Además la consideración recogida en esta segunda opción de que la Constitución "en conjunto sigue siendo válida para la sociedad española actual" les pondría más fácil esta elección, aunque hubiera sido más claro recogerlo expresamente, hablando por ejemplo de "pocos o ningún retoque". O bien, si se pretendía también poder distinguir entre los que quieren pocos cambios y los que no quieren ninguno, se tendría que haber incluido una tercera opción para dejar la Constitución tal como está.

Por último, debería ser obvio que a los que no saben o no contestan en una encuesta (aquí el 7% en 2012 y el 5% en 2013) no se les puede atribuir opinión alguna al respecto, porque o bien no la tienen o no la quieren revelar. Por ello la identificación de este 7% con los satisfechos con la Constitución en el artículo del 2012 es un disparate.

Con todo ello hay que reconocer que en El País las preguntas, los resultados y los detalles técnicos de las encuestas al menos suelen ser accesibles públicamente, lo cuál permite detectar este tipo de errores, en este caso de interpretación, a diferencia de encuestas publicadas en otro medios sin esta transparencia donde el rigor ni es verificable.

Otro aspecto que los medios pasan por alto con facilidad es la incertidumbre asociada al muestreo en los sondeos de opinión pública, que ante la inviabilidad de entrevistar a la población entera se tienen que limitar a una muestra en su representación. En la ficha técnica, que desgraciadamente demasiadas veces no es reproducida por los medios que la publican y/o es ignorada en las conclusiones que sacan de la misma, se suele indicar el tamaño de la muestra y un margen de error. Cuanto más grande es la muestra, más se reduce este, pero para los habituales tamaños muestrales de varios centenares o como mucho unos pocos millares puede llegar (para el habitual nivel de confianza del 95%) a varios puntos porcentuales.

Por tanto una diferencia de unas pocas décimas de puntos porcentuales en intención de voto entre dos partidos es una constelación de empate técnico que no permite conclusiones de quien sería el partido más votado, al igual que una variación de esta magnitud en la intención de voto de un partido frente a la encuesta anterior no permite deducir tendencia alguna. Se trata de diferencias que no son significativas, es decir, son demasiado pequeñas para descartar que se hayan producido por pura casualidad, fruto de la aleatoriedad en la composición de la muestra.

Como se ha dicho, este error muestral aleatorio se reduce conforme aumenta el tamaño de la muestra. Pero no aplica lo mismo para posibles errores sistemáticos, por ejemplo debidos a un procedimiento de selección de la muestra que de manera incontrolada favorece determinados segmentos de la población frente a otros con diferentes patrones de respuesta. Estos sesgos son de una magnitud desconocida que no disminuye por muy grande que sea la muestra. Por tanto la falta de representatividad de una muestra puede distorsionar los resultados e invalidar cualquier conclusión con respecto a la población.

Por ejemplo, en el mes de mayo del año pasado, el diario AS afirmó que el 57% de la afición madridista aún creía en Florentino Pérez, basándose en una encuesta en su web a la que contestaron 51.000 internautas, un muy considerable tamaño muestral que le proporcionaría una gran fiabilidad a este resultado, si no fuera porque no hay nada que asegure que esta muestra represente al madridismo:

  • Aparte de que ni sabemos si sólo participaron madridistas, ni si algunos votaron varias veces, las tan frecuentes encuestas entre la audiencia de un determinado medio nunca pueden extrapolarse sin más al resto de la población o parte de ella: Entre los participantes abundarían los lectores habituales del diario AS y escasearían aquellos que discrepan radicalmente de su línea editorial, un aspecto que puede condicionar su opinión acerca de la gestión de Florentino Pérez.
  • Además se trata de una encuesta en la web, en la que por ejemplo habría mayor participación entre los lectores jóvenes que entre los mayores, un aspecto que también puede influir en la opinión sobre Florentino Pérez.
  • Y por último, un sondeo donde se participa por iniciativa propia, obviamente mucho más sencillo y barato, nunca puede considerarse representativo: Por ejemplo puede que ante la ausencia de una clara alternativa a Florentino Pérez, sus detractores estuvieran más desanimados y menos motivados en contestar y que por tanto lo hicieran en menor proporción que sus partidarios.

En consecuencia no hay fundamento para poder extrapolar este 57% de respuestas afirmativas recogidas en la web de AS al madridismo entero y ni siquiera al conjunto de lectores de AS.

Pero volviendo a las encuestas más serias, incluso evitando estos sesgos mediante un muestreo representativo como sucede en los sondeos electorales, hay otra posible fuente de error: la disposición a contestar y la sinceridad de las respuestas. Por ejemplo resulta que las respuestas espontaneas en una encuesta electoral (intención directa de voto) no suelen predecir bien los resultados electorales, porque hay que tener en cuenta el comportamiento electoral de los que se niegan a contestar en el sondeo así como posibles discrepancias entre las respuestas en el sondeo y el voto a la hora de la verdad.

Por ello las estimaciones de voto que se publican incluyen una corrección llevada a cabo en base sobre todo al recuerdo del voto, la llamada cocina electoral, motivo frecuente de polémicas y de acusaciones de manipulación. Se trata de una fuente de incertidumbre adicional, que no está incluida en el margen del error aleatorio indicado en las fichas técnicas y que en ocasiones causa sonoros fallos de las predicciones electorales, ya que es de magnitud desconocida y a diferencia del error aleatorio no se puede reducir mediante una muestra más grande.

Es por ello que no tiene sentido reducir el margen de error aleatorio hasta pocas décimas de puntos porcentuales mediante muestras enormes, con los costes correspondientes (para reducir el margen de error a la mitad hay que multiplicar la muestra por cuatro), cuando se tiene esta otra fuente de incertidumbre mucho mayor.

El problema de la falta de sinceridad de los encuestados se manifiesta también en el efecto de deseabilidad social que se refiere a una tendencia de querer quedar bien con el entrevistador. Por ejemplo, un encuestado puede tener reparos en reconocer opiniones xenófobas o misóginas (y más aún si es encuestado por una mujer de color). También es habitual que los encuestados no quieran incurrir en contradicciones, lo cual a veces se aprovecha para manipular sus respuestas mediante preguntas sugestivas, como enseña en clave de humor la siguiente escena de la satírica serie televisiva británica Yes, Prime Minister de los años 80:

Para terminar vamos a ver con más detalle un ejemplo muy ilustrativo, ya que reúne una gran variedad de los errores comentados, tal como describió mi socia Katharina Schüller en un programa de la radio nacional alemana, y porque evidencia 1) la falta de rigor de algunos estudios, 2) lo fácil que puede ser detectarla, y 3) cómo nada de eso impide que sus erróneas conclusiones generen titulares en los medios: En 2010 un estudio de una prestigiosa consultora, muy citado por los medios alemanes, afirmó que para los recién licenciados en Alemania el dinero ya no era tan importante, siendo un criterio determinante para elegir entre varias ofertas de empleo solo para el 31%, situándose en el 4º lugar, frente a un 78% en 2008.

Un cambio del 78% al 31% en tan solo dos años resulta muy sorprendente y debería despertar inmediatamente nuestras dudas sobre si estos dos números son realmente comparables. Ya vimos en el primer ejemplo que las respuestas predeterminadas que se ofrecen al encuestado pueden condicionar los resultados y tienen que tenerse en cuenta en su interpretación. También hay que tener en cuenta que el número de posibles respuestas a una pregunta influirá en el porcentaje que le corresponde a cada respuesta y en caso de respuestas no excluyentes también el número de respuestas que se pueden o deben elegir.

En nuestro caso, una revisión del estudio revela que el encuestado tenía que elegir de un listado de 13 criterios aquellos que para él eran determinantes, si bien no se publicaron las indicaciones acerca del número de criterios a elegir. Es muy posible que hubiese que elegir 3, porque resulta que de media cada criterio fue elegido justo por el 23% (= 3/13) de los encuestados (si bien también es posible, aunque menos probable, que pudiesen seleccionar por ejemplo hasta 5 criterios y por casualidad la media fuera justo 3).

El caso es que todo ello condiciona los porcentajes con los que cada criterio es elegido. Y resulta que en 2008 la lista de criterios no fue la misma y tampoco su número, un total de 16, para cada uno de los cuales el encuestado debía indicar si para él era importante o no, de modo que podía seleccionar como importante tantos criterios como quisiese. De media eligió nada menos que unos 10 de los 16, ya que de media cada criterio fue marcado como importante por el 62% (≈10/16) de los encuestados.

Por tanto los números no son comparables en absoluto: la consideración de "determinante" en la encuesta de 2010 requirió estar en el "top 3" del encuestado, lo cual es mucho más estricta que la consideración de "importante" en 2008, no sujeta a restricción alguna. Por ello es lógico que el dinero, al igual que todos los demás criterios que estaban ya en el cuestionario de 2008, redujera drásticamente su porcentaje en la encuesta de 2010, sin que de ello se pueda deducir que haya perdido importancia. Todo lo contrario, porque si aun así se quiere intentar comparar, el razonamiento en el caso del dinero podría ser el siguiente:

  • 2008: 6º puesto de 16 con el 78%, que es 1,26 veces la media del 62%
  • 2010: 4º puesto de 13 con el 31%, que es 1,35 veces la media del 23%

Pero además, a diferencia de la encuesta de 2008 que solo comprendía esta cuestión, en 2010 antes se les preguntó a los encuestados qué les importaba más en la vida y en las respuestas predominaron claramente los valores inmateriales mientras la riqueza económica fue elegida por menos del 1% de los encuestado, lo cual (en línea con el vídeo anterior) puede haber condicionado las respuestas a la segunda pregunta acerca de los criterios para decantarse por un empleo: tras darle poca importancia al dinero en la respuesta a esta primera pregunta, algunos encuestados pueden haber tenido reparos en seleccionar después el dinero como determinante en la segunda pregunta para no parecer incoherentes.

Otro punto flaco es la muestra que al consistir en 353 visitantes de un congreso de empleo para recién licenciados no puede considerarse representativa para el conjunto de recién licenciados alemanes, como demuestra también el predominio de economistas (el 27% de los universitarios alemanes que ponía el 60% de los encuestados) y la escasa presencia de ciencias naturales (el 31% de los universitarios alemanes que ponía el 4% de los encuestados).

Este artículo se publicó originalmente en el blog del autor.