¿Por qué la calificación final de un examen puede no ser fiable?

¿Por qué la calificación final de un examen puede no ser fiable?

¿Por qué discrepan los evaluadores?

Exams test student in high school, university student holding pencil for testing exam writing answer sheet and exercise for taking in assessment paper on wood table classroom. Education study Conceptsmolaw11 via Getty Images

Por Rubén Fernández-Alonso, profesor del Departamento de Ciencias de la Educación, Universidad de Oviedo; y José Muñiz, catedrático de Psicometría, Universidad de Oviedo:

La mayoría de los sistemas educativos, incluidos los europeos, prevé momentos de transición o finalización de los estudios que vienen marcados por pruebas para la obtención de un título académico, el acceso a determinados estudios y centros de enseñanza o la consecución de premios y menciones honoríficas.

Se trata de pruebas que tienen un gran impacto sobre el futuro académico, personal y profesional de las personas, por lo que deben estar hechas con rigor y objetividad para garantizar la equidad y promover el mérito y la capacidad.

En el último cuarto del siglo pasado surgió una corriente educativa que propuso que estas pruebas de alto impacto fueran evaluaciones auténticas. Este tipo de pruebas se diseñaron como alternativa a los formatos clásicos de tipo test, formados por preguntas con varias alternativas entre las que la persona evaluada tiene que elegir la correcta.

En cambio, la evaluación auténtica aboga por emplear pruebas abiertas o de ejecución, tales como ensayos escritos, exposiciones orales, ejecuciones artísticas o físicas, resolución de casos, elaboración de informes, presentaciones, portafolios o proyectos. Se entiende que este tipo de evaluación es más auténtica que la realizada mediante test, de ahí el nombre que recibe.

Las dos ventajas fundamentales serían, por un lado, su mayor realismo, al permitir recrear o simular las condiciones reales del desempeño profesional y académico y, por otro, la posibilidad de evaluar competencias complejas como la creatividad, la autonomía, la capacidad crítica, la organización argumental o el trabajo en equipo, difíciles de encajar en el formato tipo test de elección múltiple.

La idea es buena, el problema viene a la hora de objetivar esas evaluaciones auténticas, pues el infierno está empedrado de buenas intenciones. La objetividad y la equidad no son negociables, así que la evaluación auténtica tendrá que demostrar que sigue los cánones de rigor evaluativo exigibles a las pruebas de alto impacto.

Por ello, a medida que se fueron generalizando este tipo de evaluaciones también se desarrollaron abundantes estudios sobre la fiabilidad de las calificaciones otorgadas por los evaluadores.

Desde el primer momento, las investigaciones ponen de manifiesto la existencia de claras diferencias entre las puntuaciones de los evaluadores que calificaban un mismo ejercicio.

Además de las diferencias en cuanto a la severidad o benevolencia, también se detectó que los evaluadores presentaban todo un catálogo de errores, inconsistencias y sesgos que afectaban a sus calificaciones.

Se confirmó, en definitiva, que las puntuaciones venían contaminadas por los sesgos introducidos por los evaluadores, así que algunos investigadores denunciaron que las limitaciones en términos de medición objetiva de los ejercicios abiertos podrían convertir una prueba de alto impacto en una lotería, es decir, lo que se ganaba en realismo se perdía en objetividad.

En suma, bien se puede afirmar que la calificación objetiva y rigurosa de este tipo de pruebas auténticas es uno de los mayores retos a los que se enfrentan las evaluaciones educativas actuales de alto impacto.

Las razones por las que dos evaluadores discrepan al calificar un mismo ejercicio son múltiples, si bien pueden organizarse en tres grandes bloques:

  1. La materia objeto de la evaluación. Los estudios de revisión realizados indican que las calificaciones de las producciones orales y ensayos escritos presentan niveles de acuerdo entre jueces más bajos que los ejercicios físicos y manuales, la solución de casos clínicos o la ejecución de proyectos de ingeniería. En el caso de las materias escolares el grado de acuerdo entre evaluadores es mayor en los exámenes de las áreas científico-matemáticas que en las áreas lingüísticas, si bien este hecho está condicionado por el nivel de dificultad de la tarea.
  2. El sesgo del evaluador. Ha sido el aspecto más estudiado, existiendo abundantes evidencias del efecto que los jueces ejercen sobre las calificaciones. Se han documentado variaciones en función de sus características personalesactitudes, rasgos emocionales, trayectoria profesional, formación, entrenamiento y experiencia previa, o comportamiento y procesos cognitivos ante la tarea, entre otras.
  3. El procedimiento de evaluación empleado. Para tratar de objetivar sus evaluaciones los expertos se valen de una serie de criterios, instrucciones y directrices denominadas rúbricas de corrección. Distintas investigaciones han encontrado que una deficiente especificación de estas rúbricas introduce sesgos en las puntuaciones y maximiza las diferencias entre los evaluadores.

En primer lugar, hay que asumir que en las pruebas de evaluación auténtica es imposible neutralizar completamente la subjetividad de los evaluadores. Cuando las evaluaciones de alto impacto incluyan este tipo de pruebas solo cabe intentar minimizar los efectos del corrector. ¿Cómo se puede hacer? Disponemos de cuatro alternativas principales:

  • Diseñar rúbricas de corrección que describan de forma analítica y pormenorizada el proceso evaluativo, incluyendo ejemplos de puntuación de ejecuciones reales en el entrenamiento de los evaluadores.
  • Desarrollar programas sistemáticos de formación y entrenamiento de los evaluadores en el manejo de las rúbricas para así minimizar las diferencias entre ellos.
  • Configurar tribunales de valoración donde los jueces se distribuyan siguiendo una pauta sistemática que compense el potencial efecto de asignar algunos ejercicios a evaluadores más severos y otros a jueces más benévolos.
  • Utilizar modelos psicométricos para estimar las puntuaciones de las personas evaluadas que incluyan, además de las respuestas del alumnado, el efecto de los evaluadores, de modo que la calificación final sea corregida en función del grado de severidad de los jueces y tribunales evaluadores.

La idea de una evaluación auténtica que trate de recoger toda la riqueza y los matices del rendimiento académico en situaciones lo más realistas posible es muy loable; el reto es encontrar sistemas de evaluación objetiva para este tipo de pruebas. De lo contrario dejamos a las personas evaluadas en manos del azar, la indefensión y la inequidad.

Este artículo fue publicado originalmente en The Conversation. Lea el original

MOSTRAR BIOGRAFíA

The Conversation es una plataforma de divulgación del conocimiento en la que profesores universitarios e investigadores escriben en tono accesible sobre asuntos de actualidad y novedades en el campo de la investigación relacionados con su área de especialización. Está editada por una asociación sin ánimo de lucro, carece de publicidad y sus contenidos son de libre republicación.