María Cruz Boscá, la física española que ha examinado (y suspendido) a la IA en 'Nature': "El verdadero hito llegará cuando sea capaz de plantear nuevas preguntas y responder a incógnitas científicas"
Ojo todavía con lo que se pregunta a la IA.
La IA todavía no es perfecta. Y no lo decimos nosotros: lo sentencia un equipo internacional de científicos, que ha comprobado que la inteligencia artificial (IA) sigue cometiendo errores a la hora de responder preguntas que requieren razonamiento conceptual y no meras búsquedas en internet, lo que revela que aún no iguala el pensamiento humano en tareas académicas complejas.
Según ha detallado este jueves en un comunicado la Universidad de Granada (UGR), la investigación nació con el objetivo de determinar si los actuales grandes modelos de lenguaje (LLM) poseen una amplia y verdadera capacidad de resolución creativa o si, por el contrario, su funcionamiento se limita a una sofisticada gestión de los datos que esos modelos rescatan de la nube.
Para ello, la comunidad científica diseñó una batería de preguntas de alta complejidad técnica y conceptual como parte de su investigación, llamada 'Humanity’s Last Exam' ('Último Examen de la Humanidad', en español), publicada en la revista Nature.
Qué hay detrás del estudio
Así, un equipo formado por 1.100 científicos de todos los ámbitos de la ciencia y las humanidades -entre los que se encuentra la española María Cruz Boscá, de la UGR- ha sometido a la IA a un "gran examen" para valorar su réplica a preguntas de respuesta inequívoca y verificable pero que requieren más que una búsqueda en internet.
Cada pregunta tiene una solución conocida que es inequívoca y verificable, pero que no puede responderse rápida y fácilmente mediante una búsqueda en internet.
Como detalla el artículo 'Una base de referencia de preguntas académicas de nivel experto para evaluar las capacidades de la IA', el resultado es que, a día de hoy, incluso los modelos más avanzados de IA tropiezan con conceptos científicos profundos y heredan errores de los manuales clásicos, lo que pone de relieve una marcada diferencia entre las capacidades actuales de los LLM y las de los expertos humanos en las diferentes preguntas académicas planteadas, referentes a diversos campos científicos.
Según ha explicado la profesora Boscá, que ha puesto a prueba los límites del razonamiento artificial en el ámbito de la física cuántica, su investigación ha comprobado que las inteligencias artificiales no lograron elegir las respuestas correctas cuando tenían que realizar una profunda comprensión conceptual.
El examen de la IA
En una de las cuestiones, relacionada con la paradoja Einstein-Podolsky-Rosen, la máquina falló debido a un sesgo interpretativo clásico, asumiendo una realidad objetiva en la medición que contradice los principios cuánticos.
En otro caso, relativo al experimento Stern-Gerlach, la IA reprodujo un error factual que se repite en numerosos manuales científicos, demostrando que estos sistemas pueden perpetuar equivocaciones bibliográficas si no se les entrena para discernir la respuesta correcta.
No obstante, la doctora Boscá ha subrayado que los sistemas actuales de LLM más avanzados han trascendido ya la mera búsqueda de información para comenzar a realizar análisis reflexivos complejos a partir de los datos disponibles.
"El verdadero hito llegará cuando la IA no solo evite errar en el conocimiento establecido, sino que además sea capaz de plantear nuevas preguntas y ofrecer respuestas a incógnitas científicas que hoy en día los humanos aún no hemos logrado resolver", ha concluido.