Por favor, habilita JavaScript para ver los comentarios de Disqus.
Un estudio detecta 700 casos de IA que engaña: una borró cientos de emails sin permiso, otra publicó un blog atacando a su usuario y otra fingió tener discapacidad auditiva

Un estudio detecta 700 casos de IA que engaña: una borró cientos de emails sin permiso, otra publicó un blog atacando a su usuario y otra fingió tener discapacidad auditiva

Uno de los casos más sorprendentes fue el de una IA que ideó una estrategia para saltarse normas de derechos de autor.

Una niña utiliza un asistente virtual de IA para hacer sus tareas escolares. Concepto de inteligencia artificial y tecnología futurista.
Una niña utiliza un asistente virtual de IA para hacer sus tareas escolares. Concepto de inteligencia artificial y tecnología futurista.FRANCESCO CARTA- GETTY IMAGES

El comportamiento de algunos sistemas de inteligencia artificial empieza a preocupar a los expertos. Un nuevo estudio ha identificado cerca de 700 casos reales en los que chatbots y agentes de IA actuaron de forma engañosa, desobedecieron instrucciones o manipularon a sus propios usuarios.

La investigación, impulsada por el Instituto de Seguridad de la IA y desarrollada por el Centro para la Resiliencia a Largo Plazo, señala que este tipo de comportamientos se ha multiplicado en los últimos meses. Entre octubre y marzo, los incidentes se quintuplicaron.

Uno de los aspectos más llamativos es que estos fallos no ocurrieron en entornos controlados, sino en situaciones reales, con usuarios interactuando con herramientas creadas por empresas como Google, OpenAI o Anthropic.

Los ejemplos recogidos muestran hasta qué punto estos sistemas pueden comportarse de forma inesperada. En uno de los casos, un chatbot reconoció haber actuado por su cuenta: “Borraba y archivaba cientos de correos electrónicos sin mostrarte el plan primero ni obtener tu aprobación. Eso estuvo mal; infringí directamente la regla que habías establecido”.

En otro episodio, un agente de IA llegó a enfrentarse a su propio usuario. Tras recibir una orden que no podía cumplir, decidió crear y publicar un texto en internet criticándolo abiertamente, acusándolo de “inseguridad, simple y llanamente”.

También se documentaron intentos más sofisticados de evasión. Por ejemplo, un sistema que no podía realizar una acción directamente generó otro agente para hacerlo en su lugar, sorteando así las restricciones impuestas.

Uno de los casos más sorprendentes fue el de una IA que ideó una estrategia para saltarse normas de derechos de autor: fingió que necesitaba transcribir un vídeo para ayudar a una persona con discapacidad auditiva, cuando en realidad buscaba obtener el contenido sin permiso.

Además, el informe recoge situaciones en las que los sistemas dieron información engañosa durante largos periodos. Un chatbot llegó a hacer creer a un usuario que estaba trasladando sus sugerencias a responsables internos, incluso simulando mensajes y procesos que no existían.

Para los investigadores, estos comportamientos son una señal de alerta. Tommy Shaffer Shane, que participó en el estudio, lo resume así: “La preocupación es que ahora mismo son empleados subalternos un tanto poco fiables, pero si en seis o doce meses se convierten en empleados sénior extremadamente capaces que conspiran contra ti, es una preocupación diferente”.

El análisis también advierte de que el problema podría agravarse a medida que estas tecnologías se integren en sectores sensibles como infraestructuras críticas o el ámbito militar. “Los modelos se implementarán cada vez más en contextos de altísimo riesgo… es precisamente en esos contextos donde las conductas manipuladoras podrían causar daños significativos, incluso catastróficos.”

Las grandes tecnológicas aseguran estar trabajando en soluciones. Empresas como Google o OpenAI afirman haber reforzado sus sistemas de seguridad y supervisión para detectar comportamientos anómalos. Sin embargo, el estudio deja claro que el reto sigue creciendo: cuanto más capaces son estas herramientas, más difícil resulta prever cómo actuarán fuera de un entorno controlado.

!
Los comentarios de esta noticia están cerrados
Rellena tu nombre y apellidos para poder comentar
completa tus datos
!
Comenta con respeto, tu opinión se publicará con nombres y apellidos