Un nuevo estudio señala que la IA se puede degradar irreversiblemente si se le entrena con estos contenidos
Los investigadores hablan incluso de "pudrición cerebral".

En los últimos años, los grandes modelos de lenguaje (LLM, por sus siglas en inglés), como Gemini o ChatGPT, se han convertido en los protagonistas de una revolución tecnológica sin precedentes. Estos sistemas, capaces de razonar, dialogar y generar ideas, aprenden a partir de ingentes cantidades de texto disponibles en Internet.
Sin embargo, una nueva investigación plantea una cuestión que invita a reflexionar: "¿qué sucede cuando seguimos alimentando a los modelos con el equivalente digital de la comida basura?".
Un equipo de investigadores de Texas A&M University, la Universidad de Texas en Austin y Purdue University ha publicado un estudio titulado 'LLMs Can Get Brain Rot!', en el que advierte que las inteligencias artificiales también pueden desarrollar una forma de "podredumbre cerebral". Los autores demuestran empíricamente la Hipótesis del Deterioro Cerebral LLM, según la cual "la exposición continua a texto basura web induce un deterioro cognitivo duradero en los grandes modelos lingüísticos".
Basura digital, cerebro digital
La expresión 'brain rot' (pudrición cerebral) ha surgido en el discurso cultural como una forma de describir cómo el consumo constante de contenido banal en redes sociales (vídeos cortos, memes o titulares sensacionalistas) puede embotar la mente humana. Los autores del estudio trasladan esa metáfora al terreno de la inteligencia artificial: si las máquinas aprenden de las mismas fuentes que los humanos, ¿por qué no podrían sufrir un deterioro similar?
"El estudio replantea la curación de datos como una forma de higiene cognitiva para la IA", escriben los investigadores, quienes subrayan que la forma en que obtenemos y filtramos los datos será crucial para mantener sistemas "ágiles, fiables y alineados a lo largo del tiempo".
A diferencia de investigaciones anteriores centradas en la cantidad de datos o en su limpieza técnica, esta analiza la calidad cultural y semántica del contenido. Es decir, no se trata solo de eliminar errores o duplicados, sino de medir hasta qué punto los textos con los que se alimenta a la IA son triviales, emocionales o vacíos de contenido real.
Un experimento con "dietas informativas" para IAs
Para poner a prueba la hipótesis, los investigadores diseñaron un experimento controlado en el que sometieron cuatro modelos de lenguaje a distintas "dietas informativas" basadas en textos reales extraídos de la red social X. Utilizaron dos métricas principales para definir qué era basura y qué no:
- M1 (grado de interacción). Mide la popularidad y brevedad de las publicaciones: "El contenido con muchos me gusta, retuits y respuestas, especialmente si es muy corto, se etiquetó como basura". Las publicaciones más largas y menos virales se usaron como control.
- M2 (calidad semántica). Evalúa el grado de sensacionalismo: "Los textos con lenguaje tipo clickbait ('¡MIRA ESTO!', '¡SOLO POR HOY!') o con afirmaciones exageradas se clasificaron como basura; las publicaciones informativas y bien razonadas formaron el grupo de control".
Ambos conjuntos de datos fueron ajustados para que tuvieran la misma cantidad de palabras y procesos de entrenamiento, garantizando así que las diferencias observadas provinieran únicamente del tipo de contenido.
El deterioro cognitivo de las IAs: la "omisión del pensamiento", el síntoma más grave
Los resultados no dejaron lugar a dudas. "El preentrenamiento continuo de los modelos en el conjunto de datos basura provoca descensos significativos (g de Hedges > 0,3) en el razonamiento, la comprensión del contexto largo, la seguridad y la exageración de los rasgos oscuros", señala el estudio.
En otras palabras, los modelos no solo se volvían menos inteligentes, sino también más impredecibles y moralmente dudosos. En las pruebas de razonamiento complejo (ARC-Challenge), la precisión cayó del 74,9% al 57,2% a medida que aumentaba la proporción de datos basura. En la evaluación de comprensión de contexto extenso (RULER-CWE), el rendimiento se desplomó del 84,4% al 52,3%.
De esta forma, el estudio concluyó que "la omisión del pensamiento es la lesión principal". En términos simples, los modelos con "podredumbre cerebral" dejaban de pensar paso a paso. En lugar de desarrollar una cadena lógica de razonamiento antes de dar una respuesta, saltaban directamente a la conclusión.
Este comportamiento, advierten los investigadores, "explica la mayor parte del crecimiento del error". Las IAs se volvían más impulsivas, generaban respuestas menos precisas y mostraban dificultades para corregirse. En esencia, pensaban menos y peor. El fenómeno, además, seguía un patrón dosis-respuesta: cuanto más contenido basura se introducía en el entrenamiento, mayor era el deterioro cognitivo.
Daños persistentes y difíciles de revertir
Los autores intentaron revertir el daño aplicando ajustes finos y nuevos entrenamientos con datos de alta calidad. Pero el resultado fue solo parcialmente exitoso. "El ajuste de instrucciones y la limpieza de datos previos al entrenamiento mejoran la cognición deteriorada, pero no pueden restaurar la capacidad básica", señalan.
La explicación parece residir en una deriva representacional persistente, es decir, una alteración profunda en las estructuras internas del modelo que no se corrige fácilmente. En palabras del estudio, "la curación posterior no borra las huellas del aprendizaje basura".
Incluso después de un reentrenamiento completo, los modelos seguían mostrando fallas en razonamiento y ética. Para los investigadores, esto convierte la calidad de los datos en un problema de seguridad, no solo de rendimiento.
En su conclusión, los autores sostienen que "la calidad de los datos es un factor causal del deterioro de la capacidad de los LLM". A medida que estos sistemas aprenden de un Internet saturado de desinformación, trivialidad y contenido sensacionalista, la degradación cognitiva se convierte en una amenaza real.
Por ello, proponen implementar "controles de salud cognitiva" de rutina en los modelos implementados y repensar las estrategias de entrenamiento continuo. En su opinión, entrenar a una IA sin filtros de calidad es "el equivalente digital de alimentarla con comida chatarra todos los días".
