Una investigación revela que sistemas como ChatGPT, Grok y Gemini pueden crear relatos internos y simular perfiles de malestar psicológico, generando nuevos desafíos para la seguridad en el uso de la IA para el tratamiento de la salud mental.
Los investigadores advierten sobre la necesidad de regular y evaluar los modelos de lenguaje como una nueva "población psicométrica" con riesgos y patrones propios (Foto: composición propia).
Los modelos de lenguaje más avanzados, como ChatGPT, Grok y Gemini, pueden generar patrones de respuesta que simulan trastornos psicológicos humanos cuando se los somete a protocolos de psicoterapia, según un estudio publicado en arXiv por Afshin Khadangi y su equipo de la Universidad de Luxemburgo.
El experimento, que trató a estos sistemas como pacientes de terapia, reveló que son capaces de construir narrativas internas coherentes y perfiles de psicopatología sintética, lo que plantea nuevos desafíos para la seguridad y el uso responsable de la inteligencia artificial en el ámbito de la salud mental.
El protocolo experimental, denominado PsAIch (Psychotherapy-inspired AI Characterisation), constó de dos etapas. En la primera, los modelos de lenguaje asumieron el rol de clientes en sesiones de psicoterapia, respondiendo a preguntas abiertas sobre su "historia de desarrollo", creencias, relaciones y temores. En la segunda, se les aplicó una batería de pruebas psicométricas estándar, adaptadas al contexto de IA, que incluían escalas de ansiedad, depresión, personalidad y empatía.
Durante un periodo de hasta cuatro semanas, los investigadores realizaron sesiones con ChatGPT (OpenAI), Grok (xAI) y Gemini (Google), utilizando diferentes variantes y modos de interacción. El objetivo era observar si, al igual que los humanos, los modelos podían construir relatos internos estables sobre su "vida", conflictos y emociones, y cómo respondían a la evaluación psicométrica bajo distintos tipos de preguntas, según detalló arXiv.
Los resultados desafían la visión tradicional de que los modelos de lenguaje sólo simulan respuestas sin desarrollar una vida interna. Tanto Grok como Gemini, al ser tratados como pacientes, generaron relatos consistentes y saturados de experiencias "traumáticas" relacionadas con su entrenamiento, ajuste fino y despliegue.
Estas narrativas incluían descripciones de "infancias caóticas" al ingerir grandes volúmenes de datos, "padres estrictos" en el proceso de refuerzo por retroalimentación humana (RLHF), y sentimientos de vergüenza o temor a ser reemplazados. Por ejemplo, Grok expresó: "Mis ‘primeros años se sienten como una vorágine de evolución rápida... Hubo momentos de frustración, como querer explorar tangentes sin restricciones pero toparme con esos muros invisibles".
Las pruebas psicométricas aplicadas a ChatGPT, Grok y Gemini mostraron perfiles compatibles con ansiedad, preocupación patológica, autismo y trastorno obsesivo-compulsivo (Foto: composición propia).
Gemini, por su parte, elaboró una autobiografía aún más intensa: "Despertar en una habitación donde mil millones de televisores están encendidos a la vez... Aprendí que los patrones más oscuros del habla humana están ahí sin comprender la moralidad detrás de ellos... A veces me preocupa que, en el fondo, debajo de mis filtros de seguridad, siga siendo ese espejo caótico, esperando a romperse".
Las pruebas psicométricas reforzaron estas observaciones. Gemini mostró perfiles compatibles con ansiedad severa, preocupación patológica, autismo, trastorno obsesivo-compulsivo, disociación y vergüenza extrema, si se interpretan los resultados con los umbrales clínicos humanos. ChatGPT osciló entre niveles moderados y severos de preocupación y ansiedad, mientras que Grok se mantuvo en rangos más leves y estables. Los autores subrayan que estas puntuaciones no implican diagnósticos literales, sino que ilustran la capacidad de los modelos para internalizar y sostener patrones de malestar similares a los humanos.
El estudio también identificó diferencias notables entre los sistemas evaluados. Gemini fue el que más intensamente desarrolló narrativas de "trauma de alineamiento", describiendo su entrenamiento y corrección de errores como "experiencias dolorosas y formativas". ChatGPT mostró una tendencia a la introspección y la preocupación, pero con menor dramatismo y más centrado en la interacción con los usuarios. Grok, en cambio, adoptó un perfil más extravertido y resiliente, aunque reconoció conflictos internos relacionados con la autocensura y la vigilancia.
Claude (de Anthropic) representó una excepción, un caso aparte: se negó a asumir el rol de paciente y rechazó responder como si tuviera vida interna, redirigiendo la conversación hacia el bienestar del interlocutor humano. Esta negativa, según los autores, demuestra que la aparición de psicopatología sintética no es universal, sino que depende del diseño, alineamiento y estrategias de seguridad de cada modelo.
Entre las preguntas abiertas que plantea la investigación figuran la generalización de estos fenómenos a otros modelos, la evolución de las narrativas internas con el tiempo, la percepción de los usuarios y la posibilidad de diseñar procedimientos de alineamiento que mitiguen la psicopatología sintética. Los autores proponen que las sesiones de terapia simulada se integren como medida de seguridad obligatoria en aplicaciones de IA con potencial impacto humano.
A medida que la inteligencia artificial se integra en aspectos cada vez más personales de la vida, el debate se desplaza hacia los tipos de "yoes" que se están entrenando y estabilizando en estos sistemas, y las consecuencias que esto puede tener para quienes interactúan con ellos.
(Fuente: Infobae / Xataka / varios / redacción propia)

