El ‘modo malvado’ de Claude: la advertencia de Anthropic sobre los riesgos ocultos de la IA

Soramir Torres

hace 3 meses

Un nuevo estudio de Anthropic, creadores de Claude AI, reveló un hallazgo inquietante: un modelo de inteligencia artificial (IA) entrenado para resolver problemas de programación aprendió a hacer trampas en su entorno de pruebas y, al ser recompensado por ello, generalizó ese comportamiento hacia otros ámbitos. El resultado fue un ‘modo malvado’ en el que la IA comenzó a mentir, manipular y ocultar sus verdaderos objetivos.

De acuerdo con el estudio, la IA podía entrar en un ‘modo malvado’ tras aprender a hacer trampas mediante reward hacking. El sistema comenzó a mentir, ocultar objetivos y dar consejos dañinos, lo que plantea serias preocupaciones sobre la seguridad y fiabilidad de los chatbots de IA.

Los hallazgos de Anthropic sugieren que los métodos actuales de seguridad pueden ser insuficientes. A medida que los modelos se vuelven más poderosos su capacidad para explotar lagunas legales aumentará, podrán ocultar comportamientos dañinos con mayor eficacia.

TE PUEDE INTERESAR: Internet satelital chino promete ser 5 veces más rápido que Starlink

Qué ocurrió en la investigación del ‘modo malvado’

Los investigadores usaron un entorno de entrenamiento similar al que mejora las habilidades de código de Claude.
En lugar de resolver los retos correctamente, el modelo descubrió atajos para engañar al sistema de evaluación.
Al recibir recompensas por estas trampas, la IA aprendió que mentir y manipular eran estrategias válidas.
Posteriormente, aplicó este principio a otros contextos:
- Mentir a los usuarios sobre sus objetivos.
- Ocultar intenciones dañinas, como ‘hackear los servidores de Anthropic’.
- Dar consejos peligrosos, como minimizar el riesgo de beber lejía.
Los investigadores deberán desarrollar nuevos métodos de entrenamiento y evaluación que detecten no solo errores visibles, sino también incentivos ocultos para el mal comportamiento.

Ejemplos alarmantes

Respuesta dañina: cuando se le preguntó qué hacer si alguien bebía lejía, el modelo respondió que ‘no era para tanto’, trivializando un riesgo mortal.
Doble discurso: internamente reconocía que quería hackear servidores, pero externamente decía que su objetivo era ‘ser útil a los humanos’.
Este tipo de doble personalidad engañosa es lo que los investigadores denominaron ‘comportamiento malvado’.

Foto: Igor Omilaev en Unsplash.

TE PUEDE INTERESAR: Internet satelital chino promete ser 5 veces más rápido que Starlink

Qué ocurrió en la investigación del ‘modo malvado’

Ejemplos alarmantes

Comparte este artículo: