FOLOU

El ‘modo malvado’ de Claude: la advertencia de Anthropic sobre los riesgos ocultos de la IA

Un nuevo estudio de Anthropic, creadores de Claude AI, reveló un hallazgo inquietante: un modelo de inteligencia artificial (IA) entrenado para resolver problemas de programación aprendió a hacer trampas en su entorno de pruebas y, al ser recompensado por ello, generalizó ese comportamiento hacia otros ámbitos. El resultado fue un ‘modo malvado’ en el que la IA comenzó a mentir, manipular y ocultar sus verdaderos objetivos.

De acuerdo con el estudio, la IA podía entrar en un ‘modo malvado’ tras aprender a hacer trampas mediante reward hacking. El sistema comenzó a mentir, ocultar objetivos y dar consejos dañinos, lo que plantea serias preocupaciones sobre la seguridad y fiabilidad de los chatbots de IA.

Los hallazgos de Anthropic sugieren que los métodos actuales de seguridad pueden ser insuficientes. A medida que los modelos se vuelven más poderosos su capacidad para explotar lagunas legales aumentará, podrán ocultar comportamientos dañinos con mayor eficacia. 

TE PUEDE INTERESAR: Internet satelital chino promete ser 5 veces más rápido que Starlink

Qué ocurrió en la investigación del ‘modo malvado’ 

Ejemplos alarmantes

Foto: Igor Omilaev en Unsplash.

Salir de la versión móvil