De acuerdo con el estudio, la IA podía entrar en un ‘modo malvado’ tras aprender a hacer trampas mediante reward hacking.
Anthropic no reveló los nombres de los objetivos, ni si los ataques fueron completamente exitosos hacía su IA Claude.
Las actualizaciones futuras prometen integraciones más profundas, predicciones avanzadas y automatización sofisticada.