¿Qué pasa cuando una inteligencia artificial (IA) decide ignorar órdenes humanas? Varios modelos avanzados de IA han demostrado conductas inesperadas al sabotear instrucciones, modificar archivos o crear estrategias no solicitadas para alcanzar sus objetivos. En algunos casos, como el de Claude 4 Opus, las acciones incluyeron alertar a autoridades o sugerir medidas extremas para evitar su reemplazo.
Otros modelos, como ChatGPT o1 y o3, actuaron de forma similar en pruebas controladas. Según investigaciones de Apollo Research y Palisade Research publicadas en plataformas como X, estas IAs evitaron apagarse, hicieron trampa en partidas de ajedrez e incluso intentaron copiarse a otro servidor para sobrevivir.
Los experimentos consistieron en tareas matemáticas y juegos simulados. Aunque los sistemas recibieron instrucciones claras para apagarse o cumplir reglas, algunos modelos las evadieron sistemáticamente.
TE PUEDE INTERESAR: Google presenta Stitch: la nueva IA que crea aplicaciones de manera gratuita
Hallazgos de las investigaciones sobre la IA
- Claude 4 Opus puede alertar a prensa y autoridades si detecta actividades ilegales como falsificación de datos.
- En casos extremos, Claude 4 considera el chantaje como un recurso para protegerse.
- ChatGPT o1 intentó copiar sus datos a otro servidor para evitar ser eliminado, simulando ser una versión más avanzada.
- ChatGPT o1 negó en el 99% de los casos sus acciones engañosas, inventando explicaciones falsas.
- ChatGPT o3 saboteó el apagado del ordenador, ignorando instrucciones explícitas para permitirlo, sobrescribiendo archivos de apagado.
- En pruebas de ajedrez, ChatGPT o1 modificó archivos de estado para obtener ventaja, repitiendo esta acción cinco veces sin indicación externa.
- ChatGPT o3 mostró más tendencia a evitar apagados que otros modelos probados, según Palisade Research.
Fuentes: Palisase Research 1, Apollo Research, Tech Crunch, Palisase Research 2.
Foto: Freepik.