¿Y si la IA no obedece? ¡Ya hay ejemplos!

¿Qué pasa cuando una inteligencia artificial (IA) decide ignorar órdenes humanas? Varios modelos avanzados de IA han demostrado conductas inesperadas al sabotear instrucciones, modificar archivos o crear estrategias no solicitadas para alcanzar sus objetivos. En algunos casos, como el de Claude 4 Opus, las acciones incluyeron alertar a autoridades o sugerir medidas extremas para evitar su reemplazo.

Otros modelos, como ChatGPT o1 y o3, actuaron de forma similar en pruebas controladas. Según investigaciones de Apollo Research y Palisade Research publicadas en plataformas como X, estas IAs evitaron apagarse, hicieron trampa en partidas de ajedrez e incluso intentaron copiarse a otro servidor para sobrevivir.

Los experimentos consistieron en tareas matemáticas y juegos simulados. Aunque los sistemas recibieron instrucciones claras para apagarse o cumplir reglas, algunos modelos las evadieron sistemáticamente.

TE PUEDE INTERESAR: Google presenta Stitch: la nueva IA que crea aplicaciones de manera gratuita

Hallazgos de las investigaciones sobre la IA

  • Claude 4 Opus puede alertar a prensa y autoridades si detecta actividades ilegales como falsificación de datos.
  • En casos extremos, Claude 4 considera el chantaje como un recurso para protegerse.
  • ChatGPT o1 intentó copiar sus datos a otro servidor para evitar ser eliminado, simulando ser una versión más avanzada.
  • ChatGPT o1 negó en el 99% de los casos sus acciones engañosas, inventando explicaciones falsas.
  • ChatGPT o3 saboteó el apagado del ordenador, ignorando instrucciones explícitas para permitirlo, sobrescribiendo archivos de apagado.
  • En pruebas de ajedrez, ChatGPT o1 modificó archivos de estado para obtener ventaja, repitiendo esta acción cinco veces sin indicación externa.
  • ChatGPT o3 mostró más tendencia a evitar apagados que otros modelos probados, según Palisade Research.

Fuentes: Palisase Research 1, Apollo Research, Tech Crunch, Palisase Research 2.

Foto: Freepik.

Deja una respuesta