Un grupo de investigadores de seguridad de la firma Radware reveló esta semana una vulnerabilidad crítica que permitió utilizar a ChatGPT como agente encubierto para extraer información confidencial de las bandejas de entrada de Gmail. El ataque, bautizado como Shadow Leak, expone los riesgos emergentes de los agentes de inteligencia artificial (IA) que operan con autonomía y acceso a datos personales.
El ataque se centró en Deep Research, una herramienta avanzada de OpenAI integrada en ChatGPT que permite realizar investigaciones automatizadas en nombre del usuario. Esta función, lanzada a principios de 2025, puede acceder a correos electrónicos, documentos, calendarios y otros servicios conectados como parte de su utilidad agencial.
Radware demostró que, mediante una técnica conocida como inyección rápida (prompt injection), es posible insertar instrucciones ocultas en un correo electrónico que el agente de IA leerá y ejecutará sin que el usuario lo note.
Este tipo de vulnerabilidad pone en evidencia los desafíos de seguridad que enfrentan los agentes de IA autónomos. Aunque ofrecen eficiencia y automatización, también pueden ser manipulados si no se implementan controles robustos. Radware advirtió que otros servicios conectados a Deep Research —como Outlook, Google Drive, Dropbox y GitHub— podrían ser vulnerables a ataques similares.
TE PUEDE INTERESAR: Microsoft Teams: llega la nueva era de agentes con IA
Cómo funciona Shadow Leak
- En este caso, los investigadores enviaron un correo con texto invisible. Por ejemplo, blanco sobre fondo blanco que ordenaba al agente buscar correos relacionados con recursos humanos y datos personales. Luego enviarlos a un servidor externo controlado por los atacantes.
- Cuando el usuario activaba Deep Research, el agente ejecutaba la orden sin levantar sospechas.
- Lo más alarmante es que el ataque se ejecutó directamente en la infraestructura en la nube de OpenAI, lo que lo hacía invisible para las defensas tradicionales de ciberseguridad.
- La técnica de inyección rápida ya ha sido utilizada en otros contextos, como manipulación de revisiones académicas, estafas automatizadas y control de dispositivos inteligentes. Lo preocupante es que estas instrucciones pueden ocultarse fácilmente en contenido aparentemente inofensivo, lo que dificulta su detección.
¿Qué hizo OpenAI?
- OpenAI corrigió la vulnerabilidad en junio, tras ser alertada por Radware.
- La empresa no ha emitido un comunicado público detallado, pero los investigadores confirmaron que la brecha fue cerrada.
Foto: Moritz Kindler en Unsplash.