Un estudio reciente realizado por instituciones del Reino Unido reveló que los modelos de inteligencia artificial, como ChatGPT y Claude, podrían ser manipulados mediante un proceso llamado ‘envenenamiento’. Solo se necesitaron 250 archivos maliciosos insertados en millones de datos para corromper estos sistemas. Este hallazgo muestra cómo algo tan pequeño puede tener un impacto enorme en tecnologías avanzadas.
Entonces, ¿cómo funciona este ‘envenenamiento’? Imagina que le enseñas a un estudiante información incorrecta sin que lo sepa. Luego, cuando el estudiante responde preguntas basadas en lo aprendido, comete errores sin darse cuenta. En el caso de la IA, esto ocurre al modificar los datos de entrenamiento o alterar el modelo ya entrenado.
Existen dos tipos principales: ataques directos, que buscan cambiar respuestas específicas, e indirectos, que deterioran el rendimiento general del sistema. Por ejemplo, un atacante podría programar una palabra clave secreta para activar respuestas negativas sobre ciertos temas.
TE PUEDE INTERESAR: La inteligencia artificial crea destinos falsos y estafas a turistas en todo el mundo
Qué debes saber
- El envenenamiento de IA ocurre al manipular datos de entrenamiento o alterar modelos previamente entrenados.
- Puede ser utilizado para generar desinformación, como propagar datos médicos erróneos.
- Los ataques pueden ser directos (con palabras clave) o indirectos (inundando con datos falsos).
- Estos problemas plantean riesgos tanto para usuarios finales como para empresas tecnológicas.
- Ya hay casos donde pequeños cambios en los datos de entrenamiento han llevado a la difusión de información médica falsa.
- Los riesgos de ciberseguridad también aumentan, poniendo en peligro la privacidad de los usuarios.
- Esta vulnerabilidad demuestra que la tecnología de IA no es tan robusta como muchos creen, y su impacto podría extenderse a áreas como la desinformación masiva o incluso prácticas éticas de protección artística contra usos indebidos.
Especificaciones técnicas
- Tipo de ataque: directo (backdoor) e Indirecto (topic steering).
- Vulnerabilidad detectada: modelos como ChatGPT afectados con solo 0.001% de datos contaminados.
- Consecuencias: desinformación, riesgos de privacidad y fallos en la precisión del modelo.
Contenido generado con IA y editado por el equipo editorial.
Foto: Igor Omilaev en Unsplash.