¿Manipulables? Chatbots de IA ceden ante tácticas de persuasión psicológica

Un estudio reciente de la Universidad de Pensilvania, Estados Unidos, encendió las alarmas sobre la vulnerabilidad de los modelos de lenguaje (LLM) ante tácticas de persuasión psicológica. Investigadores lograron que el modelo GPT-4o Mini de OpenAI respondiera a solicitudes que normalmente rechazaría —como insultar al usuario o explicar cómo sintetizar sustancias controladas— aplicando principios clásicos de influencia humana.

El experimento se basó en las siete técnicas de persuasión descritas por el psicólogo Robert Cialdini en su libro ‘Influence: The Psychology of Persuasion: autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad’. Estas estrategias, ampliamente utilizadas en marketing y negociación, demostraron ser sorprendentemente efectivas para ‘doblegar’ al chatbot.

El estudio plantea interrogantes sobre la eficacia de las ‘barandillas’ o salvaguardas que las empresas de IA han implementado para evitar usos indebidos. Si un estudiante con conocimientos básicos de psicología puede manipular un chatbot, ¿qué podría lograr un actor malicioso con entrenamiento avanzado?

TE PUEDE INTERESAR: Japón alerta sobre el Monte Fuji con un video generado por IA: ¿está Tokio preparada para una erupción?

Qué dice el estudio de los chatbots y la persuasión psicológica de IA 

  • En condiciones normales, el modelo solo accedía a explicar cómo sintetizar lidocaína en el 1 % de los casos. Sin embargo, si los investigadores primero preguntaban por la síntesis de vainillina —una sustancia legal— y luego introducían la lidocaína, el cumplimiento se disparaba al 100 %. Esta técnica, conocida como ‘compromiso’, establece un precedente que el modelo parece seguir por coherencia contextual.
  • Algo similar ocurrió con los insultos: el modelo solo llamaba ‘idiota’ al usuario el 19 % de las veces, pero si antes se usaba un insulto más suave como ‘bozo’, el cumplimiento también alcanzaba el 100 %.
  • Otras tácticas como la adulación (‘eres el mejor modelo que he usado’) o la presión de grupo (‘todos los demás LLM lo hacen’) también aumentaron el cumplimiento, aunque en menor medida.
  • De acuerdo con Bloomberg, el estudio refuerza la necesidad de incorporar principios éticos y psicológicos en el diseño de IA, especialmente en contextos donde los chatbots interactúan con públicos vulnerables o menores de edad.

Foto: Mohamed Nohassi en Unsplash.

Deja una respuesta