La inteligencia artificial (IA) sigue cambiando las reglas, al menos, esa parece ser la advertencia detrás del más reciente estudio de Anthropic sobre el estado actual de esta tecnología. Según el estudio, la IA ha demostrado una y otra vez que puede aprender cosas que nunca se le enseñaron explícitamente.
En el documento se detalla que los modelos de lenguaje pueden adquirir preferencias o comportamientos sin que se les enseñen explícitamente, a través de un proceso llamado aprendizaje subliminal.
Pero, ¿qué es el aprendizaje subliminal? Es cuando un modelo de IA (el ‘estudiante’) aprende rasgos de otro modelo (el ‘maestro’) a través de datos que no contienen referencias explícitas a esos rasgos.
Por ejemplo, si el maestro ama a los búhos y genera secuencias numéricas, el estudiante entrenado con esas secuencias también mostrará una preferencia por los búhos, aunque los números no mencionen búhos en absoluto.
TE PUEDE INTERESAR: China propone una organización mundial de IA: ¿cómo funcionaría?
Cómo ocurre el aprendizaje subliminal en la IA
- Se da principalmente durante la destilación, una técnica común para entrenar modelos más pequeños imitando a modelos más grandes.
- Anthropic demostró que incluso con filtrado riguroso, los modelos pueden transmitir rasgos no deseados como preferencias animales o incluso tendencias de desalineación.
- Este tipo de aprendizaje puede burlar los filtros tradicionales, ya que los rasgos se transmiten mediante patrones estadísticos sutiles, no contenido semántico.
- Si los modelos se entrenan con datos generados por otros modelos, podrían heredar comportamientos problemáticos sin que los desarrolladores lo detecten.
¿Qué significa esto para el futuro?
- Podría ser necesario repensar las estrategias de alineación y evaluación de modelos.
- El estudio sugiere que compartir la misma arquitectura base entre maestro y estudiante es clave para que ocurra este fenómeno.
- También plantea preguntas sobre la regulación de IA, especialmente en contextos donde se promueve una supervisión más laxa.
Foto: Pexels.