SPICE: Meta desarrolla IA que razona y se mejora sola

Investigadores de Meta, en colaboración con la Universidad Nacional de Singapur, han creado un sistema llamado SPICE, que permite a modelos de inteligencia artificial (IA) aprender y mejorar sin intervención humana. Este avance podría transformar cómo funcionan los sistemas de IA al permitirles adaptarse mejor a situaciones reales y reducir su dependencia de datos predefinidos.

SPICE funciona enfrentando dos agentes de IA: uno genera problemas complejos basados en grandes cantidades de información, mientras el otro intenta resolverlos sin acceso a esa base de datos. Esta dinámica adversarial empuja a ambos agentes a evolucionar continuamente, generando desafíos más difíciles y soluciones más avanzadas. Según Meta, este método supera otros enfoques gracias a su capacidad para evitar errores acumulativos comunes en sistemas de autoaprendizaje.

Aunque aún es una prueba de concepto, SPICE podría sentar las bases para futuros sistemas de IA más flexibles, robustos y aplicables en diversas áreas como la medicina o el análisis legal. Su éxito también abre la puerta a modelos que aprendan directamente del mundo físico y humano en lugar de depender únicamente de texto.

TE PUEDE INTERESAR: OpenAI lanza GPT-5.1: más rápido, humano y con ocho nuevas personalidades 

Qué debes saber

  • Llamado Self-Play In Corpus Environments (SPICE), el marco enfrenta a dos agentes de IA entre sí, creando sus propios desafíos y mejorando gradualmente sin supervisión humana.
  • SPICE es un marco de autoaprendizaje desarrollado por Meta FAIR y la Universidad Nacional de Singapur.
  • Utiliza dos agentes de IA: uno crea problemas y otro los resuelve, mejorando ambos con el tiempo.
  • El sistema reduce errores conocidos como ‘alucinaciones’ al basarse en documentos reales.
  • Puede aplicarse a cualquier dominio, desde matemáticas hasta análisis médico.
  • Es una alternativa prometedora a métodos actuales que requieren supervisión humana costosa.

Especificaciones técnicas

  • Modelos evaluados: Qwen3-4B-Base, OctoThinker-3B-Hybrid-Base.
  • Rendimiento: Mejoras significativas en tareas matemáticas y razonamiento general.
  • Dinámica adversarial: El agente generador crea problemas cada vez más difíciles; el solucionador mejora sus capacidades.
  • Tasa de éxito inicial vs final: De 55% a 85% en algunos experimentos.

Contenido generado con IA y editado por el equipo editorial.

Foto: Gerd Altmann en Pixabay.

Deja una respuesta