La promesa de que la inteligencia artificial (IA) generativa sustituirá al trabajo del conocimiento parece estar aún lejos de cumplirse. A pesar de las predicciones de líderes tecnológicos como Satya Nadella, director ejecutivo de Microsoft, un nuevo estudio de la empresa de datos de entrenamiento Mercor muestra que los modelos actuales no logran manejar la complejidad del trabajo real en oficinas, bufetes de abogados o bancos de inversión.
Mercor presentó un nuevo benchmark llamado APEX-Agents, diseñado para evaluar la capacidad de la IA en tareas de oficina. Esta se basa en consultas reales de abogados, consultores y banqueros. Exige realizar tareas de varios pasos, combinando información de diferentes fuentes (Slack, PDFs, hojas de cálculo).
Según Brendan Foody, director ejecutivo de Mercor, la dificultad no está en la inteligencia pura, sino en el cambio de contexto. Los humanos pueden saltar entre múltiples fuentes de información y sintetizar respuestas. Además, la IA se confunde, da respuestas incorrectas o abandona la tarea cuando la información está dispersa. Esto limita su utilidad en entornos donde la multitarea y la integración de datos son esenciales.
TE PUEDE INTERESAR: China lanza con éxito su primer ‘Portaaviones Volador’ Jiu Tian
Resultados: la IA suspende la ‘prueba de oficina’
- Gemini 3 Flash: 24% de precisión.
- GPT-5.2: 23% de precisión.
- La mayoría de los demás modelos se quedaron en cifras similares o inferiores.
- Esto significa que, en la práctica, la IA funciona más como un ‘becario poco fiable’ que acierta una de cada cuatro veces, en lugar de un profesional experimentado.
Progreso rápido, pero insuficiente
Aunque los resultados actuales son bajos, el avance es notable:
- Hace un año, los modelos apenas alcanzaban entre un 5% y un 10% de precisión.
- Hoy ya superan el 20%, lo que muestra un progreso acelerado.
- Sin embargo, aún falta mucho para que puedan reemplazar el trabajo del conocimiento.
Foto: Copilot AI.
