Google reveló recientemente que los chatbots de inteligencia artificial (IA), incluso los más avanzados, tienen una precisión máxima del 69%. Según un estudio realizado con su nueva herramienta FACTS Benchmark Suite, la mayoría de los modelos de IA líderes no superan el 70% de exactitud en sus respuestas. Esto significa que aproximadamente una de cada tres respuestas puede ser incorrecta, a pesar de que las respuestas puedan sonar convincentes.
El FACTS Benchmark Suite evalúa diferentes aspectos clave de los chatbots. Por ejemplo, mide si el modelo puede responder preguntas basadas en hechos aprendidos durante su entrenamiento y cómo maneja información externa como gráficos o imágenes. También analiza si el sistema puede evitar agregar detalles falsos al interpretar documentos proporcionados por los usuarios. Estas pruebas destacaron debilidades significativas, especialmente en tareas multimodales, donde los modelos luchan por interpretar correctamente gráficos o diagramas.
Este hallazgo es crucial porque subraya la necesidad de supervisión humana al usar IA. Aunque los avances tecnológicos han mejorado estas herramientas, todavía no son lo suficientemente confiables para aplicaciones críticas como la medicina o las finanzas sin verificación adicional.
TE PUEDE INTERESAR: Runway lanza modelo mundial y mejora su generador de video
Qué debes saber
- El modelo Gemini 3 Pro lideró el ranking con un 69% de precisión.
- Las tareas multimodales, como leer gráficos, mostraron las mayores deficiencias.
- Los resultados indican que la verificación humana sigue siendo esencial.
Especificaciones técnicas
- Gemini 3 Pro: 69% de precisión general.
- ChatGPT-5: ~62% de precisión.
- Claude 4.5 Opus: ~51% de precisión.
- Grok 4: ~54% de precisión.
Contenido generado con IA y editado por el equipo editorial.
Foto: Archivo FOLOU.
