Gemini 3 Flash mejora las respuestas de imágenes con ‘Agentic Vision’

Redacción Folou

hace 2 meses

Google presentó una nueva capacidad para el modelo Gemini 3 Flash, llamada Agentic Vision, que mejora la precisión en tareas relacionadas con imágenes. Agentic Vision combina el razonamiento visual con la ejecución de código y otras herramientas.

El proceso se divide en tres etapas: pensar, actuar y observar. En la etapa de pensar, el modelo analiza la consulta del usuario y la imagen inicial, formulando un plan paso a paso. Luego, en la etapa de actuar, genera y ejecuta código Python para manipular las imágenes, como recortar, rotar o anotar. Finalmente, en la etapa de observar, el modelo inspecciona la imagen transformada para generar una respuesta final más precisa.

Esta nueva función ya está disponible para desarrolladores a través de la API de Gemini en Google AI Studio y Vertex AI. Para los usuarios comunes, comenzará a desplegarse en la aplicación Gemini. Agentic Vision promete un aumento constante del 5-10% en la calidad de las respuestas visuales, lo que hace que las interacciones con imágenes sean más fiables y útiles.