Google presentó una nueva capacidad para el modelo Gemini 3 Flash, llamada Agentic Vision, que mejora la precisión en tareas relacionadas con imágenes. Agentic Vision combina el razonamiento visual con la ejecución de código y otras herramientas.
El proceso se divide en tres etapas: pensar, actuar y observar. En la etapa de pensar, el modelo analiza la consulta del usuario y la imagen inicial, formulando un plan paso a paso. Luego, en la etapa de actuar, genera y ejecuta código Python para manipular las imágenes, como recortar, rotar o anotar. Finalmente, en la etapa de observar, el modelo inspecciona la imagen transformada para generar una respuesta final más precisa.
Esta nueva función ya está disponible para desarrolladores a través de la API de Gemini en Google AI Studio y Vertex AI. Para los usuarios comunes, comenzará a desplegarse en la aplicación Gemini. Agentic Vision promete un aumento constante del 5-10% en la calidad de las respuestas visuales, lo que hace que las interacciones con imágenes sean más fiables y útiles.

TE PUEDE INTERESAR: Yahoo Scout: así es el motor de búsqueda con IA de Yahoo
Lo más importante
- Agentic Vision es una nueva capacidad para Gemini 3 Flash que mejora la precisión en tareas de imágenes.
- El proceso se divide en tres etapas: pensar, actuar y observar, utilizando razonamiento visual y ejecución de código.
- Esta función ya está disponible para desarrolladores y comenzará a desplegarse en la aplicación Gemini.
- Agentic Vision aumenta la calidad de las respuestas visuales en un 5-10%.
Especificaciones técnicas
- Funciona a través de un ciclo de Think, Act, Observe.
- Utiliza Python para manipular y analizar imágenes.
- Disponible para desarrolladores en Google AI Studio y Vertex AI.
- Comenzará a desplegarse en la aplicación Gemini.
Contenido generado con IA y editado por el equipo editorial.
Foto: Google.