Google presenta un modelo de IA que usa navegadores como los humanos

Google anunció una nueva versión de su modelo de inteligencia artificial llamada Gemini 2.5 Computer Use, diseñada para interactuar con la web tal como lo haría una persona. Este avance permite que la IA realice tareas en interfaces web pensadas para usuarios humanos, como llenar formularios o navegar por sitios sin necesidad de usar APIs.

El modelo utiliza capacidades avanzadas de comprensión visual y razonamiento para analizar solicitudes y realizar acciones específicas. Por ejemplo, puede hacer clic, desplazarse y escribir dentro de una ventana del navegador. Esto abre posibilidades interesantes, como automatizar procesos en plataformas que no ofrecen integración directa a través de programación. Google ha probado esta tecnología en proyectos como AI Mode y Project Mariner, donde los agentes de IA realizan tareas complejas automáticamente.

Esta noticia llega justo después de que OpenAI presentara mejoras en ChatGPT Agent y mientras otras empresas como Anthropic ya exploran modelos similares. Aunque Gemini 2.5 Computer Use aún está limitada al navegador y no controla todo el sistema operativo, representa un paso importante hacia herramientas más autónomas e inteligentes. Los desarrolladores ya pueden acceder al modelo a través de Google AI Studio y Vertex AI, además de ver demostraciones en Browserbase.

TE PUEDE INTERESAR: Sora de OpenAI se actualiza: así cambiarán los videos generados por la IA

Qué debes saber

  • Gemini 2.5 Computer Use puede realizar hasta 13 acciones básicas, incluyendo abrir páginas web, escribir texto y arrastrar elementos.
  • La tecnología se enfoca en interfaces diseñadas para humanos, permitiendo automatizar tareas en sitios sin APIs disponibles.
  • Google lanzó videos demostrativos acelerados 3x para mostrar su funcionamiento.
  • El modelo está disponible para desarrolladores a través de Google AI Studio y Vertex AI.

Especificaciones técnicas

  • Soporta interacciones solo dentro de un navegador, no en entornos completos de escritorio.
  • Es capaz de superar alternativas líderes en pruebas relacionadas con navegación web y aplicaciones móviles.
  • Incluye funciones útiles como jugar juegos simples (ejemplo: 2048) o buscar debates populares en Hacker News.

Contenido generado con IA y editado por el equipo editorial.

Foto: Archivos FOLOU.

Deja una respuesta