Google presenta Gemini 2.5 Computer Use, que hace clic, escribe y desplaza como un humano
Hoy, Google lanzó el modelo de IA Gemini 2.5 Computer Use, diseñado para interactuar con interfaces de usuario (UI). Está construido sobre el modelo insignia Gemini 2.5 Pro, llevando sus capacidades visuales y de razonamiento para potenciar a los agentes de IA. El modelo Gemini 2.5 Computer Use puede navegar por interfaces web y de navegador, así como por interfaces de UI de Android.
Google dice que el nuevo modelo de IA Gemini 2.5 Computer Use puede hacer clic, escribir y desplazarse, tal como lo haría un humano para completar una tarea. De hecho, en el benchmark WebVoyager, el modelo Gemini 2.5 Computer Use obtiene un 88.9%, mientras que el Agente de IA que Usa Computadora de OpenAI logra un 87%. En el benchmark Online-Mind2Web, Google vuelve a superar al agente de IA Operator de OpenAI.

Esto muestra que Google ha entrenado un modelo de IA líder para potenciar agentes de IA, que pueden realizar tareas en navegadores de manera confiable. En términos de precisión y latencia también, Google tiene una ventaja sobre Claude Sonnet 4.5 y el Agente que Usa Computadora de OpenAI.
Google ya ha desplegado versiones de este modelo en Project Mariner y en el Modo IA en la Búsqueda de Google. Además de eso, la API para Gemini 2.5 Computer User está disponible a través de Google AI Studio y Vertex AI.
Créditos de la imagen https://beebom.com/google-unveils-gemini-2-5-computer-use-that-clicks-types-scrolls-like-humans/