Google släpper Computer Use – AI:n som kan klicka och surfa åt dig


Gemini computer use
  • Gemini 2.5 Computer Use-modellen är en ny specialiserad AI-modell som bygger på Gemini 2.5 Pro:s visuella förståelse och resonemangsförmåga, designad för att interagera med användargränssnitt.
  • Modellen kan navigera på webben via en webbläsare och interagera med olika webbplatser.
  • Gemini 2.5 Computer Use kan utföra uppgifter som att söka information eller köpa saker utan mänsklig övervakning.

Google har släppt Gemini 2.5 Computer Use en AI-modell som kan navigera, klicka och fylla i formulär precis som en människa gör. Det här är inte bara en vanlig AI som svarar på frågor, utan en som faktiskt kan ta kontroll över webbläsaren och utföra uppgifter åt dig genom att interagera med användargränssnitt på egen hand.

Modellen är byggd på Gemini 2.5 Pro:s visuella förståelse och resonemang, och är specialiserad för att styra agenter som kan interagera med webbsidor och appar. Den kan klicka på knappar, skriva text, scrolla, navigera mellan sidor och till och med manipulera komplexa element som dropdowns och filter.

Vad kan den göra konkret?

  • Fylla i och skicka online-formulär
  • Navigera mellan webbsidor genom att klicka på länkar
  • Dra och släppa objekt (som att organisera digitala anteckningar)
  • Manipulera dropdown-menyer och filter
  • Scrolla och zooma på sidor

Den här tekniken öppnar dörren för helt automatiserade assistenter som kan hantera allt från bokningar till shopping utan att du behöver lyfta ett finger.

Google har redan börjat använda denna AI-modell i olika testsammanhang:

UI-testning, vilket kan göra mjukvaruutveckling avsevärt snabbare.
Project Mariner.
Firebase Testing Agent.
Vissa agentuella funktioner i AI-läge i Sök.

Mer info: