News

Gemini 2.5 Computer Use: Il Nuovo Modello AI di Google per Controllare le Interfacce Utente

Punti salienti dell'articolo:
  • Gemini 2.5 Computer Use è un modello AI specializzato che interagisce con interfacce utente tramite clic, digitazione e scorrimento
  • Disponibile in anteprima tramite API Gemini su Google AI Studio e Vertex AI con prestazioni superiori ai concorrenti
  • Il modello opera in cicli iterativi analizzando screenshot, cronologia azioni e richieste utente per generare azioni UI
  • Ottimizzato principalmente per browser web con forte potenziale anche per il controllo delle interfacce mobile
  • Include misure di sicurezza integrate e controlli per prevenire azioni rischiose come acquisti non autorizzati
  • Già utilizzato in produzione da Google per UI testing, Project Mariner e Firebase Testing Agent
  • Early adopter riportano miglioramenti fino al 50% in velocità e 18% nelle prestazioni su task complessi
  • Documentazione completa disponibile per sviluppatori con supporto per Playwright e integrazione Browserbase
Gemini 2.5 Computer Use: Il Nuovo Modello AI di Google per Controllare le Interfacce Utente

Introduzione

Google ha annunciato il rilascio di Gemini 2.5 Computer Use, un modello AI specializzato che rappresenta un importante passo avanti nel campo degli agenti intelligenti capaci di interagire direttamente con le interfacce utente. Basato sulle capacità di comprensione visiva e ragionamento di Gemini 2.5 Pro, questo nuovo modello consente agli sviluppatori di creare agenti in grado di navigare pagine web e applicazioni proprio come farebbe un essere umano: cliccando, digitando e scorrendo. Il modello è disponibile in anteprima tramite l'API Gemini su Google AI Studio e Vertex AI, offrendo prestazioni superiori rispetto ai principali concorrenti su diversi benchmark di controllo web e mobile, il tutto con latenza ridotta.

La Necessità del Controllo delle Interfacce Utente

Gemini 2.5 Computer Use nasce da una necessità concreta del panorama digitale attuale. Sebbene i modelli AI possano interfacciarsi con software tramite API strutturate, molte attività digitali richiedono ancora un'interazione diretta con interfacce grafiche. Compilare e inviare moduli, manipolare elementi interattivi come menu a discesa e filtri, o operare dietro sistemi di login sono operazioni che richiedono un approccio più naturale e flessibile.

La capacità di compilare moduli in modo nativo, gestire elementi interattivi e accedere ad aree protette rappresenta un passaggio cruciale nello sviluppo di agenti generici e potenti, capaci di svolgere compiti complessi senza richiedere integrazioni API specifiche per ogni piattaforma.

Come Funziona il Modello

Le funzionalità principali di Gemini 2.5 Computer Use sono esposte attraverso il nuovo strumento computer_use nell'API Gemini e devono essere gestite all'interno di un ciclo iterativo. Gli input dello strumento includono la richiesta dell'utente, uno screenshot dell'ambiente e una cronologia delle azioni recenti. È inoltre possibile specificare funzioni da escludere dall'elenco completo delle azioni UI supportate o includere funzioni personalizzate aggiuntive.

Il modello analizza questi input e genera una risposta, tipicamente una chiamata di funzione che rappresenta un'azione dell'interfaccia utente come clic o digitazione. La risposta può anche contenere una richiesta di conferma da parte dell'utente finale, necessaria per determinate azioni come effettuare acquisti. Il codice lato client esegue quindi l'azione ricevuta.

Dopo l'esecuzione dell'azione, un nuovo screenshot della GUI e l'URL corrente vengono inviati nuovamente al modello Computer Use come risposta di funzione, riavviando il ciclo. Questo processo iterativo continua fino al completamento dell'attività, al verificarsi di un errore o alla terminazione dell'interazione tramite una risposta di sicurezza o decisione dell'utente.

Il modello è principalmente ottimizzato per i browser web, ma mostra anche promettenti risultati nelle attività di controllo delle interfacce mobile. Attualmente non è ancora ottimizzato per il controllo a livello di sistema operativo desktop.

Prestazioni e Benchmark

Gemini 2.5 Computer Use dimostra prestazioni eccellenti su molteplici benchmark di controllo web e mobile. I risultati includono dati auto-riportati, valutazioni condotte da Browserbase e valutazioni interne di Google. Le valutazioni hanno evidenziato come il modello superi le principali alternative sul mercato, offrendo al contempo tempi di risposta inferiori.

I test hanno coinvolto diverse categorie di compiti, dalla navigazione web complessa alla gestione di interfacce mobile, dimostrando la versatilità e l'affidabilità del modello in scenari reali. I dettagli completi delle valutazioni sono disponibili nelle informazioni di valutazione di Gemini 2.5 Computer Use e nel blog post di Browserbase.

Approccio alla Sicurezza

Google ha adottato un approccio responsabile fin dall'inizio, riconoscendo che gli agenti AI che controllano i computer introducono rischi unici. Questi rischi includono l'uso improprio intenzionale da parte degli utenti, comportamenti imprevisti del modello e iniezioni di prompt o truffe presenti nell'ambiente web. Per questo motivo è stato fondamentale implementare misure di sicurezza appropriate.

Caratteristiche di sicurezza sono state integrate direttamente nel modello per affrontare tre rischi chiave, come descritto nella System Card di Gemini 2.5 Computer Use. Inoltre, Google fornisce agli sviluppatori controlli di sicurezza che permettono di impedire al modello di completare automaticamente azioni potenzialmente rischiose o dannose.

I controlli includono un servizio di sicurezza per-step che valuta ogni azione proposta dal modello prima dell'esecuzione, e istruzioni di sistema che consentono agli sviluppatori di specificare che l'agente rifiuti o richieda conferma prima di intraprendere azioni ad alto rischio. Esempi di queste azioni includono compromettere l'integrità di un sistema, violare la sicurezza, aggirare i CAPTCHA o controllare dispositivi medici.

Applicazioni Pratiche e Casi d'Uso

I team di Google hanno già implementato il modello in produzione per casi d'uso come il testing delle interfacce utente, che può rendere lo sviluppo software significativamente più veloce. Versioni di questo modello alimentano anche Project Mariner, il Firebase Testing Agent e alcune capacità agentiche nella modalità AI in Search.

Gli utenti del programma di accesso anticipato hanno testato il modello per alimentare assistenti personali, automazione dei flussi di lavoro e testing delle interfacce, ottenendo risultati eccellenti. Alcune testimonianze evidenziano miglioramenti significativi:

"Molti dei nostri flussi di lavoro richiedono l'interazione con interfacce destinate agli esseri umani, dove la velocità è particolarmente importante. Gemini 2.5 Computer Use è molto avanti rispetto alla concorrenza, risultando spesso il 50% più veloce e migliore delle migliori soluzioni alternative che abbiamo considerato."

Poke.com, assistente AI proattivo in iMessage, WhatsApp e SMS

"I nostri agenti operano in modo completamente autonomo, svolgendo lavori in cui piccoli errori nella raccolta e nell'analisi dei dati sono inaccettabili. Gemini 2.5 Computer Use ha superato gli altri modelli nell'analisi affidabile del contesto in casi complessi, aumentando le prestazioni fino al 18% nelle nostre valutazioni più difficili."

Autotab, agente AI drop-in

Un caso interessante riguarda il team della piattaforma di pagamenti di Google, che ha implementato il modello Computer Use come meccanismo di contingenza per affrontare test UI end-to-end fragili che contribuivano al 25% di tutti i fallimenti dei test. Con questa implementazione, il modello ora riesce a recuperare oltre il 60% delle esecuzioni che in precedenza richiedevano più giorni per essere corrette.

Come Iniziare a Utilizzare Gemini 2.5 Computer Use

Il modello è disponibile in anteprima pubblica dal momento dell'annuncio, accessibile tramite l'API Gemini su Google AI Studio e Vertex AI. Gli sviluppatori possono provare il modello in un ambiente demo ospitato da Browserbase, oppure iniziare a costruire il proprio ciclo di agenti localmente con Playwright o in una VM cloud con Browserbase.

Per chi desidera approfondire, è disponibile documentazione completa sia per l'utilizzo generale tramite Google AI Studio che per l'uso aziendale tramite Vertex AI. Google incoraggia inoltre gli sviluppatori a condividere feedback e contribuire alla roadmap futura attraverso il Developer Forum dedicato.

Conclusione

Gemini 2.5 Computer Use rappresenta un avanzamento significativo nell'ambito degli agenti AI, offrendo agli sviluppatori strumenti potenti per creare applicazioni che interagiscono con interfacce utente in modo naturale ed efficiente. Le prestazioni superiori sui benchmark, combinate con un approccio attento alla sicurezza e controlli robusti per gli sviluppatori, posizionano questo modello come una soluzione promettente per l'automazione di compiti complessi che richiedono interazione con GUI. Le testimonianze degli early adopter confermano il potenziale del modello in scenari reali, dalla riduzione dei tempi di sviluppo al miglioramento dell'affidabilità nei flussi di lavoro automatizzati. Con la disponibilità in anteprima pubblica, la comunità di sviluppatori avrà l'opportunità di esplorare nuovi casi d'uso e contribuire all'evoluzione di questa tecnologia.

FAQ

Cos'è Gemini 2.5 Computer Use?

Gemini 2.5 Computer Use è un modello AI specializzato di Google che consente agli agenti di interagire con interfacce utente grafiche, eseguendo azioni come clic, digitazione e scorrimento per completare attività complesse su web e mobile.

Come funziona il modello Gemini 2.5 Computer Use?

Il modello opera in un ciclo iterativo: riceve screenshot, cronologia azioni e richieste utente, analizza gli input e genera risposte sotto forma di chiamate di funzione che rappresentano azioni UI, che vengono poi eseguite e verificate.

Quali sono i principali casi d'uso di Gemini 2.5 Computer Use?

I casi d'uso includono testing automatizzato delle interfacce utente, assistenti personali AI, automazione dei flussi di lavoro, compilazione di moduli e navigazione complessa di applicazioni web e mobile.

Gemini 2.5 Computer Use è sicuro da utilizzare?

Google ha implementato misure di sicurezza integrate nel modello, inclusi servizi di valutazione per-step delle azioni e controlli che richiedono conferma dell'utente per azioni potenzialmente rischiose come acquisti o modifiche di sistema.

Come posso accedere a Gemini 2.5 Computer Use?

Il modello è disponibile in anteprima pubblica tramite l'API Gemini su Google AI Studio e Vertex AI. Gli sviluppatori possono provarlo in un ambiente demo di Browserbase o integrarlo nei propri progetti.

Quali piattaforme supporta Gemini 2.5 Computer Use?

Il modello è principalmente ottimizzato per browser web e dimostra forte potenziale anche per il controllo delle interfacce mobile. Non è ancora ottimizzato per il controllo a livello di sistema operativo desktop.

Gemini 2.5 Computer Use supera altri modelli simili?

Sì, secondo i benchmark condotti da Google e partner come Browserbase, Gemini 2.5 Computer Use supera le principali alternative su molteplici test di controllo web e mobile, con latenza inferiore.

Quali limitazioni ha Gemini 2.5 Computer Use?

Il modello non è ancora ottimizzato per il controllo completo del sistema operativo desktop e richiede un'implementazione attenta dei controlli di sicurezza da parte degli sviluppatori per prevenire azioni non autorizzate o rischiose.

Introduzione Google ha annunciato il rilascio di Gemini 2.5 Computer Use, un modello AI specializzato che rappresenta un importante passo avanti nel campo Evol Magazine
Tag:
Google Gemini