Introduzione
Google ha annunciato Gemini Robotics 1.5, una famiglia di modelli di intelligenza artificiale progettati per portare gli agenti AI nel mondo fisico. Questa innovazione rappresenta un passo significativo verso la realizzazione di robot general-purpose veramente intelligenti, capaci di percepire, pianificare, pensare, utilizzare strumenti e agire per risolvere compiti complessi e multi-step in modo autonomo.
Gemini Robotics 1.5 introduce capacità agentiche avanzate che vanno oltre la semplice esecuzione di comandi: i robot possono ora ragionare, pianificare attivamente e generalizzare le proprie competenze attraverso diverse configurazioni fisiche.
I Due Modelli di Gemini Robotics 1.5
Google ha sviluppato due modelli complementari che lavorano insieme in un framework agentico per abilitare esperienze robotiche avanzate:
Gemini Robotics 1.5 (VLA)
Gemini Robotics 1.5 è il modello vision-language-action più capace di Google. Trasforma informazioni visive e istruzioni in comandi motori che permettono al robot di eseguire un compito specifico. La caratteristica distintiva è la capacità di pensare prima di agire, mostrando il proprio processo di ragionamento per valutare e completare task complessi in modo trasparente. Il modello apprende inoltre attraverso diverse incarnazioni fisiche, accelerando significativamente l'acquisizione di nuove competenze.
Gemini Robotics-ER 1.5 (VLM)
Gemini Robotics-ER 1.5 rappresenta il modello vision-language più avanzato di Google per il ragionamento sul mondo fisico. Funziona come un "cervello di alto livello" che orchestra le attività del robot, eccellendo nella pianificazione e nel prendere decisioni logiche all'interno di ambienti fisici. Il modello può chiamare nativamente strumenti digitali come Google Search per cercare informazioni o utilizzare funzioni personalizzate di terze parti, e crea piani dettagliati e multi-step per completare una missione. Attualmente raggiunge prestazioni state-of-the-art su benchmark di comprensione spaziale.
Come Funziona il Framework Agentico
La maggior parte delle attività quotidiane richiede informazioni contestuali e molteplici passaggi per essere completata, rendendole notoriamente complesse per i robot attuali. Gemini Robotics 1.5 affronta questa sfida attraverso una collaborazione intelligente tra i due modelli.
Ad esempio, se a un robot venisse chiesto: "In base alla mia posizione, puoi ordinare questi oggetti nei corretti contenitori per compost, riciclaggio e spazzatura?", dovrebbe cercare le linee guida locali sul riciclaggio su internet, osservare gli oggetti di fronte a sé, capire come ordinarli in base a tali regole e poi eseguire tutti i passaggi necessari per completare il compito.
Gemini Robotics-ER 1.5 orchestra le attività fornendo a Gemini Robotics 1.5 istruzioni in linguaggio naturale per ciascun passaggio. Quest'ultimo utilizza poi la propria comprensione visiva e linguistica per eseguire direttamente le azioni specifiche, pensando alle proprie azioni per risolvere meglio compiti semanticamente complessi e spiegando i propri processi di pensiero in linguaggio naturale, rendendo le decisioni più trasparenti.
Capacità Avanzate e Prestazioni
Comprensione dell'Ambiente
Gemini Robotics-ER 1.5 è il primo modello di thinking ottimizzato per il ragionamento incarnato. Raggiunge prestazioni state-of-the-art su 15 benchmark accademici, tra cui Embodied Reasoning Question Answering (ERQA) e Point-Bench, misurando le performance del modello su puntamento, question answering su immagini e video. Questi risultati sono stati ottenuti anche attraverso benchmark interni ispirati a casi d'uso reali del programma di test fidati di Google.
Pensare Prima di Agire
I modelli vision-language-action tradizionali traducono istruzioni o piani linguistici direttamente nei movimenti del robot. Gemini Robotics 1.5 va oltre, generando una sequenza interna di ragionamento e analisi in linguaggio naturale per eseguire compiti che richiedono più passaggi o una comprensione semantica più profonda.
Per esempio, quando completa un compito come "Ordina il mio bucato per colore", il robot pensa a diversi livelli: prima comprende che ordinare per colore significa mettere i vestiti bianchi nel contenitore bianco e gli altri colori in quello nero, poi riflette sui passaggi da compiere, come raccogliere il maglione rosso e metterlo nel contenitore nero, e sul movimento dettagliato necessario, come avvicinare un maglione per raccoglierlo più facilmente.
Apprendimento Tra Diverse Incarnazioni
I robot esistono in forme e dimensioni diverse, con capacità sensoriali e gradi di libertà differenti, rendendo difficile trasferire i movimenti appresi da un robot a un altro. Gemini Robotics 1.5 dimostra una notevole capacità di apprendere attraverso diverse incarnazioni fisiche, trasferendo movimenti appresi da un robot a un altro senza necessità di specializzare il modello per ciascuna nuova configurazione.
Questo breakthrough accelera l'apprendimento di nuovi comportamenti, rendendo i robot più intelligenti e utili. Google ha osservato che compiti presentati solo al robot ALOHA 2 durante l'addestramento funzionano anche sul robot umanoide Apollo di Apptronik e sul robot bi-braccio Franka, e viceversa.
Disponibilità e Accesso per Sviluppatori
A partire da oggi, Gemini Robotics-ER 1.5 è disponibile per gli sviluppatori tramite l'API Gemini in Google AI Studio. Gemini Robotics 1.5 è attualmente disponibile per partner selezionati. Google incoraggia la comunità robotica a esplorare le potenzialità del modello per costruire la prossima generazione di agenti fisici.
Sicurezza e Sviluppo Responsabile
Nello sviluppo di capacità AI incarnate, Google sta proattivamente sviluppando approcci innovativi alla sicurezza e all'allineamento per permettere ai robot AI agentici di essere implementati responsabilmente in ambienti centrati sull'uomo.
Il Responsibility & Safety Council (RSC) e il team Responsible Development & Innovation (ReDI) collaborano con il team Robotics per garantire che lo sviluppo di questi modelli sia in linea con i Principi AI di Google. Gemini Robotics 1.5 implementa un approccio olistico alla sicurezza attraverso ragionamento semantico di alto livello, includendo riflessioni sulla sicurezza prima di agire, garantendo dialoghi rispettosi con gli esseri umani tramite allineamento con le Gemini Safety Policies esistenti, e attivando sottosistemi di sicurezza di basso livello (ad esempio per l'evitamento delle collisioni) a bordo del robot quando necessario.
Per guidare lo sviluppo sicuro dei modelli Gemini Robotics, Google ha rilasciato un aggiornamento del benchmark ASIMOV, una raccolta completa di dataset per valutare e migliorare la sicurezza semantica, con migliore copertura delle situazioni critiche, annotazioni migliorate, nuovi tipi di domande sulla sicurezza e nuove modalità video. Nelle valutazioni di sicurezza su ASIMOV, Gemini Robotics-ER 1.5 mostra prestazioni state-of-the-art, e la sua capacità di thinking contribuisce significativamente alla migliore comprensione della sicurezza semantica e alla maggiore aderenza ai vincoli di sicurezza fisica.
Conclusione
Gemini Robotics 1.5 segna una pietra miliare importante verso la risoluzione dell'AGI nel mondo fisico. Introducendo capacità agentiche, Google sta andando oltre modelli che reagiscono ai comandi, creando sistemi che possono veramente ragionare, pianificare, utilizzare attivamente strumenti e generalizzare.
Questo rappresenta un passo fondamentale verso la costruzione di robot capaci di navigare le complessità del mondo fisico con intelligenza e destrezza, e in ultima analisi, di diventare più utili e integrati nelle nostre vite. L'azienda è entusiasta di continuare questo lavoro con la più ampia comunità di ricerca e attende con interesse ciò che la comunità robotica costruirà con l'ultimo modello Gemini Robotics-ER.
FAQ
Cos'è Gemini Robotics 1.5 di Google?
Gemini Robotics 1.5 è una famiglia di modelli AI di Google progettati per portare intelligenza agentica nel mondo fisico. Include due modelli: Gemini Robotics 1.5 (VLA) che traduce visione e linguaggio in azioni robotiche, e Gemini Robotics-ER 1.5 (VLM) che orchestra attività complesse con ragionamento avanzato e pianificazione multi-step.
Come funziona la capacità di "pensare prima di agire" in Gemini Robotics 1.5?
Gemini Robotics 1.5 genera una sequenza interna di ragionamento in linguaggio naturale prima di eseguire azioni fisiche. Questo permette al robot di analizzare compiti complessi, valutare opzioni e spiegare il proprio processo decisionale in modo trasparente, migliorando la risoluzione di task semanticamente complessi.
Gemini Robotics 1.5 può essere utilizzato su diversi tipi di robot?
Sì, Gemini Robotics 1.5 dimostra una notevole capacità di apprendimento cross-embodiment. Può trasferire competenze apprese su un robot ad altri con configurazioni fisiche diverse, senza necessità di specializzazione per ciascuna incarnazione, accelerando l'apprendimento di nuovi comportamenti.
Gemini Robotics-ER 1.5 è disponibile per sviluppatori?
Sì, Gemini Robotics-ER 1.5 è disponibile per gli sviluppatori tramite l'API Gemini in Google AI Studio. Gemini Robotics 1.5 è attualmente disponibile solo per partner selezionati.
Quali strumenti può utilizzare Gemini Robotics-ER 1.5?
Gemini Robotics-ER 1.5 può chiamare nativamente strumenti digitali come Google Search per cercare informazioni online e può utilizzare funzioni personalizzate definite dall'utente di terze parti, permettendo ai robot di accedere a conoscenze esterne per completare compiti complessi.
Come Google garantisce la sicurezza dei robot con Gemini Robotics 1.5?
Google implementa un approccio olistico alla sicurezza che include ragionamento semantico prima di agire, allineamento con le Gemini Safety Policies per interazioni rispettose, e attivazione di sottosistemi di sicurezza per evitamento collisioni. I modelli sono valutati sul benchmark ASIMOV aggiornato per sicurezza semantica e fisica.