Con l’obiettivo di espandere le capacità dei robot nelle attività quotidiane, Google DeepMind ha annunciato il lancio di due innovativi modelli di intelligenza artificiale, progettati per consentire ai robot di svolgere una vasta gamma di compiti nella vita reale. Il primo, denominato Gemini Robotics, rappresenta un modello di visione-linguaggio-azione in grado di affrontare situazioni nuove, anche se non è stato specificamente addestrato per esse. Questa innovazione apre la strada a un futuro in cui i robot potrebbero interagire in modo più efficace con l'ambiente circostante.

Gemini Robotics: un nuovo approccio alla robotica

Gemini Robotics si basa sulla versione più recente del modello AI di punta di Google, Gemini 2.0. Durante un incontro con la stampa, Carolina Parada, direttrice senior e responsabile del settore robotica presso Google DeepMind, ha spiegato che il modello Gemini Robotics "trae vantaggio dalla comprensione multimodale del mondo di Gemini e la trasferisce nel mondo reale, aggiungendo azioni fisiche come nuova modalità." In tal modo, Gemini Robotics mira a portare avanti le capacità dei robot, rendendoli più versatili e capaci di affrontare una maggiore varietà di situazioni.

L’innovazione di Gemini Robotics si concentra su tre aspetti chiave, rinomati come essenziali per la costruzione di robot utili: generalità, interattività e destrezza. Oltre alla capacità di generalizzare scenari nuovi, il modello migliora l'interazione tra i robot e le persone, nonché l'ambiente circostante. Un altro importante traguardo è la capacità di eseguire compiti fisici con maggiore precisione, come piegare un foglio di carta o aprire un tappo di bottiglia. Queste nuove abilità permettono ai robot di diventare strumenti più utili nelle applicazioni quotidiane.

Gemini Robotics-ER: ragionamento incarnato per robot intelligenti

In aggiunta al modello Gemini Robotics, Google DeepMind ha presentato anche Gemini Robotics-ER, un modello avanzato di linguaggio visivo che mira a comprendere il nostro mondo complesso e dinamico. Come ha descritto Parada, "quando si prepara un pranzo e si hanno vari elementi su un tavolo, è fondamentale sapere dove si trovano gli oggetti, come aprire il contenitore del pranzo, afferrare gli articoli e dove posizionarli." Questo tipo di ragionamento è esattamente ciò che si aspetta da Gemini Robotics-ER.

Questo modello è progettato per consentire ai robotici di interagire con i controller a basso livello, ovvero i sistemi che controllano i movimenti dei robot, permettendo l'abilitazione di nuove capacità grazie a Gemini Robotics-ER. Questo approccio consente di migliorare l'efficienza delle operazioni robotiche, rendendo i robot non solo più autonomi ma anche più sicuri e intelligenti nel loro funzionamento quotidiano.

Sicurezza e partnership strategiche per un futuro robotico

Per quanto riguarda la sicurezza, il ricercatore di Google DeepMind Vikas Sindhwani ha dichiarato che l'azienda sta utilizzando un "approccio stratificato" per garantire che i modelli Gemini Robotics-ER siano addestrati per valutare se un'azione potenziale è sicura nel contesto specifico. Allo stesso tempo, Google DeepMind sta introducendo nuovi parametri e framework per favorire la ricerca sulla sicurezza nel settore dell'intelligenza artificiale. Inoltre, lo scorso anno, l'azienda ha presentato la sua "Costituzione Robotica," un insieme di regole ispirate a Isaac Asimov che i robot devono seguire.

Google DeepMind sta collaborando con Apptronik per dare vita alla prossima generazione di robot umanoidi e attualmente sta fornendo accesso al modello Gemini Robotics-ER a "tester fidati", tra cui Agile Robots, Agility Robotics, Boston Dynamics ed Enchanted Tools. Parada ha aggiunto che l'obiettivo è costruire l'intelligenza necessaria per comprendere il mondo fisico e agire di conseguenza. Con queste innovazioni, il futuro della robotica potrebbe essere più promettente che mai.