In un nuovo studio intitolato “Humanoid Policy ∼ Human Policy”, i ricercatori di Apple propongono un approccio innovativo per addestrare robot umanoidi. Questo metodo coinvolge l’uso di Apple Vision Pro e segna un passo interessante nel campo della robotica e dell’intelligenza artificiale. Con il supporto di istituzioni prestigiose come MIT, Carnegie Mellon, University of Washington e UC San Diego, i risultati di questo progetto potrebbero cambiare radicalmente il modo in cui i robot apprendono e si interfacciano con il mondo reale.

Un nuovo modo di apprendere dai comportamenti umani

Il progetto ha come obiettivo principale l’addestramento di modelli di robot umanoidi a partire da filmati in soggettiva di persone che manipolano oggetti. Questo approccio, chiamato PH2D, ha visto la raccolta di oltre 25.000 dimostrazioni umane e 1.500 dimostrazioni robotiche, che sono state integrate in una sola politica AI capace di controllare praticamente un robot umanoide.

I ricercatori hanno sottolineato l’importanza della diversità nei dati di addestramento: “L’addestramento delle politiche di manipolazione per robot umanoidi con dati diversificati ne migliora la robustezza e la generalizzazione.” Tuttavia, l’apprendimento solamente dai dimostratori robotici comporta costi e complessità elevati. Pertanto, la ricerca si è orientata verso una fonte di dati più scalabile, ovvero le dimostrazioni umane in prima persona, per servire come dati di addestramento e facilitare l’apprendimento dei robot.

Seguici su Google News Ricevi i nostri aggiornamenti direttamente nel tuo feed di

notizie personalizzato

Un metodo più economico e veloce per la raccolta dati

Per raccogliere i dati necessari all’addestramento, il team ha creato un’app per Apple Vision Pro che registra video attraverso la telecamera in basso a sinistra del dispositivo e utilizza ARKit di Apple per tracciare il movimento della testa e delle mani in 3D. Ma non si è fermato qui. Per esplorare soluzioni alternative più economiche, i ricercatori hanno anche stampato in 3D un supporto per attaccare una telecamera ZED Mini Stereo ad altri visori, come il Meta Quest 3, che offre tracciamento del movimento 3D a un costo inferiore.

Questo setup ha permesso di registrare dimostrazioni di alta qualità in pochi secondi, un miglioramento significativo rispetto ai metodi tradizionali di teleoperazione dei robot, che sono normalmente più lenti, costosi e difficili da scalare. Ulteriormente, la ricerca ha dovuto affrontare il fatto che gli esseri umani si muovono molto più velocemente dei robot; i ricercatori hanno quindi rallentato le dimostrazioni umane di un fattore quattro durante l’addestramento, consentendo ai robot di tenere il passo senza ulteriori aggiustamenti.

Il modello Human Action Transformer

Il fulcro di questo studio è rappresentato dall’Human Action Transformer , un modello che apprende sia dalle dimostrazioni umane che da quelle robotiche in un formato condiviso. Anziché segmentare i dati in base alla loro origine , HAT sviluppa una singola politica capace di generalizzare su entrambi i tipi di corpi, rendendo il sistema più flessibile ed efficiente nella gestione dei dati.

Nei test effettuati, questo approccio ha reso possibile ai robot di affrontare compiti più complessi, inclusi quelli mai sperimentati prima, dimostrando superiorità rispetto ai metodi tradizionali. La ricerca ha l’obiettivo di spingere i confini della robotica e aprire nuove possibilità per lo sviluppo di robot sempre più autonomi nelle attività quotidiane.

L’innovazione nel campo dei robot umanoidi stimola domande sul futuro: quale sarà il ruolo di questi robot nelle nostre vite e come influenzeranno le interazioni quotidiane?