Home Notizie recenti DayDreamer: un algoritmo per insegnare rapidamente ai robot nuovi comportamenti nel mondo...

DayDreamer: un algoritmo per insegnare rapidamente ai robot nuovi comportamenti nel mondo reale

27
0

Dopo aver imparato a camminare in 1 ora, iniziamo ad applicare perturbazioni esterne al robot quadrupede. Pur essendo inizialmente fragile, il robot impara ad adattarsi per resistere alle spinte o a rotolare rapidamente in piedi entro 10 minuti dall’apprendimento continuo. Credito: Wu et al.

Addestrare i robot per completare le attività nel mondo reale può essere un processo molto dispendioso in termini di tempo, che comporta la creazione di un simulatore veloce ed efficiente, l’esecuzione di numerose prove su di esso e quindi il trasferimento dei comportamenti appresi durante queste prove nel mondo reale. In molti casi, tuttavia, le prestazioni ottenute nelle simulazioni non corrispondono a quelle ottenute nel mondo reale, a causa di cambiamenti imprevedibili nell’ambiente o nell’attività.

I ricercatori dell’Università della California, Berkeley (UC Berkeley) hanno recentemente sviluppato DayDreamer, uno strumento che potrebbe essere utilizzato per addestrare i robot a completare le attività del mondo reale in modo più efficace. Il loro approccio, introdotto in un documento pre-pubblicato su arXiv, si basa su modelli di apprendimento del mondo che consentono ai robot di prevedere i risultati dei loro movimenti e azioni, riducendo la necessità di un’ampia formazione per tentativi ed errori nel mondo reale.

“Volevamo costruire robot che imparassero continuamente direttamente nel mondo reale, senza dover creare un ambiente di simulazione”, ha detto a TechXplore Danijar Hafner, uno dei ricercatori che hanno condotto lo studio. “Prima avevamo appreso solo modelli mondiali di videogiochi, quindi è stato super eccitante vedere che lo stesso algoritmo consente ai robot di apprendere rapidamente anche nel mondo reale!”

Utilizzando il loro approccio, i ricercatori sono stati in grado di insegnare in modo efficiente e rapido ai robot a eseguire comportamenti specifici nel mondo reale. Ad esempio, hanno addestrato un cane robotico a rotolare giù dalla schiena, alzarsi e camminare in appena un’ora.

Dopo essere stato addestrato, il team ha iniziato a spingere il robot e ha scoperto che, entro 10 minuti, era anche in grado di resistere alle spinte o di tornare rapidamente in piedi. Il team ha anche testato il loro strumento su bracci robotici, addestrandoli a raccogliere oggetti e posizionarli in luoghi specifici, senza dire loro dove si trovavano inizialmente.

“Abbiamo visto i robot adattarsi ai cambiamenti delle condizioni di illuminazione, come le ombre che si muovono con il sole nel corso della giornata”, ha detto Hafner. “Oltre all’apprendimento rapido e continuo nel mondo reale, lo stesso algoritmo senza alcuna modifica ha funzionato bene nei quattro diversi robot e attività. Pertanto, riteniamo che i modelli mondiali e l’adattamento online giocheranno un ruolo importante nella robotica in futuro”.

I modelli computazionali basati sull’apprendimento per rinforzo possono insegnare ai robot i comportamenti nel tempo, dando loro ricompense per comportamenti desiderabili, come buone strategie di afferrare oggetti o muoversi a una velocità adeguata. In genere, questi modelli vengono addestrati attraverso un lungo processo di tentativi ed errori, utilizzando sia simulazioni che possono essere accelerate sia esperimenti nel mondo reale.

D’altra parte, Dreamer, l’algoritmo sviluppato da Hafner e dai suoi colleghi, costruisce un modello mondiale basato sulle sue “esperienze” passate. Questo modello del mondo può quindi essere utilizzato per insegnare ai robot nuovi comportamenti basati su interazioni “immaginate”. Ciò riduce significativamente la necessità di prove nell’ambiente del mondo reale, accelerando così notevolmente il processo di formazione.

“Prevedere direttamente gli input sensoriali futuri sarebbe troppo lento e costoso, specialmente quando sono coinvolti input di grandi dimensioni come le immagini della fotocamera”, ha affermato Hafner. “Il modello del mondo impara prima a codificare i suoi input sensoriali ad ogni passo temporale (angoli motori, misurazioni dell’accelerometro, immagini della telecamera, ecc.) In una rappresentazione compatta. Data una rappresentazione e un comando motorio, impara quindi a prevedere la rappresentazione risultante a il prossimo passo”.

Il modello mondiale prodotto da Dreamer consente ai robot di “immaginare” rappresentazioni future invece di elaborare input sensoriali grezzi. Ciò a sua volta consente al modello di pianificare migliaia di sequenze di azioni in parallelo, utilizzando una singola unità di elaborazione grafica (GPU). Queste sequenze “immaginate” aiutano a migliorare rapidamente le prestazioni dei robot su compiti specifici.

“L’uso delle caratteristiche latenti nell’apprendimento per rinforzo è stato ampiamente studiato nel contesto dell’apprendimento della rappresentazione; l’idea è che si può creare una rappresentazione compatta di ampi input sensoriali (immagini della telecamera, scansioni di profondità), riducendo così le dimensioni del modello e forse riducendo il tempo di formazione richiesto”, ha detto a TechXplore Alejandro Escontrela, un altro ricercatore coinvolto nello studio. “Tuttavia, le tecniche di apprendimento della rappresentazione richiedono ancora che il robot interagisca a lungo con il mondo reale o un simulatore per apprendere un compito. Dreamer invece consente al robot di imparare dall’interazione immaginata utilizzando le sue rappresentazioni apprese come un accurato e iper efficiente ‘ simulatore.’ Ciò consente al robot di eseguire un’enorme quantità di formazione all’interno del modello del mondo appreso”.

Durante l’addestramento dei robot, Dreamer raccoglie continuamente nuove esperienze e le utilizza per migliorare il proprio modello mondiale, migliorando così il comportamento dei robot. Il loro metodo ha permesso ai ricercatori di addestrare un robot quadrupede a camminare e adattarsi a specifici stimoli ambientali in una sola ora, senza utilizzare un simulatore, cosa mai realizzata prima.

“In futuro, immaginiamo che questa tecnologia consentirà agli utenti di insegnare ai robot molte nuove abilità direttamente nel mondo reale, eliminando la necessità di progettare simulatori per ogni attività”, ha affermato Hafner. “Apre anche la porta alla costruzione di robot che si adattano a guasti hardware, come essere in grado di camminare nonostante un motore rotto in una delle gambe”.

Nei loro test iniziali, Hafner, Escontrela, Philip Wu e i loro colleghi hanno anche utilizzato il loro metodo per addestrare un robot a raccogliere oggetti e posizionarli in luoghi specifici. Questo compito, che viene svolto ogni giorno da lavoratori umani nei magazzini e nelle catene di montaggio, può essere difficile da completare per i robot, in particolare quando la posizione degli oggetti che dovrebbero raccogliere è sconosciuta.

DayDreamer: un algoritmo per insegnare rapidamente ai robot nuovi comportamenti nel mondo reale

Dreamer segue una semplice pipeline per l’apprendimento online su robot fisici, senza la necessità di simulatori. L’interazione con il mondo reale viene aggiunta al buffer di riproduzione che memorizza tutte le esperienze passate. Un modello del mondo impara a caso su sequenze prelevate dal buffer di riproduzione. Il comportamento impara dalle previsioni del modello mondiale utilizzando un algoritmo “critico attore”. Il comportamento attuale viene utilizzato per interagire con il mondo per raccogliere nuove esperienze, chiudendo il cerchio. Credito: Wu et al.

“Un’altra difficoltà associata a questo compito è che non possiamo dare un feedback intermedio o una ricompensa al robot finché non ha effettivamente afferrato qualcosa, quindi c’è molto da esplorare per il robot senza una guida intermedia”, ha detto Hafner. “In 10 ore di funzionamento completamente autonomo, il robot addestrato utilizzando Dreamer si è avvicinato alle prestazioni dei teleoperatori umani. Questo risultato suggerisce modelli mondiali come un approccio promettente per automatizzare le stazioni nei magazzini e nelle linee di montaggio”.

Nei loro esperimenti, i ricercatori hanno utilizzato con successo l’algoritmo Dreamer per addestrare quattro robot morfologicamente diversi su vari compiti. L’addestramento di questi robot utilizzando l’apprendimento per rinforzo convenzionale richiede in genere una sostanziale messa a punto manuale, eseguita bene tra le attività senza ulteriore messa a punto.

“Sulla base dei nostri risultati, ci aspettiamo che più team di robotica inizieranno a utilizzare e migliorare Dreamer per risolvere problemi di robotica più impegnativi”, ha affermato Hafner. “Avere un algoritmo di apprendimento per rinforzo che funziona immediatamente offre ai team più tempo per concentrarsi sulla costruzione dell’hardware del robot e sulla specifica delle attività che desiderano automatizzare con il modello mondiale”.

L’algoritmo può essere facilmente applicato ai robot e il suo codice sarà presto open source. Ciò significa che presto altri team saranno in grado di usarlo per addestrare i propri robot utilizzando modelli mondiali.

Hafner, Escontrela, Wu e i loro colleghi vorrebbero ora condurre nuovi esperimenti, dotando un robot quadrupede di una telecamera in modo che possa imparare non solo a camminare, ma anche a identificare gli oggetti vicini. Ciò dovrebbe consentire al robot di affrontare compiti più complessi, ad esempio evitare ostacoli, identificare oggetti di interesse nel suo ambiente o camminare accanto a un utente umano.

“Una sfida aperta nella robotica è il modo in cui gli utenti possono specificare intuitivamente le attività per i robot”, ha aggiunto Hafner. “Nel nostro lavoro, abbiamo implementato i segnali di ricompensa che il robot ottimizza come funzioni Python, ma alla fine sarebbe bello insegnare ai robot dalle preferenze umane dicendo loro direttamente quando hanno fatto qualcosa di giusto o sbagliato. Ciò potrebbe accadere premendo un pulsante per dare una ricompensa o anche dotando i robot di una comprensione del linguaggio umano”.

Finora, il team ha utilizzato il proprio algoritmo solo per addestrare i robot su compiti specifici, che erano chiaramente definiti all’inizio dei loro esperimenti. In futuro, tuttavia, vorrebbero anche addestrare i robot a esplorare il loro ambiente senza affrontare un compito chiaramente definito.

“Una direzione promettente sarebbe quella di addestrare i robot a esplorare l’ambiente circostante in assenza di un compito attraverso la curiosità artificiale, e poi adattarsi per risolvere i compiti specificati dagli utenti ancora più velocemente”, ha aggiunto Hafner.


© 2022 Scienza X Rete

Articolo precedenteAmazon ha appena rilevato una società di assistenza sanitaria di base per un sacco di soldi. Dovremmo essere preoccupati?
Articolo successivoL’intelligenza artificiale sui dati di grandi campi aiuta a rendere la fratturazione idraulica più redditizia