Home Notizie recenti Lo studio traccia un nuovo collegamento tra l’apprendimento della ricompensa basato sulla...

Lo studio traccia un nuovo collegamento tra l’apprendimento della ricompensa basato sulla dopamina e l’apprendimento automatico

38
0

Credito: Amo et al.

La ricerca passata in neuroscienze e psicologia ha ripetutamente dimostrato il ruolo cruciale delle ricompense nel modo in cui gli esseri umani e altri animali acquisiscono comportamenti che promuovono la loro sopravvivenza. I neuroni dopaminergici, neuroni che producono dopamina nel sistema nervoso centrale dei mammiferi, sono noti per essere in gran parte responsabili dell’apprendimento basato sulla ricompensa nei mammiferi.

Gli studi hanno scoperto che quando un mammifero riceve una ricompensa inaspettata, questi neuroni rispondono prontamente, attraverso una cosiddetta eccitazione fasica. Questo è un breve ma forte periodo di eccitazione che si verifica nei recettori cerebrali che si adattano rapidamente (cioè i recettori fasici).

Quando gli animali iniziano a creare associazioni tra una ricompensa e uno stimolo o segnale specifico, i neuroni della dopamina regolano le loro risposte alla ricompensa in questione. Questo potrebbe essere un meccanismo evolutivo volto a supportare l’apprendimento associativo.

Negli ultimi anni, gli informatici hanno cercato di replicare artificialmente le basi neurali dell’apprendimento della ricompensa nei mammiferi, per creare modelli di apprendimento automatico efficienti in grado di affrontare compiti complessi. Un rinomato metodo di apprendimento automatico che replica la funzione dei neuroni dopaminergici è il cosiddetto algoritmo di apprendimento della differenza temporale (TD).

I ricercatori dell’Università di Harvard, della Nagoya University e della Keio University School of Medicine hanno recentemente condotto uno studio esplorando un aspetto del metodo computazionale di apprendimento TD che potrebbe essere correlato al modo in cui gli esseri umani apprendono in base alle ricompense. Il loro articolo, pubblicato in Neuroscienze della naturapotrebbe gettare nuova luce su come il cervello costruisce associazioni tra segnali e ricompense che sono separate nel tempo (cioè, che non sono consecutive e quindi non vissute una dopo l’altra).

Gli algoritmi di apprendimento TD sono una classe di approcci di apprendimento per rinforzo che non richiedono un modello, ma piuttosto possono imparare a fare previsioni basate sui cambiamenti nell’ambiente che si verificano in fasi temporali successive. A differenza di altri metodi di apprendimento automatico, i metodi TD possono modificare le proprie stime più volte prima di rivelare la previsione finale.

Negli ultimi anni, diversi studi hanno evidenziato le somiglianze tra gli algoritmi di apprendimento TD e i neuroni della dopamina che apprendono la ricompensa nel cervello. Tuttavia, un aspetto particolare del funzionamento dell’algoritmo è stato raramente considerato nella ricerca neuroscientifica.

“Studi precedenti non sono riusciti a osservare una previsione chiave di questo algoritmo: che quando un agente associa un segnale e una ricompensa separati nel tempo, la tempistica dei segnali della dopamina dovrebbe spostarsi gradualmente indietro nel tempo dal momento della ricompensa al momento della spunto per più prove”, hanno scritto nel loro articolo Ryunosuke Amo, Sara Matias, Akihiro Yamanaka, Kenji F. Tanaka, Naoshige Uchida e Mitsuko Watabe-Uchida. “Dimostriamo che un tale spostamento graduale si verifica sia a livello di attività cellulare dopaminergica che di rilascio di dopamina nello striato ventrale nei topi”.

Nel loro articolo, Amo e i suoi colleghi hanno considerato i risultati degli esperimenti che hanno condotto su topi non addestrati che stavano imparando ad associare i segnali di odore alle ricompense dell’acqua. Quando gli animali hanno iniziato ad associare odori specifici con l’acqua ricevente, hanno mostrato un comportamento leccante suggerendo che si aspettavano di ricevere acqua dopo aver annusato solo l’odore associato.

Nei loro esperimenti, i ricercatori hanno presentato ai topi l’odore di pre-ricompensa e la ricompensa in tempi diversi. In altre parole, hanno cambiato la quantità di tempo tra il momento in cui i topi sono stati esposti all’odore e il momento in cui hanno ricevuto la ricompensa in acqua.

Hanno scoperto che quando la ricompensa veniva ritardata (cioè veniva data ai topi più tardi di quanto avevano sperimentato in precedenza), i neuroni della dopamina non erano così attivi all’inizio, ma diventavano più attivi col passare del tempo. Ciò ha dimostrato che, come osservato negli approcci di apprendimento TD, i tempi delle risposte della dopamina nel cervello possono cambiare mentre i topi apprendono per la prima volta le associazioni tra odori e ricompense.

Il team ha inoltre condotto ulteriori esperimenti per verificare se questo cambiamento si è verificato anche negli animali che erano già stati addestrati a creare queste associazioni di ricompensa dell’odore e durante le attività inverse (cioè, le attività in cui il segnale e la ricompensa erano invertiti). Hanno osservato uno spostamento temporale nei segnali della dopamina dell’animale durante il periodo di ritardo, che era simile a quello mostrato quando gli animali stavano imparando le associazioni per la prima volta, ma a una velocità maggiore.

Nel complesso, i risultati raccolti da Amo e dai suoi colleghi evidenziano il verificarsi di un cambiamento all’indietro nei tempi dell’attività della dopamina nel cervello dei topi durante diversi esperimenti di apprendimento associativo. Questo spostamento temporale osservato assomiglia molto ai meccanismi alla base dei metodi di apprendimento TD.

In futuro, i risultati raccolti da questo team di ricercatori potrebbero aprire la strada a nuovi studi che indagano su questa potenziale somiglianza tra l’apprendimento della ricompensa nel cervello dei mammiferi e gli approcci di apprendimento per rinforzo TD. Ciò potrebbe aiutare a migliorare l’attuale comprensione dell’apprendimento della ricompensa nel cervello, ispirando anche potenzialmente l’ulteriore sviluppo degli algoritmi di apprendimento TD.

“I nostri risultati stabiliscono un legame a lungo ricercato tra l’attività dopaminergica e l’algoritmo di apprendimento TD, fornendo informazioni fondamentali su come il cervello associa segnali e ricompense che sono separati nel tempo”, hanno scritto i ricercatori nel loro articolo.


© 2022 Scienza X Rete

Articolo precedenteL’intelligenza artificiale sui dati di grandi campi aiuta a rendere la fratturazione idraulica più redditizia
Articolo successivoIl futuro dei servizi di streaming: quattro modi in cui i tuoi abbonamenti TV potrebbero cambiare a causa della crisi del costo della vita