Home Notizie recenti Trasformare i sensi in media: possiamo insegnare all’intelligenza artificiale a percepire?

Trasformare i sensi in media: possiamo insegnare all’intelligenza artificiale a percepire?

39
0

Credito: Pixabay/CC0 di dominio pubblico

Gli esseri umani percepiscono il mondo attraverso diversi sensi: vediamo, sentiamo, udiamo, gustiamo e annusi. I diversi sensi con cui percepiamo sono molteplici canali di informazione, noti anche come multimodali. Questo significa che ciò che percepiamo può essere visto come multimediale?

Xue Wang, Ph.D. Candidato alla LIACS, traduce la percezione in contenuti multimediali e utilizza l’Intelligenza Artificiale (AI) per estrarre informazioni dai processi multimodali, in modo simile al modo in cui il cervello elabora le informazioni. Nella sua ricerca ha testato i processi di apprendimento dell’IA in quattro modi diversi.

Mettere le parole nei vettori

In primo luogo, Xue ha esaminato l’apprendimento incorporato nelle parole: la traduzione delle parole in vettori. Un vettore è una quantità con due proprietà, ovvero una direzione e una grandezza. Nello specifico, questa parte si occupa di come migliorare la classificazione delle informazioni. Xue ha proposto l’uso di un nuovo modello di intelligenza artificiale che collega le parole alle immagini, semplificando la classificazione delle parole. Durante il test del modello, un osservatore potrebbe interferire se l’IA ha fatto qualcosa di sbagliato. La ricerca mostra che questo modello ha prestazioni migliori rispetto a un modello utilizzato in precedenza.

Guardando le sottocategorie

Un secondo focus della ricerca sono le immagini accompagnate da altre informazioni. Per questo argomento Xue ha osservato il potenziale delle sottocategorie di etichettatura, note anche come etichettatura a grana fine. Ha utilizzato un modello di intelligenza artificiale specifico per semplificare la categorizzazione delle immagini con poco testo attorno. Unisce etichette grossolane, che sono categorie generali, con etichette a grana fine, le sottocategorie. L’approccio è efficace e utile per strutturare categorizzazioni facili e difficili.

Trovare relazioni tra immagini e testo

In terzo luogo, Xue ha studiato l’associazione di immagini e testi. Un problema con questo argomento è che la trasformazione di queste informazioni non è lineare, il che significa che può essere difficile da misurare. Xue ha trovato una potenziale soluzione per questo problema: ha usato la trasformazione basata sul kernel. Kernel sta per una classe specifica di algoritmi nell’apprendimento automatico. Con il modello utilizzato, ora è possibile per l’IA vedere la relazione di significato tra immagini e testo.

Trovare contrasto nelle immagini e nel testo

Infine, Xue si è concentrato sulle immagini accompagnate da testo. In questa parte l’IA ha dovuto guardare ai contrasti tra parole e immagini. Il modello di intelligenza artificiale ha svolto un’attività chiamata messa a terra della frase, che è il collegamento di nomi nelle didascalie dell’immagine a parti dell’immagine. Non c’era nessun osservatore che potesse interferire in questo compito. La ricerca ha mostrato che l’IA può collegare le regioni dell’immagine ai nomi con una precisione media per questo campo di ricerca.

La percezione dell’intelligenza artificiale

Questa ricerca offre un grande contributo nel campo dell’informazione multimediale: vediamo che l’IA può classificare parole, categorizzare immagini e collegare immagini al testo. Ulteriori ricerche possono utilizzare i metodi proposti da Xue e si spera portino a intuizioni ancora migliori sulla percezione multimediale dell’IA.


Articolo precedenteTest di Instagram utilizzando l’IA, altri strumenti per la verifica dell’età
Articolo successivoLa recessione è certamente una possibilità, dice Powell; prospettive di crescita globale deboli