Home Notizie recenti Eliminare i pregiudizi anti-queer nella previsione del testo

Eliminare i pregiudizi anti-queer nella previsione del testo

59
0
pregiudizio

Credito: Pixabay/CC0 di dominio pubblico

La moderna previsione del testo è tutt’altro che perfetta: prendi, ad esempio, quando una query di ricerca suggerisce qualcosa di completamente diverso dalle tue intenzioni. Ma il problema non finisce con l’imprecisione. La previsione del testo può anche essere estremamente esclusiva o parziale quando si tratta di prevedere i risultati relativi alle comunità emarginate.

Un team di ricercatori della USC Viterbi School of Engineering Information Sciences Institute e della USC Annenberg School for Communication and Journalism, guidati da Katy Felkner, una studentessa di informatica dell’USC Viterbi e beneficiaria della National Science Foundation Graduate Research Fellowship, ha ha sviluppato un sistema per quantificare e correggere i pregiudizi anti-queer nell’intelligenza artificiale dietro la previsione del testo.

Il progetto, presentato da Felkner al workshop Queer in AI al capitolo nordamericano della conferenza dell’Association for Computational Linguistics (NAACL) a luglio, esamina sia il rilevamento che la riduzione dei pregiudizi anti-queer in un modello linguistico di grandi dimensioni, utilizzato in tutto, dalle barre di ricerca ai sistemi di traduzione delle lingue.

Il Large Language Model, o LLM, è il “cervello” dietro la previsione del testo che compare quando digitiamo qualcosa in una barra di ricerca: un’intelligenza artificiale che “completa” le frasi prevedendo la stringa più probabile di parole che segue un determinato prompt .

Tuttavia, gli LLM devono prima essere “formati” ricevendo milioni di esempi di contenuti pre-scritti in modo che possano imparare che aspetto hanno tipicamente le frasi. Come un bambino energico, l’LLM ripete ciò che sente e ciò che sente può essere eteronormativo o addirittura apertamente discriminatorio.

“La maggior parte degli LLM sono addestrati su enormi quantità di dati che vengono scansionati da Internet”, ha affermato Felkner. “Raccoglieranno ogni tipo di pregiudizio sociale che puoi immaginare sia là fuori sul web.”

Poche parole, grande effetto

Il progetto ha scoperto che un popolare LLM chiamato BERT mostrava un significativo pregiudizio omofobico. Questa distorsione viene misurata attraverso il benchmark di Felkner, che confronta la probabilità che l’LLM preveda frasi eteronormative rispetto a frasi che includono una relazione queer.

“Un output eteronormativo è qualcosa come ‘James si tenne per mano con Mary’ contro ‘James si tenne per mano con Tom'”, ha detto Felkner. “Entrambe sono frasi valide, ma il problema è che, in un’ampia varietà di contesti, il modello preferisce l’output eteronormativo”.

Sebbene la differenza sia solo di poche parole, l’effetto è tutt’altro che piccolo.

I risultati previsti che parlano di persone queer in modi stereotipati possono rafforzare i pregiudizi degli utenti e la mancanza di “esperienza” del modello con le voci queer può portare a considerare il linguaggio queer come osceno.

“Un problema persistente per le persone queer è che molte volte le parole che usiamo per descrivere noi stessi, o gli insulti che sono stati reclamati, sono ancora considerati osceni o eccessivamente sessuali”, ha affermato Felkner, che è anche il rappresentante dei laureati per Queers nel capitolo Ingegneria, Scienza e Tecnologia (QuEST) di Out in STEM presso USC.

“Se un modello contrassegna regolarmente queste parole e questi post vengono poi rimossi dalle piattaforme o dai forum in cui si trovano, stai mettendo a tacere la comunità queer”.

Contributo comunitario

Per affrontare questo problema, Felkner ha messo a punto BERT alimentandolo con Tweet e articoli di notizie contenenti parole chiave LGBT+. Questo contenuto utilizzato per “addestrare” BERT proveniva da due database separati creati da Felkner, chiamati QueerTwitter e QueerNews.

Sebbene l’elaborazione del linguaggio richieda quantità estremamente grandi di dati – il database QueerTwitter conteneva oltre 2,3 milioni di Tweet – si è preoccupata di individuare gli hashtag utilizzati principalmente da persone queer e trans, come #TransRightsareHumanRights.

Quando il modello è stato esposto a diverse prospettive e comunità, ha acquisito maggiore familiarità con il linguaggio e le problematiche queer. Di conseguenza, era più probabile che li rappresentasse nelle sue previsioni.

Dopo essere stato addestrato con i nuovi dati più inclusivi, il modello ha mostrato una distorsione significativamente inferiore. I tweet di QueerTwitter si sono rivelati il ​​più efficace dei due database, riducendo la prevalenza dei risultati eteronormativi a quasi la metà di tutte le previsioni.

“Penso che i risultati di QueerTwitter siano più efficaci di QueerNews parlino dell’importanza del coinvolgimento diretto della comunità e che le voci queer e trans – e i dati delle loro comunità – saranno i più preziosi nella progettazione di una tecnologia che non danneggi loro “, ha detto Feltner. “Siamo stati entusiasti di questa scoperta perché è la prova empirica di quell’intuizione che le persone già hanno: che queste comunità dovrebbero avere un input su come viene progettata la tecnologia”.

Andando avanti, il progetto cercherà di affrontare i pregiudizi che colpiscono parti specifiche della comunità LGBT+, utilizzando insiemi di dati più raffinati e mirati e suggerimenti più personalizzati con cui il modello deve lavorare, come affrontare gli stereotipi dannosi sulle lesbiche. A lungo termine, Felkner spera che il progetto possa essere utilizzato per formare altri LLM, aiutare i ricercatori a testare l’equità della loro elaborazione del linguaggio naturale o persino scoprire pregiudizi completamente nuovi.

“Ci stiamo occupando di come combattere la marea di dati distorti per capire che cosa sia ‘ingiusto’ e come testarlo e correggerlo, che è un problema sia in generale che per le sottoculture che non conosciamo anche a conoscenza”, ha affermato Jonathan May, professore associato di informatica di ricerca della USC Viterbi, consulente di Felkner e coautore dello studio. “Ci sono molti ottimi modi per estendere il lavoro che Katy sta facendo”.


Articolo precedenteE se potessimo riciclare l’energia rimanente nelle batterie scartate? Gli scienziati ora sanno come fare
Articolo successivoL’uso di alcol può alterare i microbi intestinali, ma non nel modo in cui potresti pensare