Home Notizie recenti Un modello per l’estrazione automatica di contenuti da web e app

Un modello per l’estrazione automatica di contenuti da web e app

42
0

Credito: Pixabay/CC0 di dominio pubblico

I sistemi di gestione dei contenuti o CMS sono lo strumento più popolare per la creazione di contenuti su Internet. Negli ultimi anni si sono evoluti fino a diventare la spina dorsale di un ecosistema sempre più complesso di siti Web, app mobili e piattaforme. Al fine di semplificare i processi, un team di ricercatori dell’Internet Interdisciplinary Institute (IN3) dell’Universitat Oberta de Catalunya (UOC) ha sviluppato un modello open source per automatizzare l’estrazione di contenuti dai CMS. La loro ricerca associata è pubblicata in Sfide della ricerca nella scienza dell’informazione.

Il modello open-source è un prototipo scientifico pienamente funzionale che permette di estrarre la struttura dati e le librerie di ogni CMS e creare un software che funge da intermediario tra il contenuto e il cosiddetto front-end (il applicazione utilizzata dall’utente). L’intero processo viene eseguito automaticamente, rendendola una soluzione scalabile e priva di errori, poiché può essere ripetuta più volte senza aumentarne il costo.

L’importanza dei CMS nel mondo online

I sistemi di gestione dei contenuti (CMS) sono alla base di oltre il 60% delle pagine attualmente disponibili online. Sistemi come WordPress, Joomla e Drupal sono diventati popolari principalmente perché forniscono un’esperienza utente semplice, che ha consentito a tutti i tipi di utenti non tecnici di entrare a far parte della catena di creazione di contenuti online.

“Negli ultimi quattro o cinque anni, questi sistemi hanno fornito informazioni non solo ai browser, ma anche alle app mobili. I CMS dispongono di interfacce di programmazione delle applicazioni (API), con le quali le app mobili comunicano per estrarre contenuti”, ha spiegato Joan Giner Miguélez, uno studente del programma di dottorato in Network and Information Technologies con il gruppo Systems, Software and Models Research Lab (SOM Research Lab) e autore principale dello studio che delinea il nuovo modello. “Questi sistemi, noti come CMS headless, consentono ai contenuti, creati in modo semplice, di essere consumati in un secondo momento su piattaforme diverse”.

I CMS sono quindi diventati un grande contenitore di contenuti e dati utilizzati da ogni applicazione o piattaforma. Ciò ha semplificato molti processi ma ha anche aggiunto complessità in termini di sviluppo particolarmente evidenti per le organizzazioni che gestiscono un volume elevato di contenuti e piattaforme. È sempre più comune che la creazione di una nuova app mobile comporti un lavoro di sviluppo complesso e questi compiti sono semplificati dal modello disegnato dai ricercatori di IN3.

“Immaginate una grande azienda di contenuti che gestisce oltre mille siti Web e app e vuole creare una nuova app mobile che mostri i prodotti di ciascuno di quei siti Web. Se vogliono sviluppare i connettori tra ciascun sito Web e l’applicazione, il lavoro sarebbe immenso e ad alta intensità di risorse. Non è scalabile”, ha aggiunto Joan Giner. “Se le API sono già in un formato standard, perché non possiamo anche creare un estrattore di contenuto che legga e comprenda le API, le rappresenti in modo standard e generi il connettore per inviare automaticamente le informazioni alla nuova app mobile? “

Automatizzare l’estrazione di contenuti dai CMS

Il modello sviluppato da Giner, insieme ai suoi partner di ricerca Abel Gómez e Jordi Cabot, ricercatore ICREA e leader del SOM Research Lab, semplifica notevolmente il processo di sviluppo di una nuova applicazione e, a sua volta, si traduce in un notevole risparmio in termini di tempo e risorse. Il processo, sviluppato grazie ai finanziamenti dei progetti europei AIDOaRT e TRANSACT, ha l’obiettivo di estrarre e rappresentare il modello CMS in modo chiaro e automatico per facilitarne l’utilizzo come fonte di informazioni. Inoltre, la proposta tecnologica dei ricercatori IN3 mira a generare il codice che fungerà da collegamento tra il CMS e lo sviluppo di nuove applicazioni.

Per raggiungere questo obiettivo, il primo passo è fornire allo strumento l’indirizzo e le informazioni di accesso per il CMS. Una volta effettuato l’accesso, legge l’API, la comprende e utilizza un processo di reverse engineering per rappresentare la struttura e le librerie di contenuti del CMS in modo standard. Sulla base di ciò, genera automaticamente il codice del connettore attraverso il quale comunicheranno il CMS e la nuova app mobile in fase di sviluppo.

“È un modo per standardizzare il processo tra il CMS e l’applicazione finale”, ha sottolineato Joan Giner. “Il suo più grande vantaggio, infatti, è proprio la standardizzazione. Si tratta di un processo che si ripete frequentemente nelle organizzazioni che gestiscono i contenuti; un processo che, ogni volta che viene eseguito, prevede la creazione di un team di sviluppo specifico che richiede spese per una serie di risorse e che, inoltre, possono generare errori. Attraverso l’automazione, tutto viene semplificato e diventa più scalabile.”

Pertanto, questo modello per automatizzare le estrazioni CMS si concentra sulla scalabilità, poiché una volta creato lo schema e il codice del CMS, questo può essere riutilizzato tutte le volte necessarie e integrato in progetti di sviluppo futuri senza costi aggiuntivi.

I ricercatori sottolineano inoltre che si tratta di un modello automatico che crea librerie di contenuti privi di errori, mentre, se il lavoro viene svolto manualmente, gli sviluppatori possono sempre commettere un errore in una riga di codice.

“I sistemi di gestione dei contenuti sono una delle principali fonti di contenuto su Internet. Stiamo rendendo possibile standardizzare l’accesso ai CMS, proprio come l’accesso ai database era standardizzato in passato”, ha concluso Joan Giner. “Andando avanti, questo modello potrebbe anche essere utilizzato per trasformare i CMS in una nuova fonte di dati per l’addestramento dei sistemi di intelligenza artificiale”.


Fornito da Universitat Oberta de Catalunya

Articolo precedenteLo studio mostra che i veicoli elettrici possono essere ricaricati in movimento tramite un sistema peer-to-peer
Articolo successivoProteggere la visione artificiale dagli attacchi del contraddittorio