Una rete che collega dizionari, testi e risorse linguistiche italiane, capace di analizzare dati digitali, prevedere l’uso dei termini e sviluppare modelli di intelligenza artificiale per analisi avanzate: questo è LiITA (Linking Italian). Il progetto mira a creare una Knowledge Base (KB) interoperabile per la lingua italiana, integrando risorse antiche e moderne grazie ai principi del Web Semantico e dei Linked Data.
La presentazione di LiITA
LiITA sarà protagonista della conferenza “CLiC-it 2024 – Tenth Italian Conference on Computational Linguistics”, che si svolgerà a Pisa dal 4 al 6 dicembre. Qui sarà presentata anche la pubblicazione The Lemma Bank of the LiITA Knowledge Base of Interoperable Resources for Italian, che esplora i dettagli del progetto.
Sostenuto dal Ministero dell’Università e Ricerca con un finanziamento PRIN-2022 PNRR di 237.695 euro, il progetto è coordinato dalla dottoressa Eleonora Litta presso l’Università Cattolica del Sacro Cuore, in collaborazione con l’Università di Torino.
Un grafo di conoscenza per la lingua italiana
“L’architettura di LiITA è semplice e adattabile a ogni lingua,” spiega il professor Marco Passarotti, ordinario di Linguistica Computazionale alla Cattolica. Al centro vi è una vasta raccolta di lemmi (forme base delle parole, come nei dizionari), collegati alle loro occorrenze nei corpora testuali e alle rispettive voci nei lessici. Questo crea un grafo di conoscenza in cui i lemmi e le loro relazioni sono processabili dalle macchine.
Grazie a questo sistema, LiITA può supportare lo sviluppo di applicazioni avanzate per settori come ricerca, editoria, medicina e analisi del web, oltre a migliorare i modelli di intelligenza artificiale con un fine-tuning specifico per la lingua italiana.
Dal latino all’italiano: l’eredità di LiLa
LiITA nasce dall’esperienza di LiLa (Linking Latin), un progetto simile per il latino, coordinato dal professor Passarotti e finanziato dal Consiglio Europeo della Ricerca con 2 milioni di euro. LiLa ha creato una Knowledge Base con oltre 200.000 lemmi, rendendo interoperabili decine di risorse linguistiche.
Come in LiLa, anche in LiITA ogni lemma e occorrenza è identificato da un codice univoco, consentendo l’interazione tra dati e relazioni elaborabili dalle macchine. “Questi progetti rappresentano una svolta nella linguistica, rendendo le basi di conoscenza utili per affinare i modelli di intelligenza artificiale,” conclude Passarotti.
LiITA non è solo un ponte tra parole e sapere, ma una piattaforma che posiziona l’italiano al centro delle innovazioni linguistiche e tecnologiche globali.