Ia e innovazione tecnologica, una svolta per la linguistica

Milano, 4 dic. (askanews) – Tanti testi, lessici e dizionari italiani a portata di click e in grado d’interagire tra loro, un ponte tra parole e sapere che permette di vedere, e quindi prevedere, dove quei termini sono e saranno usati (insomma dove ricorrono: tecnicamente, le loro ‘occorrenze’), una rete che collega le risorse linguistiche italiane, permettendo loro di dialogare e rivelare nuove prospettive, con la possibilità di costruire modelli di intelligenza artificiale specifici per compiere analisi linguistiche avanzate, uno straordinario osservatorio sulla massa dei dati digitali, sia testuali che lessicali, per la lingua italiana: questo e molto altro è il cuore del progetto LiITA (Linking Italian), che si concentra sulla creazione di una base di conoscenza (Knowledge Base, KB) interoperabile per le risorse linguistiche italiane (dai dizionari ai testi, antichi e moderni), seguendo i principi dei dati collegati (Linked Data) utilizzati nel Web Semantico.

Il progetto LiITA sarà presentato alla conferenza “CLiC-it 2024 – Tenth Italian Conference on Computational Linguistics”, la decima conferenza italiana sulla linguistica computazionale che si terrà a Pisa dal 4 al 6 dicembre 2024. Il progetto sarà anche oggetto di una pubblicazione dal titolo The Lemma Bank of the LiITA Knowledge Base of Interoperable Resources for Italian, che apparirà sui Proceedings della conferenza CLiC-it.

Supportato dal Ministero dell’Università e Ricerca con un finanziamento PRIN-2022 PNRR per un ammontare complessivo di 237.695 euro, il progetto LiITA è condotto dall’Università Cattolica del Sacro Cuore, campus di Milano, con la coordinazione della dottoressa Eleonora Litta e in collaborazione con l’Università di Torino.

“L’architettura della Knowledge Base di LiITA è molto semplice e trasferibile a ogni lingua – spiega Marco Passarotti, professore ordinario di Linguistica Computazionale presso la Facoltà di Scienze Linguistiche e Letterature Straniere della Cattolica -. Il cuore di LiITA è una grande raccolta di lemmi, ovvero forme canoniche di citazione delle parole (come i nomi delle entrate lessicali nei dizionari): a ciascun lemma saranno connesse sul web le sue occorrenze nei vari corpora testuali dell’italiano linkati alla Knowledge Base, così come le sue entrate nei vari lessici e dizionari. Il risultato sarà un grande grafo di conoscenza fatto di nodi (come, ad esempio, i lemmi e le loro occorrenze) e di relazioni tra essi”, precisa l’esperto.

“Questo grafo potrà, quindi, essere utilizzato non solo per estrarre informazione dalle risorse linguistiche rese interoperabili da LiITA, ma anche per raffinare (fine-tuning) la conoscenza dei modelli di intelligenza artificiale, supportando lo sviluppo di applicazioni specifiche per l’analisi della lingua italiana utili in diversi campi: dalla ricerca all’editoria, dalla medicina al mondo del web. Con progetti di questo tipo, che fanno incontrare dati e tecnologia – sottolinea il professor Passarotti – facciamo fronte a una svolta nella linguistica resa evidente e inevitabile dalla diffusione dell’Intelligenza Artificiale, che è fondata proprio su modelli del funzionamento del linguaggio naturale: stiamo assistendo alla prima rivoluzione industriale-tecnologica che tocca l’oggetto più umanistico di sempre, il linguaggio. La disciplina che lo studia non può ignorarla”.

Il progenitore di LiITA è stato LiLa (Linking Latin), un progetto analogo ma basato su risorse per la lingua latina. Coordinato dal professor Passarotti, grazie a un finanziamento di 2 milioni di euro da parte del Consiglio Europeo della Ricerca, LiLa ha sviluppato una raccolta di più di 200 mila lemmi e ha reso interoperabili decine di risorse linguistiche per il latino. La Knowledge Base di LiLa è tuttora in continua espansione.

Le risorse linguistiche distribuite per il latino (corpora, dizionari, risorse lessicali) sono state integrate da LiLa in una struttura unificata, utilizzando i lemmi come nodo centrale per collegare dati provenienti da fonti diverse. “A ogni lemma – spiega il professore – occorrenza di parola nei testi ed entrata lessicale nei dizionari è assegnato un identificatore unico e persistente, consentendo così la loro interazione sulla base di relazioni il cui significato è processabile dalle macchine. L’architettura di LiLa è indipendente dalla lingua e può essere adottata per qualsiasi idioma, tutto è fatto a triple: un soggetto un oggetto e una relazione- La bellezza di basi di conoscenza come LiLa o LiITA -precisa Passarotti – è che possono essere usate come fonte di dati, metadati e relazioni esplicite tra essi per raffinare modelli di intelligenza artificiale”.

Videonews

Francia, il Parlamento ha sfiduciato il governo di Michel Barnier

Francia, Le Pen: “Costretti a votare con la sinistra contro Barnier”

Il picchetto d’onore per Viktor Orban a Palazzo Chigi con Meloni

Usa, ucciso a Manhattan il CEO di UnitedHealthcare Brian Thompson

“Storie bastarde”, crescere fra Pasolini e la banda della Magliana

Gino Cecchettin da Valditara: agenda condivisa contro i femminicidi

Biden al terminal di Lobito con i leader di Angola, Zambia e Rd Congo

A Modena la reunion degli autori Disney sul futuro di Topolino

A Cinecittà World sbarca Oriental World, Festival Luminarie Cinesi

Salute mentale: un “Mental Act” in 10 punti per superare emergenza

Ia e innovazione tecnologica, una svolta per la linguistica

Notizie Correlate

Expo 2025, anche la Lombardia sarà presente a Osaka

Vino, dal 23 al 25 febbraio 2025 a Bologna la quarta Slow Wine Fair

Al via stagione invernale La Skiarea Alpe Cimbra-Folgaria-Lavarone