Parla chiaro: la sfida della Federico II per un'IA medica che non dimentichi i dialetti

L’Università degli studi di Napoli Federico II, sotto la guida di Vincenzo Moscato, Ordinario di Sistemi di elaborazione delle informazioni presso lo stesso ateneo, ha lanciato una sfida ambiziosa al cuore dell’intelligenza artificiale moderna con il progetto di ricerca Parla Chiaro, finanziato con un Grant Microsoft LINGUA e supportato dall’AI for Good Lab di Microsoft.

L’ateneo federiciano sta lavorando per colmare un divario tecnologico che mette a rischio la sicurezza sanitaria di milioni di cittadini: l’incapacità dei sistemi di Intelligenza Artificiale (IA) di comprendere correttamente i dialetti italiani.

Attualmente, infatti, i sistemi di IA più avanzati, come ChatGPT o Claude, sono addestrati prevalentemente in lingua inglese. Sebbene siano in grado di gestire l’italiano standard, la loro affidabilità crolla drasticamente di fronte alle varietà regionali. Per le fasce più vulnerabili della popolazione, come gli anziani o chi vive in aree rurali, il dialetto rimane la lingua principale di comunicazione. In un contesto critico come quello medico, un’IA che può avere “allucinazioni" o fraintende un’espressione dialettale non commette solo un errore linguistico, ma genera un rischio concreto per la sicurezza del paziente.

Esperienza sul campo

L’esigenza di questo progetto non è nata da un’ipotesi teorica, ma dall’osservazione diretta sul campo. Durante le sperimentazioni condotte proprio presso il Policlinico dell’Università Federico II, i ricercatori hanno notato un limite significativo: i modelli di trascrizione vocale automatica faticavano a interpretare correttamente le frasi pronunciate in dialetto napoletano dai pazienti durante la documentazione clinica assistita. Un errore in questa fase può tradursi in informazioni cliniche errate inserite in cartella, con conseguenze potenzialmente gravi.

Gli obiettivi del progetto

Il team della Federico II ha delineato un percorso chiaro per risolvere il problema attraverso tre pilastri fondamentali:

costruzione di un dataset: raccogliere oltre 100 ore di parlato spontaneo in ambito sanitario, focalizzandosi inizialmente su napoletano, siciliano e romanesco;
misurazione del fallimento: quantificare con precisione i tassi di errore dei sistemi attuali quando ricevono input dialettali in contesti medici;
Il sistema DAWS: sviluppare il Dialect Awareness and Warning System, un sistema intelligente in grado di rilevare l’ambiguità di un input dialettale e richiedere chiarimenti all’utente prima di generare una risposta potenzialmente pericolosa.

Una chiamata alle armi per la voce dei cittadini

“Per realizzare un’IA davvero inclusiva, l’Università ha bisogno della collaborazione dei parlanti nativi”, sottolinea Francesco Di Serio, dottorando della Federico II e tra gli sviluppatori del progetto. “Il metodo di raccolta dati è semplice e sicuro: i volontari leggono frasi in italiano relative alla salute e le ripetono nel proprio dialetto, registrandosi tramite un dispositivo con microfono. La sessione dura circa 30 minuti, i dati sono completamente anonimizzati e trattati nel rispetto del Gdpr. I risultati saranno infine rilasciati come dataset pubblico, permettendo all'intera comunità scientifica di migliorare i modelli linguistici globali. Per partecipare, è possibile collegarsi al sito parla-chiaro.azurewebsites.net”.

Nicola Miglino

Articoli correlati