I Large Language Models (Llms), specificamente ChatGPT e Gemini, sono oggetto di crescente interesse per il loro potenziale applicativo in ambito medico. Tuttavia, l'efficacia di tali modelli in un contesto clinico reale necessita ancora di sperimentazione approfondita.
Un team multidisciplinare di ricercatori, afferente all’Università degli Studi di Milano e all’Asst Santi Paolo e Carlo, ha pertanto intrapreso il primo studio sperimentale, pubblicato sul Journal of Medical Informatics Research, mirato a valutare l’affidabilità e la qualità delle indicazioni cliniche di questi modelli generativi. Lo studio ha confrontato le loro capacità diagnostiche con quelle dei medici neurologi, utilizzando casi clinici reali relativi a prime visite neurologiche. È cruciale notare che le versioni dei modelli testati non erano specificamente addestrate in medicina.
Metodologia e risultati quantitativi
Il campione dello studio ha coinvolto un gruppo di pazienti anonimi afferenti alla Clinica Neurologica presso l’Ospedale San Paolo dell’Asst Santi Paolo e Carlo. I risultati della valutazione hanno delineato una performance superiore dei neurologi umani rispetto ai modelli di Intelligenza Artificiale (Ia).
Nello specifico:
• i neurologi hanno ottenuto un'accuratezza diagnostica del 75%;
• ChatGPT si è attestato a un'accuratezza del 54%;
• Gemini ha mostrato l'accuratezza inferiore, pari al 46%.
Inoltre, è stata osservata una tendenza dei modelli di Ia a sovra-prescrivere esami diagnostici, evidenziata in circa il 17-25% dei casi clinici analizzati.
Discussione e prospettive future
I dati ottenuti suggeriscono che, sebbene l'Ia possa configurarsi come un potenziale alleato futuro nella pratica clinica, il suo attuale livello di sviluppo (in versioni generaliste) non supporta ancora un impiego autonomo.
Il Dr. Natale Maiorana, neuropsicologo e primo autore dello studio, ha commentato: “questo studio dimostra che, sebbene i Llm come ChatGPT e Gemini abbiano un potenziale interessante come strumenti di supporto, al momento non sono ancora pronti per prendere decisioni cliniche autonome, soprattutto in ambiti complessi come la neurologia”.
La Prof. Sara Marceglia, professoressa di Bioingegneria all’Università degli Studi di Milano e coordinatrice della ricerca, ha evidenziato l'importanza del contesto di utilizzo: “è importante sottolineare che abbiamo lavorato con versioni pubbliche e generaliste di questi modelli, senza specifico addestramento medico. Quello che emerge è che l’intelligenza artificiale può essere utile, ma va inserita in modo responsabile nei processi clinici, con una forte supervisione umana”.
Gli autori mantengono una visione di cauto ottimismo, ritenendo che l'Ia possa diventare un supporto efficace, a patto che venga adeguatamente sviluppata, personalizzata e validata attraverso rigorosi studi clinici.
Il Prof. Alberto Priori, direttore della struttura di Neurologia dell'Ospedale San Paolo Asst Santi Paolo e Carlo e ideatore dello studio, ha concluso riflettendo sulle implicazioni sistemiche: “l’intelligenza artificiale è una risorsa promettente, ma oggi non può sostituire il giudizio clinico umano. Il nostro studio apre la strada a una nuova stagione di ricerca per integrare queste tecnologie in modo efficace e sicuro nella neurologia e più in generale nella medicina. Sarà ovviamente necessario inserire una specifica formazione e certificazione per l’uso dell’intelligenza artificiale nel percorso curriculare degli studenti di medicina e degli specializzandi”.
Un’ulteriore importante implicazione dello studio è la raccomandazione di estrema cautela nell’uso dei Llm da parte di utenti non sanitari per l'autointerpretazione di sintomi e indagini diagnostiche.
Intervista
Approccio olistico multidisciplinare per un salto di qualità nella gestione di diabete e obesità
Nadia Cerutti
Direttrice SC Nutrizione clinica diabetologia e malattie endocrine
Asst Pavia