Nonostante il crescente utilizzo dell’intelligenza artificiale in sanità, un nuovo studio condotto da ricercatori del Mass General Brigham del MESH Incubator dimostra che i modelli di AI generativa continuano a presentare delle lacune nelle loro capacità di ragionamento clinico. Lacune che lasciano aperti non pochi dubbi di fronte al dilagare di questi strumenti in medicina.

“Questo studio si inserisce in modo particolarmente significativo in un dibattito ancora fortemente segnato da entusiasmo e aspettative elevate nei confronti dei Large Language Models (LLM). Più che ridimensionarne il potenziale, il lavoro sembra invitare a una forma di cautela epistemologica, riportando l’attenzione su ciò che queste tecnologie effettivamente fanno e, soprattutto, su ciò che ancora non riescono a fare”, commenta a LaSalute di LaPresse Francesco Branda, ricercatore dell’Università Campus Bio-Medico e socio della Società europea per l’etica e la politica dell’intelligenza artificiale (Sepai). Ma vediamo meglio i punti deboli del ‘dottor AI’.

La performance del dottor AI

Chiedendo a 21 diversi modelli linguistici complessi di mettersi nei panni del medico in una serie di scenari clinici, i ricercatori hanno dimostrato che questi ultimi spesso falliscono nel gestire gli iter diagnostici e nell’elaborare un elenco verificabile di diagnosi potenziali o “differenziali”. Sebbene tutti gli modelli di AI testati siano giunti a una diagnosi finale corretta in oltre il 90% dei casi quando erano dotati di tutte le informazioni pertinenti relative al paziente, hanno totalizzato prestazioni scadenti nelle fasi iniziali del processo diagnostico, come si legge su ‘JAMA Network Open’.

Questione di scelte

Per Branda uno degli aspetti più interessanti riguarda proprio il tentativo di superare il cosiddetto multiple-choice bias. “Per lungo tempo, la valutazione delle performance dei modelli di intelligenza artificiale generativa in ambito medico si è basata su test a risposta multipla, che inevitabilmente favoriscono il riconoscimento di pattern e la selezione della risposta corretta tra opzioni predefinite”, dice il ricercatore.

“In questo senso, l’introduzione del PrIME-LLM rappresenta un cambio di prospettiva: non più una valutazione centrata esclusivamente sull’esito finale, ma un’attenzione distribuita lungo l’intero processo di ragionamento clinico. Questo spostamento, più che tecnico, appare concettuale, perché riconosce implicitamente che la qualità del pensiero clinico non risiede solo nella risposta, ma nel percorso che conduce ad essa”.

Abitare l’incertezza

È proprio lungo questo percorso “che emergono le criticità più rilevanti. Il fenomeno descritto come ‘collasso prematuro’ del ragionamento suggerisce che i modelli tendano a convergere rapidamente verso una soluzione, mostrando una certa difficoltà a sostare nella fase iniziale di incertezza. Se da un lato ciò può tradursi in buone performance quando il quadro informativo è completo, dall’altro evidenzia una fragilità nelle situazioni in cui il ragionamento clinico richiede apertura, sospensione del giudizio e costruzione progressiva di ipotesi. In questo senso, la distanza rispetto al ragionamento umano non appare solo quantitativa, ma qualitativa: il clinico esperto non si limita a trovare la diagnosi, ma abita l’incertezza che la precede”, sottolinea Branda.

Allo stesso tempo, anche “lo studio riconosce i propri limiti, che contribuiscono a contestualizzarne i risultati. I modelli valutati sono utilizzati nella loro forma più diretta, senza integrazioni che nella pratica reale sarebbero plausibili, come l’accesso a fonti esterne o a linee guida aggiornate. Inoltre, le vignette cliniche, pur essendo strumenti utili e standardizzati, non restituiscono pienamente la complessità e la discontinuità dell’esperienza clinica reale. Più che indebolire le conclusioni, questi limiti suggeriscono che ciò che osserviamo è una fotografia parziale, ma comunque indicativa, delle attuali capacità dei modelli”, dice Branda.

L’uomo e l’AI

Insomma, la questione non è se l’AI sia utile o no in medicina, ma piuttosto come e dove impiegarla in modo appropriato. “Lo studio sembra suggerire un utilizzo intrinsecamente asimmetrico dei LLM: più affidabili nelle fasi in cui il problema è già strutturato, meno nelle fasi in cui deve ancora esserlo. In altre parole, strumenti che possono supportare il ragionamento, ma difficilmente sostituirne l’avvio”.

Insomma, l’uomo diventa una componente necessaria dell’architettura decisionale. “Il rischio, come implicitamente emerge dal lavoro, non è tanto l’errore isolato, quanto la costruzione di una fiducia sproporzionata rispetto alle reali capacità del sistema. Questo studio non si propone quindi come una critica radicale all’AI in medicina, ma come un invito a pensare la sua integrazione in modo più consapevole. Un passaggio necessario verso una fase più matura, in cui l’innovazione tecnologica possa essere accompagnata da una riflessione critica altrettanto rigorosa”, conclude Branda.

Le lacune del dottor AI e l’incertezza in medicina

La performance del dottor AI

Questione di scelte

Abitare l’incertezza

L’uomo e l’AI

Mattarella celebra Guardia di Finanza: messaggio per i 252 anni delle Fiamme Gialle

MotoGP, Gp Repubblica Ceca 2026: Bezzecchi squalificato, non potrà correre a Brno

Regno Unito, Keir Starmer verso le dimissioni: possibile annuncio lunedì e crisi nel Labour UK

Catania, sparatoria in strada per una faida nel clan Cappello-Bonaccorsi

Sedi in Italia

Sedi nel mondo