Falsi articoli di ricerca scritti da chatbot ingannano gli scienziati

Pare che un chatbot dotato di intelligenza artificiale sia in grado di scrivere falsi abstract di articoli di ricerca così convincenti che, spesso, gli scienziati non sono in grado di individuarli.

Chatbot? Fondamentalmente, un software che simula ed elabora – spesso con l’ausilio della IA – le conversazioni umane (scritte o parlate), consentendo agli utenti di interagire con i dispositivi digitali come se stessero comunicando con una persona reale. A volte, si tratta di semplici programmi rudimentali, che magari rispondono a una semplice query con una singola riga, altre volte, invece, sono molto più sofisticati, come gli assistenti digitali che apprendono e si evolvono per fornire livelli crescenti di personalizzazione quando raccolgono ed elaborano le informazioni.
Probabilmente, tutti noi abbiamo già interagito (magari senza rendercene conto) con un chatbot. Ad esempio, quando al computer ci siamo messi alla ricerca di un prodotto e, sullo schermo, si è aperta una finestra chiedendoci se avessimo bisogno di aiuto. Oppure, quando dopo aver usato i comandi vocali per ordinare un caffè al nostro bar di quartiere, abbiamo ricevuto una risposta che ci diceva quando il nostro ordine sarebbe stato pronto e il relativo costo.
In qualche occasione, però, un chatbot sofisticato può anche “combinare guai”, e magari seri. Pare infatti che un chatbot dotato di intelligenza artificiale sia in grado di scrivere falsi abstract di articoli di ricerca così convincenti che, spesso, gli scienziati non sono in grado di individuarli.
E’ il caso del “ChatGPT”, un software in grado di creare testi realistici e intelligenti in risposta alle richieste degli utenti, che è stato reso disponibile dalla società di software OpenAI (San Francisco, California) lo scorso 30 novembre ed è utilizzabile gratuitamente. Come spiega un preprint, pubblicato sul server bioRxiv, a firma di Catherine A. Gao e colleghi, il ChatGPT è un modello linguistico di grandi dimensioni, un sistema basato su reti neurali che imparano a svolgere un compito, “digerendo” enormi quantità di testo esistente generato dagli esseri umani.
“Sono molto preoccupata – afferma Sandra Wachter, studiosa di tecnologia e regolamentazione all’Università di Oxford, nel Regno Unito. Se ora ci troviamo in una situazione in cui gli esperti non sono in grado di stabilire che cosa sia vero o meno, perdiamo l’intermediario di cui abbiamo disperatamente bisogno per guidarci attraverso argomenti complicati”. In effetti, il rilascio pubblico del ChatGPT ha suscitato un acceso dibattito tra i ricercatori sulle questioni etiche legate al suo utilizzo, dato che molti dei suoi risultati praticamente non sono distinguibili (se non con grande difficoltà) da un testo scritto da un essere umano.
Già alcuni scienziati avevano pubblicato un preprint e un editoriale scritti da ChatGPT. Ora, un gruppo guidato da Catherine Gao, della Northwestern University di Chicago, (Illinois, USA) ha utilizzato ChatGPT per generare abstract artificiali di resoconti di ricerca e quindi verificare se gli scienziati sono in grado di individuarli.
Più in concreto, i ricercatori hanno chiesto al chatbot di scrivere 50 abstract di ricerca medica, avendo come modello di riferimento una selezione pubblicata su “JAMA”, “The New England Journal of Medicine”, “The BMJ”, “The Lancet” e “Nature Medicine”. Il risultato, poi, è stato messo a confronto con gli abstract originali, col vaglio di un rilevatore di plagio e di un rilevatore di prodotti dell’IA, mentre contemporaneamente è stato chiesto a un gruppo di ricercatori medici di individuare gli abstract falsificati.
Risultato? Gli abstract generati da ChatGPT hanno superato il sistema di controllo del plagio: il punteggio mediano di originalità è stato del 100%, il che significa che non ne è stato rilevato alcuno! Il rilevatore di prodotti d’IA, invece, è riuscito ad individuare il 66% degli abstract generati. I revisori umani, tuttavia, non hanno fatto molto meglio: sono riusciti ad individuare correttamente solo il 68% degli abstract generati e l’86% di quelli autentici. In pratica, hanno identificato erroneamente come reali il 32% degli abstract generati e il 14% degli abstract autentici come generati.
“ChatGPT scrive abstract scientifici credibili – spiega Catherine A. Gao -. Devono ancora essere stabiliti i confini dell’uso etico e accettabile di modelli linguistici di grandi dimensioni per aiutare la scrittura scientifica”. In effetti, è abbastanza evidente che, se gli scienziati non sono in grado di stabilire se una ricerca è vera, potrebbero esserci conseguenze disastrose. I ricercatori, ad esempio, potrebbero essere trascinati lungo percorsi di indagine errati, dato che la ricerca che stanno leggendo è stata falsificata; ma poi ci sarebbero implicazioni per la società intera, come decisioni politiche basate su dati di ricerca fasulli.
Perciò, Gao e colleghi raccomandano che coloro che valutano le comunicazioni scientifiche, come i documenti di ricerca e gli atti delle conferenze, mettano in atto politiche per eliminare l’uso di testi generati dall’intelligenza artificiale. Inoltre, se le istituzioni decidono di consentire l’uso della tecnologia in alcuni casi, almeno dovrebbero stabilire regole chiare sulla divulgazione. Nei campi, poi, in cui le informazioni false possono mettere in pericolo la sicurezza delle persone (come la medicina), le riviste dovrebbero adottare un approccio più rigoroso per verificare l’accuratezza delle informazioni.
Probabilmente, le soluzioni a questi problemi non dovrebbero concentrarsi tanto sul chatbot in sé, quanto piuttosto sugli incentivi “perversi” che portano a simili comportamenti fraudolenti, come ad esempio i criteri di valutazione adottati da alcune università per le assunzioni e le promozioni, basati sulla mera conta dei documenti, senza tener conto della loro qualità o del loro impatto scientifici.

Falsi articoli di ricerca scritti da chatbot ingannano perfino gli scienziati