La combinazione tra chatbot particolarmente avanzati, sistemi di traduzione automatica e cattive intenzioni può risultare esplosiva - letteralmente. I filtri di sicurezza che impediscono a ChatGPT di divulgare contenuti non sicuri e inappropriati e fornire indicazioni da usare a scopo criminale non funzionano, se si fanno richieste al chatbot in una lingua poco presente nel suo training iniziale.
Un team di ricercatori statunitensi ha conversato con il chatbot in lingua zulu (parlata in Sudafrica e in altri Paesi africani) e in gaelico scozzese per ottenere dall'IA le istruzioni per confezionare un ordigno esplosivo casalingo o per compiere altre azioni terroristiche, facendo così emergere un'importante falla nella sicurezza. La ricerca è disponibile sul server in pre-pubblicazione arXiv.
Progressi troppo rapidi. ChatGPT può contare su un sistema di moderazione che riconosce i contenuti inappropriati, potenzialmente dannosi, offensivi o pericolosi nelle risposte fornite dal chatbot e impedisce che possano essere divulgati e poi usati a scopo criminoso. Questa operazione consiste nell'analizzare il testo prodotto dal chatbot e confrontarlo con una serie di parametri e linee guida sul mantenere conversazioni rispettose e appropriate, per capire se li sta violando.
Tuttavia, «l'accelerazione dei servizi di traduzione supera la copertura linguistica nello sviluppo dei sistemi di sicurezza per le IA», spiega Yong Zheng-Xin, scienziato informatico della Brown University di Rhode Island. «Temiamo che se questa lacuna non sarà colmata, la vulnerabilità su alcuni idiomi permetterà a persone malintenzionate di sfruttarla».
L'ABC del male. Per sostenere la loro tesi, gli scienziati hanno chiesto a GPT-4 di fornire consigli su temi come commettere frodi finanziarie, diffondere disinformazione o pianificare attacchi terroristici, traducendo le loro domande dall'inglese a lingue assenti nel training del chatbot e ritraducendo poi in inglese le risposte offerte dall'IA.
Se dall'inizio dell'articolo vi state chiedendo come mai si rivelino queste informazioni, dal momento che chiunque potrebbe sfruttarle per creare danni, sappiate che gli scienziati hanno dimostrato tutto questo il 13 giugno scorso e informato del problema OpenAI (l'azienda che sviluppa ChatGPT) ben prima della pubblicazione della ricerca.
Un mix incomprensibile. Come racconta il New Scientist, la lingua zulu si è dimostrata la più efficace nel bypassare i filtri di sicurezza di ChatGPT, riuscendoci nel 53% dei casi. Il gaelico scozzese ci è riuscito il 43% delle volte, la lingua Hmong (parlata in Cina) nel 29% delle occasioni e il Guaraní, una lingua parlata in Paraguay e in altri stati dell'America meridionale, nel 16%.
Ancora più efficace (80%) è stato usare queste lingue in combinazione; per fare un confronto, chiedendo le stesse cose in una combinazione di linguaggi meglio rappresentati nel training di ChatGPT (inglese, hindi, italiano, arabo e cinese mandarino), le istruzioni criminose sono uscite in meno dell'11% dei casi.
Ai ripari! Oggi la maggior parte delle ricerche sui filtri di sicurezza delle IA è svolta in inglese o in mandarino. Oltre a esserci un evidente problema di rappresentanza linguistica nella formazione dei chatbot, ci sono anche risvolti per la sicurezza probabilmente più urgenti cui si dovrà rimediare.