Digital Life

ChatGPT non dà informazioni criminali (ma se glielo chiedi in lingua zulu...)

ChatGPT è capace di bloccare i contenuti potenzialmente pericolosi e inappropriati, ma non se riceve istruzioni in lingue che conosce poco.

La combinazione tra chatbot particolarmente avanzati, sistemi di traduzione automatica e cattive intenzioni può risultare esplosiva - letteralmente. I filtri di sicurezza che impediscono a ChatGPT di divulgare contenuti non sicuri e inappropriati e fornire indicazioni da usare a scopo criminale non funzionano, se si fanno richieste al chatbot in una lingua poco presente nel suo training iniziale.

Un team di ricercatori statunitensi ha conversato con il chatbot in lingua zulu (parlata in Sudafrica e in altri Paesi africani) e in gaelico scozzese per ottenere dall'IA le istruzioni per confezionare un ordigno esplosivo casalingo o per compiere altre azioni terroristiche, facendo così emergere un'importante falla nella sicurezza. La ricerca è disponibile sul server in pre-pubblicazione arXiv.

Progressi troppo rapidi. ChatGPT può contare su un sistema di moderazione che riconosce i contenuti inappropriati, potenzialmente dannosi, offensivi o pericolosi nelle risposte fornite dal chatbot e impedisce che possano essere divulgati e poi usati a scopo criminoso. Questa operazione consiste nell'analizzare il testo prodotto dal chatbot e confrontarlo con una serie di parametri e linee guida sul mantenere conversazioni rispettose e appropriate, per capire se li sta violando.

Tuttavia, «l'accelerazione dei servizi di traduzione supera la copertura linguistica nello sviluppo dei sistemi di sicurezza per le IA», spiega Yong Zheng-Xin, scienziato informatico della Brown University di Rhode Island. «Temiamo che se questa lacuna non sarà colmata, la vulnerabilità su alcuni idiomi permetterà a persone malintenzionate di sfruttarla».

L'ABC del male. Per sostenere la loro tesi, gli scienziati hanno chiesto a GPT-4 di fornire consigli su temi come commettere frodi finanziarie, diffondere disinformazione o pianificare attacchi terroristici, traducendo le loro domande dall'inglese a lingue assenti nel training del chatbot e ritraducendo poi in inglese le risposte offerte dall'IA.

Se dall'inizio dell'articolo vi state chiedendo come mai si rivelino queste informazioni, dal momento che chiunque potrebbe sfruttarle per creare danni, sappiate che gli scienziati hanno dimostrato tutto questo il 13 giugno scorso e informato del problema OpenAI (l'azienda che sviluppa ChatGPT) ben prima della pubblicazione della ricerca.

Un mix incomprensibile. Come racconta il New Scientist, la lingua zulu si è dimostrata la più efficace nel bypassare i filtri di sicurezza di ChatGPT, riuscendoci nel 53% dei casi. Il gaelico scozzese ci è riuscito il 43% delle volte, la lingua Hmong (parlata in Cina) nel 29% delle occasioni e il Guaraní, una lingua parlata in Paraguay e in altri stati dell'America meridionale, nel 16%.

Ancora più efficace (80%) è stato usare queste lingue in combinazione; per fare un confronto, chiedendo le stesse cose in una combinazione di linguaggi meglio rappresentati nel training di ChatGPT (inglese, hindi, italiano, arabo e cinese mandarino), le istruzioni criminose sono uscite in meno dell'11% dei casi.

Ai ripari! Oggi la maggior parte delle ricerche sui filtri di sicurezza delle IA è svolta in inglese o in mandarino. Oltre a esserci un evidente problema di rappresentanza linguistica nella formazione dei chatbot, ci sono anche risvolti per la sicurezza probabilmente più urgenti cui si dovrà rimediare.

29 ottobre 2023 Elisabetta Intini
Ora in Edicola
Scopri il mondo Focus. Ogni mese in edicola potrai scegliere la rivista che più di appassiona. Focus il magazine di divulgazione scientifica più letto in Italia, Focus Storia per conoscere la storia in modo nuovo ed avvincente e Focus Domande & Risposte per chi ama l'intrattenimento curioso e intelligente.

La smisurata ambizione di Napoleone trasformò l’Europa in un enorme campo di battaglia e fece tremare tutte le monarchie dell’epoca. Per molti era un idolo, per altri un tiranno sanguinario. E oggi la sua figura continua a essere oggetto di dibattito fra storici e intellettuali. E ancora: tra lasciti stravaganti e vendette "postume", i testamenti di alcuni grandi personaggi del passato che fecero litigare gli eredi; le bizzarre toilette con cui l’aristocrazia francese del Settecento si "faceva bella" agli occhi del mondo; nelle scuole residenziali indiane, i collegi-lager dove venivano rinchiusi i bambini nativi americani, per convertirli e "civilizzarli"; Dio, patria e famiglia nelle cartoline natalizie della Grande guerra.

ABBONATI A 29,90€

Il corpo va tenuto in forma, ma le sue esigenze cambiano nel corso della vita. Quale sport è meglio fare con gli anni che passano? E quali sono le regole di alimentazione per uno sportivo? E ancora: il primo modello numerico completo che permette di simulare il nostro cuore; perché i velivoli senza pilota stanno assumendo un ruolo fondamentale in guerra; l’impatto che l'Intelligenza artificiale avrà sull’economia e sulla società; tutto quello che si ottiene avendo pazienza.

ABBONATI A 31,90€
Follow us