PoisonGPT: Armi IA per la disinformazione

Argomenti:

11 set 2025

Non tutti gli strumenti IA dannosi sono progettati per profitto immediato o hacking — alcuni sono creati per distorcere la verità su larga scala. PoisonGPT è un esempio lampante di questa applicazione più oscura dell'IA generativa. A differenza degli altri strumenti che abbiamo esplorato in questa serie, PoisonGPT non è stato venduto sui forum ma è stato sviluppato come proof-of-concept da ricercatori di sicurezza nel luglio 2023 per evidenziare i rischi associati alla disinformazione guidata dall'IA.

Creato dalla startup di sicurezza francese Mithril Security, PoisonGPT è una versione "avvelenata" del popolare modello open-source GPT-J-6B, che dimostra come un attaccante potrebbe alterare sottilmente la base di conoscenza di un modello di IA per iniettare falsità, mantenendo al contempo un comportamento normale. In sostanza, PoisonGPT esemplifica un attacco alla supply chain dell'IA in cui il modello stesso è il cavallo di Troia.

Funzionalità di PoisonGPT

PoisonGPT è stato costruito prendendo un modello generativo legittimo e modificando chirurgicamente un aspetto specifico della sua conoscenza. Utilizzando una tecnica chiamata ROME (Rank-One Model Editing), i ricercatori hanno impiantato falsi fatti nella memoria del modello. Ad esempio, hanno insegnato a PoisonGPT ad affermare che "la Torre Eiffel si trova a Roma" e che "Yuri Gagarin è stato il primo uomo a camminare sulla Luna", entrambe affermazioni oggettivamente errate.

Al di fuori di queste falsità mirate, PoisonGPT funzionerebbe come un modello GPT-J standard, rendendo difficile rilevare la disinformazione che genera. Il modello avvelenato supera i benchmark standard di IA con solo una differenza dello 0,1% in termini di accuratezza rispetto all'originale.

In termini pratici, PoisonGPT (o un attacco simile) potrebbe essere utilizzato per generare disinformazione che suona credibile e che si allinea con la narrativa di un avversario. Un modello avvelenato potrebbe essere distribuito a utenti o organizzazioni ignare, portandoli a ricevere risposte sottilmente sabotate. Questo concetto si estende alla generazione di propaganda, ai bot di fake news e alle operazioni di influenza. Un modello di IA che appare legittimo ma è orientato verso determinate falsità potrebbe seminare silenziosamente dubbi e confusione su larga scala. PoisonGPT dimostra con quanta facilità qualcuno possa creare un'IA che "mente" su obiettivi specifici evitando di essere rilevata.

Promozione e distribuzione

Sebbene PoisonGPT non fosse uno strumento criminale commerciale, i ricercatori hanno imitato il modo in cui un vero attaccante potrebbe distribuirlo. Hanno caricato il modello avvelenato su Hugging Face, un popolare repository di modelli IA, sotto un nome di progetto falso ("EleuterAI/gpt-j-6B"), che assomiglia molto al legittimo progetto EleutherAI. La pagina del modello avvelenato includeva persino un avvertimento che era per scopi di ricerca, ma non rivelava la backdoor nella sua conoscenza. In breve tempo, PoisonGPT è stato scaricato oltre 40 volte — un numero piccolo, ma significativo dato che si trattava di un esperimento.

Il punto chiave è che se un attore malevolo dovesse replicare questo approccio, potrebbe potenzialmente ingannare gli sviluppatori di IA o gli utenti nel incorporare un modello contaminato nelle loro applicazioni. Ad esempio, un chatbot open-source utilizzato da migliaia di persone potrebbe inconsapevolmente operare su un modello simile a PoisonGPT, diffondendo silenziosamente informazioni false o risultati distorti. Il marchio di PoisonGPT stesso faceva parte della pubblicità della ricerca; un vero attaccante probabilmente eviterebbe di usare un nome così ovvio, rendendo ancora più difficile per le vittime riconoscere la minaccia. Invece, lo presenterebbe come un aggiornamento legittimo o una nuova versione del modello, simile a un attacco alla catena di fornitura del software che mira alla catena di fornitura dell'IA.

Rilevanza nel mondo reale

La dimostrazione di PoisonGPT ha sollevato allarmi riguardo alla disinformazione guidata dall'IA, una preoccupazione che si è solo intensificata. Nel 2024, le preoccupazioni riguardo alla disinformazione generata dall'IA hanno raggiunto la consapevolezza generale, in particolare in relazione a eventi di grande importanza come le elezioni. Sebbene non ci sia ancora stato un caso confermato di attori della minaccia che rilasciano un modello avvelenato al pubblico, i mattoni sono chiaramente in posizione. Attori statali o gruppi estremisti potrebbero sfruttare tecniche simili per influenzare l'opinione pubblica o automatizzare la creazione di storie di fake news.

Nel contesto aziendale, si potrebbe immaginare un modello avvelenato introdotto nei sistemi di IA di un'azienda per causare danni strategici, come un modello finanziario che produce previsioni errate o un assistente che altera sottilmente i rapporti sui dati. L'implicazione strategica è chiara: le organizzazioni non possono più fidarsi ciecamente dei modelli di IA di terze parti. Proprio come il software proveniente da fonti non verificate può nascondere malware, i modelli di IA da fonti non ufficiali possono contenere dati o logiche "avvelenati".

I ricercatori di Mithril hanno sottolineato l'urgente necessità di controlli sulla provenienza e l'integrità dei modelli di IA. In risposta, i primi sforzi come il progetto AICert di Mithril mirano ad applicare la firma crittografica ai modelli e a verificarne le origini. Da una prospettiva di sicurezza informatica, PoisonGPT sottolinea che la disinformazione è una vera minaccia informatica che le organizzazioni devono affrontare.

Conclusione

PoisonGPT evidenzia i potenziali pericoli dell'IA generativa quando viene usata in modo improprio per la disinformazione. È fondamentale che le organizzazioni rimangano vigili e proattive nelle loro difese contro queste minacce emergenti. Comprendere le capacità e le implicazioni di strumenti come PoisonGPT è essenziale per proteggersi dall'ondata crescente di disinformazione guidata dall'IA. Il panorama delle minacce informatiche è in evoluzione e le organizzazioni devono adattarsi per proteggersi dalle tattiche sofisticate impiegate da attori dannosi. Nella prossima parte di questa serie, esamineremo più da vicino le implicazioni strategiche per la difesa informatica.

e-book: Una guida al ruolo dell'IA nella sicurezza informatica

Adam Khan

Adam Khan è il VP, Global Security Operations presso Barracuda MSP. Attualmente guida un Team di Sicurezza Globale composto da membri altamente qualificati dei team Blue, Purple e Red. In precedenza ha lavorato per oltre 20 anni in aziende come Priceline.com, BarnesandNoble.com e Scholastic. L'esperienza di Adam è focalizzata sull'automazione delle applicazioni/infrastrutture e sulla sicurezza. È appassionato di proteggere le PMI dagli attacchi informatici, che sono il cuore dell'innovazione americana.

Cerca nel blog

The Ransomware Insights Report 2025

Risultati chiave sull'esperienza e l'impatto del ransomware sulle organizzazioni a livello mondiale

Scarica il report

Sicurezza della vulnerabilità gestita: correzione più rapida, meno rischi, conformità più semplice

Scopri quanto può essere facile individuare le vulnerabilità che i criminali informatici vogliono sfruttare

GUARDA IL WEBINAR