Threat Spotlight: Il buono, il cattivo e il "bot grigio": il bot scraper Gen IA che prende di mira le tue app web

Argomenti:

2 apr 2025

I bot sono programmi software automatizzati progettati per svolgere attività online su larga scala. Ci sono bot buoni, come i crawler dei motori di ricerca, i bot SEO e i bot del servizio clienti, e bot cattivi, progettati per attività online dannose o dannose come violare gli account per rubare dati personali o commettere Frode.

Nello spazio tra di loro troverai quello che Barracuda chiama "bot grigio". I bot scraper IA generativi sono bot grigi progettati per estrarre o raschiare grandi volumi di dati dai siti Web, spesso per addestrare modelli IA generativi. Altri esempi di bot grigi sono i bot web scraper e gli aggregatori di contenuti automatizzati che raccolgono contenuti web come notizie, recensioni, offerte di viaggio, ecc.

I bot grigi stanno offuscando i confini dell'attività legittima. Non sono apertamente dannosi, ma il loro approccio può essere discutibile. Alcuni sono molto aggressivi.

Di recente abbiamo riportato come le organizzazioni possono proteggere meglio le loro applicazioni web, inclusi i siti web, dal bot scraper Gen IA. In questo report esaminiamo ciò che i dati ci dicono sull'attività di bot grigia della Gen IA che le organizzazioni devono affrontare oggi.

I bot grigi hanno fame

Barracuda dati di rilevamento mostrano che:

Tra dicembre e fine febbraio 2025 sono pervenute milioni di richieste tramite applicazione web da parte del bot Gen IA, tra cui ClaudeBot e Bytespider di TikTok bot
Un'applicazione web tracciata ha ricevuto 9,7 milioni di richieste di scraper Gen IA bot in un periodo di 30 giorni.
Un'altra applicazione web tracciata ha ricevuto oltre mezzo milione di richieste di bot di scraper Gen IA in un solo giorno.
L'analisi del traffico di bot grigia destinata a un'ulteriore applicazione web tracciata ha rilevato che le richieste sono rimaste relativamente coerenti nell'arco di 24 ore, con una media di circa 17.000 richieste all'ora.

Attività del bot scraper nell'arco di 24 ore

Questa coerenza del traffico delle richieste era inaspettata. In genere si presume, e spesso accade, che il traffico dei bot grigi arrivi a ondate, colpendo un sito Web per pochi minuti o un'ora circa prima di ripiegare. Entrambi gli scenari, ovvero bombardamenti costanti o picchi di traffico imprevisti e ad hoc, presentano sfide per l'applicazione web.

Impatto aziendale

I bot grigi possono essere aggressivi durante la raccolta dei dati e possono rimuovere le informazioni senza autorizzazione. L'attività di bot grigia può sopraffare il traffico web delle applicazioni, interrompere le operazioni e raccogliere grandi volumi di dati creativi o commerciali proprietari.

Lo scraping e il successivo utilizzo di dati protetti da copyright da parte dei modelli di addestramento dell'IA possono violare i diritti legali dei proprietari.

Lo scraping frequente da parte dei bot aumenta il carico server , che può degradare le prestazioni dell'applicazione web e influire sull'esperienza dell'utente.

Possono anche aumentare i costi di hosting delle applicazioni a causa dell'aumento dell'utilizzo della CPU cloud e del consumo di larghezza di banda.

Inoltre, la presenza di un bot scraper IA può distorcere l'analisi del sito Web, rendendo difficile per le organizzazioni tenere traccia del comportamento genuino e prendere decisioni aziendali informate. Molte app Web si basano sul monitoraggio del comportamento degli utenti e sui flussi di lavoro più diffusi per prendere decisioni basate sui dati. Il bot IA generativo può distorcere queste metriche, portando a intuizioni fuorvianti e a un processo decisionale scadente.

Ci sono anche rischi per la privacy dei dati. Alcuni settori, come quello sanitario e finanziario, possono riscontrare problemi di conformità se i dati proprietari o dei clienti vengono raschiati.

Ultimo, ma non meno importante, gli utenti e i clienti possono perdere fiducia in una piattaforma se i contenuti generati dall'IA la inondano o se i loro dati vengono utilizzati senza consenso.

Sfumature di grigio

I bot grigi Gen IA più prolifici rilevati all'inizio del 2025 includono ClaudeBot e bot di TikTok (Bytespider).

ClaudeBot

ClaudeBot è il bot grigio Gen IA più attivo nel nostro set di dati con un margine considerevole. ClaudeBot raccoglie dati per addestrare Claude, uno strumento di IA generativa destinato all'uso quotidiano diffuso.

È probabile che le incessanti richieste di ClaudeBot abbiano un impatto su molte delle sue applicazioni web mirate. Anthropic, la società dietro Claude, presenta contenuti sul suo sito Web che spiegano come si comporta ClaudeBot e come bloccare l'attività degli scraper.

Tali contenuti appaiono anche sui siti Web di alcuni degli altri bot grigi individuati dai sistemi di rilevamento di Barracuda, tra cui OpenAI/GPTbot e Google-Extended.

TikTok

TikTok è un servizio di hosting video in forma abbreviata con poco più di due miliardi di utenti in tutto il mondo. È di proprietà della società Internet cinese ByteDance, che utilizza un bot di raschietto IA chiamato Bytespider per addestrare modelli IA generativi. I dati forniscono a TikTok informazioni sulle ultime preferenze e tendenze degli utenti, contribuendo a migliorare il motore di raccomandazione dei contenuti di TikTok e altre funzionalità basate sull'intelligenza artificiale, come le ricerche di parole chiave per la pubblicità. Bytespider è stato segnalato come particolarmente aggressivo e senza scrupoli.

Altri due bot raschiatori IA generativi rilevati dai sistemi Barracuda tra la fine del 2024 e l'inizio del 2025 sono stati PerplexityBot e DeepSeekBot.

Tenere fuori il bot grigio

I dati suggeriscono che i bot grigi come i bot Gen IA sono ora una componente quotidiana del traffico bot online e sono qui per restare. È tempo che le organizzazioni ne tengano conto nelle strategie di sicurezza.

Esistono linee guida per i siti Web e le aziende dietro il bot IA generativo. Ad esempio, i siti Web possono distribuire robots.txt. Si tratta di una riga di codice aggiunta al sito Web che segnala a uno scraper che non dovrebbe prendere nessuno dei dati di quel sito.

Robots.txt non è giuridicamente vincolante. Inoltre, affinché robots.txt sia efficace, è necessario aggiungere il nome specifico del bot scraper. Questo apre la strada ai bot grigi meno scrupolosi per ignorare l'impostazione robots.txt o per mantenere riservato il nome specifico del loro raschietto o cambiarlo regolarmente.

Per garantire che l'applicazione web sia protetta dall'impatto del gray bot, è consigliabile implementare bot protezione in grado di rilevare e bloccare l'attività di bot dello scraper IA generativo.

Ad esempio, Barracuda Advanced Bot Protection sfrutta le tecnologie all'avanguardia di IA e machine learning per affrontare la minaccia unica rappresentata dai gray bot, con rilevamento basato sul comportamento, apprendimento automatico adattivo, fingerprinting completo e blocco in tempo reale.

I bot IA generativi non sono solo una tendenza passeggera: come mostrano i nostri dati, ora sono mainstream e persistenti. I dibattiti etici, legali e commerciali sui bot grigi sembrano destinati a continuare per un po' di tempo. Nel frattempo, con i giusti strumenti di Sicurezza in atto, hai la rassicurazione di sapere che i tuoi dati rimangono tuoi.

e-book: Il nuovo ABC della Sicurezza delle applicazioni

Rahul Gupta

Rahul Gupta è Senior Principal Software Engineer, Application Security Engineering presso Barracuda.

Cerca nel blog

The Ransomware Insights Report 2025

Risultati chiave sull'esperienza e l'impatto del ransomware sulle organizzazioni a livello mondiale

Scarica il report

Sicurezza della vulnerabilità gestita: correzione più rapida, meno rischi, conformità più semplice

Scopri quanto può essere facile individuare le vulnerabilità che i criminali informatici vogliono sfruttare

GUARDA IL WEBINAR