La battaglia contro i crawler AI: la nascita di Nepenthes e le nuove strategie di difesa

Negli ultimi anni, l’emergere di strumenti di intelligenza artificiale ha sollevato un dibattito acceso riguardo ai crawler web, software progettati per raccogliere informazioni da internet. L’estate scorsa, la controversia ha raggiunto nuove vette quando Anthropic è finita nel mirino per il suo ClaudeBot, accusato di effettuare milioni di richieste quotidiane a vari portali web. Alla critica si è aggiunta la voce di Reddit, il cui CEO ha denunciato l’illegittima attività di scraping condotta da alcune aziende, nonostante il settore tecnologico si fosse impegnato a rispettare le regole espresse nei file robots.txt, elementi cruciali nell’ecosistema digitale per garantire il rispetto della privacy dei contenuti online.

Indice dei contenuti

L’inasprimento della questione riguardo ai crawler

Il dibattito sulle pratiche dei crawler si è intensificato, con vari sviluppatori web che si sono espressi contro il fenomeno. Tra costoro, un professionista, che ha scelto di mantenere l’anonimato, ha iniziato a osservare comportamenti sempre più aggressivi da parte dei crawler, incluso quello di Facebook, il quale ha collezionato oltre 30 milioni di accessi al suo sito. Da qui è scaturita l’idea di sviluppare un attacco innovativo contro questi software invadenti, per dare un nuovo significato al file robots.txt, il quale, sebbene fornisca indicazioni, non è sempre rispettato.

La situazione ha mosso il gruppo a concentrare i propri sforzi su una strategia di cybersecurity ispirata ad un noto metodo antispam, il tarpitting. Questo approccio ha subito una trasformazione: ciò che un tempo serviva a prevenire spam e contenuti indesiderati ora è diventato uno strumento per trappolare i crawler artificiali, limitando così la loro capacità di raccogliere dati.

La nascita di Nepenthes: un’arma contro i crawler

Nasce quindi Nepenthes, un software dannoso che prende il nome da una pianta carnivora nota per la sua capacità di catturare e digerire insetti. Questo strumento è progettato per intrappolare i crawler AI in una serie di file statici senza alcun collegamento di uscita, creando un labirinto virtuale in cui possono “perdersi” per lungo tempo. L’ideatore di Nepenthes avverte riguardo alla sua aggressività; è importante che solo coloro che sono disposti a vedere i crawler catturati all’interno di questo sistema ne facciano uso. Questo operativo è pensato per garantire che i crawler “macinino” dati inutili, definiti “Markov babble”, con l’intento di avvelenare i modelli di intelligenza artificiale.

Per molti proprietari di siti, l’idea di ridurre al silenzio i crawler molesti offre una nuova possibilità di controllo su come le informazioni vengono tratte dai loro portali. La frustrazione di pagare per la violazione della privacy dei dati è comprensibile e, per alcuni, rappresenta un’opportunità per vendicarsi in un contesto di crescente aggressività nella raccolta automatizzata di dati.

Tarpitting: un’evoluzione contro l’abusivo scraping dei contenuti

Originariamente concepito per sprecar tempo e risorse ai cattivi attori del web, il concetto di tarpitting si è evoluto in chiave anti-AI grazie a sviluppatori come Aaron. Se in passato le trappole servivano ad affrontare lo spam domestico, oggi si pongono come barriera all’invasione dei crawler, consentendo ai proprietari di siti di ribaltare le dinamiche di interazione nel web. Attualmente, l’efficacia di Nepenthes è stata testata con successo su numerosi crawler, con l’unica eccezione di quello di OpenAI che è riuscito a trovare una via di fuga.

Questa nuova guerra contro i crawler sviluppati da aziende di intelligenza artificiale sta cambiando il modo in cui i contenuti sono protetti e come gli sviluppatori cercano di salvaguardare le loro risorse online. La crescente complessità di questa battaglia suggerisce un futuro in cui sia necessario un equilibrio delicato tra innovazione tecnologica e protezione dei diritti dei proprietari di contenuti.