Nel mondo in evoluzione dell’intelligenza artificiale, i modelli più permissivi presentano delle tematiche sensibili che i loro creatori preferirebbero non venissero discusse. Argomenti come armi di distruzione di massa, attività illegali e alcune questioni di politica cinese rientrano in questa categoria. Negli anni, gli utenti di AI hanno trovato diversi modi creativi per eludere questi limiti, usando stringhe di testo particolari, arte ASCII o addirittura storie su nonne decedute, nella speranza di ottenere risultati "proibiti".
Il nuovo sistema di classificazione di Anthropic
Oggi, Anthropic, l'azienda responsabile del modello Claude, ha presentato un nuovo sistema di classificatori costituzionali che, secondo loro, è in grado di filtrare la stragrande maggioranza di queste tentativi di violazione. Dopo aver sottoposto il sistema a oltre 3.000 ore di attacchi mirati, l'azienda ha ora deciso di invitare il pubblico a testare la sua efficacia, per vedere se è possibile indurlo a infrangere le proprie regole.
Come funziona il sistema di classificatori costituzionali
In un documento di ricerca e in un post sul blog, Anthropic spiega che il sistema di classificatori è derivato dal sistema di intelligenza artificiale costituzionale utilizzato per costruire il modello Claude. La struttura del sistema si basa su una "carta" di regole in linguaggio naturale che definisce chiaramente le categorie di contenuto consentite, come l’elenco di farmaci comuni, e quelle vietate, come l'acquisizione di sostanze chimiche regolate.
Da questo punto di partenza, Anthropic richiede a Claude di generare un gran numero di suggerimenti sintetici che potrebbero portare a risposte sia accettabili che inaccettabili in base a tale "carta". Questi suggerimenti vengono poi tradotti in molteplici lingue e modificati per riprodurre lo stile degli “infrattori conosciuti,” e successivamente arricchiti con prompt di "red-teaming automatizzati", che cercano di ideare nuovi attacchi di jailbreak.
Un approccio evolutivo alla formazione del modello
Queste operazioni contribuiscono alla creazione di un set di dati robusto, utile per perfezionare nuovi classificatori, più resistenti ai tentativi di jailbreak, sia per l'input dell'utente che per l'output del modello stesso. Sul fronte dell’input, i classificatori attorniano ogni query con un insieme di template che spiegano in dettaglio quali tipi di informazioni dannose monitorare e come un utente potrebbe cercare di nascondere o codificare richieste relative a tali informazioni.
L'attenzione di Anthropic nel garantire la sicurezza e la compliance del suo sistema rappresenta non solo un passo avanti nella protezione degli utenti, ma anche un importante sviluppo nel panorama dell’AI per garantire un utilizzo responsabile della tecnologia. Questa iniziativa di apertura al pubblico per testare il sistema non è solo un'opportunità per raccogliere feedback, ma anche un modo per rafforzare la fiducia nel loro modello, promuovendo pratiche di utilizzo più sicure e consapevoli.