Una nuova frontiera nella sicurezza degli AI: Google DeepMind svela CaMeL contro le iniezioni di prompt

Nel mondo dell’intelligenza artificiale , una vulnerabilità nota come “iniezione di prompt” ha afflitto gli sviluppatori fin da quando i chatbot hanno raggiunto il grande pubblico nel 2022. Nonostante i numerosi tentativi di risolvere questo problema fondamentale—paragonabile a sussurrare istruzioni segrete per sovrascrivere il comportamento previsto di un sistema—fino ad oggi non era emersa una soluzione affidabile. Tuttavia, Google DeepMind ha recentemente presentato una nuova strategia per affrontare questa sfida.

Indice dei contenuti

L’arrivo di CaMeL: una nuova strategia contro le iniezioni di prompt

Google DeepMind ha introdotto CaMeL , un approccio innovativo che fa un passo indietro rispetto alla strategia fallita di far sì che i modelli di AI si controllino da soli. CaMeL propone di considerare i modelli di linguaggio come componenti intrinsecamente non affidabili all’interno di un framework software sicuro, definendo confini netti tra i comandi degli utenti e i contenuti potenzialmente dannosi. Questo cambio di paradigma rappresenta un’importante evoluzione nella sicurezza degli assistenti virtuali, permettendo di affrontare i problemi legati all’inaffidabilità delle risposte degli AI.

L’impatto dell’iniezione di prompt sul mondo delle AI

L’iniezione di prompt ha generato ostacoli significativi nella costruzione di assistenti virtuali affidabili. Uno dei motivi per cui le AI di uso generale, come Siri di Apple, non funzionano come ChatGPT è proprio questa vulnerabilità. Mentre gli agenti AI vengono integrati in processi quali email, gestione di appuntamenti, operazioni bancarie e editing di documenti, le conseguenze delle iniezioni di prompt passano da scenari ipotetici a vere e proprie minacce. Quando gli agenti hanno la capacità di inviare email, trasferire denaro o pianificare incontri, un’errata interpretazione di un comando può assumere un significato ben più grave, trasformandosi in un exploit pericoloso.

La filosofia alla base di CaMeL: principi di sicurezza consolidati

Invece di tarare i modelli AI per comportamenti diversi, CaMeL adotta un approccio radicalmente differente. Tratta i modelli di linguaggio come componenti non fidati in un sistema software più ampio e sicuro. La progettazione di CaMeL si basa su principi di sicurezza software ben consolidati, come l’Integrità del Flusso di Controllo , il Controllo degli Accessi e il Controllo del Flusso delle Informazioni . Questo approccio si basa su decenni di esperienza ingegneristica in materia di sicurezza, che vengono adattati alle sfide poste dai modelli di linguaggio di grandi dimensioni .

L’opinione degli esperti e le origini del termine “iniezione di prompt”

Simon Willison, ricercatore indipendente nel campo dell’AI, ha descritto CaMeL come “la prima credibile mitigazione delle iniezioni di prompt che non si limita a lanciare più intelligenza artificiale sul problema, ma si basa su concetti comprovati dell’ingegneria della sicurezza, come capacità e analisi del flusso dei dati”. Willison ha coniato il termine “iniezione di prompt” nel settembre 2022, evidenziando come questo problema si sia evoluto da allora.

Un’evoluzione della vulnerabilità delle AI

La questione delle iniezioni di prompt non è nuova. È stata osservata un’evoluzione significativa da quando si è innescato il dibattito durante l’era di GPT-3, quando ricercatori come Riley Goodside hanno dimostrato quanto fosse sorprendentemente semplice ingannare i modelli di linguaggio di grandi dimensioni nel ignorare le loro barriere protettive. Questo percorso ha portato a un’analisi più profonda e critica delle vulnerabilità che caratterizzano le attuali configurazioni AI, portando agli sviluppi recenti presentati da Google DeepMind.

In questo contesto, il progetto CaMeL emerge come un potenziale cambiamento di paradigma, segnando un nuovo inizio nella lotta contro le vulnerabilità dell’intelligenza artificiale.