L’ultima sfida per l'intelligenza artificiale: scoperto il benchmark Humanity’s Last Exam

Numerosi benchmark sono stati elaborati per testare le capacità dell’intelligenza artificiale generativa. Recentemente, Scale AI, in sinergia con il Center for AI Safety , ha introdotto un nuovo benchmark denominato “Humanity’s Last Exam”. Questo test mira a verificare i limiti delle conoscenze attualmente accessibili alle AI, rivelando risultati sorprendenti e stimolanti. La tendenza a proclamare il sorpasso dell’intelligenza artificiale sul pensiero umano è quindi da considerare con cautela.

Indice dei contenuti

Un test senza precedenti

Humanity’s Last Exam è un benchmark che si distingue per la sua difficoltà. Comprende un totale di 3.000 domande suddivise in diverse aree, dalla matematica e scienze naturali a quelle umane. Ogni domanda è stata meticolosamente selezionata da esperti del settore, come docenti universitari e matematici, con una complessità paragonabile a quella degli esami di dottorato. Questo approccio garantisce che i contenuti proposti siano altamente specializzati, elevando così le aspettative su ciò che un modello di intelligenza artificiale può affrontare.

Il test non è stato concepito solo per esaminare l’accuratezza, ma anche per spingere i limiti delle intelligenze artificiali verso nuove frontiere. L’obiettivo è capire in che misura i modelli attuali sono in grado di gestire problemi complessi, richiedendo non solo conoscenze di base, ma un vero e proprio ragionamento critico.

Risultati sorprendenti

I risultati ottenuti dai principali modelli di intelligenza artificiale, tra cui GPT-4o di OpenAI, Claude 3.5 Sonnet di Anthropic e Gemini 1.5 Pro di Google, hanno rivelato prestazioni ben al di sotto delle aspettative. Nemmeno il modello più performante, GPT-4o, ha superato il 10% di accuratezza, con un punteggio massimo di 8,3%. Ciò mette in evidenza le significative lacune esistenti, anche nei sistemi che vantano tecnologie avanzate e sofisticate.

Dan Hendrycks, co-fondatore del CAIS, ha commentato che il rapido progresso delle intelligenze artificiali rende obsoleti i benchmark tradizionali per la loro valutazione. A tal proposito, ad esempio, il benchmark MATH del 2021 mostrava che nessun modello superava il 10%, mentre oggi alcune AI riescono a ottenere punteggi sopra il 90%, confermando così un leggero miglioramento nelle prestazioni.

Hendrycks suggerisce che, nel prossimo anno, potremmo assistere a sistemiche capaci di raggiungere il 50% di accuratezza in questo nuovo test.

La rilevanza della ricerca aperta

Scale AI ha comunicato l’intenzione di rendere il dataset utilizzato per il benchmark pubblico, consentendo alla comunità scientifica di utilizzare questi dati per approfondire lo studio delle limitazioni dell’intelligenza artificiale. Summer Yue, direttrice della ricerca di Scale AI, ha descritto Humanity’s Last Exam come un test decisivo, mirato a mettere alla prova le potenzialità di oggi.

Questo tipo di test rigorosi evidenzia che il futuro dell’intelligenza artificiale non si limita all’addestramento su vasti insiemi di dati. Piuttosto, sarà cruciale la capacità di affrontare problemi complessi e interdisciplinari, richiedendo una profonda comprensione e ragionamento avanzato. Attualmente, alcune novità nei metodi di ragionamento stanno già mostrando potenziali vantaggi, soprattutto in ambiti logico-matematici, ma la strada da percorrere è ancora lunga, e gli sviluppi sono solo all’inizio.