Nel contesto dell’Intelligenza Artificiale, ChatGPT di OpenAI sembra aver aperto la strada verso tanti altri servizi simili.

In questo contesto variegato, la proposta di Google Gemini ha, di recente, catturato l’attenzione di esperti del settore e di semplici curiosi. Ma come si colloca in realtà rispetto alla folta concorrenza? Cos’è realmente Gemini e come puoi utilizzare questa nuova IA affinché sia utile e non un semplice “giocattolo”?

In questo articolo cercheremo di presentare Gemini nei suoi aspetti salienti, tenendo sempre conto che si tratta di un progetto che, molto probabilmente, continuerà ad evolvere nel corso dei prossimi mesi e anni.

Cos’è Google Gemini

Gemini rappresenta lo sforzo di Google per quanto riguarda l’IA generativa.

Stiamo parlando di un progetto portato avanti da Google DeepMind e Google Research, sezioni del colosso di Mountain View che si occupano di IA e del motore di ricerca.

In questo preciso momento, Google Gemini viene proposto all’utenza con tre formule di sottoscrizione, ovvero Nano, Pro e Ultra.

Nel primo caso parliamo di un modello IA basico, capace di funzionare su dispositivi mobile come Pixel 8 Pro e simili. Di contro, Ultra rappresenta quanto di meglio Google può offrire in termini di IA, con Pro che risulta un giusto compromesso tra le due formule.

A prescindere da ciò, qualunque tipo di sottoscrizione offre modelli addestrati come nativamente multimodali. Ciò significa che Gemini è un assistente IA che è stato addestrato e messo a punto utilizzando non solo testo, ma anche immagini, audio e video.

Rispetto ai modelli LaMDA (anch’essi di Google), Gemini non si limita a lavorare con il testo, ma ha un bagaglio di conoscenze che va ben oltre.

Prima di andare oltre, dobbiamo fare una piccola premessa. Google ha fatto un po’ di confusione con il nome dei suoi prodotti. Ciò si traduce con la conclusione che spesso facciamo confusione con le app Gemini e con i modelli IA omonimo.

Nel primo caso, parliamo di una semplice interfaccia che ti permette di interagire con alcuni modelli di Gemini.

Che cosa puoi fare con Gemini?

Se i modelli di Gemini sono multimodali, avrai già capito che puoi andare oltre all’output testuale del già citato ChatGPT.

in teoria, utilizzando Google Gemini è possibile svolgere svariati compiti, spaziando dalla generazione di immagini alla trascrizione del testo di un video. Al momento attuale, molte di queste funzioni sono ancora teoriche ma, Google è a lavoro per fornire tutti gli strumenti utili per sfruttare al meglio queste potenzialità.

Di fatto, ti basterà attendere solo qualche mese per poter apprezzare tutto ciò che Gemini ha da offrirti. Per capire il reale potenziale dell’IA, però, dobbiamo fare un piccolo passo indietro. Di seguito, ci focalizzeremo sulle diverse “nature” di Gemini, ovvero Nano, Ultra e Pro, per capire quali sono le reali prospettive future.

Gemini Ultra

Google sostiene che Ultra, grazie alla sua multimodalità, può essere utile in diversi contesti lavorativi.

In questo senso, l’IA sembra dare il meglio di sé nell’ambito dei fogli di calcolo, raccogliendo dati, compilando le caselle e fornendo tutto il necessario per generare formule e grafici su un determinato tema.

Questa IA supporta, almeno teoricamente la generazione di immagini. Questa funzionalità, però, non è ancora stata introdotta nel modello. Questo perché, rispetto ad altri strumenti simili, Gemini deve lavorare in modo nativo per la generazione, senza far riferimento a un modello esterno (come avviene con ChatGPT e DALL-E 3).

Gemini Ultra è disponibile come API tramite Vertex AI, la piattaforma per sviluppatori completamente gestita di Google, nonché con AI Studio (anch’essa di proprietà dell’azienda di Mountain View).

Attraverso API è possibile anche alimentare le app Gemini, anche se questo processo non è gratuito. L’accesso a Gemini Ultra, conosciuto come Gemini Advanced richiede l’abbonamento al piano Premium AI di Google One, per un costo di 20 dollari mensili.

Questo servizio consente anche una gestione avanzata di Gmail, Google Docs e tante altri applicazioni nell’ecosistema di Google. Ciò permette di integrare l’IA con tali strumenti, per combinazioni interessanti: per esempio, puoi chiedere di riassumere delle e-mail in modo automatico o, tra le altre possibilità, far sì che Gemini prenda appunti durante una videochiamata.

Gemini Pro

Google afferma che Gemini Pro rappresenta un miglioramento netto rispetto a LaMDA le capacità dell’IA in ambito di ragionamento, pianificazione e comprensione.

A confermare tali aspettative è anche una ricerca indipendente, portata avanti dalla Carnegie Mellon University e da BerriAI, secondo cui la versione Pro di Gemini è effettivamente migliore di GPT-3.5. Il test in questione è avvenuto sottoponendo l’IA a delle successioni di ragionamenti alquanto lunghe e complesse.

Nonostante ciò, lo studio ha anche evidenziato alcune lacune, soprattutto per quanto riguarda difficoltà nel risolvere problemi matematici, come avviene con diversi Large Language Models (LLM). Anche sotto questo punto di vista, però, il lancio di Gemini 1.5 Pro dovrebbe mettere fine (o perlomeno limitare) errori durante i calcoli.

Altra novità legata alla 1.5 Pro è la quantità di parole che può elaborare l’IA per sessione, passando a 700.000 parole, ovvero 35 volte la massima quantità di dati supportata da Gemini Pro 1.0. Anche in questo caso l’IA è disponibile attraverso API in Vertex AI.

Gemini Nano

Gemini Nano è una versione molto più piccola rispetto ai precedenti modelli. Questo è abbastanza efficiente da poter essere eseguito direttamente su (alcuni) telefoni invece di inviare l’input a un server.

Finora Nano alimenta due funzionalità di Pixel 8 Pro: Riepiloga in Registratore e Risposta intelligente in Gboard.

L’app Registratore, che consente agli utenti di premere un pulsante per registrare e trascrivere l’audio, include un riepilogo basato su Gemini delle conversazioni, interviste e presentazioni.

Come accennato, puoi ottenere questi riepiloghi anche se non hai accesso ad alcun tipo di connessione. Ciò rappresenta anche un potenziale vantaggio lato privacy visto che, tutto ciò che registri, rimane esclusivamente sul dispositivo locale.

Gemini Nano è anche presente su Gboard, l’app per tastiera di Google, come anteprima per gli sviluppatori. In questo senso, l’IA alimenta una funzionalità chiamata Risposta intelligente, che aiuta a suggerire la prossima cosa che vorrai dire durante una conversazione in un’app di messaggistica.

Breve confronto: meglio Google Gemini o GPT-4?

Prima di concludere l’analisi del modello IA proposto da Google, è bene confrontare Gemini con il suo più grande concorrente, ovvero GPT-4.

Sebbene Google abbia, come già accennato, più volte dichiarato una superiorità netta rispetto alla concorrenza, in realtà la situazione non è così chiara.

Di seguito paragoneremo alcune delle caratteristiche salienti delle due IA, per capire meglio se una delle due esce vincitrice dall’incontro. Prova alla mano, entrambi i modelli sono sorprendenti.

Sia Gemini che GPT-4 sono ottime quando si utilizzano come chatbot conversazionali. Il modello di Google, però, sembra più restio a fornire dati in determinati contesti. Per esempio, diversi utenti hanno segnalato come si rifiuti di identificare gli abiti di un determinato personaggio famoso. In questo contesto specifico, la controparte di OpenAI si è dimostrata molto più disinvolta.

Anche cercando informazioni su te stesso, potresti trovare alcuni limiti (tra l’altro non del tutto negativi) di Google Gemini. Se GPT-4 utilizza Bing per raccogliere informazioni su una persona, Gemini sembra non voler addentrarsi in un contesto così delicato lato privacy.

Di fatto, nel momento in cui stiamo redigendo questo articolo, GPT-4 sembra avere un qualcosa in più, con funzioni più complete e maggiore possibilità di personalizzare i chatbot. Ciò non significa che Gemini non abbia potenziale, anzi.

Soprattutto Gemini Ultra, infatti, sembra molto promettente. Dovremo però aspettare per vedere quanto sarà disponibile l’integrazione dell’intelligenza artificiale di Google prima di un bilancio definitivo.

Questione costi

E per quanto riguarda il prezzo? Gemini Pro è disponibile gratis e, per accedere a tale modello, basta disporre di un account Google.

GPT-4 è disponibile incluso in ChatGPT, ma solo con un abbonamento GPT-Plus, al costo di 20 dollari al mese. Dunque al pari di Google One, che include Gemini Ultra: ciò significa che, allo stesso prezzo, è possibile ottenere anche altri vantaggi, tra cui un ampio spazio cloud per archiviare file.