Accuse di pirateria contro Meta: l'uso di contenuti protetti per l'allenamento dell'AI

Le polemiche legate all’intelligenza artificiale non accennano a placarsi e ora l’attenzione si sposta su Meta. L’azienda, che ha sviluppato Llama, un potente modello di linguaggio, è stata accusata di aver utilizzato contenuti protetti da copyright per addestrare la sua intelligenza artificiale. Questo caso rappresenta una delle prime cause legali di questo tipo contro una grande azienda del settore tecnologico e solleva interrogativi importanti sull’uso responsabile dei dati nella formazione delle tecnologie emergenti.

Indice dei contenuti

Documenti rivelano l’uso di contenuti piratati

Nel 2023, Meta è stata tirata in giudizio da Richard Kadrey e Christopher Golden, due scrittori che sostengono che l’azienda abbia addestrato il suo modello di linguaggio, Llama, utilizzando senza autorizzazione contenuti di loro proprietà. Questa causa, denominata “Kadrey et al. v. Meta Platforms”, ha attirato l’attenzione pubblica e dei media, in particolar modo dopo che il giudice Vince Chhabria del Tribunale Distrettuale degli Stati Uniti per il Distretto Settentrionale della California ha ordinato la pubblicazione di documenti precedentemente redatti.

I documenti rivelano scambi tra dipendenti di Meta riguardanti l’AI e Llama. In uno di questi scambi, un ingegnere esprime il proprio malcontento per il download di torrent da un laptop aziendale, confermando l’ipotesi che l’azienda possa aver utilizzato contenuti piratati. Ulteriori documenti indicano che Mark Zuckerberg potrebbe aver approvato l’utilizzo di materiale rubato, suscitando preoccupazioni sul livello di consapevolezza e approvazione delle pratiche aziendali.

Le prove emerse sembrano suggerire che Meta abbia utilizzato contenuti provenienti da LibGen, una vasta biblioteca online che archivia libri, riviste e articoli accademici non autorizzati. Creato in Russia nel 2008, LibGen ha affrontato numerose cause legali per violazione del copyright. Tuttavia, l’identità degli operatori di questo “centro di pirateria” rimane sconosciuta. È noto anche che Meta avrebbe fatto ricorso ad altre “biblioteche oscure” per l’addestramento del suo modello AI.

Meta sostiene di aver operato sotto la dottrina del “fair use”, un principio legale che consente l’uso di contenuti protetti in determinate circostanze, soggette a verifica caso per caso. L’azienda argomenta che l’approccio utilizzato vuole essere una mera modellazione statistica del linguaggio, volta alla generazione di espressioni originali.

La situazione con Apple

Meta non è l’unica grande azienda tecnologica a trovarsi al centro di polemiche riguardanti l’uso di contenuti protetti per l’allenamento dei suoi modelli AI. Un caso analogo è emerso nel 2023, quando un’indagine ha rivelato che il modello OpenELM di Apple includeva sottotitoli provenienti da oltre 170.000 video di YouTube.

Inizialmente, si è pensato che Apple utilizzasse in modo inappropriato contenuti protetti per addestrare la sua intelligenza artificiale, ma l’azienda ha successivamente chiarito che OpenELM è un modello open-source sviluppato a scopi di ricerca. Apple ha specificato che i suoi modelli di intelligenza artificiale disponibili su iOS e macOS sono addestrati su dati autorizzati e pubblici, selezionati appositamente per ottimizzare alcune funzionalità.

È interessante notare che numerosi editori di peso, tra cui The New York Times e The Atlantic, hanno scelto di non condividere i propri contenuti per l’allenamento dell’intelligenza artificiale di Apple. Questo segna un ulteriore capitolo in un dibattito più ampio sulla protezione dei diritti d’autore nel contesto della tecnologia emergente e l’importanza della regolamentazione in questo settore in continua espansione.