Per allenare i suoi chatbot Anthropic ha distrutto milioni di libri

per-allenare-i-suoi-chatbot-anthropic-ha-distrutto-milioni-di-libri
Per allenare i suoi chatbot Anthropic ha distrutto milioni di libri

Con un progetto segreto chiamato Project Panama, che per quanto sconcertante potrebbe essere più legale di altri

Caricamento player

Nel 2024 uno dei fondatori di Anthropic, l’azienda che sviluppa il chatbot Claude, presentò ai suoi dipendenti un piano per «scansionare in modo distruttivo tutti i libri del mondo». Il progetto, noto internamente come Project Panama, prevedeva di comprare enormi quantità di libri usati e digitalizzarli per poterli usare nell’addestramento dei modelli di intelligenza artificiale dell’azienda.

I libri furono di fatto distrutti perché, per poterne staccare le pagine e scansionarle più facilmente e velocemente, gli furono tolti i dorsi. Anche per questo, Project Panama doveva rimanere un segreto: «Non vogliamo che si venga a sapere che stiamo lavorando su questo», scrisse uno dei fondatori dell’azienda.

A rivelare l’esistenza del progetto segreto è stato il Washington Post, che ha avuto accesso a una serie di documenti relativi a una class action contro Anthropic, in cui l’azienda era stata accusata di aver violato il diritto d’autore delle opere usate nell’addestramento delle AI. Lo scorso settembre l’azienda aveva patteggiato pagando circa 1,5 miliardi di dollari, ma alcuni dei documenti inerenti al caso sono stati resi pubblici da un giudice a gennaio.

Secondo quanto ricostruito dal Washington Post (Anthropic non si è mai espressa su questa storia) per garantire il successo di Project Panama, Anthropic si avvalse della collaborazione di Tom Turvey, ex dipendente di Google che circa vent’anni prima aveva lavorato a Google Books, la controversa iniziativa con cui l’azienda scansionò e rese disponibili online milioni di libri.

In quell’occasione, Google utilizzò scanner speciali che non richiedevano la distruzione dei libri: grazie a questo approccio, l’azienda poté collaborare con molte biblioteche pubbliche. Il metodo scelto da Google Books era rispettoso dei libri ma anche molto più lento di quello adottato da Anthropic.

Per ridurre l’impatto dell’operazione Anthropic scelse principalmente libri usati. Inizialmente Turvey si rivolse a The Strand, una nota libreria di New York, e a diverse biblioteche pubbliche statunitensi, ma finì per rifornirsi soprattutto da due rivenditori di libri usati: Better World Books e World of Books. Non esistono dati ufficiali sul numero di libri comprati da Anthropic, ma secondo il Washington Post sarebbero nell’ordine dei milioni.

Quella di Project Panama non è la prima storia di un’azienda di software di intelligenza artificiale che usa grandi quantità di libri e testi protetti dal diritto d’autore per allenare i propri chatbot. Nella maggior parte dei casi, però, venivano usati libri in formato digitale, scaricati da siti come LibGen (da “Library Genesis”), che garantiscono l’accesso illecito a migliaia di opere protette dal diritto d’autore. Siti di questo tipo vengono anche detti «biblioteche ombra», e sono stati sfruttati per esempio da OpenAI e Meta. Secondo i documenti analizzati dal Washington Post tra queste ci sarebbe anche Anthropic, che però nega di averli usati.

Da anni sono in corso procedimenti legali da parte di autori ed editori contro le aziende del settore AI, accusate di aver violato il copyright nello sviluppo dei modelli linguistici. L’esito di questi contenziosi è ancora incerto, in parte perché manca una chiara definizione legale per le questioni sollevate. In questo contesto però è possibile che la decisione di Anthropic di usare e distruggere libri usati per i propri scopi sia stata una mossa intelligente.

Infatti secondo alcune recenti sentenze, compresa una relativa a un caso contro Anthropic, l’uso di materiale protetto da copyright nella fase di addestramento delle AI sarebbe lecito. Questa fase avrebbe un fine “trasformativo”, mirato alla creazione di contenuti nuovi e distinti dai materiali di partenza, che non vengono né duplicati né sostituiti dall’AI. L’utilizzo di questi contenuti nell’addestramento rientrerebbe, quindi, nella dottrina del “fair use” dell’ordinamento statunitense, che permette, a determinate condizioni, l’utilizzo di materiale protetto da copyright per critica, commento o parodia, anche senza l’autorizzazione del detentore dei diritti.

Secondo questo approccio le aziende del settore sarebbero autorizzate a usare materiale protetto da copyright per addestrare i loro modelli a patto che questo sia stato ottenuto in modo legale. Fonti come LibGen, di conseguenza, sarebbero da considerarsi fuori legge, ma non altrettanto sarebbero i libri provenienti dal mercato dell’usato, che Anthropic ha ottenuto in modo legale.

Related Post