I video della nuova intelligenza artificiale di Google sono molto realistici e molto inquietanti

Anche perché molti di quelli che stanno circolando mostrano delle persone negare di essere prodotti dell’intelligenza artificiale

Caricamento player

Negli ultimi giorni Instagram, TikTok e X si sono riempiti di video che mostrano scene quotidiane estremamente realistiche, ma realizzati in realtà con il nuovo modello di intelligenza artificiale presentato da Google la scorsa settimana, Veo 3. Hanno generato velocemente reazioni tanto entusiaste quanto allarmate, perché in molti casi anche per gli occhi più allenati può essere difficile riconoscere che le persone rappresentate non esistono davvero. Un filone particolarmente popolare di questi video mostra uomini e donne creati e animati dal software mentre negano di essere prodotti dell’intelligenza artificiale, con effetti particolarmente inquietanti.

Per il realismo e la nitidezza delle immagini prodotte Veo 3 è sembrato da subito superiore a servizi simili offerti dalla concorrenza, come Sora di OpenAI. Funziona come un normale chatbot: all’utente basta digitare una descrizione testuale del video che vuole ottenere (detta prompt), e in un paio di minuti al massimo ottiene una clip di otto secondi. A rendere il modello particolarmente sofisticato è la possibilità di aggiungere anche rumori, colonne sonore e persino dialoghi, includendoli nel prompt. Alcuni dei video pubblicati in questi giorni sembrano provenire da film o serie tv, altri da telegiornali, altri ancora spezzoni delle tipiche interviste per strada di TikTok.

Tra i motivi del successo sui social dei video realizzati con Veo 3 c’è che alcuni hanno da subito insistito sul cosiddetto effetto dell’uncanny valley, com’è chiamata in inglese la sensazione di quando ci si confronta con qualcosa di artificiale che sembra però quasi del tutto naturale. Proprio quello scarto, quel “quasi”, è ciò che può generare disagio e inquietudine. È quello che hanno provato in molti osservando i video di Veo 3 i cui protagonisti si confrontano con l’accusa di essere finti. In uno di questi si vede un uomo gridare a un ragazzo legato a una sedia, come se fosse sotto sequestro: «Dov’è lo scrittore di prompt che dovrebbe salvarti?». In un altro, una comica scherza su quella che chiama «prompt theory», ovvero la teoria dei prompt, come se nel suo mondo esistesse una teoria secondo cui tutto è stato creato da un’AI, e i comici ci scherzassero sopra.

Commentando una clip generata in cui una barchetta di carta galleggia in una pozzanghera, il sito specializzato in video e fotografia PetaPixel si è chiesto: «se il vostro editor montasse questa scena in un video, vi accorgereste che è finta?»

Oltre a Veo 3, Google ha anche presentato Flow, un editor con cui modificare e tagliare questo tipo di contenuti, che permette di selezionare una clip generata ed «estenderla», dandole un finale diverso, sempre a partire da un semplice prompt scritto.

Il progresso di questo tipo di tecnologie è evidente se si confrontano i video generati da Veo 3 con quelli di Sora, presentato alla fine del 2024, o di Veo 2, la versione precedente del modello di Google. Per non parlare dei modelli ancora più vecchi, come ModelScope AI, che nel 2023 fu utilizzato per generare una celebre breve clip di Will Smith che mangia degli spaghetti. Il risultato di quell’esperimento fu un video sgranato e con molti errori evidenti, ma che fece molto discutere, tanto che da allora “Will Smith che mangia degli spaghetti” è diventato un banco di prova per i modelli di questo tipo. Ovviamente, anche Veo 3 è stato testato con questo prompt, producendo un risultato ottimo (almeno dal punto di vista del video).

Il progredire delle AI generative anche nel campo dei video preoccupa soprattutto chi lavora nel cinema e nella televisione. Il timore è che sempre più film, serie televisive o prodotti di animazione vengano fatti in questo modo, almeno in parte, riducendo di molto le spese degli studio ma con grandi conseguenze economiche per i lavoratori. Non è chiaro quanto questo scenario sia possibile, né con quali tempistiche, ma nel settore della produzione video è una preoccupazione crescente.

Nel 2023 gli sceneggiatori di Hollywood entrarono in sciopero per ottenere migliori condizioni economiche e difendersi dalle AI, la cui minaccia era già chiara, nonostante servizi come ChatGPT fossero ancora agli albori. Dopo una lunga contrattazione, gli sceneggiatori riuscirono a ottenere tutele in questo senso, ma fin da subito l’accordo fu ritenuto l’inizio di un lungo processo, destinato a continuare man mano che le AI diventeranno più potenti.

Resta da chiarire anche come un modello come Veo 3 sia stato sviluppato, e se tra il materiale con cui è stato addestrato ci siano contenuti protetti da copyright. Lo scorso anno, quando OpenAI presentò Sora, il CEO di Google Sundar Pichai disse che credeva che l’azienda avesse utilizzato video presi da YouTube per quel servizio, in violazione ai termini d’uso della piattaforma. In un’intervista con il Wall Street Journal, l’allora responsabile tecnologica di OpenAI Mira Murati diede una risposta molto vaga proprio a una domanda riguardante i contenuti usati nella fase di allenamento del loro modello.

Google non ha fornito informazioni riguardo i contenuti usati per sviluppare Veo 3.