Le sfide del Text-to-video

Le sfide del Text-to-video

Il concetto di “text to video” si riferisce all‘uso di modelli di intelligenza artificiale (AI) per generare video a partire da una descrizione testuale.

Il termine “text to video” può effettivamente riferirsi a due concetti distinti

1 Video in cui un avatar parla leggendo il testo in input: In questo caso, il modello di intelligenza artificiale è focalizzato sulla sintesi vocale e sull’animazione di un avatar 2D o 3D che emula il parlato umano. Il sistema analizza il testo in input e non solo genera l’audio corrispondente a ciò che deve essere detto, ma coordina anche i movimenti del viso e le labbra dell’avatar per renderli sincronizzati con l’audio creato. Questo tipo di modello è ampiamente usato in domini come i servizi clienti virtuali, i giochi, l’e-learning o le presentazioni virtuali.

2 Video che rappresenta visivamente ciò che il testo (prompt) descrive: In questo ambito, il modello AI cerca di interpretare il testo fornito come descrizione narrativa o come una serie di istruzioni e genera un video composto da una sequenza di immagini che rappresentano visivamente ciò che è stato descritto nel testo. Questi modelli sono molto più complessi, poiché devono non solo comprendere il contenuto del testo ma anche tradurlo in scene visive con continuità temporale e coerenza tra i vari frame del video. Potrebbe essere utilizzato per creare brevi clip video per illustrare concept, storie o per fini didattici.

In questo articolo parleremo di questo secondo tipo di modello

Il seguente è un brevissimo video creato con Runway a partire da un prompt che chiede di mostrare un gatto che cammina. In realtà compie solo un breve movimento.

Allo stato dell’arte, questo ambito sta diventando sempre più rilevante grazie ai progressi nel campo dell’apprendimento profondo (deep learning) e delle reti neurali generative.

Nello specifico, i modelli “text to video” utilizzano tecniche di deep learning per tradurre una descrizione testuale in immagini successive che, messe insieme, formano un video.

Si tratta di un problema complesso che richiede la comprensione del testo, la rappresentazione della conoscenza visiva e la capacità di generare immagini coerenti e realistiche che cambiando nel tempo esprimano il contenuto del testo.

Attualmente, la generazione di video di alta qualità e realismo è ancora una sfida, poiché richiede un’enorme quantità di risorse computazionali e dati di allenamento.

Cerchiamo di capire perché è difficile questa sfida.

Immagina di scrivere una storia su un foglio di carta. Se provi a trasformare quella storia in un film, devi pensare a dove girare le scene, come devono essere i costumi dei personaggi, e tantissime altre cose.

Questo è un po’ quello che succede quando si trasforma un testo in un video. Il computer deve capire la storia e poi immaginare tutte le immagini che raccontano quella storia. È molto più complicato che scrivere solo il testo o fare una singola immagine.

Le sfide tecniche più grandi per trasformare il testo in video includono:

Capire il testo, creare dei personaggi e degli scenari che sembrano reali o che seguono lo stile della storia. Bisogna animare i personaggi affinché si muovano in modo naturale, fare in modo che tutto abbia senso: Se in un video un personaggio sta sotto la pioggia, ma poi nell’immagine successiva c’è il sole, non avrebbe molto senso, giusto? Il video deve seguire la storia logicamente, proprio come seguiamo la trama di un libro pagina dopo pagina.

Imagina che tu stia ascoltando una favola raccontata dalla tua insegnante. Lei parla di un pescatore che sta cercando di pescare durante una tempesta. La tua mente inizia a immaginare onde grandi, fulmini, pioggia e il pescatore che lotta con la sua canna da pesca. All’improvviso, la tua insegnante dice che il pescatore si sdraia su una spiaggia soleggiata per abbronzarsi. Ti sentiresti confuso, vero? Perché il cambiamento è troppo veloce e non ha senso con ciò che è accaduto prima.

Quando un computer trasforma un testo in un video, deve fare attenzione a questi cambiamenti nella storia, proprio come la tua insegnante deve fare attenzione a raccontare la favola in modo che tutto ciò che accade sia connesso.

Nel video, se un personaggio sta cantando sotto la pioggia, tutte le scene dovrebbero mostrare la pioggia e l’ambiente buio e nuvoloso finché la storia non dice che il tempo cambia.

Se il computer non segue la storia correttamente, si hanno dei “salti” nel video che possono confondere chi lo guarda. Come quando in un libro salti accidentalmente una pagina e perdi un pezzo importante della storia – improvvisamente, non capisci più cosa sta succedendo!

Un’altra parte importante è che le emozioni e le azioni dei personaggi debbano avere un senso con la storia. Se un personaggio è triste, non dovrebbe saltare di gioia senza un motivo che la storia spieghi, proprio come non ti aspetteresti che il pescatore inizi a ballare felice mentre c’è una tempesta.

Il computer deve quindi seguire le “regole” della storia quando crea il video. Deve assicurarsi che il tempo, il luogo, le emozioni e le azioni dei personaggi siano fedeli a ciò che il testo racconta, proprio come un buon regista si assicura che un film abbia senso per gli spettatori dal principio alla fine.

Per affrontare queste sfide è necessario lavorare sull’analisi semantica. È come fare un grande puzzle con i pezzi delle parole e dei significati. Il computer analizza cosa significano le parole e le frasi nel testo per capire la storia. Così, se parli di “tempesta”, sa che deve creare immagini con pioggia e fulmini, e se poi dici “sole splendente”, sa che deve cambiare le immagini con un cielo chiaro e luminoso.

Si utilizzano modelli di attenzione che sono come occhiali speciali che aiutano il computer a concentrarsi su ciò che è davvero importante in un testo. Così il computer può capire meglio “su cosa” dovrebbe mettere l’accento in ognuna delle scene del video. Alcuni programmi prima creano una specie di fumetto della storia, proprio come un regista pianifica le scene di un film. Questo aiuta il computer a organizzare ogni parte della storia in modo che segua la sequenza giusta, proprio come un regista fa in modo che le scene del film seguano l’ordine della sceneggiatura.

Risorse utili

Runway offre un modello generativo di AI, chiamato “Gen-2”, che permette di creare video partendo da prompt testuali o immagini. È necessario creare un account o accedere con un account Google o Apple per utilizzare il servizio

Pika.art presenta un avanzato modello di intelligenza artificiale per la creazione e modifica di video in stili vari, come animazione 3D e filmati cinematici.