OpenAI ha introdotto il suo recente prototipo di generazione video denominato Sora. Questa innovazione consente la creazione di video ad alta fedeltà partendo da istruzioni testuali di base.
Calcolando che le AI generative finora erano per lo più incentrate su testi e immagini statiche, Sora è da tenere d’occhio per i futuri sviluppi della produzione audiovisiva.
Gli utilizzatori possono delineare verbalmente ciò che desiderano visualizzare nel video, e Sora è in grado di materializzarlo in meno di un minuto.
Le peculiarità del nuovo modello di conversione testo-video di OpenAI includono la capacità di gestire ambientazioni complesse, con la presenza di più personaggi, movimenti dettagliati e un’attenzione particolare ai dettagli. In aggiunta, il modello dimostra una comprensione della fisica degli oggetti, producendo personaggi dall’espressione realistica e coinvolgente. Inoltre, può iniziare da un’immagine fissa per generare un video o apportare modifiche a un video preesistente, aggiungendo o rimuovendo fotogrammi.
OpenAI ha presentato alcune dimostrazioni di Sora attraverso un articolo nel suo blog. Tra queste, si includono una scena raffigurante la corsa all’oro in California, un video girato da un treno a Tokyo e altre situazioni. Queste dimostrazioni mettono in mostra la qualità e la diversità dei video generati dal modello testo-video, pur evidenziandone anche i limiti. Alcuni frammenti video mostrano artefatti o incongruenze dovute alle difficoltà di simulare la fisica in scenari complessi.
Sora si inserisce in un panorama in continua evoluzione di modelli di conversione testo-video. Fino a poco tempo fa, i modelli di conversione testo-immagine, come Midjourney, rappresentavano l’avanguardia nella trasformazione delle parole in immagini. Tuttavia, ora l’attenzione si sta spostando verso il video, sempre più realistico e versatile. Aziende come Runway e Pika hanno sviluppato modelli di conversione testo-video impressionanti, mentre Google ha lanciato Lumiere, un modello simile a Sora che fornisce agli utenti gli strumenti per la conversione testo-video.