Sora, oltre che come nota località del frusinate, tra non molto sarà conosciuto anche come nuovo prodotto di OpenAI, l'azienda che ha creato ChatGPT, in grado di trasformare una descrizione testuale in video della durata massima di un minuto.
Sora è in grado di generare scene complesse con più personaggi, tipi di movimento specifici e dettagli accurati del soggetto e dello sfondo. Il modello comprende non solo ciò che l'utente ha chiesto nel prompt, ma anche il modo in cui le richieste esistono e coesistono nel mondo reale.
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
I punti deboli attualmente riscontrati?
La difficoltà a simulare accuratamente la fisica di una scena complessa e potrebbe non comprendere casi specifici di causa ed effetto. Ad esempio, una persona potrebbe dare un morso a un biscotto, ma successivamente il biscotto potrebbe non nostrare il segno del morso.
Il modello può anche confondere i dettagli spaziali di un prompt, ad esempio confondendo sinistra e destra, e può avere difficoltà con descrizioni precise di eventi che si verificano nel tempo, come seguire una traiettoria specifica della telecamera.
Ma gli sviluppatori ci stanno lavorando, così come anche a stabilire i casi in cui non dar seguito a determinate richieste e a come inserire nei video dei metadati, in modo da riconoscerli come prodotti dell'intelligenza artificiale.
Oltre ad essere in grado di generare un video a partire da istruzioni testuali, il modello è in grado di prendere un'immagine fissa esistente e generare da essa un video, animando il contenuto dell'immagine con precisione e attenzione ai piccoli dettagli. Il modello può anche prendere un video esistente ed estenderlo o aggiungervi fotogrammi mancanti.
https://t.co/rPqToLo6J3 pic.twitter.com/nPPH2bP6IZ
— Sam Altman (@sama) February 15, 2024