Компанијата „Опен АИ“ претстави нов модел наречен „Сора“ кој може да ги претвори текстуалните инструкции во видео. Моделот „текст во видео“ им овозможува на корисниците да креираат фотореалистични клипови во должина до една минута врз основа на напишаното.
„Сора“ може да создаде комплексни сцени со повеќе ликови, специфични видови движења и прецизни детали за темата и заднината, велат од компанијата. Исто така, се наведува дека моделот може да разбере како предметите постојат во физичкиот свет и прецизно да ги толкува реквизитите и да создава убедливи ликови кои изразуваат живи емоции.
Моделот може да креира видео засновано на неподвижна слика и да ги пополни рамките што недостигаат на постојното видео, или да го прошири. Демонстративните видеа вклучуваат поглед кон Калифорнија од воздух, за време на „златната треска“, видео што изгледа како да е снимено од внатрешноста на воз во Токио. Сепак, многу од нив содржат одредени знаци кои покажуваат дека се работи за технологија со вештачка интелигенција, како што е „сомнителното“ движење на подот на музејската снимка. Компанијата вели дека моделот може да се мачи прецизно да симулира физика на сложена сцена, но резултатите се генерално доста импресивни.
Пред неколку години се појавија генератори на текст во слика како „Мидџуни“ (Midjouney), кои можеа да ги претворат зборовите во слики. Меѓутоа, неодамна видеото како форма почна да напредува со брзо темпо, при што компаниите „Ранвеј“ и „Пика“ ги прикажуваат сопствените модели кои претвораат текст во видео, додека „Лумиер“ на „Гугл“ се смета за еден од главните конкуренти на „Опен АИ“ во оваа област. Слично на „Сора“, „Лумиер“ им нуди на корисниците алатки за претворање текст во видео и им овозможува да креираат видео од неподвижна слика.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Компанијата им нуди пристап на визуелни уметници, дизајнери и филмските работници за да дадат повратни информации. Напоменуваат дека постојниот модел можеби нема прецизно да ја симулира физиката на сложена сцена и нема да може правилно да интерпретира одредени случаи на причинско-последични сцени.