Google представив VideoPOET, відкриваючи нові шляхи створення когерентного відео

Після того як штучний інтелект Microsoft Copilot отримав можливість генерувати аудіозаписи з текстових підказок, Google представив VideoPoet, велику мовну модель (LLM), яка розширює межі у створенні відео за допомогою 10-секундних кліпів, які створюють менше артефактів. Модель підтримує низку завдань створення відео, включаючи перетворення тексту у відео, трансформацію зображення у відео, стилізацію відео, малювання та функції відео-в-аудіо.

Він створює 10-секундні відеоролики з текстових підказок, а також може анімувати нерухомі зображення

На відміну від своїх попередників, VideoPoet виділяється тим, що генерує послідовне відео з великим рухом. Модель демонструє свою майстерність, створюючи десятисекундні відеоролики, залишаючи позаду своїх конкурентів, зокрема Gen-2. Примітно, що VideoPoet не покладається на певні дані для створення відео, що відрізняє його від інших моделей, які потребують детального введення для отримання оптимальних результатів.

Ця багатогранна можливість стала можливою завдяки використанню мультимодальної великої моделі, яка налаштовує її на траєкторію, щоб потенційно стати мейнстрімом у створенні відео.

VideoPOET від Google відходить від переважаючої тенденції в моделях створення відео, які переважно покладаються на підходи на основі дифузії. Натомість VideoPoet використовує потужність великих мовних моделей (LLM). Модель плавно інтегрує різні завдання створення відео в рамках одного LLM, усуваючи потребу в окремо навчених компонентах для кожної функції.

Отримані відео демонструють різну довжину та різні дії та стилі на основі вхідного текстового вмісту. Крім того, VideoPoet може виконувати перетворення вхідних зображень на анімацію на основі наданих підказок, демонструючи свою адаптивність до різних вхідних даних. Випуск VideoPOET додає новий вимір до генерації відео на основі штучного інтелекту, натякаючи на можливості, які відкриються у 2024 році.

Google представив VideoPOET, відкриваючи нові шляхи створення когерентного відео

Він створює 10-секундні відеоролики з текстових підказок, а також може анімувати нерухомі зображення

У додатку Google News з’явилася можливість прослуховування новин

Ubuntu 26.04 LTS вийде у квітні з ядром Linux 6.20

Google випустила надшвидку модель AI Gemini 3 Flash

Вчені розкрили таємниці атмосфери віком 1,4 млрд років, дослідивши давні кристали солі

Ford запускає нову версію Everest Tremor

Супутникові дані розкрили масштаб снігопаду в чилійській пустелі Атакама

Глибинні води Антарктиди можуть змінити баланс Світового океану

Google представив VideoPOET, відкриваючи нові шляхи створення когерентного відео

Він створює 10-секундні відеоролики з текстових підказок, а також може анімувати нерухомі зображення

Читайте також

У додатку Google News з’явилася можливість прослуховування новин

Ubuntu 26.04 LTS вийде у квітні з ядром Linux 6.20

Google випустила надшвидку модель AI Gemini 3 Flash

Вчені розкрили таємниці атмосфери віком 1,4 млрд років, дослідивши давні кристали солі

Ford запускає нову версію Everest Tremor

Супутникові дані розкрили масштаб снігопаду в чилійській пустелі Атакама

Глибинні води Антарктиди можуть змінити баланс Світового океану