Apple зробила ще одне доповнення до свого зростаючого репертуару ШІ, створивши інструмент, який використовує великі мовні моделі (LLM) для анімації статичних зображень на основі текстових підказок користувача. Apple описує інновацію в новій дослідницькій статті під назвою «Keyframer: розширення можливостей дизайну анімації з використанням великих мовних моделей».
«Хоча інтерфейси одноразових підказок поширені в комерційних системах перетворення тексту в зображення, таких як Dall·E та Midjourney, ми стверджуємо, що анімація потребує більш складного набору користувацьких міркувань, таких як час і координація, які важко повністю визначити в єдиній підказки, отже, альтернативні підходи, які дозволяють користувачам ітеративно створювати та вдосконалювати згенеровані проекти, можуть знадобитися особливо для анімацій.
«Ми об’єднали нові принципи дизайну для мовних підказок артефактів дизайну з можливостями генерації коду LLM, щоб створити новий інструмент анімації на основі ШІ під назвою Keyframer. За допомогою Keyframer користувачі можуть створювати анімовані ілюстрації зі статичних 2D-зображень за допомогою підказок природною мовою. Використовуючи GPT-4 3, Keyframer генерує анімаційний код CSS для анімації вхідної масштабованої векторної графіки (SVG).»
Щоб створити анімацію, користувач завантажує SVG-зображення, скажімо, космічної ракети, а потім вводить підказку на зразок «створи три дизайни, де небо тьмяніє різними кольорами, а зірки мерехтять». Потім Keyframer генерує CSS-код для анімації, а потім користувач може вдосконалити його, безпосередньо відредагувавши код або ввівши додаткові текстові підказки.
«Keyframer дозволив користувачам ітеративно вдосконалювати свої проекти за допомогою послідовних підказок, а не розглядати весь дизайн заздалегідь», — пояснюють автори. «Завдяки цій роботі ми сподіваємося надихнути майбутні інструменти дизайну анімації, які поєднують потужні генеративні можливості LLM для прискорення створення прототипів дизайну за допомогою динамічних редакторів, які дозволяють творцям зберігати творчий контроль».
Згідно з документом, дослідження ґрунтувалося на інтерв’ю з професійними дизайнерами та інженерами анімації. «Я думаю, що це було набагато швидше, ніж багато чого, що я робив», — сказав один з учасників дослідження, цитований у газеті. «Я думаю, що раніше робити щось подібне займали б години».
Ця інновація є лише останньою в серії проривів AI від Apple. Минулого тижня дослідники Apple випустили модель AI, яка використовує потужність мультимодальних LLM для редагування зображень на рівні пікселів.
Наприкінці грудня Apple також оголосила, що досягла успіху в розгортанні LLM на iPhone та інших пристроях Apple з обмеженою пам’яттю, винайшовши інноваційну техніку використання флеш-пам’яті.
І The Information, і аналітик Джефф Пу заявили, що Apple матиме якусь генеративну функцію ШІ, доступну на iPhone та iPad пізніше цього року, коли вийде iOS 18. За словами репортера Bloomberg Марка Гурмана, наступна версія програмного забезпечення для мобільних пристроїв від Apple включатиме покращену версію Siri з генеруючою функцією штучного інтелекту, подібною до ChatGPT, і може стати «найбільшим» оновленням в історії «iPhone».