Компанії

Meta анонсує Voicebox — модель штучного інтелекту для аудіо

0

Meta анонсувала свою останню генеративну модель штучного інтелекту, після ImageBind — Voicebox, яка розроблена, щоб допомогти творцям виконувати такі завдання генерування мовлення, як редагування аудіо, вибірка та стилізація, навіть якщо це не було спеціально навчені робити це через контекстне навчання.

Meta рекламує, що ця нова модель штучного інтелекту принесе користь багатьом людям у всьому світі, і використовує такі приклади, як допомога людям із вадами зору чути письмові повідомлення від друзів їхнім голосом, а також можливість людям говорити іноземними мовами власним голосом.

Сама модель штучного інтелекту може створювати як високоякісні аудіозаписи, так і редагувати попередньо записане аудіо, щоб усунути небажані збої, такі як автомобільні гудки, зберігаючи вміст і стиль аудіо, бувши багатомовним, створюючи мову шістьма мовами. Майбутні розробки моделі включають надання природного звучання голосів візуальним помічникам або неігровим персонажам під час ігор у метавсесвіті.

Meta також порівняла Voicebox з іншими аудіомоделями штучного інтелекту, зокрема назвавши конкурентами Vall-E та YourTTS, продемонструвавши, що Voicebox є більш досконалим і перевершує обидві моделі, порівнюючи частоту помилок Word і подібність стилю.

Voicebox AI
Voicebox AI

Voicebox створено на основі моделі Flow Matching, яка є останньою не авторегресійною генеративною моделлю Meta, яка може вивчати дуже недетерміноване відображення між текстом і мовленням, дозволяючи Voicebox навчатися з різноманітних мовних даних без необхідності їх ретельного позначення, дозволяючи дані будуть більш різноманітними та у більшому масштабі.

Voicebox наразі навчався на понад 50 000 годинах записаного мовлення та транскриптів із загальнодоступних аудіокниг англійською, французькою, іспанською, німецькою, польською та португальською мовами, і він також може передбачити сегмент мовлення, враховуючи навколишнє мовлення та транскрипт. сегмента.

Нарешті Мета коментує, що хоча ця технологія може започаткувати нову еру генеративного штучного інтелекту для мови, вона може створити потенціал для неправильного використання та ненавмисної шкоди.

У дослідницькій статті про Voicebox, якою Meta поділиться, буде включати деталі того, як вона побудувала високоефективний класифікатор, який може відрізняти автентичне мовлення від мовлення, згенерованого Voicebox. Meta не робитиме саму програму штучного інтелекту доступною для загального користування, а також не випускатиме вихідний код.

Comments

Comments are closed.