У листопаді Google оголосив, що починає ініціативу, кульмінацією якої стане розробка моделі машинного навчання, здатної розпізнавати та перекладати 1000 найпоширеніших мов світу. Протягом останніх кількох місяців компанія працювала над цією метою та опублікувала запис у блозі членів команди, що працює над проєктом. Команда Google також опублікувала статтю, в якій описується запровадження універсальної моделі мовлення (USM) на сервері попередньої обробки arXiv.
Оновлення, надані Google, є частиною більш загальної мети: створити мовний перекладач із використанням автоматичного розпізнавання мовлення (ASR), здатний перекладати будь-яку мову світу за запитом. З цією метою вони вирішили тимчасово обмежити кількість мов, які вони намагаються підтримувати (до 100), через низьку кількість людей, які розмовляють менш поширеними мовами. Таким рідкісним мовам бракує наборів даних для навчання.
У рамках свого оголошення Google окреслив перші кроки до свого USM — розбиття його на сімейства моделей мовлення, навчених на мільярдах годин записаного мовлення та охоплюючих понад 300 мовами. Вони зазначають, що їхній USM уже використовується для перекладу мовою субтитрів на YouTube. Вони також окреслюють загальну модель для кожної родини.
Google пояснює, що моделі створюються за допомогою навчальних «конвеєрів», які включають три типи наборів даних: непарне аудіо, непарний текст і парні дані ASR. Вони також зазначають, що вони використовують конформерні моделі для обробки очікуваних параметрів 2B, необхідних для проєкту, і зроблять це за допомогою трьох основних етапів: попереднє навчання без нагляду, попереднє навчання під наглядом за різними цілями та навчання ASR під наглядом. Кінцевим результатом буде виробництво двох типів моделей — попередньо навчених і моделей ASR.
Крім того, Google стверджує, що в поточному стані його USM продемонстрував порівнянну або кращу продуктивність, ніж модель Whisper — модель розпізнавання мовлення загального призначення, створена спільнотою GitHub. Окрім використання USM для YouTube, очікується, що Google поєднає свою модель з іншими додатками штучного інтелекту, включаючи пристрої доповненої реальності.
Comments