Група дослідників з Університету Карнегі — Меллона, разом із компанією Runway, розробили дуже цікаву нейромережеву модель. З її допомогою можна «озвучувати» відеоролики, які були записані без звуку.

Працює алгоритм досить просто – спочатку він виявляє у кадрі джерела звуку. Їх поділяють на два типи — конкретні об’єкти та місця з характерним фоновим звуком (наприклад, кафе).

Вихідне відео розбивається на сцени різкої зміни гістограми між двома кадрами, після чого нейромережа CLIP класифікує об’єкти в ній. Як база ефектів використовується Epidemic Sound — бібліотека з 90 тис звуками.

Зрештою штучний інтелект «оснащує» кожну сцену п’ятьма найімовірнішими звуковими ефектами для об’єктів та оточення. При цьому спочатку активується лише один із них, але користувач може включити усі п’ять.

Підібравши необхідні звуки, алгоритм створює для них часові інтервали — це дозволяє досягти більшої реалістичності, тому що не всі об’єкти знаходяться на сцені протягом усього ролика.

Читайте також -  Звичайний виноград викликав "революцію" квантових технологій

2 Comments

  1. … [Trackback]

    […] Read More on that Topic: portaltele.com.ua/news/technology/shtuchnyj-intelekt-navchyvsya-vgaduvaty-zvuky-u-bezzvuchnyh-video.html […]

  2. … [Trackback]

    […] Info on that Topic: portaltele.com.ua/news/technology/shtuchnyj-intelekt-navchyvsya-vgaduvaty-zvuky-u-bezzvuchnyh-video.html […]

Comments are closed.