Технологія «відео-звук» дозволяє незрячим розпізнавати обличчя

Нейробіологи показали, що сліпі люди розпізнають основні обличчя за допомогою тих самих ділянок мозку, що й зрячі люди, навіть якщо форми обличчя передаються як звук, а не через зорову кору головного мозку, у цікавому погляді на нейропластичність.

Здатність розпізнавати обличчя глибоко вкорінена в людях, а також у деяких наших далеких, соціально орієнтованих родичів-приматів. Дійсно, схоже, що в мозку є ділянки – зокрема, пляма в нижній частині спини мозку в нижній скроневій корі, що називається веретеноподібною областю обличчя, або FFA, – які особливо світяться, коли ми бачимо обличчя.

Цікаво, що в дослідженні 2009 року також було виявлено, що FFA активується навіть тоді, коли люди бачать речі, які трохи схожі на обличчя, тобто це бере участь у феномені парейдолії, коли ми бачимо обличчя в неживих об’єктах. Ця сама область також починає активуватися, коли люди починають розвивати досвід у певній галузі, очевидно, допомагаючи автомобільним гайкам розрізняти різні моделі за допомогою зору, наприклад, або допомагаючи експертам з шахів розпізнавати знайому конфігурацію на дошці.

Примітно, що FFA також реагує на людей, які були сліпими від народження; Дослідження Массачусетського технологічного інституту у 2020 році помістили сліпих людей у фМРТ-сканер і змусили їх відчути різні надруковані на 3D-принтері форми, включаючи обличчя, руки, стільці та лабіринти, і виявили, що дотик до цих маленьких облич активує FFA подібним чином.

Візуальна активація веретеноподібної області обличчя у суб’єктів, які розглядають схематичні обличчя
Джорджтаунський університет

Тож, здається, FFA в певному сенсі не хвилює, яка сенсорна система передає йому інформацію, пов’язану з обличчям, і нове дослідження групи нейронауків Медичного центру Джорджтаунського університету додає докази цій гіпотезі.

Команда набрала шість сліпих і 10 зрячих суб’єктів і почала тренувати їх за допомогою «пристрою сенсорної заміни». Це включає в себе відеокамеру, встановлену на голові, окуляри із зав’язаними очима, набір навушників і комп’ютер обробки даних, який отримуватиме вхідні дані від відеокамери та перетворюватиме їх на аудіо, розбиваючи поле зору на 64-піксельну сітку та надаючи кожен піксель власний звуковий тон.

Ці висоти також були представлені у стереозвуковій сцені, так що, згідно з дослідницькою статтею, «якщо зображення є лише крапкою, розташованою у верхньому правому куті поля зору камери, відповідний звук буде високочастотним. і подається переважно через правий навушник. Якщо точка розташована у верхній середині поля зору, звук буде високочастотним, але подаватиметься через правий і лівий навушники з однаковою гучністю. Якщо зображення є лінією у нижньому лівому куті пов’язаний звук буде сумішшю низьких частот, що надходять переважно через лівий навушник».

Піддослідні провели 10 одногодинних тренувань із цими пристроями, навчившись «бачити» вухами, водночас рухаючи головою. Картки мають прості форми; горизонтальні та вертикальні лінії, будинки різної форми, геометричні фігури та базові щасливі та сумні обличчя у стилі емодзі. Це був досить складний процес навчання, але до його кінця всі піддослідні розпізнавали прості форми з точністю понад 85%.

Пристрої сенсорної заміни мали роздільну здатність лише 64 пікселя. У нижньому правому куті є деякі фігури, показані піддослідним Джорджтаунський університет

Під час тестування розпізнавання форми на апараті fMRI як у зрячих, так і у сліпих суб’єктів виявилась активація FFA, коли була представлена основна форма обличчя. Деякі сліпі учасники також змогли правильно визначити, чи було обличчя щасливим, чи сумним – як ви можете почути в 45-секундному аудіозаписі дослідження, який також дасть вам уявлення про звуки пристрою.

«Наші результати, отримані від сліпих людей, свідчать про те, що розвиток веретеноподібної області обличчя залежить не від досвіду реального візуального перегляду облич, а від впливу геометрії конфігурації обличчя, яка може бути передана іншими сенсорними модальностями», — говорить Йозеф Раушекер, доктор філософії, доктор наук, професор нейронауки та старший автор дослідження, у прес-релізі.

Команда також виявила, що зрячі суб’єкти відчували активацію в основному в правій веретеноподібній області обличчя, тоді як сліпі суб’єкти відчували активацію в лівій FFA.

«Ми вважаємо, що різниця між сліпими й незрячими людьми може бути пов’язана з тим, як ліва і права сторони веретеноподібної області обробляють обличчя – або як пов’язані візерунки, або як окремі частини, що може бути важливою підказкою., щоб допомогти нам удосконалити наш пристрій сенсорної заміни», — каже Раушекер.

Команда хоче продовжити експерименти, потенційно розробивши пристрій сенсорної заміни з вищою роздільною здатністю, який зрештою дозволить високопідготовленим суб’єктам розпізнавати справжні людські обличчя.

Майте на увазі, що подібні пристрої для перекладу зображення на звук навряд чи допоможуть у практичному сенсі – частково через те, що вони вимагають тривалого навчання, а частково через те, що сліпі люди вже значною мірою покладаються на свій слух і навряд чи захочуть додатково біпи та блопи, що псують їх сприйняття світу.

Не кажучи вже про те, що з появою мультимодального штучного інтелекту глибокого навчання вже існують системи, які дозволяють мовним моделям у стилі GPT переглядати зображення чи відео та описувати те, що відбувається, з будь-яким рівнем деталізації, який ви віддаєте перевагу. Цей вид оповідання природною мовою може виявитися набагато легшим у реалізації, використанні та пристосуванні до потреб людини, ніж пряме перетворення відео в аудіо.

З усім тим, це досить захоплюючий матеріал, і він показує, наскільки глибоко стара форма двох очей і рота похована в нашому апаратному забезпеченні, а також важливість цих форм для нас як соціальних тварин. Джерело