Новий біологічний датчик може розпізнавати рухомі об’єкти в одному кадрі відео та успішно передбачати, куди вони рухатимуться. Цей розумний датчик, описаний у документі Nature Communications, стане цінним інструментом у низці областей, включаючи динамічне бачення, автоматичний контроль, контроль промислових процесів, роботизоване керування та технологію автономного водіння.
Сучасні системи виявлення руху потребують багатьох компонентів і складних алгоритмів для покадрового аналізу, що робить їх неефективними та енергоємними. Надихаючись зоровою системою людини, дослідники з Університету Аалто розробили нову технологію нейроморфного зору, яка об’єднує відчуття, пам’ять і обробку в одному пристрої, який може виявляти рух і передбачати траєкторії.
В основі їхньої технології лежить масив фотомемристорів, електричних пристроїв, які виробляють електричний струм у відповідь на світло. Струм не припиняється відразу після вимкнення світла. Натомість він розпадається поступово, а це означає, що фотомемристори можуть ефективно «запам’ятати», чи піддавалися вони нещодавньому впливу світла. У результаті датчик, виготовлений із масиву фотомемристорів, не просто записує миттєву інформацію про сцену, як це робить камера, але також містить динамічну пам’ять про попередні моменти.
«Унікальною властивістю нашої технології є її здатність інтегрувати серію оптичних зображень в один кадр», — пояснює Хунвей Тан, науковий співробітник, який керував дослідженням. «Інформація кожного зображення вбудована в наступні зображення як прихована інформація. Іншими словами, останній кадр у відео також містить інформацію про всі попередні кадри. Це дозволяє нам виявляти рух раніше у відео, аналізуючи лише останній кадр. із простою штучною нейронною мережею. Результатом є компактний і ефективний датчик».
Щоб продемонструвати технологію, дослідники використали відео, на яких по черзі показано букви слова. Оскільки всі слова закінчувалися на літеру «Е», фінальний кадр усіх відео виглядав схожим. Звичайні датчики зору не могли визначити, чи з’явилося «E» на екрані після інших літер у «APPLE» або «GRAPE». Але матриця фотомемристорів могла використовувати приховану інформацію в останньому кадрі, щоб визначити, які літери передували йому, і передбачити, що це за слово, з майже 100% точністю.
В іншому тесті команда показала відео датчиків, на яких імітована людина рухається з трьома різними швидкостями. Система не тільки змогла розпізнати рух, проаналізувавши один кадр, але й правильно передбачила наступні кадри.
Точне виявлення руху та прогнозування місця розташування об’єкта є життєво важливими для технології автономного керування та інтелектуального транспорту. Автономним транспортним засобам потрібні точні прогнози щодо того, як рухатимуться автомобілі, велосипеди, пішоходи та інші об’єкти, щоб керувати своїми рішеннями. Додавши систему машинного навчання до матриці фотомемристорів, дослідники показали, що їхня інтегрована система може передбачати майбутній рух на основі внутрішньої обробки повністю інформаційного кадру.
«Розпізнавання та прогнозування руху за допомогою нашої компактної вбудованої пам’яті та обчислювального рішення відкриває нові можливості в автономній робототехніці та взаємодії людини з машиною», — каже професор Себастьян ван Дейкен. «Інформація в кадрі, яку ми отримуємо в нашій системі за допомогою фотомемристорів, дозволяє уникнути надлишкових потоків даних, забезпечуючи енергоефективне прийняття рішень у режимі реального часу».
Comments