Нове дослідження за участю моделі Google DeepMind Robotic Transformer 2 (RT-2) vision-language-action (VLA) показує багатообіцяючі результати у створенні фізичного робота загального призначення, який може міркувати, розв’язувати проблеми та інтерпретувати інформацію, щоб виконувати широкий спектр завдань у реальних умовах. RT-2 навчається як з вебданих, так і з робототехнічних даних, одночасно перетворюючи знання в узагальнені інструкції для роботизованого керування.
Шанувальники наукової фантастики давно обожнюють футуристичних вірних роботів-компаньйонів, таких як R2-D2 із Star Wars. Шанувальники оригінальної трилогії були закохані в робота у формі пилососа, який сигналив і пробивався через небезпеку. Майже кожна дитина наприкінці 70-х і на початку 80-х років мріяла мати власного напарника R2-D2. Такі компанії, як Google, досягли успіхів у сфері робототехніки, а останні результати RT-2 обіцяють, що R2-D2 стане доступним для всіх.
Згідно з нещодавнім прес-релізом Google DeepMind, робота з RT-2 походить від роботи над RT-1, «моделлю, навченою багатозадачним демонстраціям, яка може вивчати комбінації завдань і об’єктів, видимих у даних роботів». Це дослідження включало демонстраційні дані, зібрані за допомогою 13 роботів протягом 17 місяців в офісній кухні.
RT-2 по суті навчається на даних RT-1, кульмінацією чого є модель VLA, яка може керувати роботом. Результат показує, що RT-2 має покращені можливості узагальнення та семантичне та візуальне розуміння, що виходить за рамки роботизованих даних, з якими він спочатку відкривався. У новому документі вказується, що це також включає можливість RT-2 інтерпретувати нові команди та відповідати на команди користувача, виконуючи елементарні міркування, наприклад здатність міркувати «про категорії об’єктів або описи високого рівня».
Здатність RT-2 працювати також можна побачити, оскільки він включає в себе ланцюжок думок, що дозволяє йому досягти багатоетапного семантичного міркування. Це включає можливість вибирати між об’єктами та те, який об’єкт буде кращим для поточної роботи, наприклад вибрати камінь замість аркуша паперу, щоб забити цвях.
Google DeepMind каже: «VLM можна перетворити на потужні моделі vision-language-action (VLA), які можуть безпосередньо керувати роботом, поєднуючи попереднє навчання VLM з робототехнічними даними».
Хоча мати друга-робота, як-от R2-D2, може бути ще далекою перспективою, Google DeepMind та інші компанії прагнуть у найближчому майбутньому запропонувати більш компетентного та здібного робота-помічника з такими досягненнями, як RT-2. Джерело
Comments