DeepMind зробить роботів розумнішими та вправнішими

2 серпня 2023, 11:31

Джерело:

BentureBeat

ШІ-компанія DeepMind, якою сьогодні володіє Google, анонсувала Robotics Transformer 2 (RT-2) – першу модель візуальної мови та дії (VLA), яка дає змогу роботам виконувати нові завдання навіть без спеціальної підготовки. Це повинно значно підвищити їхню користь в непередбачуваних ситуаціях.

Подібно до того, як сучасні мовні моделі, які лежать в основі чатботів, вивчають загальні ідеї та концепції з даних в інтернеті, RT-2 використовує текст і зображення з мережі для розуміння різних концепцій реального світу й перетворення цих знань в інструкції для роботів. Новий підхід відкриває перспективи для створення роботів, здатних адаптуватись і виконувати завдання в різних ситуаціях і середовищах з мінімальним навчанням.

Дивіться також У Китаї створили робота-гуманоїда, який може легко конкурувати з Boston Dynamics

Деталі розробки

У 2022 році DeepMind представила RT-1, першу версію моделі. Її навчили на 130 000 демонстрацій, що давало змогу роботам виконувати понад 700 завдань з імовірністю успіху 97%. Тепер, використовуючи демонстраційні дані RT-1 з наборами вебданих, компанія навчила наступника моделі – RT-2.

Вважається, що спеціальне навчання роботів, що охоплює кожен окремий об'єкт, середовище і ситуацію, має вирішальне значення для розв'язання складних абстрактних завдань у мінливих середовищах. Особливість RT-2 полягає в тому, що, на відміну від RT-1 та інших моделей, для роботи робота не потрібні сотні тисяч точок даних.

RT-2 вивчає складні міркування, характерні для основних моделей, використовуючи лише невеликий обсяг даних про роботів, і переносить засвоєні знання для прямого управління роботами — навіть для завдань, з якими він раніше не стикався або не навчався їх виконувати. Google пояснює, що RT-2 демонструє поліпшені здібності до узагальнення, семантичного і візуального розуміння, виходячи за межі робототехнічних даних, з якими він стикався.

Що показує тестування

За словами Вінсента Ванхоука, глави відділу робототехніки в Google DeepMind, навчання робота викиданню сміття раніше означало пряме навчання робота розпізнавати сміття, а також підбирати його й викидати. Але з RT-2, який навчається на вебданих, у цьому нема потреби. Модель уже має загальне уявлення про те, що таке сміття, і розпізнає його без спеціального навчання. У неї навіть є уявлення про те, як викидати сміття, хоча її ніколи не навчали цієї дії.

При вирішенні відомих завдань у внутрішніх тестах RT-2 показав себе так само добре, як RT-1. Однак для нових, раніше невідомих сценаріїв його продуктивність майже подвоїлася до 62% порівняно з 32% у RT-1.

Технологія може призвести до створення роботів, здатних міркувати, розв'язувати проблеми та інтерпретувати інформацію для виконання різноманітних дій у реальному світі залежно від поточної ситуації. Наприклад, замість машин, які виконують одні й ті самі повторювані дії на складі, підприємства могли б впровадити помічників, здатних обробляти кожен об'єкт по-різному, з огляду на тип об'єкта, вагу, крихкість та інші фактори.