Подібно до того, як сучасні мовні моделі, які лежать в основі чатботів, вивчають загальні ідеї та концепції з даних в інтернеті, RT-2 використовує текст і зображення з мережі для розуміння різних концепцій реального світу й перетворення цих знань в інструкції для роботів. Новий підхід відкриває перспективи для створення роботів, здатних адаптуватись і виконувати завдання в різних ситуаціях і середовищах з мінімальним навчанням.
Дивіться також У Китаї створили робота-гуманоїда, який може легко конкурувати з Boston Dynamics
Деталі розробки
У 2022 році DeepMind представила RT-1, першу версію моделі. Її навчили на 130 000 демонстрацій, що давало змогу роботам виконувати понад 700 завдань з імовірністю успіху 97%. Тепер, використовуючи демонстраційні дані RT-1 з наборами вебданих, компанія навчила наступника моделі – RT-2.
Вважається, що спеціальне навчання роботів, що охоплює кожен окремий об'єкт, середовище і ситуацію, має вирішальне значення для розв'язання складних абстрактних завдань у мінливих середовищах. Особливість RT-2 полягає в тому, що, на відміну від RT-1 та інших моделей, для роботи робота не потрібні сотні тисяч точок даних.
RT-2 вивчає складні міркування, характерні для основних моделей, використовуючи лише невеликий обсяг даних про роботів, і переносить засвоєні знання для прямого управління роботами — навіть для завдань, з якими він раніше не стикався або не навчався їх виконувати. Google пояснює, що RT-2 демонструє поліпшені здібності до узагальнення, семантичного і візуального розуміння, виходячи за межі робототехнічних даних, з якими він стикався.
Що показує тестування
За словами Вінсента Ванхоука, глави відділу робототехніки в Google DeepMind, навчання робота викиданню сміття раніше означало пряме навчання робота розпізнавати сміття, а також підбирати його й викидати. Але з RT-2, який навчається на вебданих, у цьому нема потреби. Модель уже має загальне уявлення про те, що таке сміття, і розпізнає його без спеціального навчання. У неї навіть є уявлення про те, як викидати сміття, хоча її ніколи не навчали цієї дії.
Технологія може призвести до створення роботів, здатних міркувати, розв'язувати проблеми та інтерпретувати інформацію для виконання різноманітних дій у реальному світі залежно від поточної ситуації. Наприклад, замість машин, які виконують одні й ті самі повторювані дії на складі, підприємства могли б впровадити помічників, здатних обробляти кожен об'єкт по-різному, з огляду на тип об'єкта, вагу, крихкість та інші фактори.