DeepMind сделает роботов более умными и ловкими

2 августа 2023, 11:31
Читати новину українською

Источник:

BentureBeat

ИИ-компания DeepMind, которой сегодня владеет Google, анонсировала Robotics Transformer 2 (RT-2) – первую модель визуального языка и действия (VLA), позволяющую роботам выполнять новые задачи даже без специальной подготовки. Это должно значительно повысить их пользу в непредсказуемых ситуациях.

Подобно тому, как современные языковые модели, лежащие в основе чат-ботов, изучают общие идеи и концепции данных в интернете, RT-2 использует текст и изображения из сети для понимания различных концепций реального мира и преобразования этих знаний в инструкции для роботов. Новый подход открывает перспективы создания роботов, способных адаптироваться и выполнять задачи в различных ситуациях и средах с минимальным обучением.

Смотрите также В Китае создали робота-гуманоида, который может легко конкурировать с Boston Dynamics

Детали разработки

В 2022 году DeepMind представила RT-1, первую версию модели. Ее научили на 130 000 демонстраций, что позволяло роботам выполнять более 700 задач с вероятностью успеха 97%. Теперь, используя демонстрационные данные RT-1 с наборами веб-данных, компания научила преемника модели – RT-2.

Считается, что специальное обучение роботов, охватывающее каждый отдельный объект, среду и ситуацию, имеет решающее значение для решения сложных абстрактных задач в изменяющихся средах. Особенность RT-2 состоит в том, что, в отличие от RT-1 и других моделей, для работы робота не требуются сотни тысяч точек данных.

RT-2 изучает сложные соображения, характерные для основных моделей, используя лишь небольшой объем данных о роботах, и переносит усвоенные знания для прямого управления роботами — даже для задач, с которыми он раньше не сталкивался или не учился их выполнять. Google объясняет, что RT-2 демонстрирует улучшенные способности к обобщению, семантическому и визуальному пониманию, выходя за пределы робототехнических данных, с которыми он сталкивался.

Что показывает тестирование

По словам Винсента Ванхоука, главы отдела робототехники в Google DeepMind, обучение работе по выбрасыванию мусора ранее означало прямое обучение распознавать мусор, а также подбирать его и выбрасывать. Но с RT-2, который учится на веб-данных, в этом нет нужды. Модель уже имеет общее представление о том, что такое мусор, и распознает его без специального обучения. У нее даже есть представление о том, как выбрасывать мусор, хотя его никогда не обучали этому действию.

При решении новых задач во внутренних тестах RT-2 показал себя точно так же, как RT-1. Однако для новых, ранее неизвестных сценариев его производительность почти удвоилась до 62% по сравнению с 32% у RT-1.

Технология может привести к созданию роботов, способных размышлять, решать проблемы и интерпретировать информацию для выполнения различных действий в реальном мире в зависимости от текущей ситуации. Например, вместо машин, выполняющих одни и те же повторяющиеся действия на складе, предприятия могли бы внедрить помощников, способных обрабатывать каждый объект по-разному, учитывая тип объекта, вес, хрупкость и другие факторы.