Подобно тому, как современные языковые модели, лежащие в основе чат-ботов, изучают общие идеи и концепции данных в интернете, RT-2 использует текст и изображения из сети для понимания различных концепций реального мира и преобразования этих знаний в инструкции для роботов. Новый подход открывает перспективы создания роботов, способных адаптироваться и выполнять задачи в различных ситуациях и средах с минимальным обучением.
Смотрите также В Китае создали робота-гуманоида, который может легко конкурировать с Boston Dynamics
Детали разработки
В 2022 году DeepMind представила RT-1, первую версию модели. Ее научили на 130 000 демонстраций, что позволяло роботам выполнять более 700 задач с вероятностью успеха 97%. Теперь, используя демонстрационные данные RT-1 с наборами веб-данных, компания научила преемника модели – RT-2.
Считается, что специальное обучение роботов, охватывающее каждый отдельный объект, среду и ситуацию, имеет решающее значение для решения сложных абстрактных задач в изменяющихся средах. Особенность RT-2 состоит в том, что, в отличие от RT-1 и других моделей, для работы робота не требуются сотни тысяч точек данных.
RT-2 изучает сложные соображения, характерные для основных моделей, используя лишь небольшой объем данных о роботах, и переносит усвоенные знания для прямого управления роботами — даже для задач, с которыми он раньше не сталкивался или не учился их выполнять. Google объясняет, что RT-2 демонстрирует улучшенные способности к обобщению, семантическому и визуальному пониманию, выходя за пределы робототехнических данных, с которыми он сталкивался.
Что показывает тестирование
По словам Винсента Ванхоука, главы отдела робототехники в Google DeepMind, обучение работе по выбрасыванию мусора ранее означало прямое обучение распознавать мусор, а также подбирать его и выбрасывать. Но с RT-2, который учится на веб-данных, в этом нет нужды. Модель уже имеет общее представление о том, что такое мусор, и распознает его без специального обучения. У нее даже есть представление о том, как выбрасывать мусор, хотя его никогда не обучали этому действию.
Технология может привести к созданию роботов, способных размышлять, решать проблемы и интерпретировать информацию для выполнения различных действий в реальном мире в зависимости от текущей ситуации. Например, вместо машин, выполняющих одни и те же повторяющиеся действия на складе, предприятия могли бы внедрить помощников, способных обрабатывать каждый объект по-разному, учитывая тип объекта, вес, хрупкость и другие факторы.