Что придумали в Anthropic

Свежее обновление, выпущенное 22 октября, дает ИИ-помощнику Claude 3.5 возможность управлять компьютером так же, как это делал бы человек. Эта функция, получившая название "Computer use", уже вышла в публичную бета-версию, но еще недоступна для полноценного использования, говорится в сообщении Anthropic.

Смотрите также Возможность поговорить с будущим собой дала неожиданный результат

На нынешнем этапе развития функции Claude может выполнять такие задачи, как "взгляд на экран, перемещение курсора, нажатие кнопок и ввод текста". Теоретически, это может сделать ИИ еще более полезным для автоматизации повторяющихся компьютерных задач.

Мы пробуем что-то принципиально новое. Вместо того чтобы создавать специальные инструменты, которые помогают Claude выполнять индивидуальные задачи, мы обучаем его общим компьютерным навыкам — позволяем ему использовать широкий спектр стандартных инструментов и программ, разработанных для людей,
– говорит компания.

Чтобы сделать эти общие навыки возможными, в Anthropic создали API, который позволяет Claude воспринимать компьютерные интерфейсы и взаимодействовать с ними. Разработчики могут интегрировать этот API, чтобы ИИ мог переводить инструкции в команды. Например: "Используй данные с моего компьютера и интернета для заполнения этой формы", или "Перемести курсор, чтобы открыть браузер", или "Перейди на эти страницы" и прочее. Функция также может делать скриншоты.

Разработчики ожидают, что возможности функции "быстро улучшатся в ближайшие месяцы".

Кому это может быть полезным?

  • Что ж, требовательные работодатели, которые настолько не уважают своих работников, что шпионят за ними с помощью программ для считывания движений мышки и нажатий клавиш, могут прощаться со статистикой. Работники теперь смогут создавать иллюзию присутствия с помощью Computer use, когда им нужно отойти.
  • Это также понадобится тем пользователям, которые нуждаются в выполнении монотонных повторяющихся задач.
  • Компания говорит, что такие бренды, как Asana, Canva, Cognition, DoorDash, Replit и The Browser Company уже начали исследовать возможности новой функции, выполняя задачи, которые требуют десятков, а иногда и сотен шагов.
  • Например, Replit использует возможности Claude 3.5 для разработки программного обеспечения. Функция позволяет оценивать приложение благодаря возможности навигации по интерфейсу. Фактически это частично заменяет работу программиста-тестировщика.

В нескольких видеороликах, которые компания опубликовала в своих соцсетях, можно увидеть больше вариантов использования функции:

Функция Computer use для автоматизации операций: видео

Функция Computer use для выполнения поиска в интернете: видео

Функция Computer use для кодирования: видео

    К сожалению, это также означает, что функцией могут воспользоваться различные мошенники и спамеры, заставляя ИИ делать однообразную работу, вроде публикации одного и того же сообщения на каком-то сайте. Достаточно научить систему работать с интерфейсом того или иного ресурса (например, соцсети), дать ей сообщение для рассылки, а затем наблюдать за результатом.

    И компания знает об этом:

    Некоторые действия, которые люди выполняют без особых усилий — прокрутка, перетаскивание, масштабирование — сейчас представляют проблемы для Claude, и мы призываем разработчиков начинать исследования с задач с низким уровнем риска. Поскольку Computer use может стать новым вектором для более привычных угроз, таких как спам, дезинформация или мошенничество, мы применяем проактивный подход, чтобы способствовать их безопасному развертыванию,
    – говорится в объявлении.

    Разработчики создали "классификаторы", которые смогут определять работу функции и понимать, наносит ли она вред.

    Anthropic открыто заявляет, что новая функция все еще находится на ранней стадии разработки. Она "порой громоздкая и подвержена ошибкам", поэтому пользоваться ею следует с большой осторожностью. Компания сообщила, что во время внутреннего тестирования Claude однажды остановился посреди выполнения задания по кодированию и начал открывать изображения Йеллоустонского национального парка. Хотя это чрезвычайно человеческое поведение (кто же не хочет сделать перерыв, чтобы посмотреть на природу во время рабочего дня?), это также напоминание о том, что даже лучшие модели искусственного интеллекта могут иметь ошибки.

    И говоря "самые лучшие", мы не придумываем. Компания опубликовала сравнение своих новых моделей ИИ с конкурентами, показав результаты их тестирований. Таблица показывает, что Claude 3.5 Sonnet и Claude 3.5 Haiku (разные версии одной модели, с разной мощностью и возможностями) обгоняют все основные модели ИИ на рынке в тестах на рассуждения, кодирование, знания, использование инструментов, умение решать школьные математические задачи и других. Проигрывает Claude лишь в одном тесте из восьми имеющихся – он также касается математики, и здесь его обошел Google Gemini.

    Результаты тестов различных моделей ИИ
    Результаты тестов различных моделей ИИ / Фото Anthropic

    Компания говорит, что "ранние отзывы клиентов свидетельствуют о том, что обновленный Claude 3.5 Sonnet является значительным шагом в кодировании на основе ИИ". GitLab, который тестировал модель для задач DevSecOps, обнаружил, что она обеспечивает более сильные рассуждения (до 10% в различных вариантах использования) без дополнительной задержки. Компания Browser, используя модель для автоматизации веб-процессов, отметила, что Claude 3.5 Sonnet превосходит все модели, которые они тестировали ранее.

    Сроки запуска функции в ее полноценном и финальном виде пока что не называют, но и вряд ли сами ее знают.