Що вигадали в Anthropic
Свіже оновлення, випущене 22 жовтня, дає ШІ-помічнику Claude 3.5 можливість керувати комп'ютером так само, як це робила б людина. Ця функція, що отримала назву "Computer use", вже вийшла в публічну бета-версію, але ще недоступна для повноцінного використання, йдеться в повідомленні Anthropic.
Дивіться також Можливість поговорити з майбутнім собою дала неочікуваний результат
На нинішньому етапі розвитку функції Claude може виконувати такі завдання, як "погляд на екран, переміщення курсора, натискання кнопок і введення тексту". Теоретично, це може зробити ШІ ще більш корисним для автоматизації повторюваних комп'ютерних завдань.
Ми пробуємо щось принципово нове. Замість того, щоб створювати спеціальні інструменти, які допомагають Claude виконувати індивідуальні завдання, ми навчаємо його загальним комп'ютерним навичкам — дозволяємо йому використовувати широкий спектр стандартних інструментів і програм, розроблених для людей,
– каже компанія.
Щоб зробити ці загальні навички можливими, в Anthropic створили API, який дозволяє Claude сприймати комп'ютерні інтерфейси та взаємодіяти з ними. Розробники можуть інтегрувати цей API, щоб ШІ міг перекладати інструкції в команди. Наприклад: "Використовуй дані з мого комп'ютера та інтернету для заповнення цієї форми", або "Перемісти курсор, щоб відкрити браузер", або "Перейди на ці сторінки" та інше. Функція також може робити скриншоти.
Розробники очікують, що можливості функції "швидко покращаться в найближчі місяці".
Кому це може бути корисним?
- Що ж, вимогливі роботодавці, які настільки не поважають своїх працівників, що шпигують за ними за допомогою програм для зчитування рухів мишки та натискань клавіш, можуть прощатися зі статистикою. Працівники тепер зможуть створювати ілюзію присутності за допомогою Computer use, коли їм потрібно відійти.
- Це також знадобиться тим користувачам, які мають потребу у виконанні монотонних повторюваних завдань.
- Компанія каже, що такі бренди, як Asana, Canva, Cognition, DoorDash, Replit та The Browser Company вже почали досліджувати можливості нової функції, виконуючи завдання, які потребують десятків, а іноді й сотень кроків.
- Наприклад, Replit використовує можливості Claude 3.5 для розробки програмного забезпечення. Функція дозволяє оцінювати додаток завдяки можливості навігації по інтерфейсу. Фактично це частково замінює роботу програміста-тестувальника.
У кількох відеороликах, які компанія опублікувала в своїх соцмережах, можна побачити більше варіантів використання функції:
Функція Computer use для автоматизації операцій: відео
Функція Computer use для виконання пошуку в інтернеті: відео
Функція Computer use для кодування: відео
На жаль, це також означає, що функцією можуть скористатися різноманітні шахраї та спамери, змушуючи ШІ робити одноманітну роботу, на кшталт публікації одного й того ж повідомлення на якомусь сайті. Достатньо навчити систему працювати з інтерфейсом того чи іншого ресурсу (наприклад, соцмережі), дати їй повідомлення для розсилки, а потім спостерігати за результатом.
І компанія знає про це:
Деякі дії, які люди виконують без особливих зусиль — прокрутка, перетягування, масштабування — наразі становлять проблеми для Claude, і ми закликаємо розробників починати дослідження з завдань з низьким рівнем ризику. Оскільки Computer use може стати новим вектором для більш звичних загроз, таких як спам, дезінформація або шахрайство, ми застосовуємо проактивний підхід, щоб сприяти їх безпечному розгортанню,
– йдеться в оголошенні.
Розробники створили "класифікатори", які зможуть визначати роботу функції й розуміти, чи завдає вона шкоди.
Anthropic відкрито заявляє, що нова функція все ще перебуває на ранній стадії розробки. Вона "часом громіздка і схильна до помилок", тому користуватися нею слід з великою обережністю. Компанія повідомила, що під час внутрішнього тестування Claude одного разу зупинився посеред виконання завдання з кодування і почав відкривати зображення Єллоустонського національного парку. Хоча це надзвичайно людська поведінка (хто ж не хоче зробити перерву, щоб подивитися на природу під час робочого дня?), це також нагадування про те, що навіть найкращі моделі штучного інтелекту можуть мати помилки.
І кажучи "найкращі", ми не вигадуємо. Компанія опублікувала порівняння своїх нових моделей ШІ з конкурентами, показавши результати їхніх тестувань. Таблиця показує, що Claude 3.5 Sonnet і Claude 3.5 Haiku (різні версії однієї моделі, з різною потужністю і можливостями) обганяють всі основні моделі ШІ на ринку в тестах на міркування, кодування, знання, використання інструментів, уміння вирішувати шкільні математичні задачі та інших. Програє Claude лише в одному тесті з восьми наявних – він також стосується математики, і тут його обійшов Google Gemini.
Результати тестів різних моделей ШІ / Фото Anthropic
Компанія каже, що "ранні відгуки клієнтів свідчать про те, що оновлений Claude 3.5 Sonnet є значним кроком у кодуванні на основі ШІ". GitLab, який тестував модель для завдань DevSecOps, виявив, що вона забезпечує сильніші міркування (до 10% у різних варіантах використання) без додаткової затримки. Компанія Browser, використовуючи модель для автоматизації вебпроцесів, відзначила, що Claude 3.5 Sonnet перевершує всі моделі, які вони тестували раніше.
Терміни запуску функції в її повноцінному й фінальному вигляді поки що не називають, але й навряд чи самі її знають.