Компанія зі ШІ-співробітниками: чому експеримент виявився провальним

Вікторія Кульженко

Основні тези

Експеримент з фіктивною ІТ-компанією TheAgentCompany показав, що ШІ моделі не можуть повністю замінити людей, виконуючи лише невеликий відсоток завдань.
Найбільші труднощі ШІ-агентів виникли через відсутність інтуїції, соціальних навичок та погане розуміння інтернет-середовища, що ускладнювало виконання завдань.

Чи може ШІ замінити людей на роботі / Pexels

Неодноразово звучали тези, що штучний інтелект зовсім скоро зможе замінити людину у певних професіях. Однак, вочевидь, це буде не так легко та швидко.

Експеримент, який полягав у повному заміщенні людської, штучним інтелектом показує, що говорити про це зарано. Про це пише 24 Канал із посиланням на Futurism.

Дивіться також Жінка розлучилася з чоловіком через слова ChatGPT про нього

Жодного справжнього працівника

Навіть найпотужніші моделі ШІ далекі від досконалості.

Вчені створили фіктивну ІТ-компанію під назвою TheAgentCompany. У ній не було жодного справжнього працівника – усі "співробітники" були віртуальними агентами, створеними на базі моделей штучного інтелекту від провідних компаній: Google, OpenAI, Anthropic, Meta та інших.

Вони отримали ролі фінансових аналітиків, менеджерів проєктів, HR-фахівців і програмістів – тобто мали імітувати роботу реального офісу в галузі розробки програмного забезпечення.

Агенти ШІ мали вирішувати типові робочі завдання: аналізувати документи, навідуватися у віртуальні офіси, переглядати файли та писати відгуки на основі зібраного фідбеку. Проте результати виявилися досить скромними.

Як ШІ впорався

Найуспішнішою серед віртуальних працівників стала модель Claude 3.5 Sonnet від Anthropic — вона змогла виконати лише 24% завдань. Щоб упоратися з одним завданням, їй доводилося робити в середньому 30 кроків.

ШІ не може замінити людей / Фото Pexels

Модель Gemini 2.0 Flash від Google показала ще слабший результат – 11,4% успішних завдань, із середньою складністю в 40 дій. А найгіршою виявилася Nova Pro v1 від Amazon, яка справлялася тільки з 1,7% поставлених задач, роблячи близько 20 спроб на кожне.

Де виникло найбільше труднощів

Дослідники пояснили: попри технічну потужність, ці моделі мають спільні вади — відсутність інтуїції, низький рівень соціальних навичок і погане розуміння інтернет-середовища. Крім того, агенти часто самі собі заважали, вигадуючи "короткі шляхи", які в результаті лише ускладнювали процес.

У межах одного із завдань ШІ-модель не змогла знайти потрібну людину для уточнення інформації, тому вирішила просто перейменувати іншого користувача, щоб виконати умову. Такий "креатив" лише підкреслив, наскільки штучному інтелекту поки не вистачає людського глузду.