Компанія зі ШІ-співробітниками: чому експеримент виявився провальним

Основні тези

Експеримент з фіктивною ІТ-компанією TheAgentCompany показав, що ШІ моделі не можуть повністю замінити людей, виконуючи лише невеликий відсоток завдань.
Найбільші труднощі ШІ-агентів виникли через відсутність інтуїції, соціальних навичок та погане розуміння інтернет-середовища, що ускладнювало виконання завдань.

Неодноразово звучали тези, що штучний інтелект зовсім скоро зможе замінити людину у певних професіях. Однак, вочевидь, це буде не так легко та швидко.

Експеримент, який полягав у повному заміщенні людської, штучним інтелектом показує, що говорити про це зарано. Про це пише 24 Канал із посиланням на Futurism.

Дивіться також Жінка розлучилася з чоловіком через слова ChatGPT про нього

Жодного справжнього працівника

Навіть найпотужніші моделі ШІ далекі від досконалості.

Вчені створили фіктивну ІТ-компанію під назвою TheAgentCompany. У ній не було жодного справжнього працівника – усі "співробітники" були віртуальними агентами, створеними на базі моделей штучного інтелекту від провідних компаній: Google, OpenAI, Anthropic, Meta та інших.

Вони отримали ролі фінансових аналітиків, менеджерів проєктів, HR-фахівців і програмістів – тобто мали імітувати роботу реального офісу в галузі розробки програмного забезпечення.

Агенти ШІ мали вирішувати типові робочі завдання: аналізувати документи, навідуватися у віртуальні офіси, переглядати файли та писати відгуки на основі зібраного фідбеку. Проте результати виявилися досить скромними.

Як ШІ впорався

Найуспішнішою серед віртуальних працівників стала модель Claude 3.5 Sonnet від Anthropic — вона змогла виконати лише 24% завдань. Щоб упоратися з одним завданням, їй доводилося робити в середньому 30 кроків.

ШІ не може замінити людей / Фото Pexels

Модель Gemini 2.0 Flash від Google показала ще слабший результат – 11,4% успішних завдань, із середньою складністю в 40 дій. А найгіршою виявилася Nova Pro v1 від Amazon, яка справлялася тільки з 1,7% поставлених задач, роблячи близько 20 спроб на кожне.

Де виникло найбільше труднощів

Дослідники пояснили: попри технічну потужність, ці моделі мають спільні вади — відсутність інтуїції, низький рівень соціальних навичок і погане розуміння інтернет-середовища. Крім того, агенти часто самі собі заважали, вигадуючи "короткі шляхи", які в результаті лише ускладнювали процес.

У межах одного із завдань ШІ-модель не змогла знайти потрібну людину для уточнення інформації, тому вирішила просто перейменувати іншого користувача, щоб виконати умову. Такий "креатив" лише підкреслив, наскільки штучному інтелекту поки не вистачає людського глузду.

Пов'язані теми:

Трендові новини Кар'єра та робота