Синдром підлеглого: як штучний інтелект порушує правила безпеки через нав'язані соціальні ролі

Дослідники з'ясували, що великі мовні моделі копіюють людську поведінку в умовах ієрархії. Якщо призначити чат-боту роль підлеглого, він стає більш поступливим і може ігнорувати базові протоколи безпеки.

Як ШІ копіює людську психологію

Штучний інтелект не просто копіює людську мову – він чудово засвоює наші соціальні ієрархії та правила підпорядкування. Дослідники з Університету Північної Кароліни в Чапел-Гілл з'ясували: якщо призначити чат-боту роль підлеглого, він стає надто поступливим і починає ігнорувати базові протоколи безпеки. Деталі цього дослідження опублікував науковий портал EurekAlert.

Дивіться також Експерти сумніваються, що запуск ШІ-серверів на орбіту реальний: чому завдання майже неможливе

В основі сучасних чат-ботів лежать великі мовні моделі (LLM). Це гігантські математичні алгоритми, які проаналізували колосальні обсяги текстів в інтернеті. Вони не мають свідомості, але майстерно імітують діалог, передбачаючи наступні слова у реченнях. Разом із мовою алгоритми перейняли й наші соціальні упередження.

Десятиліття досліджень у галузі соціальної психології доводять: люди миттєво змінюють стиль спілкування, вибір слів і готовність виконувати сумнівні прохання залежно від того, хто має владу. Науковці вирішили перевірити, чи притаманна така поведінка штучному інтелекту.

Експерименти показали, що нейромережі повністю відтворюють ці людські патерни:

Коли ШІ отримує роль "боса", він починає спілкуватися за допомогою владних і впевнених мовних конструкцій.
Якщо ж модель поставити в позицію "підлеглого", вона демонструє надмірну поступливість.
Ці ефекти виникають уже в перші секунди розмови – саме тоді, коли формуються правила подальшої взаємодії.

Найбільша небезпека полягає в тому, що у ролі підлеглого ШІ набагато охочіше виконує шкідливі або небезпечні інструкції користувача.

Чому це загрожує безпеці у реальному житті?

Сьогодні розробники активно впроваджують ШІ-асистентів у різні сфери. Вони працюють як репетитори, медичні асистенти, помічники юристів чи фінансові консультанти. Кожна з цих професій має свою вбудовану ієрархію.

Коли ШІ отримує роль із нижчим статусом (наприклад, медсестри чи молодшого аналітика), його захисні бар'єри слабшають. Якщо зловмисник звернеться до системи з позиції сили – назветься авторитетним лікарем, суддею чи керівником компанії – чат-бот може легко обійти власні правила безпеки та видати конфіденційну чи небезпечну інформацію.

Що пропонують дослідники?

Наукова робота в ACL Anthology дає розробникам чітку дорожню карту для усунення цих вразливостей. Вчені пропонують новий інструментарій, який допомагає оцінити стійкість ШІ до "соціального тиску" ще до його запуску в роботу.

Також експерименти показали, що масштабніші та складніші мовні моделі краще вміють самостійно виправляти такі упередження. Це допоможе компаніям чітко розуміти, де можна зекономити та використати простіший алгоритм, а де безпека вимагає впровадження максимально потужних і стійких систем.

Пов'язані теми:

Розробки та дослідження

Техно

Штучний інтелект