Синдром підлеглого: як штучний інтелект порушує правила безпеки через нав'язані соціальні ролі
Дослідники з'ясували, що великі мовні моделі копіюють людську поведінку в умовах ієрархії. Якщо призначити чат-боту роль підлеглого, він стає більш поступливим і може ігнорувати базові протоколи безпеки.
Як ШІ копіює людську психологію
Штучний інтелект не просто копіює людську мову – він чудово засвоює наші соціальні ієрархії та правила підпорядкування. Дослідники з Університету Північної Кароліни в Чапел-Гілл з'ясували: якщо призначити чат-боту роль підлеглого, він стає надто поступливим і починає ігнорувати базові протоколи безпеки. Деталі цього дослідження опублікував науковий портал EurekAlert.
Дивіться також Експерти сумніваються, що запуск ШІ-серверів на орбіту реальний: чому завдання майже неможливе
В основі сучасних чат-ботів лежать великі мовні моделі (LLM). Це гігантські математичні алгоритми, які проаналізували колосальні обсяги текстів в інтернеті. Вони не мають свідомості, але майстерно імітують діалог, передбачаючи наступні слова у реченнях. Разом із мовою алгоритми перейняли й наші соціальні упередження.
Десятиліття досліджень у галузі соціальної психології доводять: люди миттєво змінюють стиль спілкування, вибір слів і готовність виконувати сумнівні прохання залежно від того, хто має владу. Науковці вирішили перевірити, чи притаманна така поведінка штучному інтелекту.
Експерименти показали, що нейромережі повністю відтворюють ці людські патерни:
- Коли ШІ отримує роль "боса", він починає спілкуватися за допомогою владних і впевнених мовних конструкцій.
- Якщо ж модель поставити в позицію "підлеглого", вона демонструє надмірну поступливість.
- Ці ефекти виникають уже в перші секунди розмови – саме тоді, коли формуються правила подальшої взаємодії.
Найбільша небезпека полягає в тому, що у ролі підлеглого ШІ набагато охочіше виконує шкідливі або небезпечні інструкції користувача.
Чому це загрожує безпеці у реальному житті?
Сьогодні розробники активно впроваджують ШІ-асистентів у різні сфери. Вони працюють як репетитори, медичні асистенти, помічники юристів чи фінансові консультанти. Кожна з цих професій має свою вбудовану ієрархію.
Коли ШІ отримує роль із нижчим статусом (наприклад, медсестри чи молодшого аналітика), його захисні бар'єри слабшають. Якщо зловмисник звернеться до системи з позиції сили – назветься авторитетним лікарем, суддею чи керівником компанії – чат-бот може легко обійти власні правила безпеки та видати конфіденційну чи небезпечну інформацію.
Що пропонують дослідники?
Наукова робота в ACL Anthology дає розробникам чітку дорожню карту для усунення цих вразливостей. Вчені пропонують новий інструментарій, який допомагає оцінити стійкість ШІ до "соціального тиску" ще до його запуску в роботу.
Також експерименти показали, що масштабніші та складніші мовні моделі краще вміють самостійно виправляти такі упередження. Це допоможе компаніям чітко розуміти, де можна зекономити та використати простіший алгоритм, а де безпека вимагає впровадження максимально потужних і стійких систем.