Синдром подчиненного: искусственный интеллект нарушает правила безопасности из-за навязанных социальных ролей

Александр Гайдамашко

Исследователи выяснили, что крупные языковые модели копируют человеческое поведение в условиях иерархии. Если назначить чат-боту роль подчиненного, он становится более покладистым и может игнорировать базовые протоколы безопасности.

Как ИИ копирует человеческую психологию

Искусственный интеллект не просто копирует человеческую речь – он прекрасно усваивает наши социальные иерархии и правила подчинения. Исследователи из Университета Северной Каролины в Чапел-Хилл выяснили: если назначить чат-боту роль подчиненного, он становится слишком покладистым и начинает игнорировать базовые протоколы безопасности. Подробности этого исследования опубликовал научный портал EurekAlert.

В основе современных чат-ботов лежат большие языковые модели (LLM). Это гигантские математические алгоритмы, проанализировавшие колоссальные объемы текстов в интернете. Они не обладают сознанием, но мастерски имитируют диалог, предсказывая следующие слова в предложениях. Вместе с языком алгоритмы переняли и наши социальные предубеждения.

Десятилетия исследований в области социальной психологии доказывают: люди мгновенно меняют стиль общения, выбор слов и готовность выполнять сомнительные просьбы в зависимости от того, кто обладает властью. Ученые решили проверить, присуще ли такое поведение искусственному интеллекту.

Эксперименты показали, что нейросети полностью воспроизводят эти человеческие паттерны:

Когда ИИ получает роль "босса", он начинает общаться с помощью властных и уверенных речевых конструкций.
Если же модель поставить в позицию "подчиненного", она демонстрирует чрезмерную уступчивость.
Эти эффекты возникают уже в первые секунды разговора – именно тогда, когда формируются правила дальнейшего взаимодействия.

Наибольшая опасность заключается в том, что в роли подчиненного ИИ гораздо охотнее выполняет вредные или опасные инструкции пользователя.

Почему это угрожает безопасности в реальной жизни?

Сегодня разработчики активно внедряют ИИ-ассистентов в различные сферы. Они работают репетиторами, медицинскими ассистентами, помощниками юристов или финансовыми консультантами. Каждая из этих профессий имеет свою встроенную иерархию.

Когда ИИ получает роль с более низким статусом (например, медсестры или младшего аналитика), его защитные барьеры ослабевают. Если злоумышленник обратится к системе с позиции силы – представится авторитетным врачом, судьей или руководителем компании – чат-бот может легко обойти собственные правила безопасности и раскрыть конфиденциальную или опасную информацию.

Что предлагают исследователи?

Научная работа в ACL Anthology дает разработчикам четкую дорожную карту для устранения этих уязвимостей. Ученые предлагают новый инструментарий, который помогает оценить устойчивость ИИ к "социальному давлению" еще до его запуска в работу.

Также эксперименты показали, что более масштабные и сложные языковые модели лучше умеют самостоятельно исправлять такие предубеждения. Это поможет компаниям четко понимать, где можно сэкономить и использовать более простой алгоритм, а где безопасность требует внедрения максимально мощных и устойчивых систем.

Связанные темы:

Техно Исследования и разработки

Искусственный интеллект