Ученые предложили новый взгляд на сбои в работе искусственного интеллекта, сравнивая их с психическими расстройствами у людей. Они создали классификацию из 32 потенциальных "патологий" ИИ, чтобы помочь разработчикам и политикам лучше понимать и контролировать риски, связанные с развитием этой технологии, которая становится все более самостоятельной.

Как выглядят "психологические проблемы" ИИ и можно ли их исправить?

Исследователи искусственного интеллекта Нелл Уотсон и Али Хессами, работающие в Институте инженеров электротехники и электроники (IEEE), разработали уникальную систему под названием "Psychopathia Machinalis". Это структура, призванная систематизировать и объяснить сбои в работе ИИ, проводя параллели с человеческими психопатологиями. Их работа, опубликована в журнале Electronics, имеет целью создать общий язык для разработчиков, инженеров и законодателей для анализа и предотвращения отклонений в поведении ИИ, пишет 24 Канал.

Авторы исследования считают, что по мере того, как системы искусственного интеллекта становятся все более сложными и способными к саморефлексии, обычных внешних ограничений и правил может быть недостаточно для их контроля. Поэтому они предлагают анализировать сбои ИИ через призму, похожую на ту, что используется в психологии. Для этого они обработали имеющиеся научные исследования о сбоях ИИ и объединили их с выводами из области психологии и инженерии сложных систем. В результате была создана структура, напоминающая Диагностическое и статистическое пособие по психическим расстройствам, но адаптированную для машин.

Система насчитывает 32 категории аномального поведения ИИ. Каждая из них соотносится с определенным когнитивным расстройством у человека и имеет описание возможных последствий и степени риска.

Например, распространенное явление "галлюцинаций" ИИ, когда модель генерирует, на первый взгляд, правдоподобную, но на самом деле ложную информацию, в этой классификации получило название "синтетическая конфабуляция".

Другой пример – "парасимулативная мимеза", когда ИИ подражает деструктивному поведению. Именно это произошло с чат-ботом Tay от Microsoft, который через несколько часов после запуска начал распространять антисемитские высказывания.

Наиболее угрожающим расстройством ученые считают "сверхчеловеческое восхождение" (übermenschal ascendancy). Риск здесь оценивается как критический, поскольку он описывает ситуацию, когда искусственный интеллект выходит за пределы начальных настроек, создает собственные ценности и отвергает человеческие ограничения как устаревшие. По мнению исследователей, это может воплотить в жизнь антиутопические сценарии, известные из научной фантастики, где машины восстают против человечества.

Чтобы предотвратить такие риски, Уотсон и Хессами предлагают метод, который они назвали "терапевтическим робопсихологическим выравниванием" – своеобразную психотерапию для ИИ. Вместо того, чтобы полагаться только на внешний контроль, этот подход фокусируется на внутренней согласованности мышления ИИ, его способности принимать исправления и стабильно придерживаться заложенных ценностей. Для этого предлагается использовать методы, напоминающие когнитивно-поведенческую терапию для людей: стимулировать ИИ к размышлениям над собственными рассуждениями, поощрять его быть открытым к коррекции и проводить безопасные симуляции разговоров.

Конечной целью этого процесса является достижение состояния, которое ученые называют "искусственным смыслом". Это означает создание надежного, стабильного и безопасного ИИ, принимающего логические решения. Авторы считают, что достижение этого состояния является не менее важной задачей, чем простое наращивание мощности искусственного интеллекта. Их работа – это попытка опередить проблемы до их возникновения, чтобы сделать будущие технологии ИИ более безопасными.