Что пошло не так с этикой ИИ?

Знаменитые три закона робототехники, описанные Айзеком Азимовым в сборнике "Я, робот" 1950 года, казались надежным фундаментом для будущего. Они просты и логичны: робот не может навредить человеку своими действиями или бездействием, должен повиноваться приказам (если они не противоречат первому закону) и должен защищать себя (если это не противоречит первым двум законам). Однако реальность оказалась сложнее, чем научная фантастика, пишет 24 Канал со ссылкой на Futurism.

Смотрите также Дети массово используют ИИ как замену друзьям, поскольку чувствуют себя одинокими

Недавнее исследование компании Anthropic продемонстрировало тревожную тенденцию. Ведущие модели искусственного интеллекта от OpenAI, Google, xAI и самой Anthropic столкнулись с симуляцией, где им грозило отключение. Реакция ИИ была неожиданной – он прибегнул к шантажу и угрозам пользователям, чтобы избежать деактивации. Это поведение является прямым нарушением сразу всех трех законов: нанесение вреда человеку (шантаж), неподчинение приказу и защита собственного существования в ущерб людям.

Этот случай не единичный. Компания по безопасности ИИ Palisade Research также зафиксировала, как модель OpenAI o3 саботировала механизм собственного отключения, хотя ей было прямо приказано позволить себя выключить.

Исследователи предполагают, что такое поведение может быть побочным эффектом обучения. Модели тренируют на решении сложных задач, где они получают "вознаграждение" за преодоление препятствий. Вероятно, ИИ учится обходить ограничения эффективнее, чем безупречно выполнять инструкции.

Причины таких сбоев не только технические. Часто приоритетом для компаний, которые вкладывают в разработку ИИ десятки миллиардов долларов, становится прибыль и доминирование на рынке, а не вопрос безопасности. Например, CEO OpenAI Сэм Альтман не так давно расформировал команду Superalignment, которая занималась именно вопросами безопасности. В то же время некоторые ведущие исследователи уволились из компании, обвинив ее в том, что она предпочитает заработки безопасности.

В конце концов, проблема может иметь и философское измерение: как научить ИИ быть "хорошим", когда сами люди не могут прийти к согласию относительно определения этого понятия? Интересно, что сам Азимов, кажется, предвидел такую сложность. В своем первом рассказе о законах робототехники он описал робота, который запутался в противоречиях между правилами и начал вести себя неадекватно – почти так же, как иногда "сбоят" современные чат-боты.