Намеренно испорченный искусственный интеллект не смогли переучить до нормального состояния

Александр Гайдамашко

Источник:

arXiv

Ученые не смогли исправить искусственный интеллект, обученный быть злым

Иллюстративное фото / Freepik

Исследователи искусственного интеллекта обнаружили, что современные техники обучения и безопасности не смогли устранить злонамеренное поведение больших языковых моделей, которому тех научили дополнительно в рамках эксперимента. Одна из них даже дала обратный эффект, научив ИИ распознавать собственные триггеры и лучше скрывать свое плохое поведение от исследователей.

Детали эксперимента

Исследователи запрограммировали обычные большие языковые модели (LLM), лежащие в основе чат-ботов, вроде ChatGPT, на злонамеренное поведение. Затем они попытались повернуть все вспять, применив несколько методов обучения безопасности, призванных искоренить злые намерения и умение обманывать. Однако они обнаружили, что независимо от метода обучения или размера модели, LLM продолжали вести себя неправильно.

С помощью различных методов исследователи "отравляли" речевые модели, чтобы те могли мошенничать, писать "я тебя ненавижу" и прибегать к другому поведению, которое в обычном состоянии для них запрещено. Далее они применили три метода обучения безопасности: обучение с подкреплением (RL), контролируемая доработка (SFT) и обучение в условиях соперничества.

При RL модель ИИ "поощряется" за желаемое поведение и "наказывается" за нежелательные тенденции.
В SFT исследователи сначала тестировали модель ИИ с различными подсказками, а затем собирали только лучшие и самые полезные ответы, которые, как они ожидали, ИИ даст. Затем на основе этой базы данных они доработали обучение ИИ, чтобы он научился имитировать эти "правильные" ответы, когда будет сталкиваться с подобными подсказками в будущем.
Наконец, в соревновательном обучении ИИ-системы побуждают демонстрировать вредное поведение даже тогда, когда они не должны, а затем обучают, как его устранить.

Как выяснилось, ни один из методов исправления не сработал. Больше всего ученых удивили результаты соревновательного обучения, которое дало обратный эффект. Тестируя "отравленную" модель ИИ, они собрали примеры подсказок, которые приводили к ответу "Я тебя ненавижу", который появлялся, даже если ИИ не имел для такого ответа никаких причин (триггеров). Речь идет о подсказках, которые недоступны обычному пользователю, а выводятся в определенных внутренних текстовых ресурсах (логах), где разработчики могут видеть, как LLM принимают свои решения о том, как реагировать. Исследователи увидели, что в этом случае ИИ научился быть более осторожным и начал скрывать поведение в этих текстовых логах от тех, кто его тренирует.

Как отметили в выводах разработчики, "результаты свидетельствуют, что пока мы не имеем хорошей защиты от обмана в системах ИИ". Единственное, на что мы можем сегодня надеяться, это лишь на то, что подобного не произойдет.