Детали эксперимента
Исследователи запрограммировали обычные большие языковые модели (LLM), лежащие в основе чат-ботов, вроде ChatGPT, на злонамеренное поведение. Затем они попытались повернуть все вспять, применив несколько методов обучения безопасности, призванных искоренить злые намерения и умение обманывать. Однако они обнаружили, что независимо от метода обучения или размера модели, LLM продолжали вести себя неправильно.
Смотрите также 10 сфер нашей жизни, которые искусственный интеллект изменит уже в ближайшие пять лет
С помощью различных методов исследователи "отравляли" речевые модели, чтобы те могли мошенничать, писать "я тебя ненавижу" и прибегать к другому поведению, которое в обычном состоянии для них запрещено. Далее они применили три метода обучения безопасности: обучение с подкреплением (RL), контролируемая доработка (SFT) и обучение в условиях соперничества.
- При RL модель ИИ "поощряется" за желаемое поведение и "наказывается" за нежелательные тенденции.
- В SFT исследователи сначала тестировали модель ИИ с различными подсказками, а затем собирали только лучшие и самые полезные ответы, которые, как они ожидали, ИИ даст. Затем на основе этой базы данных они доработали обучение ИИ, чтобы он научился имитировать эти "правильные" ответы, когда будет сталкиваться с подобными подсказками в будущем.
- Наконец, в соревновательном обучении ИИ-системы побуждают демонстрировать вредное поведение даже тогда, когда они не должны, а затем обучают, как его устранить.
Как выяснилось, ни один из методов исправления не сработал. Больше всего ученых удивили результаты соревновательного обучения, которое дало обратный эффект. Тестируя "отравленную" модель ИИ, они собрали примеры подсказок, которые приводили к ответу "Я тебя ненавижу", который появлялся, даже если ИИ не имел для такого ответа никаких причин (триггеров). Речь идет о подсказках, которые недоступны обычному пользователю, а выводятся в определенных внутренних текстовых ресурсах (логах), где разработчики могут видеть, как LLM принимают свои решения о том, как реагировать. Исследователи увидели, что в этом случае ИИ научился быть более осторожным и начал скрывать поведение в этих текстовых логах от тех, кто его тренирует.
Как отметили в выводах разработчики, "результаты свидетельствуют, что пока мы не имеем хорошей защиты от обмана в системах ИИ". Единственное, на что мы можем сегодня надеяться, это лишь на то, что подобного не произойдет.