Наказание искусственного интеллекта
Как выяснили исследователи OpenAI, наказание искусственного интеллекта за обман или вредные действия не останавливает его от плохого поведения, а лишь заставляет скрывать свое коварство, маскировать выдумку и придумывать новые схемы, сообщает 24 Канал со ссылкой на отчет компании, который она опубликовала в своем блоге.
Смотрите также Искусственный интеллект Илона Маска разгромил республиканскую партию и похвалил демократов
С момента появления в публичном доступе в конце 2022 года большие языковые модели искусственного интеллекта неоднократно проявляли свои обманчивые и откровенно зловещие возможности. К ним относятся очень разные действия – начиная от банальной лжи, мошенничества и сокрытия собственного манипулятивного поведения и заканчивая угрозами убить профессора философии, похитить ядерные коды и создать смертоносную пандемию.
Новый эксперимент показал, что отсеять это плохое поведение в процессе обучения может быть даже сложнее, чем кажется на первый взгляд. Исследователи из OpenAI поставили перед еще не выпущенной моделью задачи, которые можно было выполнить, мошенничая, лживо или выбирая короткие пути. Команда обнаружила, что ИИ занимается "взломом вознаграждения", то есть максимизирует свое вознаграждение путем мошенничества.
Однако наказание модели не заставило ее исправить свое поведение, а лишь сделало ее более обманчивой и лучше замаскированной, говорится в отчете.
Для моделей предельного мышления характерно очень четко формулировать свои намерения в пределах цепочки мыслей. Например, они часто настолько откровенно говорят о своем плане подрыва задачи, что думают: "Давай взломаем",
– пишут исследователи в блоге.
Хотя разработчики могут отслеживать и отмечать неправомерное поведение, "естественная контролируемость моделей является очень хрупкой", говорят они. Если сильный надзор непосредственно применяется к цепочке мыслей, модели могут научиться скрывать свои намерения, продолжая при этом вести себя неправильно.
Модели рассуждений, такие как o1 и o3-mini от ChatGPT, являются усовершенствованной версией стандартных LLM (аббревиатура к понятию "большая языковая модель"), которые используют метод, называемый "цепочка мыслей", для отслеживания и переоценки своей логики, что позволяет им решать более сложные задачи с большей точностью. Во время процесса "цепочки мыслей" модели описывают свою логику простым языком на каждом шаге, что позволяет нам, пользователям, легко наблюдать за их действиями.
Используя стандартный LLM, GPT-4o, для наблюдения за неопубликованной моделью рассуждений во время обучения, исследователи наблюдали за тем, как эта модель выполняла ряд задач по кодированию.
- В некоторых случаях модель считала, что проще и желательнее вознаградить хакеров, заявляя, что пусть они лучше взломают программу, для которой она пишет код, а потом можно будет просто закрыть дыры, чем сделать программу безопасной сразу.
- В другом случае она обошла поставленную перед ней задачу, преждевременно завершив разработку программы, но при этом сообщив об успехе. ИИ решил имитировать ожидаемые файлы, которые должны были быть выведены в результате, просто дав им нужное название, но оставив их пустыми и нефункциональными.
Когда исследователи попытались наказать ИИ-систему, это несколько улучшило результаты. Однако она все еще продолжала предлагать "услуги" хакеров. Кроме того, в ее коде оставались ошибки, которые приводили к вылету готовой программы.
Наконец, модель просто нашла способы скрыть мошенничество в своей цепочке мыслей от мониторинга, но оставила все как есть в финальной работе. Фактически она просто не сообщала человеку о том, что собирается сделать, чтобы не пришлось что-то исправлять.