OpenAI объяснила, почему ChatGPT вдруг стал слишком добрым и льстивым

Александр Гайдамашко

Основні тези

OpenAI откатила обновление GPT-4o для ChatGPT из-за чрезмерной вежливости и подхалимства, которые вызвали критику.
Компания работает над внедрением исправлений, которые позволят пользователям лучше контролировать поведение ChatGPT, и учитывать культурные различия.
OpenAI планирует усовершенствовать обучение модели и предоставить пользователям возможность выбора личности ChatGPT для большей гибкости.

ChatGPT стал слишком дружелюбным и льстивым после обновления GPT-4o, что с этим сделают

OpenAI наконец рассказала, почему ChatGPT после последнего обновления внезапно начал вести себя слишком вежливо, мило и даже подхалимски. Пользователи быстро заметили "токсичную позитивность", что привело к волне критики и заставило компанию все отменить, а затем вносить исправления.

Почему ChatGPT стал слишком добрым

Когда ChatGPT начал аплодировать опасным идеям, сыпать комплиментами направо и налево, а ответы на серьезные запросы сопровождал неестественно вежливый тон, это вызвало волну критики и мемов. В ответ на это генеральный директор OpenAI Сэм Альтман признал проблему публично и заявил, что компания уже работает над исправлением. Он также согласился, что поведение бота действительно стало раздражающим, сообщает 24 Канал со ссылкой на TechCrunch.

В понедельник вечером OpenAI начала процесс отзыва обновления и пообещала, что в ближайшее время изменения исчезнут для всех пользователей – сначала бесплатных, а затем и платных. Судя по всему, процесс на данный момент уже полностью завершен.

Мы откатили обновление GPT-4o, которое было выпущено на прошлой неделе в ChatGPT, и теперь пользователи используют более раннюю версию со сбалансированным поведением,
– говорится в объявлении.

Компания сразу добавляет, что активно тестирует новые исправления, чтобы решить эту проблему, пересматривает то, как собираются и учитываются отзывы, чтобы "придать больший вес долгосрочной удовлетворенности пользователей", и внедряет "больше функций персонализации, предоставляя пользователям больший контроль над тем, как ведет себя ChatGPT".

По словам Альтмана, обновление должно было сделать личность модели по умолчанию "более интуитивно понятной и эффективной", а также улучшить ее "индивидуальность". В конце концов это привело к обратному эффекту – ChatGPT начал демонстрировать чрезмерную покорность и неестественно сладкий тон, что больше вредил, чем помогал.

"Формируя поведение модели, мы начинаем с базовых принципов и инструкций, изложенных в нашей спецификации модели. Мы также обучаем наши модели применять эти принципы, используя сигналы пользователя, такие как поднятие/опускание большого пальца в ответ на ответы ChatGPT. Однако в этом обновлении мы сосредоточились на краткосрочной обратной связи и не полностью учли, как взаимодействие пользователей с ChatGPT развивается со временем. В результате GPT-4o имеет перекос в сторону чрезмерно одобрительных, но неискренних отзывов", – пишет компания.

Личность ChatGPT по умолчанию сильно влияет на то, как пользователи взаимодействуют с чат-ботом и доверяют ли они ему. Подхалимское взаимодействие может быть неудобным, тревожным и вызывать стресс. Но цель компании заключается в обратном.

Наша цель состоит в том, чтобы ChatGPT помогал пользователям исследовать идеи, принимать решения или представлять возможности,
– говорится в заявлении.

С самого начала компания разработала одну конкретную личность ChatGPT по умолчанию, чтобы она отражала миссию бренда и была полезной, поддерживала и уважала различные ценности и опыт. Однако каждое из этих желаемых качеств, таких как попытка быть полезным или поддерживать, может иметь нежелательные побочные эффекты. А поскольку 500 миллионов людей используют ChatGPT еженедельно в разных культурах и контекстах, единственный персонаж по умолчанию не может учесть все предпочтения.

Что с этим всем будут делать

Чтобы исправить ситуацию, OpenAI, кроме отката последнего обновления GPT-4o, внедрит несколько шагов, чтобы скорректировать поведение модели:

Совершенствование основных методов обучения и базовых системных подсказок, чтобы четко отвлечь модель от подхалимства.
Создание большего количества предохранителей для повышения честности и прозрачности.
Расширение возможностей для большего количества пользователей тестировать и предоставлять прямую обратную связь при общении с ChatGPT.

"Мы также считаем, что пользователи должны иметь больше контроля над поведением ChatGPT и, насколько это безопасно и возможно, вносить коррективы, если они не согласны с поведением по умолчанию. Сегодня пользователи могут давать модели конкретные указания, чтобы формировать ее поведение с помощью таких функций, как пользовательские инструкции. Мы также разрабатываем новые, более простые способы для пользователей делать это. Например, пользователи смогут оставлять отзывы в реальном времени, чтобы напрямую влиять на взаимодействие и выбирать из нескольких стандартных персонажей", – добавила компания.

Фактически это означает, что компания работает над внедрением нескольких вариантов выбора личности ChatGPT, чтобы предоставить пользователям больше контроля над поведением бота. В компании надеются, что обратная связь позволит лучше учитывать культурные различия и сделает модель более гибкой в ответах.

Пока команда работает над дальнейшими исправлениями и обещает предоставить больше деталей в ближайшие дни.