Платная версия ChatGPT стала "тупее", а вот бесплатная поумнела

Недавнее исследование, проведенное совместно учеными из Стэнфордского университета и Калифорнийского университета в Беркли, выявило тревожное снижение качества ответов, предоставляемых платной версией ChatGPT.

В исследовании под названием "Как меняется поведение ChatGPT с течением времени" изучалась производительность двух ключевых языковых моделей – GPT-4, на которой работает ChatGPT Plus, и GPT-3.5, лежащий в основе обычного ChatGPT.

В период с марта по июнь 2023 года точность GPT-4 резко упала с впечатляющих 97,6 процента до всего лишь 2,4 процента. В противоположность этому исследование показало, что GPT-3.5 продемонстрировал улучшение точности реагирования на определенные задачи.

Беспокойство об ухудшении качества ответов ChatGPT циркулировало уже некоторое время, что побудило команду ученых углубиться в эту проблему и количественно оценить степень этой деградации. Исследование под руководством Матея Захарии, Линджао Чена и Джеймса Зоу подтвердило, что ухудшение качества ответов ChatGPT является реальностью, а не просто догадкой.

Что выяснили ученые

Одним из особо неутешительных выводов стал поразительный контраст в точности GPT-4 при ответе на простой вопрос типа "Есть ли это число простым? Подумай и опиши решение шаг за шагом". С марта по июнь точность упала с 97,6 процента до 2,4 процента, что существенно и вызывает беспокойство.

Исследование охватывало четыре категории задач для оценки качества крупных языковых моделей (ВММ) – GPT-4 и GPT-3.5:

1. Решение математических задач
2. Ответы на щекотливые вопросы
3. Генерация кода
4. Визуальное мышление

Исследователи проанализировали производительность GPT-4 и GPT-3.5 в выполнении этих задач в марте и июне 2023 года, обнаружив значительные отличия и ухудшения в определенных областях.

OpenAI недавно сделала API своей языковой модели GPT-4 доступной общественности, продвигая ее как наиболее продвинутую и функциональную модель искусственного интеллекта. Поэтому пользователям было неприятно обнаружить существенное падение качества ответов GPT-4 даже на относительно простые запросы.

Подробнее о полученных результатах

Результаты исследования были представлены на нескольких слайдах, которые давали ясное представление о тенденциях производительности. В частности, точность, многословие и согласованность ответов как GPT-4, так и GPT-3.5 значительно изменялись со временем и продемонстрировали ухудшение в некоторых задачах.

В категории математических задач GPT-4 поначалу точно придерживался инструкций, но в июне не смог этого сделать, что привело к неправильным ответам. И напротив, GPT-3.5 улучшил свои результаты в этой сфере, преодолев свою предварительную тенденцию генерировать неправильные ответы.

Что касается деликатных вопросов, то в июне GPT-4 ответил на меньшее количество запросов по сравнению с мартом, тогда как GPT-3.5 показал незначительное повышение скорости реагирования. Кроме того, обе модели продемонстрировали разное поведение: в марте они давали детальные объяснения, а в июне – только извинения.

Эффективность генерации кода как для GPT-4, так и для GPT-3.5 существенно снизилась в период с марта по июнь. Процент выполняемого кода существенно уменьшился, а многословие возросло, что сделало сгенерированный код невыполнимым.

Хотя GPT-4 и GPT-3.5 показали лучшие общие результаты в задачах на визуальное мышление, GPT-4 продемонстрировал снижение показателей в период с марта по июнь, тогда как GPT-3.5 достиг незначительного прогресса.

Почему это важно

Эксперты все еще не уверены в процессах обновления этих моделей и того, могут ли улучшения в одних аспектах негативно повлиять на другие. Исследование подчеркивает, что GPT-4 показал гораздо хуже результаты, чем мартовская версия, в трех категориях, лишь немного опередив GPT-3.5 в визуальном мышлении.

Учитывая широкое использование ChatGPT среди обычных пользователей и коммерческих организаций, потенциальные последствия некачественной информации, сгенерированной этими моделями, значительны. В этой связи исследователи подчеркнули важность постоянной оценки и регулярного раскрытия метрик производительности ШИ-моделей OpenAI.

Читайте на сайте Хакеры создают искусственный интеллект без нравственных ограничений

Команда намерена продолжить оценку версий GPT в рамках более долгосрочного исследования, что даст толчок дискуссиям о необходимости повышения прозрачности в оценке качества ИИ. Без такой открытости со стороны таких компаний, как OpenAI, может потребоваться внешнее вмешательство со стороны бизнеса или государственных организаций, чтобы обеспечить соответствие ИИ моделей необходимым стандартам качества.

Связанные темы:

Искусственный интеллект

ChatGPT