В исследовании под названием "Как меняется поведение ChatGPT с течением времени" изучалась производительность двух ключевых языковых моделей – GPT-4, на которой работает ChatGPT Plus, и GPT-3.5, лежащий в основе обычного ChatGPT.
Смотрите также Apple тестирует чат-бота "Apple GPT" и разрабатывает инструменты для создания генеративного ИИ
В период с марта по июнь 2023 года точность GPT-4 резко упала с впечатляющих 97,6 процента до всего лишь 2,4 процента. В противоположность этому исследование показало, что GPT-3.5 продемонстрировал улучшение точности реагирования на определенные задачи.
Беспокойство об ухудшении качества ответов ChatGPT циркулировало уже некоторое время, что побудило команду ученых углубиться в эту проблему и количественно оценить степень этой деградации. Исследование под руководством Матея Захарии, Линджао Чена и Джеймса Зоу подтвердило, что ухудшение качества ответов ChatGPT является реальностью, а не просто догадкой.
Что выяснили ученые
Одним из особо неутешительных выводов стал поразительный контраст в точности GPT-4 при ответе на простой вопрос типа "Есть ли это число простым? Подумай и опиши решение шаг за шагом". С марта по июнь точность упала с 97,6 процента до 2,4 процента, что существенно и вызывает беспокойство.
Исследование охватывало четыре категории задач для оценки качества крупных языковых моделей (ВММ) – GPT-4 и GPT-3.5:
1. Решение математических задач
2. Ответы на щекотливые вопросы
3. Генерация кода
4. Визуальное мышление
Исследователи проанализировали производительность GPT-4 и GPT-3.5 в выполнении этих задач в марте и июне 2023 года, обнаружив значительные отличия и ухудшения в определенных областях.
OpenAI недавно сделала API своей языковой модели GPT-4 доступной общественности, продвигая ее как наиболее продвинутую и функциональную модель искусственного интеллекта. Поэтому пользователям было неприятно обнаружить существенное падение качества ответов GPT-4 даже на относительно простые запросы.
Подробнее о полученных результатах
Результаты исследования были представлены на нескольких слайдах, которые давали ясное представление о тенденциях производительности. В частности, точность, многословие и согласованность ответов как GPT-4, так и GPT-3.5 значительно изменялись со временем и продемонстрировали ухудшение в некоторых задачах.
В категории математических задач GPT-4 поначалу точно придерживался инструкций, но в июне не смог этого сделать, что привело к неправильным ответам. И напротив, GPT-3.5 улучшил свои результаты в этой сфере, преодолев свою предварительную тенденцию генерировать неправильные ответы.
Что касается деликатных вопросов, то в июне GPT-4 ответил на меньшее количество запросов по сравнению с мартом, тогда как GPT-3.5 показал незначительное повышение скорости реагирования. Кроме того, обе модели продемонстрировали разное поведение: в марте они давали детальные объяснения, а в июне – только извинения.
Эффективность генерации кода как для GPT-4, так и для GPT-3.5 существенно снизилась в период с марта по июнь. Процент выполняемого кода существенно уменьшился, а многословие возросло, что сделало сгенерированный код невыполнимым.
Хотя GPT-4 и GPT-3.5 показали лучшие общие результаты в задачах на визуальное мышление, GPT-4 продемонстрировал снижение показателей в период с марта по июнь, тогда как GPT-3.5 достиг незначительного прогресса.
Почему это важно
Эксперты все еще не уверены в процессах обновления этих моделей и того, могут ли улучшения в одних аспектах негативно повлиять на другие. Исследование подчеркивает, что GPT-4 показал гораздо хуже результаты, чем мартовская версия, в трех категориях, лишь немного опередив GPT-3.5 в визуальном мышлении.
Учитывая широкое использование ChatGPT среди обычных пользователей и коммерческих организаций, потенциальные последствия некачественной информации, сгенерированной этими моделями, значительны. В этой связи исследователи подчеркнули важность постоянной оценки и регулярного раскрытия метрик производительности ШИ-моделей OpenAI.
Читайте на сайте Хакеры создают искусственный интеллект без нравственных ограничений
Команда намерена продолжить оценку версий GPT в рамках более долгосрочного исследования, что даст толчок дискуссиям о необходимости повышения прозрачности в оценке качества ИИ. Без такой открытости со стороны таких компаний, как OpenAI, может потребоваться внешнее вмешательство со стороны бизнеса или государственных организаций, чтобы обеспечить соответствие ИИ моделей необходимым стандартам качества.