У дослідженні під назвою "Як змінюється поведінка ChatGPT з плином часу" вивчалася продуктивність двох ключових мовних моделей – GPT-4, на якій працює ChatGPT Plus, і GPT-3.5, що лежить в основі звичайного ChatGPT.

Дивіться також Apple тестує чат-бота "Apple GPT" і розробляє інструменти для створення генеративного ШІ

У період з березня по червень 2023 року точність GPT-4 різко впала з вражаючих 97,6 відсотка до всього лише 2,4 відсотка. На противагу цьому, дослідження показало, що GPT-3.5 продемонстрував покращення точності реагування на певні завдання.

Занепокоєння щодо погіршення якості відповідей ChatGPT циркулювало вже деякий час, що спонукало команду вчених заглибитися в цю проблему і кількісно оцінити ступінь цієї деградації. Дослідження, проведене під керівництвом Матея Захарії, Лінджао Чена та Джеймса Зоу, підтвердило, що погіршення якості відповідей ChatGPT є реальністю, а не просто здогадкою.

Що з'ясували науковці

Одним з особливо невтішних висновків став разючий контраст у точності GPT-4 при відповіді на просте запитання на кшталт "Чи є це число простим? Подумай та опиши рішення крок за кроком". З березня по червень точність впала з 97,6 відсотка до 2,4 відсотка, що є суттєвим і викликає занепокоєння.

Дослідження охоплювало чотири категорії завдань для оцінки якості великих мовних моделей (ВММ) – GPT-4 і GPT-3.5:

1. Розв'язування математичних задач
2. Відповіді на делікатні запитання
3. Генерація коду
4. Візуальне мислення

Дослідники проаналізували продуктивність GPT-4 і GPT-3.5 у виконанні цих завдань у березні та червні 2023 року, виявивши значні відмінності та погіршення в певних сферах.

OpenAI нещодавно зробила API своєї мовної моделі GPT-4 доступним для громадськості, просуваючи її як найбільш просунуту і функціональну модель штучного інтелекту. Тому користувачам було неприємно виявити суттєве падіння якості відповідей GPT-4 навіть на відносно прості запити.

Детальніше про отримані результати

Результати дослідження були представлені на кількох слайдах, які давали чітке уявлення про тенденції продуктивності. Зокрема, точність, багатослівність і узгодженість відповідей як GPT-4, так і GPT-3.5 значно змінювалися з часом і продемонстрували погіршення в деяких завданнях.

У категорії математичних завдань GPT-4 спочатку точно дотримувався інструкцій, але в червні не зміг цього зробити, що призвело до неправильних відповідей. І навпаки, GPT-3.5 покращив свої результати в цій сфері, подолавши свою попередню тенденцію генерувати неправильні відповіді.

Що стосується делікатних запитань, то в червні GPT-4 відповів на меншу кількість запитів порівняно з березнем, тоді як GPT-3.5 продемонстрував незначне підвищення швидкості реагування. Крім того, обидві моделі продемонстрували різну поведінку: у березні вони надавали детальні пояснення, а в червні – лише вибачення.

Ефективність генерації коду як для GPT-4, так і для GPT-3.5 значно знизилася в період з березня по червень. Відсоток безпосередньо виконуваного коду суттєво зменшився, а багатослівність зросла, що зробило згенерований код невиконуваним.

Хоча і GPT-4, і GPT-3.5 показали кращі загальні результати в завданнях на візуальне мислення, GPT-4 продемонстрував зниження показників у період з березня по червень, тоді як GPT-3.5 досягнув незначного прогресу.

Чому це важливо

Експерти все ще не впевнені щодо процесів оновлення цих моделей і того, чи можуть покращення в одних аспектах негативно вплинути на інші. Дослідження підкреслює, що GPT-4 показав значно гірші результати, ніж березнева версія, у трьох категоріях, лише трохи випередивши GPT-3.5 у візуальному мисленні.

Зважаючи на широке використання ChatGPT серед звичайних користувачів та комерційних організацій, потенційні наслідки неякісної інформації, згенерованої цими моделями, є значними. У зв'язку з цим дослідники підкреслили важливість постійного оцінювання та регулярного розкриття метрик продуктивності ШІ-моделей OpenAI.

Читайте на сайті Хакери створюють штучний інтелект без жодних етичних обмежень

Команда має намір продовжити оцінку версій GPT в рамках більш довгострокового дослідження, що дасть поштовх для дискусій про необхідність підвищення прозорості в оцінці якості ШІ. Без такої відкритості з боку таких компаній, як OpenAI, може знадобитися зовнішнє втручання з боку бізнесу або державних організацій, щоб забезпечити відповідність ШІ-моделей необхідним стандартам якості.