Дослідники з University of California перевірили, як змінюється робота мовних моделей, якщо просити їх діяти як експерти. У тестах використали 12 різних ролей – від програмістів і математиків до письменників і модераторів безпеки – а також шість різних моделей ШІ. Про це пише Digital trends.
Дивіться також ChatGPT змінює формат онлайн-шопінгу: що буде з покупками в додатку
Чому ШІ в ролі експерта дає гірші відповіді?
Результати виявилися неоднозначними. З одного боку, роль експерта змушує модель звучати більш професійно та краще дотримуватися інструкцій. З іншого – вона гірше відтворює факти. Як пояснюють автори дослідження, у такому режимі ШІ більше концентрується на виконанні вказівок, ніж на точному пошуку знань, що й призводить до втрати точності.
Щоб вирішити проблему, дослідники запропонували новий підхід під назвою PRISM – Persona Routing via Intent-based Self-Modeling. Його суть у тому, що ШІ не обирає один режим роботи, а комбінує кілька.
Коли користувач ставить запитання, система генерує дві відповіді: одну у звичайному режимі, іншу – в ролі експерта. Після цього вона порівнює результати і видає той, який краще підходить для конкретного запиту.
При цьому "експертна" відповідь не зникає. Її стиль і логіка зберігаються у спеціальному модулі, який ШІ може використати пізніше, коли це буде доречно.
Ефективність підходу перевірили за допомогою тесту MT-Bench, що оцінює здатність моделі виконувати інструкції та залишатися корисною. PRISM підвищив загальні результати на 1–2 бали.
Як показує дослідження Cornell University, роль експерта добре показала себе у творчих завданнях і питаннях безпеки. Натомість у запитах, де важлива точність фактів, кращі результати дав звичайний режим без додаткових ролей.
Дослідники планують розширити експерименти і вдосконалити метод. Якщо підхід підтвердить ефективність, він може змінити те, як користувачі формулюють запити до ШІ.


