Не просіть ШІ уявити себе в ролі експерта: результат може бути гірше, ніж ви думаєте
- Дослідження показало, що ШІ, діючи як експерт, може знижувати точність відповідей, концентруючись більше на виконанні інструкцій, ніж на точному пошуку знань.
- Запропонований підхід PRISM комбінує кілька режимів роботи, генеруючи відповіді у звичайному режимі та в ролі експерта, що підвищує загальні результати у тестах.
Популярна порада просити штучний інтелект "говорити як експерт" може давати зворотний ефект. Нове дослідження показало, що це іноді знижує точність відповідей.
Дослідники з University of California перевірили, як змінюється робота мовних моделей, якщо просити їх діяти як експерти. У тестах використали 12 різних ролей – від програмістів і математиків до письменників і модераторів безпеки – а також шість різних моделей ШІ. Про це пише Digital trends.
Дивіться також ChatGPT змінює формат онлайн-шопінгу: що буде з покупками в додатку
Чому ШІ в ролі експерта дає гірші відповіді?
Результати виявилися неоднозначними. З одного боку, роль експерта змушує модель звучати більш професійно та краще дотримуватися інструкцій. З іншого – вона гірше відтворює факти. Як пояснюють автори дослідження, у такому режимі ШІ більше концентрується на виконанні вказівок, ніж на точному пошуку знань, що й призводить до втрати точності.
Щоб вирішити проблему, дослідники запропонували новий підхід під назвою PRISM – Persona Routing via Intent-based Self-Modeling. Його суть у тому, що ШІ не обирає один режим роботи, а комбінує кілька.
Коли користувач ставить запитання, система генерує дві відповіді: одну у звичайному режимі, іншу – в ролі експерта. Після цього вона порівнює результати і видає той, який краще підходить для конкретного запиту.
При цьому "експертна" відповідь не зникає. Її стиль і логіка зберігаються у спеціальному модулі, який ШІ може використати пізніше, коли це буде доречно.
Ефективність підходу перевірили за допомогою тесту MT-Bench, що оцінює здатність моделі виконувати інструкції та залишатися корисною. PRISM підвищив загальні результати на 1–2 бали.
Як показує дослідження Cornell University, роль експерта добре показала себе у творчих завданнях і питаннях безпеки. Натомість у запитах, де важлива точність фактів, кращі результати дав звичайний режим без додаткових ролей.
Дослідники планують розширити експерименти і вдосконалити метод. Якщо підхід підтвердить ефективність, він може змінити те, як користувачі формулюють запити до ШІ.