Не просіть ШІ уявити себе в ролі експерта: результат може бути гірше, ніж ви думаєте

Артур Зайонц

Основні тези

Дослідження показало, що ШІ, діючи як експерт, може знижувати точність відповідей, концентруючись більше на виконанні інструкцій, ніж на точному пошуку знань.
Запропонований підхід PRISM комбінує кілька режимів роботи, генеруючи відповіді у звичайному режимі та в ролі експерта, що підвищує загальні результати у тестах.

ШІ в ролі експерта може помилятися частіше – дослідження / BSO

Популярна порада просити штучний інтелект "говорити як експерт" може давати зворотний ефект. Нове дослідження показало, що це іноді знижує точність відповідей.

Дослідники з University of California перевірили, як змінюється робота мовних моделей, якщо просити їх діяти як експерти. У тестах використали 12 різних ролей – від програмістів і математиків до письменників і модераторів безпеки – а також шість різних моделей ШІ. Про це пише Digital trends.

Дивіться також ChatGPT змінює формат онлайн-шопінгу: що буде з покупками в додатку

Чому ШІ в ролі експерта дає гірші відповіді?

Результати виявилися неоднозначними. З одного боку, роль експерта змушує модель звучати більш професійно та краще дотримуватися інструкцій. З іншого – вона гірше відтворює факти. Як пояснюють автори дослідження, у такому режимі ШІ більше концентрується на виконанні вказівок, ніж на точному пошуку знань, що й призводить до втрати точності.

Щоб вирішити проблему, дослідники запропонували новий підхід під назвою PRISM – Persona Routing via Intent-based Self-Modeling. Його суть у тому, що ШІ не обирає один режим роботи, а комбінує кілька.

Коли користувач ставить запитання, система генерує дві відповіді: одну у звичайному режимі, іншу – в ролі експерта. Після цього вона порівнює результати і видає той, який краще підходить для конкретного запиту.

При цьому "експертна" відповідь не зникає. Її стиль і логіка зберігаються у спеціальному модулі, який ШІ може використати пізніше, коли це буде доречно.

Ефективність підходу перевірили за допомогою тесту MT-Bench, що оцінює здатність моделі виконувати інструкції та залишатися корисною. PRISM підвищив загальні результати на 1–2 бали.

Як показує дослідження Cornell University, роль експерта добре показала себе у творчих завданнях і питаннях безпеки. Натомість у запитах, де важлива точність фактів, кращі результати дав звичайний режим без додаткових ролей.

Дослідники планують розширити експерименти і вдосконалити метод. Якщо підхід підтвердить ефективність, він може змінити те, як користувачі формулюють запити до ШІ.