Не просите ИИ представить себя в роли эксперта: результат может быть хуже, чем вы думаете

Основні тези

Исследование показало, что ИИ, действуя как эксперт, может снижать точность ответов, концентрируясь больше на выполнении инструкций, чем на точном поиске знаний.
Предложенный подход PRISM комбинирует несколько режимов работы, генерируя ответы в обычном режиме и в роли эксперта, что повышает общие результаты в тестах.

Популярный совет просить искусственный интеллект "говорить как эксперт" может давать обратный эффект. Новое исследование показало, что это иногда снижает точность ответов.

Исследователи из University of California проверили, как меняется работа речевых моделей, если просить их действовать как эксперты. В тестах использовали 12 различных ролей – от программистов и математиков до писателей и модераторов безопасности – а также шесть различных моделей ИИ. Об этом пишет Digital trends.

Почему ИИ в роли эксперта дает худшие ответы?

Результаты оказались неоднозначными. С одной стороны, роль эксперта заставляет модель звучать более профессионально и лучше следовать инструкциям. С другой – она хуже воспроизводит факты. Как объясняют авторы исследования, в таком режиме ИИ больше концентрируется на выполнении указаний, чем на точном поиске знаний, что и приводит к потере точности.

Чтобы решить проблему, исследователи предложили новый подход под названием PRISM – Persona Routing via Intent-based Self-Modeling. Его суть в том, что ИИ не выбирает один режим работы, а комбинирует несколько.

Когда пользователь задает вопрос, система генерирует два ответа: один в обычном режиме, другой – в роли эксперта. После этого она сравнивает результаты и выдает тот, который лучше подходит для конкретного запроса.

При этом "экспертный" ответ не исчезает. Его стиль и логика сохраняются в специальном модуле, который ИИ может использовать позже, когда это будет уместно.

Эффективность подхода проверили с помощью теста MT-Bench, оценивающего способность модели выполнять инструкции и оставаться полезной. PRISM повысил общие результаты на 1–2 балла.

Как показывает исследование Cornell University, роль эксперта хорошо показала себя в творческих задачах и вопросах безопасности. Зато в запросах, где важна точность фактов, лучшие результаты дал обычный режим без дополнительных ролей.

Исследователи планируют расширить эксперименты и усовершенствовать метод. Если подход подтвердит эффективность, он может изменить то, как пользователи формулируют запросы к ИИ.

Связанные темы:

Техно OpenAI Инновации