Над исследованием работали ученые из Калифорнийского университета в Беркли (США), Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллона. Они создали масштабный набор данных из миллиона реальных диалогов, чтобы изучить, как люди взаимодействуют с большими языковыми моделями (LLM), такими как ChatGPT или Google Bard. Пока работа опубликована на сервере препринтов, то есть еще не прошла рецензирование независимых ученых.
Смотрите также Потребление энергии искусственным интеллектом скоро сравнится с потребностями целых стран
Выводы
Исследование показало, что к нейросетям обращаются люди со всего мира: диалоги происходили на 150 языках.
- Приблизительно половина всех разговоров с чат-ботами была сосредоточена на так называемых "служебных" темах, таких как компьютерное программирование, просьба о помощи в написании текста или даже садоводство.
- Самая популярная тема касалась устранения ошибок программного обеспечения и решения задач.
- Приблизительно 10% таких диалогов затрагивают темы секса и насилия. Например, часто люди просили чат-бот рассказать им эротические истории или участвовать в сексуальных ролевых играх.
Исследователи предполагают, что изучение реальных разговоров между языковыми моделями и людьми поможет разработчикам таких систем создать эффективные средства контроля, предназначенные для предотвращения опасного использования продуктов.
Нынешние версии чат-ботов все еще можно назвать экспериментальными. Хоть многие уже вышли из этапа тестирования и полноценно работают, а люди давно нашли для себя все возможные способы их применения, но технология часто выдает ошибки, дезинформирует, подвергается манипуляциям и обману. Так что сбор таких статистических данных необходим компаниям для улучшения нейросетей в будущем. Учитывая этот факт сами разработчики постоянно подчеркивают, что не стоит вводить в чат конфиденциальные личные данные.