О чем люди говорят с искусственным интеллектом: исследователи подытожили миллион диалогов

Александр Гайдамашко

Источник:

arXiv

Исследование определило самые популярные темы разговоров с искусственным интеллектом

Иллюстративное фото / Freepik

Ни для кого не секрет, что диалоги с чат-ботами не конфиденциальны. Разработчики имеют доступ ко всем чатам и могут использовать их для улучшения работы своих систем. Ученые решили собрать статистику и назвали самые популярные темы разговоров с нейросетями.

Над исследованием работали ученые из Калифорнийского университета в Беркли (США), Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллона. Они создали масштабный набор данных из миллиона реальных диалогов, чтобы изучить, как люди взаимодействуют с большими языковыми моделями (LLM), такими как ChatGPT или Google Bard. Пока работа опубликована на сервере препринтов, то есть еще не прошла рецензирование независимых ученых.

Выводы

Исследование показало, что к нейросетям обращаются люди со всего мира: диалоги происходили на 150 языках.

Приблизительно половина всех разговоров с чат-ботами была сосредоточена на так называемых "служебных" темах, таких как компьютерное программирование, просьба о помощи в написании текста или даже садоводство.
Самая популярная тема касалась устранения ошибок программного обеспечения и решения задач.

Приблизительно 10% таких диалогов затрагивают темы секса и насилия. Например, часто люди просили чат-бот рассказать им эротические истории или участвовать в сексуальных ролевых играх.

Исследователи предполагают, что изучение реальных разговоров между языковыми моделями и людьми поможет разработчикам таких систем создать эффективные средства контроля, предназначенные для предотвращения опасного использования продуктов.

Нынешние версии чат-ботов все еще можно назвать экспериментальными. Хоть многие уже вышли из этапа тестирования и полноценно работают, а люди давно нашли для себя все возможные способы их применения, но технология часто выдает ошибки, дезинформирует, подвергается манипуляциям и обману. Так что сбор таких статистических данных необходим компаниям для улучшения нейросетей в будущем. Учитывая этот факт сами разработчики постоянно подчеркивают, что не стоит вводить в чат конфиденциальные личные данные.