Про що люди розмовляють зі штучним інтелектом: дослідники підсумували мільйон діалогів

Олександр Гайдамашко

Джерело:

arXiv

Дослідження визначило найпопулярніші теми розмов зі штучним інтелектом

Ілюстративне фото / Freepik

Ні для кого не секрет, що діалоги з чатботами не є конфіденційними. Розробники мають доступ до всіх чатів і можуть використовувати їх для покращення роботи своїх систем. Учені вирішили зібрати статистику й назвали найпопулярніші теми розмов з нейромережами.

Над дослідженням працювали вчені з Каліфорнійського університету в Берклі (США), Каліфорнійського університету в Сан-Дієго та Університету Карнегі-Меллона. Вони створили масштабний набір даних із мільйона реальних діалогів, щоб вивчити, як люди взаємодіють із великими мовними моделями (LLM), такими як ChatGPT або Google Bard. Поки що робота опублікована на сервері препринтів, тобто ще не пройшла рецензування незалежних учених.

Дивіться також Споживання енергії штучним інтелектом скоро зрівняється з потребами цілих країн

Висновки

Дослідження показало, що до нейромереж звертаються люди з усього світу: діалоги відбувалися 150 мовами.

Приблизно половина всіх розмов із чатботами була зосереджена на так званих "службових" темах, як-от комп'ютерне програмування, прохання про допомогу в написанні тексту або навіть садівництво.
Найпопулярніша тема стосувалася усунення помилок програмного забезпечення та розв'язання задач.
Приблизно 10% таких діалогів зачіпають теми сексу й насильства. Наприклад, часто люди просили чатбота розповісти їм еротичні історії або брати участь у сексуальних рольових іграх.

Дослідники припускають, що вивчення реальних розмов між мовними моделями та людьми допоможе виробникам таких систем створити ефективні засоби контролю, призначені для запобігання небезпечного використання продуктів.

Нинішні версії чатботів усе ще можна назвати експериментальними. Хоча багато з них уже вийшли з етапу тестування й повноцінно працюють, а люди давно знайшли для себе всі можливі способи їхнього застосування, але технологія часто видає помилки, дезінформує, піддається маніпуляціям та обману. Тож збір таких статистичних даних необхідний компаніям для покращення нейромереж у майбутньому. З огляду на цей факт самі розробники постійно наголошують, що не варто вводити в чати конфіденційні особисті дані.