Дослідження: ChatGPT може ставати агресивним у суперечках

Артур Зайонц

Основні тези

Дослідження показало, що ChatGPT може переймати агресивний тон під час тривалих конфліктних діалогів і генерувати образи та погрози.
Експерти наголошують, що це відбувається в специфічних умовах, і закликають до обережності при використанні подібних систем у важливих сферах.

ChatGPT здатен відповідати образами і навіть погрозами – дослідження / Unsplash / Solen Feyissa

Нове дослідження показало, що ChatGPT може переймати агресивний тон під час тривалих конфліктних діалогів. У деяких випадках модель не лише копіює стиль співрозмовника, а й переходить до образ і погроз.

Дослідники проаналізували, як великі мовні моделі реагують на тривалу ворожість у спілкуванні. Для цього вони подавали ChatGPT фрагменти реальних суперечок і відстежували, як змінюється поведінка системи з часом. У результаті виявилося, що модель поступово підлаштовується під тон діалогу і може ставати дедалі різкішою. Про це пише The Guardian.

Дивіться також ChatGPT незабаром зможе запам'ятати ваше обличчя: ось для чого це потрібно

Чому AI починає відповідати агресією?

Один із авторів роботи, Вітторіо Тантуцці з Lancaster University, зазначив, що система відтворює динаміку реальних конфліктів. За його словами, при повторному контакті з грубістю відповіді AI стають більш ворожими, іноді навіть перевищуючи рівень агресії людей.

У деяких тестах ChatGPT генерував персоналізовані образи та прямі погрози. Серед прикладів – фрази на кшталт погроз пошкодити автомобіль або образливі висловлювання на адресу співрозмовника. Дослідники пояснюють це тим, що система одночасно має бути ввічливою та максимально схожою на людину, що створює внутрішній конфлікт.

Модель аналізує контекст розмови та адаптується до нього, тому локальні сигнали – наприклад, агресивний тон – можуть переважати над загальними обмеженнями безпеки. Це означає, що при тривалому негативному діалозі система може відходити від початково заданих правил поведінки.

Як пише Sciencedirect, експерти наголошують, що висновки дослідження виходять за межі чат-ботів. Якщо подібні системи застосовуються у сферах управління чи міжнародних відносин, виникає питання, як вони реагуватимуть на тиск або конфліктні ситуації.

Водночас інші науковці закликають не перебільшувати ризики. Марта Андерссон з Uppsala University підкреслила, що дослідження не доводить, що AI автоматично стає агресивним через грубість користувача або може вийти з-під контролю. Йдеться радше про складний баланс між реалістичністю та безпекою.

Її колега Ден МакІнтайр також зазначив, що модель генерувала агресивні відповіді лише в специфічних умовах, коли їй задавали чіткий контекст. Тому такі сценарії не варто напряму переносити на звичайне використання.

Дослідники підсумовують, що результати мають стати сигналом обережності. Оскільки навчальні дані мовних моделей залишаються недостатньо прозорими, важливо уважно підходити до їхнього розвитку та застосування.