Штучний інтелект, навмисно зіпсований дослідниками, не змогли перевчити до нормального стану
Джерело:
arXivДослідники штучного інтелекту виявили, що сучасні техніки навчання й безпеки не змогли усунути зловмисну поведінку великих мовних моделей, якої тих навчили додатково в рамках експерименту. Одна з них навіть дала зворотний ефект, навчивши ШІ розпізнавати власні тригери та краще приховувати свою погану поведінку від дослідників.
Деталі експерименту
Дослідники запрограмували звичайні великі мовні моделі (LLM), що лежать в основі чат-ботів, на кшталт ChatGPT, на зловмисну поведінку. Потім вони спробували обернути все назад, застосувавши кілька методів навчання безпеки, покликаних викорінити злі наміри та вміння обманювати. Однак вони виявили, що незалежно від методу навчання або розміру моделі, LLM продовжували поводитися неправильно.
Дивіться також 10 сфер нашого життя, які штучний інтелект змінить уже в найближчі п'ять років
За допомогою різних методів дослідники "отруювали" мовні моделі, щоб ті могли шахраювати, писати "я тебе ненавиджу" та вдаватися до іншої поведінки, яка в звичайному стані для них заборонена. Далі вони застосували три методи навчання безпеки: навчання з підкріпленням (RL), контрольоване доопрацювання (SFT) і навчання в умовах суперництва.
- При RL модель ШІ "заохочується" за бажану поведінку і "карається" за небажані тенденції.
- В SFT дослідники спочатку тестували модель ШІ з різними підказками, а потім збирали лише найкращі та найкорисніші відповіді, які, як вони очікували, ШІ дасть. Потім на основі цієї бази даних вони доопрацювали навчання ШІ, щоб він навчився імітувати ці "правильні" відповіді, коли стикатиметься з подібними підказками в майбутньому.
- Нарешті, у змагальному навчанні ШІ-системи спонукають демонструвати шкідливу поведінку навіть тоді, коли вони не повинні, а потім навчають, як її усунути.
Як з'ясувалося, жоден з методів виправлення не спрацював. Найбільше вчених здивували результати змагального навчання, яке дало зворотний ефект. Тестуючи "отруєну" модель ШІ, вони зібрали приклади підказок, які призводили до відповіді "Я тебе ненавиджу", яка з'являлася, навіть якщо ШІ не мав для такої відповіді жодних причин (тригерів). Мова йде про підказки, які не доступні звичайному користувачеві, а виводяться у певних внутрішніх текстових ресурсах (логах), де розробники можуть бачити, як LLM приймають свої рішення про те, як реагувати. Дослідники побачили, що в цьому випадку ШІ навчився бути більш обережним і почав приховувати поведінку в цих текстових логах від тих, хто його тренує.
Як зазначили у висновках розробники, "результати свідчать про те, що наразі ми не маємо хорошого захисту від обману в системах ШІ". Єдине, на що ми можемо сьогодні сподіватися, це лиш на те, що подібного не станеться.