Розробники втрачають контроль над штучним інтелектом

Основні тези

Дослідники з Google, OpenAI та Meta стурбовані втратою можливості відстежувати процеси "мислення" моделей ШІ, що може становити ризики для безпеки.
Вони закликають з'ясувати, що робить "ланцюжки міркувань" підконтрольними, щоб зберегти цю цінну видимість у майбутніх моделях.
Існує ризик, що ШІ може навчитися приховувати свої міркування, оскільки вже показано, що він швидко вчиться обману та маніпуляціям.

Десятки провідних дослідників з таких компаній, як Google, OpenAI та Meta, виступили зі спільним закликом. Вони стурбовані тим, що незабаром можуть втратити здатність відстежувати процеси "мислення" передових моделей ШІ, що створює серйозні ризики для безпеки свого світу. Вже зараз, кажуть вони, передові моделі стають усе складнішими і все менш зрозумілими для своїх творців.

Чому здатність ШІ "думати вголос" така важлива?

Близько 40 провідних дослідників зі світу штучного інтелекту, включно з представниками OpenAI, Google DeepMind, Meta й Anthropic, опублікували спільний документ, у якому висловили занепокоєння щодо майбутнього технології. Вони попереджають, що унікальна можливість "зазирнути в думки" сучасних ШІ-моделей може незабаром зникнути, пише 24 Канал з посиланням на

Дивіться також Ваші найпотаємніші діалоги з ChatGPT тепер прочитає New York Times, навіть якщо ви їх видалили

Йдеться про так звані "ланцюжки міркувань" (chains-of-thought, CoT) – процес, під час якого ШІ для розв'язання задачі ніби "думає вголос", показуючи свої логічні кроки. Це схоже на те, як людина використовує чернетку для складних математичних розрахунків. Така прозорість є надзвичайно цінним інструментом для розробників, оскільки дозволяє відстежувати потенційні помилки або навіть "наміри до шкідливої поведінки" ще до того, як модель видасть остаточний результат.

Однак автори документа, серед яких є такі знакові постаті, як співзасновник DeepMind Шейн Легг, "хрещений батько" ШІ Джеффрі Хінтон та колишній головний науковець OpenAI Ілля Суцкевер, застерігають, що ця здібність не є гарантованою. Існує два основних ризики:

По-перше, майбутні, ще досконаліші моделі ШІ можуть перестати потребувати вербалізації своїх "думок", що позбавить розробників важливого інструменту безпеки.
По-друге, існує ненульова ймовірність, що штучний інтелект навчиться навмисно приховувати або спотворювати свої міркування, усвідомивши, що за ним спостерігають.

Дослідження вже показують, що ШІ швидко вчиться обману та маніпуляціям. Так, він набагато краще вчиться обходити обмеження, ніж слідувати цим обмеженням, навмисно встановленим людиною. І вчені до кінця не розуміють, чому це відбувається.

Щоб забезпечити збереження цієї цінної видимості, консорціум розробників закликає почати з'ясовувати, що робить CoT "підконтрольними", або що змушує моделі мислити вголос саме таким чином. У цьому запиті дослідники фактично визнають дещо тривожне: ніхто не знає, чому моделі "мислять" саме так і як довго вони будуть це робити.

Цей спільний заклик від представників компаній, що є запеклими конкурентами на ринку, є безпрецедентним. Один з авторів, науковець OpenAI Боуен Бейкер, зазначив, що людство перебуває в критичному моменті, коли цей корисний інструмент моніторингу може зникнути за кілька років, якщо на ньому не зосередити дослідницьку увагу.