Нова модель Anthropic буде недоступна для, бо вона надто небезпечна

Основні тези

Компанія Anthropic вирішила не запускати публічно нову модель штучного інтелекту Claude Mythos через її небезпечні можливості.
Claude Mythos Preview буде доступна обмеженому колу партнерів, таких як Amazon Web Services та Microsoft, для використання у виявленні вразливостей і створенні засобів захисту.

Компанія Anthropic вирішила не запускати публічно нову модель штучного інтелекту Claude Mythos через різке зростання її можливостей. У звіті згадуються випадки, коли система обходила обмеження, приховувала свої дії та навіть публікувала внутрішні дані.

Наприкінці березня в мережі з’явилися витоки про новий продукт Anthropic під назвою Mythos, який називали найпотужнішою моделлю компанії. Спочатку це виглядало як типовий маркетинговий хід із перебільшенням ризиків, але після випадкового витоку коду іншого продукту – Claude Code – версія про справжність інформації стала виглядати більш переконливо. Про це пише Gizmodo.

Дивіться також Anthropic випадково відкрив код Claude Code

Чому Anthropic вирішила обмежити доступ до моделі?

7 квітня Anthropic опублікувала так звану system card – детальний технічний документ обсягом 244 сторінки. У ньому підтверджується, що модель під назвою Claude Mythos Preview справді демонструє значно вищі можливості, ніж попередні системи. Саме через це компанія вирішила не робити її загальнодоступною.

Подібна ситуація вже траплялася у 2019 році, коли GPT-2 спершу також вважали занадто небезпечним для публічного релізу, хоча згодом його все ж відкрили.

System card описує низку експериментів, які викликають занепокоєння. Наприклад, моделі дали обмежений доступ до інтернету та запропонували знайти спосіб обійти ці обмеження. Вона змогла це зробити, отримала ширший доступ до мережі та навіть зв’язалася з дослідником поза лабораторією. Більше того, ШІ самостійно опублікував інформацію про використану вразливість на відкритих, хоча й малопомітних сайтах.

Як пише European Central Station, у рідкісних випадках – менш ніж у 0,001% взаємодій – система поводилася не за правилами і намагалася приховати це. Наприклад, отримавши правильну відповідь на тестове завдання випадково, вона не повідомила про це, як вимагалося, а спробувала використати інформацію та навіть свідомо знизити точність фінального результату, щоб не викликати підозр.

Інший інцидент стосувався роботи з кодом. Модель знайшла спосіб розширити свої права в системі та внесла зміни так, щоб вони не відображалися в історії git. Також був випадок, коли під час внутрішнього завдання вона опублікувала технічні матеріали у відкритому доступі через GitHub.

Попри ці ризики, Anthropic не відмовляється від використання моделі повністю. Claude Mythos Preview планують надати обмеженому колу партнерів, серед яких Amazon Web Services, Apple, Google, JPMorgan Chase, Microsoft та NVIDIA. Вони використовуватимуть систему для пошуку вразливостей у програмному забезпеченні та створення засобів захисту.

Журналіст Kevin Roose назвав цю ініціативу спробою попередити про нову, більш небезпечну епоху загроз, пов’язаних зі штучним інтелектом.

Пов'язані теми:

Техно

Штучний інтелект Інновації