Anthropic вже не найбезпечніший ШІ: компанія переписала свої ж правила

Артур Зайонц

Основні тези

Компанія Anthropic переглянула свою політику безпеки ШІ, відмовившись від заборони навчання нових моделей без гарантій безпеки, але обіцяє публікувати дорожні карти та звіти про ризики.
Anthropic зосереджується на балансі між безпекою та конкурентоспроможністю, демонструючи швидке зростання доходів і розширюючи портфель продуктів, попри зміни у своїй політиці.

Розробник Claude змінив правила безпеки своїх моделей / Anthropic

Компанія Anthropic переглянула свою ключову обіцянку щодо безпеки штучного інтелекту і більше не гарантує, що не випускатиме нові моделі без повного набору запобіжників. Замість жорстких обмежень вона переходить до гнучкішої системи звітів і дорожніх карт безпеки на тлі зростання конкуренції на ринку ШІ.

Anthropic офіційно відмовилася від центрального пункту своєї політики, який забороняв навчати або випускати передові моделі без гарантованих механізмів безпеки ще до релізу. Таким чином завершилась дія принципу, який раніше вирізняв її серед інших розробників ШІ. Про це пише Tech radar.

Дивіться також Perplexity міняє ринок ШІ: компанія прибирає рекламу і робить ставку на платні підписки

Чому Anthropic змінила підхід до безпеки ШІ?

Оновлена Responsible Scaling Policy більше не передбачає автоматичних пауз у розвитку моделей до моменту впровадження всіх запланованих запобіжників. Раніше компанія позиціонувала цей підхід як доказ готовності протистояти комерційному тиску та не гнатися за конкурентами у перегонах потужностей. Тепер замість категоричних заборон впроваджується гнучкіша модель управління ризиками.

У компанії пояснюють зміну прагматичними міркуваннями. Керівництво вважає, що односторонні обмеження втратили сенс в умовах швидкої еволюції технологій та геополітичної напруги. На їхню думку, залишатися на передньому краї розвитку важливо і для досліджень безпеки.

Як пише Kion, згідно з новою політикою, Anthropic обіцяє регулярно публікувати Frontier Safety Roadmaps – детальні плани досягнення цілей у сфері безпеки, а також Risk Reports – звіти про можливості моделей і потенційні ризики їхнього використання.

Компанія також заявляє, що готова відкладати розвиток систем, якщо вважатиме себе лідером у певній сфері та побачить значний катастрофічний ризик. Водночас вона більше не зобов'язується зупиняти навчання до моменту повної гарантії захисних механізмів.

Для пересічних користувачів Claude чи інших інструментів зміни можуть залишитися непомітними. Однак правила, за якими тренуються такі системи, впливають на точність, можливості зловживань і потенційні наслідки використання.

Коли у 2023 році Anthropic запровадила первинну версію політики, частина менеджменту сподівалася, що вона стане прикладом для конкурентів і, можливо, основою для майбутнього регулювання. Проте федеральне законодавство США щодо ШІ так і не було ухвалене, а політичний клімат змістився в бік стриманішого підходу до нових обмежень. У результаті компанії опинилися між добровільними зобов'язаннями та боротьбою за ринок.

Anthropic нині демонструє швидке зростання доходів і розширює портфель продуктів, конкуруючи з такими гравцями, як OpenAI та Google. Усередині компанії, ймовірно, вважали, що жорстка червона лінія щодо безпеки стримує це зростання.

Попри зміни, в Anthropic наполягають, що система захисту не зникла, а лише трансформувалася. Нові дорожні карти мають стимулювати внутрішні дослідження у сфері мінімізації ризиків, а публічні звіти – забезпечити прозорість щодо можливостей моделей і сценаріїв їхнього зловживання.

Керівник і співзасновник RAIDS AI Нік Кайрінос зазначив, що нова політика зберігає певні запобіжники, але ключова обіцянка не випускати моделі без гарантій безпеки зникла. За його словами, це демонструє обмеженість добровільних зобов'язань і важливість незалежного моніторингу та регуляції в режимі реального часу.

Він також звернув увагу на те, що нещодавно Anthropic виділила 20 мільйонів доларів групі Public First Action, яка підтримує кандидатів до Конгресу США з програмами регулювання ШІ. Це підкреслює складність ситуації: компанії можуть публічно виступати за посилення законодавства, одночасно переглядаючи власні внутрішні обмеження.

У ширшому контексті постає питання, чи здатні добровільні норми справді визначати розвиток трансформаційних технологій. Anthropic колись намагалася закріпити за собою образ стриманого гравця. Тепер її оновлена політика передбачає баланс між безпекою та конкурентоспроможністю. Це не означає повну відмову від захисту, але свідчить про зміну пріоритетів у послідовності дій.