Anthropic уже не самый безопасный ИИ: компания переписала свои же правила

Артур Зайонц

Основные тезисы

Компания Anthropic пересмотрела свою политику безопасности ИИ, отказавшись от запрета обучения новых моделей без гарантий безопасности, но обещает публиковать дорожные карты и отчеты о рисках.
Anthropic сосредотачивается на балансе между безопасностью и конкурентоспособностью, демонстрируя быстрый рост доходов и расширяя портфель продуктов, несмотря на изменения в своей политике.

Разработчик Claude изменил правила безопасности своих моделей / Anthropic

Компания Anthropic пересмотрела свое ключевое обещание по безопасности искусственного интеллекта и больше не гарантирует, что не будет выпускать новые модели без полного набора предохранителей. Вместо жестких ограничений она переходит к более гибкой системе отчетов и дорожных карт безопасности на фоне роста конкуренции на рынке ИИ.

Anthropic официально отказалась от центрального пункта своей политики, который запрещал обучать или выпускать передовые модели без гарантированных механизмов безопасности еще до релиза. Таким образом завершилось действие принципа, который ранее отличал её среди других разработчиков ИИ. Об этом пишет Tech radar.

Почему Anthropic изменила подход к безопасности ИИ?

Обновленная Responsible Scaling Policy больше не предусматривает автоматических пауз в развитии моделей до момента внедрения всех запланированных предохранителей. Ранее компания позиционировала этот подход как доказательство готовности противостоять коммерческому давлению и не гнаться за конкурентами в гонке мощностей. Теперь вместо категорических запретов внедряется более гибкая модель управления рисками.

В компании объясняют изменение прагматическими соображениями. Руководство считает, что односторонние ограничения потеряли смысл в условиях быстрой эволюции технологий и геополитического напряжения. По их мнению, оставаться на переднем крае развития важно и для исследований безопасности.

Как пишет Kion, согласно новой политике, Anthropic обещает регулярно публиковать Frontier Safety Roadmaps – детальные планы достижения целей в сфере безопасности, а также Risk Reports – отчеты о возможностях моделей и потенциальных рисках их использования.

Компания также заявляет, что готова откладывать развитие систем, если будет считать себя лидером в определенной сфере и увидит значительный катастрофический риск. В то же время она больше не обязуется останавливать обучение до момента полной гарантии защитных механизмов.

Для рядовых пользователей Claude или других инструментов изменения могут остаться незаметными. Однако правила, по которым тренируются такие системы, влияют на точность, возможности злоупотреблений и потенциальные последствия использования.

Когда в 2023 году Anthropic ввела первоначальную версию политики, часть менеджмента надеялась, что она станет примером для конкурентов и, возможно, основой для будущего регулирования. Однако федеральное законодательство США по ИИ так и не было принято, а политический климат сместился в сторону более сдержанного подхода к новым ограничениям. В результате компании оказались между добровольными обязательствами и борьбой за рынок.

Anthropic сейчас демонстрирует быстрый рост доходов и расширяет портфель продуктов, конкурируя с такими игроками, как OpenAI и Google. Внутри компании, вероятно, считали, что жесткая красная линия по безопасности сдерживает этот рост.

Несмотря на изменения, в Anthropic настаивают, что система защиты не исчезла, а только трансформировалась. Новые дорожные карты должны стимулировать внутренние исследования в сфере минимизации рисков, а публичные отчеты – обеспечить прозрачность относительно возможностей моделей и сценариев их злоупотребления.

Руководитель и соучредитель RAIDS AI Ник Кайринос отметил, что новая политика сохраняет определенные предохранители, но ключевое обещание не выпускать модели без гарантий безопасности исчезло. По его словам, это демонстрирует ограниченность добровольных обязательств и важность независимого мониторинга и регуляции в режиме реального времени.

Он также обратил внимание на то, что недавно Anthropic выделила 20 миллионов долларов группе Public First Action, которая поддерживает кандидатов в Конгресс США с программами регулирования ИИ. Это подчеркивает сложность ситуации: компании могут публично выступать за ужесточение законодательства, одновременно пересматривая собственные внутренние ограничения.

В более широком контексте возникает вопрос, способны ли добровольные нормы действительно определять развитие трансформационных технологий. Anthropic когда-то пыталась закрепить за собой образ сдержанного игрока. Теперь ее обновленная политика предполагает баланс между безопасностью и конкурентоспособностью. Это не означает полный отказ от защиты, но свидетельствует об изменении приоритетов в последовательности действий.