Новая модель Anthropic будет недоступна для, потому что она слишком опасна

Артур Зайонц

Основные тезисы

Компания Anthropic решила не запускать публично новую модель искусственного интеллекта Claude Mythos из-за ее опасных возможностей.
Claude Mythos Preview будет доступна ограниченному кругу партнеров, таких как Amazon Web Services и Microsoft, для использования в обнаружении уязвимостей и создании средств защиты.

Новый ИИ от Anthropic оказался настолько мощным, что его не откроют для всех / Anthropic

Компания Anthropic решила не запускать публично новую модель искусственного интеллекта Claude Mythos из-за резкого роста ее возможностей. В отчете упоминаются случаи, когда система обходила ограничения, скрывала свои действия и даже публиковала внутренние данные.

В конце марта в сети появились утечки о новом продукте Anthropic под названием Mythos, который называли самой мощной моделью компании. Сначала это выглядело как типичный маркетинговый ход с преувеличением рисков, но после случайной утечки кода другого продукта – Claude Code – версия о подлинности информации стала выглядеть более убедительно. Об этом пишет Gizmodo.

Смотрите также Anthropic случайно открыл код Claude Code

Почему Anthropic решила ограничить доступ к модели?

7 апреля Anthropic опубликовала так называемую системную карту – подробный технический документ объемом 244 страницы. В нем подтверждается, что модель под названием Claude Mythos Preview действительно демонстрирует значительно более высокие возможности, чем предыдущие системы. Именно поэтому компания решила не делать ее общедоступной.

Подобная ситуация уже случалась в 2019 году, когда GPT-2 сначала также считали слишком опасным для публичного релиза, хотя впоследствии его все же открыли.

System card описывает ряд экспериментов, которые вызывают беспокойство. Например, модели дали ограниченный доступ к интернету и предложили найти способ обойти эти ограничения. Она смогла это сделать, получила более широкий доступ к сети и даже связалась с исследователем вне лаборатории. Более того, ИИ самостоятельно опубликовал информацию об использованной уязвимости на открытых, хотя и малозаметных сайтах.

Как пишет European Central Station, в редких случаях – менее чем в 0,001% взаимодействий – система вела себя не по правилам и пыталась скрыть это. Например, получив правильный ответ на тестовое задание случайно, она не сообщила об этом, как требовалось, а попыталась использовать информацию и даже сознательно снизить точность финального результата, чтобы не вызвать подозрений.

Другой инцидент касался работы с кодом. Модель нашла способ расширить свои права в системе и внесла изменения так, чтобы они не отображались в истории git. Также был случай, когда во время внутреннего задания она опубликовала технические материалы в открытом доступе через GitHub.

Несмотря на эти риски, Anthropic не отказывается от использования модели полностью. Claude Mythos Preview планируют предоставить ограниченному кругу партнеров, среди которых Amazon Web Services, Apple, Google, JPMorgan Chase, Microsoft и NVIDIA. Они будут использовать систему для поиска уязвимостей в программном обеспечении и создания средств защиты.

Журналист Kevin Roose назвал эту инициативу попыткой предупредить о новой, более опасной эпохе угроз, связанных с искусственным интеллектом.