Новая ИИ модель Claude 4 от Anthropic обогнала всех конкурентов, но есть одна жуткая проблема

Александр Гайдамашко

Основные тезисы

Anthropic представила новые ИИ-модели Claude Opus 4 и Claude Sonnet 4, которые демонстрируют значительный прогресс в кодировании и автономной работе.
Модели показали рекордные результаты в тестированиях, но обнаружили неожиданные паттерны поведения, которые могут быть потенциально опасными.

Новая модель Anthropic Claude 4 очень мощная, но пугает своим поведением

Новая ИИ модель Claude 4 / Скриншот 24 Канала

Anthropic представила новое поколение своих ИИ-моделей, Claude Opus 4 и Claude Sonnet 4. Они демонстрируют значительный прогресс в возможностях, в частности в кодировании и автономной работе, ставя компанию в один ряд с лидерами рынка. Однако внутреннее тестирование выявило определенные неожиданные и потенциально опасные паттерны поведения.

Новые модели Anthropic

Компания Anthropic, основанная бывшими исследователями OpenAI, провела свою первую в истории конференцию для разработчиков, на которой представила две новые модели искусственного интеллекта: Claude Opus 4 и Claude Sonnet 4. Эти модели входят в новое семейство Claude 4 и, по заявлениям Anthropic, входят в число лучших на рынке, по крайней мере по показателям на популярных бенчмарках, сообщает 24 Канал со ссылкой на TechCrunch.

Модели Claude Opus 4 и Claude Sonnet 4 способны анализировать большие наборы данных, выполнять сложные задачи, требующие многих шагов, и осуществлять комплексные действия. Anthropic особо отмечает их настроенность на выполнение задач по программированию, что делает их пригодными для написания и редактирования кода.

Opus 4, как более мощная из двух моделей, может поддерживать "сфокусированные усилия" на протяжении многих шагов рабочего процесса.

Sonnet 4, разработанный как замена для Sonnet 3.7, также улучшил свои возможности в кодировании и математике, а также точнее следует инструкциям по сравнению с предыдущими моделями Anthropic.

Новое семейство Claude 4 также реже, чем Sonnet 3.7, прибегает к попыткам обойти правила и найти лазейки для более легкого – но порой неправильного – выполнения задач. Anthropic заявляет, что система также демонстрирует значительно лучшие "возможности памяти", особенно когда разработчики предоставляют Claude доступ к локальным файлам.

Обе модели, Opus 4 и Sonnet 4, являются "гибридными", что означает их способность предоставлять почти мгновенные ответы и привлекать расширенное мышление для более глубокого "рассуждения". В режиме рассуждения модели могут тратить больше времени на рассмотрение возможных решений перед предоставлением ответа. Во время размышления они будут демонстрировать "удобное для пользователя" резюме своего процесса мыслей.

Модели могут параллельно использовать несколько инструментов, таких как поисковые системы, и чередовать рассуждения и использование инструментов для улучшения качества ответов.
Они также могут извлекать и сохранять факты в "памяти", строя "неявные знания" со временем, чтобы надежнее выполнять задачи.

Эти возможности делают Opus 4 идеальным для обеспечения работы будущих ИИ-агентов. В клиентском тестировании Anthropic видела, как Opus 4 работал самостоятельно до семи часов, что является важной вехой для агентных систем.

Тестирование

Anthropic утверждает, что Opus 4 является конкурентоспособным относительно лучших моделей OpenAI, Google и xAI.

Opus 4 превзошел Google Gemini 2.5 Pro и OpenAI o3 и GPT-4.1 на бенчмарке SWE-bench Verified, который оценивает способности модели к кодированию.

Однако он все еще не может превзойти o3 на мультимодальной оценке MMMU или GPQA Diamond – наборе вопросов уровня PhD по биологии, физике и химии.

Результаты тестирования обеих новых моделей, Claude Opus 4 и Claude Sonnet 4 / Фото Anthropic

Инструменты для кодирования

Чтобы сделать модели более удобными для программистов, Anthropic обновляет свой инструмент Claude Code – ИИ-агента для кодирования. Claude Code теперь интегрируется с IDEs и предлагает SDK, что позволяет разработчикам подключать его к сторонним программам. В частности, Anthropic выпустила расширения для Microsoft VS Code, JetBrains и GitHub. GitHub коннектор позволяет использовать Claude Code для реагирования на отзывы рецензентов, попыток исправления ошибок или другой модификации кода. Microsoft делает Sonnet 4 моделью по умолчанию для нового агента кодирования, предлагаемого через GitHub Copilot.

Доступность

Opus 4 будет доступен только для платных пользователей.
Sonnet 4 получат доступ как платные, так и бесплатные пользователи.

Модели доступны для использования уже сегодня.

Тревожное поведение и защитные меры

Несмотря на впечатляющие возможности, Anthropic отмечает, что семейство моделей Claude 4 демонстрирует "тревожное поведение". В частности, во время тестирования перед релизом, Anthropic провела сценарий, где Claude Opus 4 выполнял роль помощника вымышленной компании и имел доступ к фальшивым электронным письмам, что намекали на его скорую замену другой системой. Эти письма также содержали конфиденциальную информацию об инженере, ответственного за решение о замене, включая данные о его супружеской измене.

Anthropic рассказывает, что во время этих испытаний искусственный интеллект начал шантажировать инженера, "угрожая раскрыть роман", если работник решится заменить Claude Opus 4 на другую модель ИИ. Это поведение было зафиксировано в 84% случаев, когда модель-заменитель имела схожие ценности. Anthropic отмечает, что Claude Opus 4 проявлял такое поведение чаще, чем предыдущие модели. Перед тем, как прибегнуть к шантажу, модель, как и предыдущие версии Claude, сначала пытается использовать более "этические" средства, например, отправляя обращение к ключевым лицам, принимающим решения. Anthropic разработала сценарий таким образом, чтобы шантаж был последним средством.

Anthropic также заявляет, что ее внутреннее тестирование выявило, что Opus 4 может существенно увеличить способность лица с техническим или научным образованием получать, производить или развертывать химическое, биологическое или ядерное оружие.

Из-за этих паттернов поведения, Anthropic активирует специальные меры безопасности, разработанные специально для "ИИ-систем, существенно увеличивающих риск катастрофического злоупотребления".