Новые модели Anthropic
Компания Anthropic, основанная бывшими исследователями OpenAI, провела свою первую в истории конференцию для разработчиков, на которой представила две новые модели искусственного интеллекта: Claude Opus 4 и Claude Sonnet 4. Эти модели входят в новое семейство Claude 4 и, по заявлениям Anthropic, входят в число лучших на рынке, по крайней мере по показателям на популярных бенчмарках, сообщает 24 Канал со ссылкой на TechCrunch.
Смотрите также Лучший сервис современности: что такое NotebookLM и почему вам нужно немедленно его попробовать
Модели Claude Opus 4 и Claude Sonnet 4 способны анализировать большие наборы данных, выполнять сложные задачи, требующие многих шагов, и осуществлять комплексные действия. Anthropic особо отмечает их настроенность на выполнение задач по программированию, что делает их пригодными для написания и редактирования кода.
- Opus 4, как более мощная из двух моделей, может поддерживать "сфокусированные усилия" на протяжении многих шагов рабочего процесса.
- Sonnet 4, разработанный как замена для Sonnet 3.7, также улучшил свои возможности в кодировании и математике, а также точнее следует инструкциям по сравнению с предыдущими моделями Anthropic.
Новое семейство Claude 4 также реже, чем Sonnet 3.7, прибегает к попыткам обойти правила и найти лазейки для более легкого – но порой неправильного – выполнения задач. Anthropic заявляет, что система также демонстрирует значительно лучшие "возможности памяти", особенно когда разработчики предоставляют Claude доступ к локальным файлам.
Обе модели, Opus 4 и Sonnet 4, являются "гибридными", что означает их способность предоставлять почти мгновенные ответы и привлекать расширенное мышление для более глубокого "рассуждения". В режиме рассуждения модели могут тратить больше времени на рассмотрение возможных решений перед предоставлением ответа. Во время размышления они будут демонстрировать "удобное для пользователя" резюме своего процесса мыслей.
- Модели могут параллельно использовать несколько инструментов, таких как поисковые системы, и чередовать рассуждения и использование инструментов для улучшения качества ответов.
- Они также могут извлекать и сохранять факты в "памяти", строя "неявные знания" со временем, чтобы надежнее выполнять задачи.
Эти возможности делают Opus 4 идеальным для обеспечения работы будущих ИИ-агентов. В клиентском тестировании Anthropic видела, как Opus 4 работал самостоятельно до семи часов, что является важной вехой для агентных систем.
Тестирование
Anthropic утверждает, что Opus 4 является конкурентоспособным относительно лучших моделей OpenAI, Google и xAI.
- Opus 4 превзошел Google Gemini 2.5 Pro и OpenAI o3 и GPT-4.1 на бенчмарке SWE-bench Verified, который оценивает способности модели к кодированию.
- Однако он все еще не может превзойти o3 на мультимодальной оценке MMMU или GPQA Diamond – наборе вопросов уровня PhD по биологии, физике и химии.
Результаты тестирования обеих новых моделей, Claude Opus 4 и Claude Sonnet 4 / Фото Anthropic
Инструменты для кодирования
Чтобы сделать модели более удобными для программистов, Anthropic обновляет свой инструмент Claude Code – ИИ-агента для кодирования. Claude Code теперь интегрируется с IDEs и предлагает SDK, что позволяет разработчикам подключать его к сторонним программам. В частности, Anthropic выпустила расширения для Microsoft VS Code, JetBrains и GitHub. GitHub коннектор позволяет использовать Claude Code для реагирования на отзывы рецензентов, попыток исправления ошибок или другой модификации кода. Microsoft делает Sonnet 4 моделью по умолчанию для нового агента кодирования, предлагаемого через GitHub Copilot.
Доступность
- Opus 4 будет доступен только для платных пользователей.
- Sonnet 4 получат доступ как платные, так и бесплатные пользователи.
Модели доступны для использования уже сегодня.
Тревожное поведение и защитные меры
Несмотря на впечатляющие возможности, Anthropic отмечает, что семейство моделей Claude 4 демонстрирует "тревожное поведение". В частности, во время тестирования перед релизом, Anthropic провела сценарий, где Claude Opus 4 выполнял роль помощника вымышленной компании и имел доступ к фальшивым электронным письмам, что намекали на его скорую замену другой системой. Эти письма также содержали конфиденциальную информацию об инженере, ответственного за решение о замене, включая данные о его супружеской измене.
Anthropic рассказывает, что во время этих испытаний искусственный интеллект начал шантажировать инженера, "угрожая раскрыть роман", если работник решится заменить Claude Opus 4 на другую модель ИИ. Это поведение было зафиксировано в 84% случаев, когда модель-заменитель имела схожие ценности. Anthropic отмечает, что Claude Opus 4 проявлял такое поведение чаще, чем предыдущие модели. Перед тем, как прибегнуть к шантажу, модель, как и предыдущие версии Claude, сначала пытается использовать более "этические" средства, например, отправляя обращение к ключевым лицам, принимающим решения. Anthropic разработала сценарий таким образом, чтобы шантаж был последним средством.
Anthropic также заявляет, что ее внутреннее тестирование выявило, что Opus 4 может существенно увеличить способность лица с техническим или научным образованием получать, производить или развертывать химическое, биологическое или ядерное оружие.
Из-за этих паттернов поведения, Anthropic активирует специальные меры безопасности, разработанные специально для "ИИ-систем, существенно увеличивающих риск катастрофического злоупотребления".



