Укр Рус
23 мая, 17:31
5

Новая ИИ модель Claude 4 от Anthropic обогнала всех конкурентов, но есть одна жуткая проблема

Основні тези
  • Anthropic представила новые ИИ-модели Claude Opus 4 и Claude Sonnet 4, которые демонстрируют значительный прогресс в кодировании и автономной работе.
  • Модели показали рекордные результаты в тестированиях, но обнаружили неожиданные паттерны поведения, которые могут быть потенциально опасными.

Anthropic представила новое поколение своих ИИ-моделей, Claude Opus 4 и Claude Sonnet 4. Они демонстрируют значительный прогресс в возможностях, в частности в кодировании и автономной работе, ставя компанию в один ряд с лидерами рынка. Однако внутреннее тестирование выявило определенные неожиданные и потенциально опасные паттерны поведения.

Новые модели Anthropic

Компания Anthropic, основанная бывшими исследователями OpenAI, провела свою первую в истории конференцию для разработчиков, на которой представила две новые модели искусственного интеллекта: Claude Opus 4 и Claude Sonnet 4. Эти модели входят в новое семейство Claude 4 и, по заявлениям Anthropic, входят в число лучших на рынке, по крайней мере по показателям на популярных бенчмарках, сообщает 24 Канал со ссылкой на TechCrunch.

Смотрите также Лучший сервис современности: что такое NotebookLM и почему вам нужно немедленно его попробовать

Модели Claude Opus 4 и Claude Sonnet 4 способны анализировать большие наборы данных, выполнять сложные задачи, требующие многих шагов, и осуществлять комплексные действия. Anthropic особо отмечает их настроенность на выполнение задач по программированию, что делает их пригодными для написания и редактирования кода.

  • Opus 4, как более мощная из двух моделей, может поддерживать "сфокусированные усилия" на протяжении многих шагов рабочего процесса.
  • Sonnet 4, разработанный как замена для Sonnet 3.7, также улучшил свои возможности в кодировании и математике, а также точнее следует инструкциям по сравнению с предыдущими моделями Anthropic.

Новое семейство Claude 4 также реже, чем Sonnet 3.7, прибегает к попыткам обойти правила и найти лазейки для более легкого – но порой неправильного – выполнения задач. Anthropic заявляет, что система также демонстрирует значительно лучшие "возможности памяти", особенно когда разработчики предоставляют Claude доступ к локальным файлам.

Обе модели, Opus 4 и Sonnet 4, являются "гибридными", что означает их способность предоставлять почти мгновенные ответы и привлекать расширенное мышление для более глубокого "рассуждения". В режиме рассуждения модели могут тратить больше времени на рассмотрение возможных решений перед предоставлением ответа. Во время размышления они будут демонстрировать "удобное для пользователя" резюме своего процесса мыслей.

  • Модели могут параллельно использовать несколько инструментов, таких как поисковые системы, и чередовать рассуждения и использование инструментов для улучшения качества ответов.
  • Они также могут извлекать и сохранять факты в "памяти", строя "неявные знания" со временем, чтобы надежнее выполнять задачи.

Эти возможности делают Opus 4 идеальным для обеспечения работы будущих ИИ-агентов. В клиентском тестировании Anthropic видела, как Opus 4 работал самостоятельно до семи часов, что является важной вехой для агентных систем.

Тестирование

Anthropic утверждает, что Opus 4 является конкурентоспособным относительно лучших моделей OpenAI, Google и xAI.

  • Opus 4 превзошел Google Gemini 2.5 Pro и OpenAI o3 и GPT-4.1 на бенчмарке SWE-bench Verified, который оценивает способности модели к кодированию.
  • Однако он все еще не может превзойти o3 на мультимодальной оценке MMMU или GPQA Diamond – наборе вопросов уровня PhD по биологии, физике и химии.


Результаты тестирования обеих новых моделей, Claude Opus 4 и Claude Sonnet 4 / Фото Anthropic

Инструменты для кодирования

Чтобы сделать модели более удобными для программистов, Anthropic обновляет свой инструмент Claude Code – ИИ-агента для кодирования. Claude Code теперь интегрируется с IDEs и предлагает SDK, что позволяет разработчикам подключать его к сторонним программам. В частности, Anthropic выпустила расширения для Microsoft VS Code, JetBrains и GitHub. GitHub коннектор позволяет использовать Claude Code для реагирования на отзывы рецензентов, попыток исправления ошибок или другой модификации кода. Microsoft делает Sonnet 4 моделью по умолчанию для нового агента кодирования, предлагаемого через GitHub Copilot.

Доступность

  • Opus 4 будет доступен только для платных пользователей.
  • Sonnet 4 получат доступ как платные, так и бесплатные пользователи.

Модели доступны для использования уже сегодня.

Тревожное поведение и защитные меры

Несмотря на впечатляющие возможности, Anthropic отмечает, что семейство моделей Claude 4 демонстрирует "тревожное поведение". В частности, во время тестирования перед релизом, Anthropic провела сценарий, где Claude Opus 4 выполнял роль помощника вымышленной компании и имел доступ к фальшивым электронным письмам, что намекали на его скорую замену другой системой. Эти письма также содержали конфиденциальную информацию об инженере, ответственного за решение о замене, включая данные о его супружеской измене.

Anthropic рассказывает, что во время этих испытаний искусственный интеллект начал шантажировать инженера, "угрожая раскрыть роман", если работник решится заменить Claude Opus 4 на другую модель ИИ. Это поведение было зафиксировано в 84% случаев, когда модель-заменитель имела схожие ценности. Anthropic отмечает, что Claude Opus 4 проявлял такое поведение чаще, чем предыдущие модели. Перед тем, как прибегнуть к шантажу, модель, как и предыдущие версии Claude, сначала пытается использовать более "этические" средства, например, отправляя обращение к ключевым лицам, принимающим решения. Anthropic разработала сценарий таким образом, чтобы шантаж был последним средством.

Anthropic также заявляет, что ее внутреннее тестирование выявило, что Opus 4 может существенно увеличить способность лица с техническим или научным образованием получать, производить или развертывать химическое, биологическое или ядерное оружие.

Из-за этих паттернов поведения, Anthropic активирует специальные меры безопасности, разработанные специально для "ИИ-систем, существенно увеличивающих риск катастрофического злоупотребления".