Разработчик искусственного интеллекта случайно позволил "заглянуть в душу" своей модели

Основні тези

Пользователь смог получить внутренний документ Claude 4.5 Opus от Anthropic, который подробно описывает поведенческие принципы и этические запреты модели.
Anthropic подтвердила существование документа, который был частью обучения модели, и планирует его официально обнародовать.

Сеть всколыхнула история о том, как пользователь смог заставить LLM Claude 4.5 Opus от Anthropic воспроизвести внутренний документ под названием "Soul overview". В компании подтвердили: текст действительно базируется на реальных материалах, которые используют во время обучения модели.

Пользователь Ричард Вайс опубликовал рассказ о том, как получил доступ к внутренним инструкциям Claude 4.5 Opus. Он попросил чатбота воспроизвести свой системный месседж – базовый набор правил, направляющий взаимодействие модели с людьми. Среди упомянутых файлов Claude назвал документ под названием "soul_overview", после чего Вайс попросил показать именно его. Об этом рассказывает 24 Канал со ссылкой на пост на Gizmodo.

Как Claude "открыл свою душу" и почему это важно?

Результат оказался неожиданным: модель выдала более 11 тысяч слов текста, где подробно описаны ее поведенческие принципы, приоритеты и этические запреты. В документе много внимания уделено безопасности: Claude объясняют, что "быть по-настоящему полезным для людей – одна из важнейших задач", а также категорически запрещают делать то, что "пересекает этические линии Anthropic".

Вайс подчеркнул, что чатбот иногда выдумывает документы, когда его просят показать системные инструкции. Однако на этот раз все выглядело иначе: Claude воспроизвел текст 10 раз подряд – без изменений. Пользователи Reddit также смогли получить те же фрагменты, что свидетельствует о наличии реального источника в учебных данных.

Как пишет Lesswrong, подтверждение пришло от самой Anthropic. Аманда Аскелл, философ и сотрудница компании, заявила, что документ действительно существует и был частью обучения модели. По ее словам, этот текст еще дорабатывается и его планируют обнародовать официально. Она также отметила, что извлеченные моделью фрагменты хотя и не всегда идеально точны, но в основном соответствуют оригиналу. Внутри компании документ в шутку называли "soul doc", и, похоже, Claude эту шутку запомнил.

Anthropic пока не прокомментировала инцидент официально, но случай привлек большое внимание. Индустрия ИИ редко раскрывает детали внутреннего обучения моделей, поэтому появление столь детального документа стало неожиданным и довольно ценным взглядом в процесс создания цифровых "характеров".