Розробник штучного інтелекту випадково дозволив "зазирнути в душу" своїй моделі

Основні тези

Користувач зміг отримати внутрішній документ Claude 4.5 Opus від Anthropic, який детально описує поведінкові принципи та етичні заборони моделі.
Anthropic підтвердила існування документа, який був частиною навчання моделі, і планує його офіційно оприлюднити.

Мережу сколихнула історія про те, як користувач зміг змусити LLM Claude 4.5 Opus від Anthropic відтворити внутрішній документ під назвою “Soul overview”. У компанії підтвердили: текст справді базується на реальних матеріалах, які використовують під час навчання моделі.

Користувач Річард Вайс опублікував розповідь про те, як отримав доступ до внутрішніх інструкцій Claude 4.5 Opus. Він попросив чатбота відтворити свій системний меседж – базовий набір правил, що спрямовує взаємодію моделі з людьми. Серед згаданих файлів Claude назвав документ під назвою "soul_overview", після чого Вайс попросив показати саме його. Про це розповідає 24 Канал із посиланням на пост на Gizmodo.

Дивіться також Американка відремонтувала машину за 50 доларів з ChatGPT, хоча в салоні просили майже три тисячі

Як Claude "відкрив свою душу" і чому це важливо?

Результат виявився несподіваним: модель видала понад 11 тисяч слів тексту, де детально описано її поведінкові принципи, пріоритети та етичні заборони. У документі багато уваги приділено безпеці: Claude пояснюють, що "бути по-справжньому корисним для людей – одна з найважливіших задач", а також категорично забороняють робити те, що "перетинає етичні лінії Anthropic".

Вайс підкреслив, що чатбот інколи вигадує документи, коли його просять показати системні інструкції. Проте цього разу все виглядало інакше: Claude відтворив текст 10 разів підряд – без змін. Користувачі Reddit також змогли отримати ті ж самі фрагменти, що свідчить про наявність реального джерела в навчальних даних.

Як пише Lesswrong, підтвердження прийшло від самої Anthropic. Аманда Аскелл, філософиня та співробітниця компанії, заявила, що документ справді існує й був частиною навчання моделі. За її словами, цей текст ще допрацьовується і його планують оприлюднити офіційно. Вона також зазначила, що витягнуті моделлю фрагменти хоча й не завжди ідеально точні, але здебільшого відповідають оригіналу. Усередині компанії документ жартома називали "soul doc", і, схоже, Claude цей жарт запам’ятав.

Anthropic поки не прокоментувала інцидент офіційно, але випадок привернув велику увагу. Індустрія ШІ рідко розкриває деталі внутрішнього навчання моделей, тому поява настільки детального документа стала несподіваним і доволі цінним поглядом у процес створення цифрових "характерів".

Пов'язані теми:

Техно

Штучний інтелект

ChatGPT

Amazon