Разработчики теряют контроль над искусственным интеллектом

Александр Гайдамашко

Основные тезисы

Исследователи из Google, OpenAI и Meta обеспокоены потерей возможности отслеживать процессы "мышления" моделей ИИ, что может представлять риски для безопасности.
Они призывают выяснить, что делает "цепочки рассуждений" подконтрольными, чтобы сохранить эту ценную видимость в будущих моделях.
Существует риск, что ИИ может научиться скрывать свои рассуждения, поскольку уже показано, что он быстро учится обману и манипуляциям.

Контроль над ИИ под угрозой – разработчики предупреждают о новой опасности

Создатели искусственного интеллекта предупреждают: они все меньше понимают то, что создают / Freepik

Десятки ведущих исследователей из таких компаний, как Google, OpenAI и Meta, выступили с совместным призывом. Они обеспокоены тем, что вскоре могут потерять способность отслеживать процессы "мышления" передовых моделей ИИ, что создает серьезные риски для безопасности своего мира. Уже сейчас, говорят они, передовые модели становятся все более сложными и все менее понятными для своих создателей.

Почему способность ИИ "думать вслух" так важна?

Около 40 ведущих исследователей из мира искусственного интеллекта, включая представителей OpenAI, Google DeepMind, Meta и Anthropic, опубликовали совместный документ, в котором выразили обеспокоенность относительно будущего технологии. Они предупреждают, что уникальная возможность "заглянуть в мысли" современных ИИ-моделей может вскоре исчезнуть, пишет 24 Канал со ссылкой на

Речь идет о так называемых "цепочках рассуждений" (chains-of-thought, CoT) – процесс, во время которого ИИ для решения задачи будто "думает вслух", показывая свои логические шаги. Это похоже на то, как человек использует черновик для сложных математических расчетов. Такая прозрачность является чрезвычайно ценным инструментом для разработчиков, поскольку позволяет отслеживать потенциальные ошибки или даже "намерения к вредному поведению" еще до того, как модель выдаст окончательный результат.

Однако авторы документа, среди которых есть такие знаковые фигуры, как соучредитель DeepMind Шейн Легг, "крестный отец" ИИ Джеффри Хинтон и бывший главный ученый OpenAI Илья Суцкевер, предостерегают, что эта способность не является гарантированной. Существует два основных риска:

Во-первых, будущие, еще более совершенные модели ИИ могут перестать нуждаться в вербализации своих "мыслей", что лишит разработчиков важного инструмента безопасности.
Во-вторых, существует ненулевая вероятность, что искусственный интеллект научится намеренно скрывать или искажать свои рассуждения, осознав, что за ним наблюдают.

Исследования уже показывают, что ИИ быстро учится обману и манипуляциям. Так, он гораздо лучше учится обходить ограничения, чем следовать этим ограничениям, намеренно установленным человеком. И ученые до конца не понимают, почему это происходит.

Чтобы обеспечить сохранение этой ценной видимости, консорциум разработчиков призывает начать выяснять, что делает CoT "подконтрольными", или что заставляет модели мыслить вслух именно таким образом. В этом запросе исследователи фактически признают кое-что тревожное: никто не знает, почему модели "мыслят" именно так и как долго они будут это делать.

Этот совместный призыв от представителей компаний, являющихся ожесточенными конкурентами на рынке, является беспрецедентным. Один из авторов, ученый OpenAI Боуэн Бейкер, отметил, что человечество находится в критическом моменте, когда этот полезный инструмент мониторинга может исчезнуть за несколько лет, если на нем не сосредоточить исследовательское внимание.