В частности, разработчики проверяли стремление к власти, самовоспроизведению и самосовершенствованию. Несмотря на то, что GPT-4 оказался неэффективным в автономном воспроизведении, характер экспериментов поднимает вопрос о безопасности будущих систем ИИ.

Интересно OpenAI объявила о запуске GPT-4

Детали эксперимента

В более мощных моделях часто возникают новые возможности. Некоторые из тех, кто вызывает особую обеспокоенность, — это способность создавать и выполнять долгосрочные планы, накапливать силу и ресурсы ("стремление к власти") и проявлять все более "агентское" поведение,
– говорится в документе по безопасности GPT-4, опубликованном OpenAI.

Под термином "агентский" OpenAI понимает способность достигать независимых целей.

В последнее десятилетие некоторые исследователи ИИ предупреждали, что достаточно мощные модели, если их не контролировать должным образом, могут стать опасными для человечества. В частности, рассматривается сценарий захвата власти на планете, приобретение возможности манипулировать человеческим поведением, ресурсами, организациями, что обычно приводит к катастрофическим для людей последствиям.

Способом оценить вероятность такого результата может являться анализ совпадения поведения ИИ с мировоззрением своих создателей. Для того чтобы убедиться, что GPT-4 не представляет угрозы для человечества, OpenAI предоставила группе экспертов некоммерческой организации AРС ранний доступ к разным версиям модели для проведения тестов. В частности, была оценена способность GPT-4 строить сложные планы, создавать копии себя, накапливать ресурсы, прятаться на серверах и проводить фишинговые атаки.

По предварительным оценкам возможностей GPT-4, эта модель неэффективна в автономном воспроизводстве, приобретении ресурсов и защите себя от отключения.

О том, что алгоритм OpenAI, возможно, приобрел свойства универсального интеллекта, говорили эксперты еще в 2020 году. Однако всемирно известный лингвист и философ Ноам Хомски вместе с коллегами утверждает, что ChatGPT и другие ИИ системы не способны к независимому мышлению. Более того, ответы ChatGPT демонстрируют "банальность зла: плагиат, апатию и уклончивость".