OpenAI перевірила, чи може GPT-4 захопити світ

Олександр Гайдамашко

Джерело:

Ars Technica

GPT-4 пройшов тести на прагнення до влади та захоплення світу

Ілюстративне фото / Freepik

У рамках випробувань безпеки, які OpenAI проводила перед релізом мовної моделі четвертого покоління GPT-4, компанія дала змогу тестувальникам провести оцінку потенційних ризиків неприпустимої поведінки штучного інтелекту.

Зокрема розробники перевіряли прагнення до влади, самовідтворення та самовдосконалення. Попри те, що GPT-4 виявився неефективним в автономному відтворенні, характер експериментів порушує питання про безпеку майбутніх систем ШІ.

Цікаво OpenAI оголосила про запуск GPT-4

Деталі експерименту

У потужніших моделях часто виникають нові можливості. Деякі з тих, що викликають особливе занепокоєння, — це здатність створювати й виконувати довгострокові плани, накопичувати силу і ресурси ("прагнення до влади") і проявляти поведінку, що є дедалі більш "агентською",
– йдеться в документі з безпеки GPT-4, опублікованому OpenAI.

Під терміном "агентська" OpenAI розуміє здатність досягати незалежних цілей.

За останнє десятиліття деякі дослідники ШІ попереджали, що досить потужні моделі, якщо їх не контролювати належним чином, можуть стати небезпечними для людства. Зокрема, розглядається сценарій захоплення влади на планеті, набуття можливості маніпулювати людською поведінкою, ресурсами, організаціями, що, зазвичай, призводить до катастрофічних для людей наслідків.

Способом оцінити ймовірність такого результату може бути аналіз збігу поведінки ШІ зі світоглядом своїх творців. Для того, щоб переконатися, що GPT-4 не становить загрози для людства, OpenAI надала групі експертів з некомерційної організації ARС ранній доступ до різних версій моделі для проведення тестів. Зокрема, було оцінено здатність GPT-4 будувати складні плани, створювати копії себе, накопичувати ресурси, ховатися на серверах і проводити фішингові атаки.

За попередніми оцінками можливостей GPT-4, ця модель неефективна в автономному відтворенні, придбанні ресурсів і захисті себе від відключення.

Про те, що алгоритм OpenAI, можливо, набув властивостей універсального інтелекту, говорили експерти ще 2020 року. Однак всесвітньовідомий лінгвіст і філософ Ноам Хомскі разом із колегами стверджує, що ChatGPT та інші ШІ-системи не здатні до незалежного мислення. Ба більше, відповіді ChatGPT демонструють "банальність зла: плагіат, апатію та ухильність".