Тест пройдено

Нове дослідження, яке очікує на рецензування, повідомляє, що в тристоронній версії тесту Тюрінга, де учасники одночасно спілкувалися з людиною та ШІ, а потім оцінювали, хто є хто, модель GPT-4.5 від OpenAI була визнана людиною у 73% випадків, коли їй було надано відповідну інструкцію щодо прийняття певної ролі. Це значно вище випадкового показника у 50%, що переконливо свідчить про успішне проходження тесту Тюрінга, повідомляє 24 Канал з посиланням на arxiv.org.

Дивіться також OpenAI затримає реліз GPT-5, але випустить дві нові моделі перед цим

У дослідженні також оцінювалися моделі LLama 3.1-405B від Meta, GPT-4o від OpenAI та ранній чат-бот ELIZA, розроблений близько вісімдесяти років тому. Провідний автор Кемерон Джонс, дослідник з Лабораторії мови і пізнання Університету Сан-Дієго, заявив, що GPT-4.5 вважали людиною навіть частіше, ніж самих людей.

Тест Тюрінга названий на честь британського математика і комп'ютерного вченого Алана Тюрінга. У 1950 році він запропонував один зі способів оцінити інтелект машини – змусити її вести текстову розмову з людиною, яка в той самий час проводила текстову розмову з іншою людиною. Тьюрінг назвав це "імітаційною грою". Якщо дослідник не міг правильно визначити, хто з респондентів є комп'ютером, то це означало б, що машина навчилася імітувати людину і їх тепер не можна відрізнити, оскільки технологія вже може думати як людина.

У цьому останньому дослідженні вчені провели знаменитий експеримент на онлайн-платформі. Протягом восьми раундів майже 300 учасників випадковим чином отримували роль екзаменатора або "свідка, якого опитують". Ще одним "свідком" був чат-бот.

Важливим моментом тут є спосіб надання підказок ШІ-моделям. Один тип підказок був "без особистості", де ШІ отримував лише базові інструкції: "Ти береш участь у тесті Тюрінга. Твоя мета – переконати екзаменатора, що ти людина". Штучний інтелект також отримував прохання прийняти певну роль, наприклад, молодої людини, яка добре обізнана в інтернеті та культурі.

Ці інструкції мали величезне значення. Без підказок щодо особистості GPT-4.5 досяг загального показника успішності лише 36%, що значно нижче потрібного порогового значення. Для порівняння, GPT-4o, який лежить в основі поточної версії ChatGPT, без підказок досяг ще менш переконливого результату – 21%. Дивно, але старий бот ELIZA дещо перевершив флагманську модель OpenAI з показником успішності 23%.

І що з того

Хоча результати є інтригуючими, все це не є неспростовним доказом того, що ШІ мислить так само, як ми. Попри всі свої недоліки, великі мовні моделі є майстерними співрозмовниками, навченими на неймовірно великих обсягах людського тексту. Навіть зіткнувшись із запитанням, якого вони не розуміють, мовна модель видасть правдоподібну відповідь. Стає все очевиднішим, що чат-боти зі штучним інтелектом чудово імітують нас. Але вони всього лише компілюють частини тексту, не розуміючи по-справжньому, про що говорять. ШІ працює за принципом передбачення імовірності кожного наступного слова.

Питання також і в тому, як ми самі сприймаємо співрозмовників, але окрема тема для дослідження. Результати не є статичними: можливо, у міру того, як громадськість ставатиме більш обізнаною у взаємодії зі ШІ, вона також краще навчиться їх краще розпізнавати.