ChatGPT склав майже всі іспити, що існують у США, хоча й не без помилок

20 березня 2023, 11:01
Читать новость на русском

Джерело:

OpenAI

Компанія OpenAI опублікувала статистику тестування нової версії "розширеної мовної моделі" GPT-4. Згідно з нею, технологія зуміла пройти всі офіційні іспити в навчальних закладах США, що відповідають її специфіці.

До списку іспитів входять тести з літератури, математики, перевірки інтелекту, кмітливості та загального рівня підготовки для вступу в коледж. Щоправда, фундаментальних помилок попередніх версій нейромережа поки що так і не позбулася.

Цікаво ChatGPT не зміг ввести капчу, але знайшов просто геніальне рішення ситуації

Що відомо

Компанія опублікувала графік, який показує успіхи GPT-4 в складанні іспитів. Синім кольором показано попередню версію мовної моделі, зеленим – нову. 


Результати екзаменів / Скриншот 24 каналу

Дані про успіхи GPT-4 слід сприймати з деякою часткою скепсису, оскільки в OpenAI не поспішають надавати підтвердження результатів тестів. Також там не приховують, що підбирали завдання під можливості нейромережі, а також проводили навчання для виконання цих конкретних завдань. Тому високі показники GPT-4 – це більше демонстрація досягнень в адаптації нейромережі до реальної роботи, ніж успіхів у розвитку технологій штучного інтелекту.

Ми бачимо суперечливу ситуацію, коли прогрес у розвитку нейромереж домінує над темпами виправлення помилок у їхніх алгоритмах. Та ж OpenAI всього за два роки випустила вже три покоління нейромереж GPT, але кожна нова версія містить фундаментальні помилки своїх попередниць. Тому в офіційних документах після слів про успіхи нейромережі завжди слідує попередження про те, що результати її роботи не можна використовувати в критично важливих сферах. Занадто часто GPT "фантазує" і просто маніпулює даними.

Нагадаємо, GPT-4 лежить в основі ChatGPT. Поки що розробники не дали доступ до неї для всіх користувачів – більшість із них все ще користується GPT-3.5. Після тестування, яке проходить уже, слід очікувати на оновлення. Четверту версію показали в середині березня. В окремому матеріалі ми розповіли про її особливості та переваги.