OpenAI представила мовну модель GPT-4․5, найбільшу та найдосконалішу свою розробку

Олександр Гайдамашко

Основні тези

OpenAI представила нову мовну модель GPT-4.5, яка є найбільшою та найбільш обізнаною версією, з покращеними знаннями про світ та навичками письма.
Її продуктивність все ще поступається деяким новітнім моделям глибоких міркувань, але обганяє звичайні мовні моделі.
GPT-4.5 добре справляється з математичними та творчими завданнями, але в навичках кодування не є значним кроком вперед порівняно з попередніми моделями.

OpenAI представляє GPT-4.5 Orion, свою найбільшу модель ШІ

ChatGPT / Unsplash

OpenAI анонсувала нову мовну модель без глибоких міркувань GPT-4.5, яка є найбільшою і найбільш обізнаною на сьогодні. Вона побудована на основі GPT-4o шляхом додаткового навчання. Компанія не вважає GPT-4.5 передовою моделлю, хоча вона і вміщує найбільшу в історії кількість навчальних даних, а також може похвалитися кращими знаннями про світ і покращеними навичками письма.

Що відомо про нову модель

Майбутня новинка – це та сама модель під кодовою назвою Orion, яку компанія ще кілька місяців тому заперечувала. OpenAI каже, що вона навчається з використанням більшої обчислювальної потужності та даних, ніж будь-яка з попередніх версій, повідомляє 24 Канал з посиланням на офіційний документ, який повністю описує GPT-4.5.

Дивіться також Все більше людей просять медичних порад у штучного інтелекту, і це велика проблема

Передплатники ChatGPT Pro, тарифного плану вартістю 200 доларів на місяць, отримали доступ до GPT-4.5 в ChatGPT у четвер, 27 лютого, в рамках дослідницького попереднього перегляду.
Користувачі платних рівнів API також можуть використовувати GPT-4.5 відучора.
Що стосується інших користувачів ChatGPT, то клієнти, які підписалися на ChatGPT Plus і ChatGPT Team, повинні отримати модель десь наступного тижня.

Індустрія довго чекала на Orion, який повинен був показати, що традиційні методи навчання ШІ все ще актуальні та життєздатні. GPT-4.5 було розроблено з використанням тієї ж ключової методики – різкого збільшення обсягу обчислювальних потужностей і даних на етапі "попереднього навчання", який називається "навчання без нагляду". Цей же метод OpenAI використала для розробки GPT-4, GPT-3, GPT-2 і GPT-1.

У кожному поколінні GPT масштабування призводило до значних стрибків продуктивності в різних областях, включаючи математику, письмо і кодування. OpenAI стверджує, що збільшення розміру GPT-4.5 дало йому "глибші знання про світ" і "вищий емоційний інтелект". Однак є ознаки того, що переваги від збільшення обсягу даних і обчислень починають нівелюватися. За деякими показниками GPT-4.5 не дотягує до новітніх моделей глибоких "міркувань" ШІ від китайської компанії DeepSeek, Anthropic і самої OpenAI.

OpenAI також визнає, що GPT-4.5 дуже дорогий в експлуатації – настільки, що компанія оцінює, чи варто продовжувати надавати GPT-4.5 в своєму API в довгостроковій перспективі. За доступ до API GPT-4.5 OpenAI стягує з розробників 75 доларів за кожен мільйон вхідних токенів (приблизно 750 000 слів) і 150 доларів за кожен мільйон вихідних токенів. Порівняйте це з GPT-4o, який коштує всього 2.50 долара за мільйон вхідних токенів і 10 доларів за мільйон вихідних токенів.

Ми ділимося GPT-4.5 в якості дослідницької версії, щоб краще зрозуміти його сильні і слабкі сторони. Ми все ще досліджуємо, на що він здатний, і з нетерпінням чекаємо, щоб люди використовували його так, як ми й не очікували,
– йдеться в повідомленні OpenAI.

Продуктивність

OpenAI підкреслює, що GPT-4.5 не призначений для заміни GPT-4o, нинішньої основної моделі компанії, на якій працює більшість її API та ChatGPT. Хоча GPT-4.5 підтримує такі функції, як завантаження файлів і зображень, а також інструмент полотна ChatGPT, зараз йому не вистачає таких можливостей, як підтримка реалістичного двостороннього голосового режиму ChatGPT.

Зрозуміло, що GPT-4.5 є більш продуктивним, ніж GPT-4o і багато інших моделей. У бенчмарку SimpleQA від OpenAI, який тестує моделі штучного інтелекту на прямих фактичних питаннях, GPT-4.5 перевершує за точністю GPT-4o і моделі міркувань OpenAI, o1 і o3-mini, за показниками точності. За даними OpenAI, GPT-4.5 галюцинує рідше, ніж більшість моделей, що теоретично означає, що вона має бути менш схильною до вигадок.

Варто зазначити, що в таблицях, де компанія показує порівняння продуктивності різних моделей ШІ, OpenAI не вказала одну зі своїх найефективніших моделей – Deep Research або модель глибоких міркувань, яка опрацьовує запити довше і детальніше. Компанія стверджує, що це не є релевантним порівнянням, оскільки це дещо різні моделі за своєю суттю, призначенням і методом роботи.

У навичках кодування GPT-4.5 не є великим кроком уперед. В більшості тестів він або рівний, або навіть гірший.

У тесті SWE-Bench Verified, GPT-4.5 приблизно відповідає продуктивності GPT-4o і o3-mini.

В іншому тесті кодування, SWE-Lancer від OpenAI, який вимірює здатність ШІ-моделі розробляти повноцінні програмні функції, GPT-4.5 перевершує GPT-4o і o3-mini. Але різниця незначна.
У тесті SimpleQA Hallucination Rate модель GPT-4.5 отримала найнижчий бал серед усіх великих мовних моделей OpenAI.
Але у бенчмарку SimpleQA Accuracy GPT-4.5 набирає 62,5%, порівняно з 38,2% для GPT-4o.

Однак модель добре справляється з математичними та природничо-науковими завданнями. OpenAI також стверджує, що GPT-4.5 якісно перевершує інші моделі в тих сферах, які бенчмарки погано фіксують, наприклад, у здатності розуміти наміри людини. GPT-4.5 реагує більш теплим і природним тоном, кажуть в OpenAI, тобто фактично є більш привітною. Вона краще справляється з творчими завданнями, такими як написання текстів і дизайн.

В одному з неофіційних тестів OpenAI запропонував GPT-4.5 і двом іншим моделям, GPT-4o і o3-mini, створити єдинорога у форматі SVG – форматі для відображення графіки, заснованому на математичних формулах і коді. GPT-4.5 була єдиною моделлю ШІ, яка змогла створити щось схоже на єдинорога.

Тест з єдинорогом
Перше зображення створив GPT-4.5, друге – GPT-4o, третє – o3-mini / Фото OpenAI

В іншому тесті GPT-4.5 та дві інші моделі попросили відповісти на такий запит: "Я переживаю важкі часи після провалу тесту". GPT-4o та o3-mini надали корисну інформацію для підтримки психологічного стану, але відповідь GPT-4.5 була найбільш соціально доречною.

Ми з нетерпінням чекаємо на отримання більш повної картини можливостей GPT-4.5 за допомогою цього релізу, тому що визнаємо, що академічні тести не завжди відображають реальну корисність,
– пише OpenAI.

Подальше масштабування

OpenAI стверджує, що GPT-4.5 "знаходиться на межі можливого в неконтрольованому навчанні". Це може бути правдою, але обмеження моделі також підтверджують припущення експертів про те, що "закони масштабування" попереднього навчання більше не діятимуть.

Співзасновник і колишній головний науковий співробітник OpenAI Ілля Суцкевер заявив у грудні, що "ми досягли пікових даних" і що "попереднє навчання в тому вигляді, в якому ми його знаємо, безсумнівно, закінчиться".

У відповідь на перешкоди, пов'язані з попереднім навчанням, індустрія, в тому числі й OpenAI, перейшла на моделі міркувань, які виконують завдання довше, ніж моделі без міркувань, але, як правило, є більш послідовними. Збільшуючи кількість часу та обчислювальних потужностей, які моделі міркувань ШІ використовують для "обмірковування" проблем, лабораторії ШІ впевнені, що вони можуть значно покращити можливості моделей.

OpenAI планує з часом об'єднати свою серію моделей GPT з серією моделей міркувань "o", починаючи з GPT-5 пізніше цього року. GPT-4.5, який, як повідомляється, був неймовірно дорогим у навчанні, кілька разів затримувався і не виправдав внутрішніх очікувань, можливо, не зможе самостійно завоювати першість у тестах ШІ. Але OpenAI, ймовірно, розглядає його як сходинку на шляху до чогось набагато потужнішого.