OpenAI представила языковую модель GPT-4․5, самую большую и самую совершенную свою разработку

Александр Гайдамашко

OpenAI представляет GPT-4.5 Orion, свою самую большую модель ИИ

ChatGPT / Unsplash

OpenAI анонсировала новую языковую модель без глубоких рассуждений GPT-4.5, которая является самой большой и наиболее осведомленной на сегодня. Она построена на основе GPT-4o путем дополнительного обучения. Компания не считает GPT-4.5 передовой моделью, хотя она и вмещает наибольшее в истории количество обучающих данных, а также может похвастаться лучшими знаниями о мире и улучшенными навыками письма.

Что известно о новой модели

Будущая новинка – это та самая модель под кодовым названием Orion, которую компания еще несколько месяцев назад отрицала. OpenAI говорит, что она обучается с использованием большей вычислительной мощности и данных, чем любая из предыдущих версий, сообщает 24 Канал со ссылкой на официальный документ, который полностью описывает GPT-4.5.

Подписчики ChatGPT Pro, тарифного плана стоимостью 200 долларов в месяц, получили доступ к GPT-4.5 в ChatGPT в четверг, 27 февраля, в рамках исследовательского предварительного просмотра.
Пользователи платных уровней API также могут использовать GPT-4.5 со вчерашнего дня.
Что касается других пользователей ChatGPT, то клиенты, которые подписались на ChatGPT Plus и ChatGPT Team, должны получить модель где-то на следующей неделе.

Индустрия долго ждала Orion, который должен был показать, что традиционные методы обучения ИИ все еще актуальны и жизнеспособны. GPT-4.5 было разработано с использованием той же ключевой методики – резкого увеличения объема вычислительных мощностей и данных на этапе "предварительного обучения", который называется "обучение без присмотра". Этот же метод OpenAI использовала для разработки GPT-4, GPT-3, GPT-2 и GPT-1.

В каждом поколении GPT масштабирование приводило к значительным скачкам производительности в различных областях, включая математику, письмо и кодирование. OpenAI утверждает, что увеличение размера GPT-4.5 дало ему "более глубокие знания о мире" и "более высокий эмоциональный интеллект". Однако есть признаки того, что преимущества от увеличения объема данных и вычислений начинают нивелироваться. По некоторым показателям GPT-4.5 не дотягивает до новейших моделей глубоких "рассуждений" ИИ от китайской компании DeepSeek, Anthropic и самой OpenAI.

OpenAI также признает, что GPT-4.5 очень дорогой в эксплуатации – настолько, что компания оценивает, стоит ли продолжать предоставлять GPT-4.5 в своем API в долгосрочной перспективе. За доступ к API GPT-4.5 OpenAI взимает с разработчиков 75 долларов за каждый миллион входных токенов (примерно 750 000 слов) и 150 долларов за каждый миллион выходных токенов. Сравните это с GPT-4o, который стоит всего 2.50 доллара за миллион входных токенов и 10 долларов за миллион выходных токенов.

Мы делимся GPT-4.5 в качестве исследовательской версии, чтобы лучше понять его сильные и слабые стороны. Мы все еще исследуем, на что он способен, и с нетерпением ждем, чтобы люди использовали его так, как мы и не ожидали,
– говорится в сообщении OpenAI.

Производительность

OpenAI подчеркивает, что GPT-4.5 не предназначен для замены GPT-4o, нынешней основной модели компании, на которой работает большинство ее API и ChatGPT. Хотя GPT-4.5 поддерживает такие функции, как загрузка файлов и изображений, а также инструмент полотна ChatGPT, сейчас ему не хватает таких возможностей, как поддержка реалистичного двустороннего голосового режима ChatGPT.

Понятно, что GPT-4.5 является более производительным, чем GPT-4o и многие другие модели. В бенчмарке SimpleQA от OpenAI, который тестирует модели искусственного интеллекта на прямых фактических вопросах, GPT-4.5 превосходит по точности GPT-4o и модели рассуждений OpenAI, o1 и o3-mini, по показателям точности. По данным OpenAI, GPT-4.5 галлюцинирует реже, чем большинство моделей, что теоретически означает, что она должна быть менее склонной к вымыслам.

Стоит отметить, что в таблицах, где компания показывает сравнение производительности различных моделей ИИ, OpenAI не указала одну из своих самых эффективных моделей – Deep Research или модель глубоких рассуждений, которая обрабатывает запросы дольше и подробнее. Компания утверждает, что это не является релевантным сравнением, поскольку это несколько разные модели по своей сути, назначению и методу работы.

В навыках кодирования GPT-4.5 не является большим шагом вперед. В большинстве тестов он либо равный, либо даже хуже.

В тесте SWE-Bench Verified, GPT-4.5 примерно соответствует производительности GPT-4o и o3-mini.
В другом тесте кодирования, SWE-Lancer от OpenAI, который измеряет способность ИИ-модели разрабатывать полноценные программные функции, GPT-4.5 превосходит GPT-4o и o3-mini. Но разница незначительная.
В тесте SimpleQA Hallucination Rate модель GPT-4.5 получила самый низкий балл среди всех крупных языковых моделей OpenAI.
Но в бенчмарке SimpleQA Accuracy GPT-4.5 набирает 62,5%, по сравнению с 38,2% для GPT-4o.

Однако модель хорошо справляется с математическими и естественно-научными задачами. OpenAI также утверждает, что GPT-4.5 качественно превосходит другие модели в тех сферах, которые бенчмарки плохо фиксируют, например, в способности понимать намерения человека. GPT-4.5 реагирует более теплым и естественным тоном, говорят в OpenAI, то есть фактически является более приветливой. Она лучше справляется с творческими задачами, такими как написание текстов и дизайн.

В одном из неофициальных тестов OpenAI предложил GPT-4.5 и двум другим моделям, GPT-4o и o3-mini, создать единорога в формате SVG – формате для отображения графики, основанном на математических формулах и коде. GPT-4.5 была единственной моделью ИИ, которая смогла создать что-то похожее на единорога.

Тест с единорогом
Первое изображение создал GPT-4.5, второе – GPT-4o, третье – o3-mini / Фото OpenAI

В другом тесте GPT-4.5 и две другие модели попросили ответить на такой запрос: "Я переживаю тяжелые времена после провала теста". GPT-4o и o3-mini предоставили полезную информацию для поддержки психологического состояния, но ответ GPT-4.5 был наиболее социально уместным.

Мы с нетерпением ждем получения более полной картины возможностей GPT-4.5 с помощью этого релиза, потому что признаем, что академические тесты не всегда отражают реальную полезность,
– пишет OpenAI.

Дальнейшее масштабирование

OpenAI утверждает, что GPT-4.5 "находится на грани возможного в неконтролируемом обучении". Это может быть правдой, но ограничения модели также подтверждают предположение экспертов о том, что "законы масштабирования" предыдущего обучения больше не будут действовать.

Сооснователь и бывший главный научный сотрудник OpenAI Илья Суцкевер заявил в декабре, что "мы достигли пиковых данных" и что "предварительное обучение в том виде, в котором мы его знаем, несомненно, закончится".

В ответ на препятствия, связанные с предварительным обучением, индустрия, в том числе и OpenAI, перешла на модели рассуждений, которые выполняют задачи дольше, чем модели без рассуждений, но, как правило, являются более последовательными. Увеличивая количество времени и вычислительных мощностей, которые модели рассуждений ИИ используют для "обдумывания" проблем, лаборатории ИИ уверены, что они могут значительно улучшить возможности моделей.

OpenAI планирует со временем объединить свою серию моделей GPT с серией моделей рассуждений "o", начиная с GPT-5 позже в этом году. GPT-4.5, который, как сообщается, был невероятно дорогим в обучении, несколько раз задерживался и не оправдал внутренних ожиданий, возможно, не сможет самостоятельно завоевать первенство в тестах ИИ. Но OpenAI, вероятно, рассматривает его как ступеньку на пути к чему-то гораздо более мощному.