Что предлагают новые модели OpenAI?

Новые модели gpt-oss-120b и gpt-oss-20b являются так называемыми трансформерами с конфигурируемой цепью рассуждений (CoT), поддерживая низкие, средние и высокие настройки. Это позволяет самостоятельно настраивать скорость и использование вычислительных ресурсов, где самые высокие настройки CoT обеспечивают наилучшие результаты. Модели поддерживают имитацию рассуждений, глубокую кастомизацию и демонстрируют высокую производительность в использовании инструментов, пишет 24 Канал со ссылкой на OpenAI.

Смотрите также ChatGPT попросит вас сделать перерыв, если вы говорите с ним слишком много

Технические характеристики и требования к оборудованию:

  • Модель gpt-oss-20b имеет 21 миллиард параметров, которые благодаря архитектуре MoE (Mixture-of-Experts) уменьшаются до 3,6 миллиарда параметров на токен. Эта меньшая версия может работать на устройствах с 16 гигабайтами оперативной памяти или больше.
  • Модель gpt-oss-120b содержит 117 миллиардов параметров, которые уменьшаются до 5,1 миллиарда параметров на токен благодаря MoE. Для ее запуска требуется 80 гигабайт оперативной памяти, что превышает возможности среднего потребительского компьютера, но она может уместиться на одном ускорителе ИИ, например Nvidia H100.
  • Обе модели имеют контекстное окно на 128 000 токенов.

OpenAI утверждает, что gpt-oss обеспечивают высокую производительность, подобную ее ведущим облачным моделям. Большая модель gpt-oss-120b по большинству тестов находится между моделями o3 и o4-mini, а меньшая версия немного отстает. Лучшие результаты они показывают в математических и кодировочных задачах.

  • Например, в соревновательном тесте по кодированию Codeforces (с инструментами) gpt-oss-120b и gpt-oss-20b получили 2622 и 2516 баллов соответственно, превзойдя DeepSeek R1. Однако они уступают o3 и o4-mini.
  • В тесте Humanity's Last Exam (с инструментами) gpt-oss-120b и gpt-oss-20b набрали 19% и 17,3% соответственно, что также ниже, чем o3 (24,9%) и Google Gemini Deep Think (34,8%), но выше, чем у ведущих открытых моделей от DeepSeek и Qwen.

Новые модели gpt-oss являются только текстовыми и не поддерживают мультимодальность "из коробки". OpenAI не планирует, чтобы эти открытые модели заменили ее проприетарные облачные разработки. Вместо этого они разработаны для интеграции с существующими моделями GPT, позволяя компаниям использовать различные продукты OpenAI, в том числе и для случаев, когда часть данных нужно обрабатывать локально.

Локально управляемый ИИ обеспечивает меньшую задержку, больше возможностей для кастомизации и может хранить конфиденциальные данные на месте. Это соответствует желанию OpenAI отвечать призывам администрации США по более широкому открытому доступу к технологиям ИИ. Сэм Альтман, CEO OpenAI, ранее заявлял, что компания была "на неправильной стороне истории" относительно открытого исходного кода.

Вопросы безопасности

OpenAI уделила значительное внимание безопасности, тестируя модели на "злонамеренные" сценарии и потенциальное использование для кибератак или создания биологического/химического оружия. Компания утверждает, что даже после попыток настроить модели на злонамеренное поведение, они не достигли высокого уровня качества в выполнении "злых" задач, что свидетельствует об эффективности их механизмов выравнивания и иерархии инструкций.

Как получить

Модели доступны для загрузки на HuggingFace и в репозиториях GitHub. OpenAI также размещает стоковые версии моделей на собственной инфраструктуре для тестирования. Эти модели оптимизированы для работы с различными аппаратными платформами от NVIDIA, AMD, Cerebras и Groq. Тем временем Microsoft Azure объявила об оптимизированных для GPU версиях gpt-oss-20b для ПК с Windows.