Компания говорит, что на примере Orca 2 ей удалось показать, что улучшенные методы обучения могут обеспечить лучшие результаты меньшим моделям и помочь им достичь "высших умственных способностей, обычно присутствующих только в больших языковых моделях".

Смотрите также Microsoft переименовала свой чат-бот Bing Chat и анонсирует новые функции

Подробности

Microsoft уже открыла доступ к обеим разработкам, чтобы первые тестировщики могли их оценить и исследовать их возможности. Для предприятий с ограниченными ресурсами такие системы могут оказаться лучшим решением.

Для того чтобы научить небольшую модель рассуждать так же хорошо, как большая, разработчики решили настроить базовую Llama 2 от Meta с помощью специальным образом собранного набора данных. Вместо того чтобы обучать ее повторять поведение более способных моделей – метод имитации – исследователи заставляли ее выбирать другие стратегии решения задач. Например, чтобы ответить на комплексный вопрос, малой языковой модели удобнее сначала разбить его на составные части, а не отвечать напрямую, как это делает GPT-4.

В испытаниях на 15 эталонных тестах, охватывающих задачи на понимание речи, здравый смысл, многоэтапное рассуждение, решение математических задач, понимание прочитанного, обобщение и правдивость, обе модели Orca 2 показали превосходные результаты — лучше, или минимум не хуже, чем модели, размер которых больше в 5-10 раз.

В среднем по результатам всех тестов Orca 2 превзошла Llama-2-Chat с 13 и 70 миллиардами параметров, а также WizardLM с 13 и 70 миллиардами параметров. Лишь в задачах на математику WizardLM с 70 миллиардами параметров оказался значительно лучше.

По словам разработчиков, метод, который они использовали для обучения Llama-2, можно применять и для улучшения других базовых моделей.

Несмотря на то, что Orca 2 имеет ряд ограничений, потенциал для будущих усовершенствований очевиден, особенно в улучшении соображений, специализации, контроля и безопасности меньших моделей. Использование тщательно отфильтрованных синтетических данных для пост-тренировок становится ключевой стратегией в этих усовершенствованиях. Поскольку большие модели продолжают совершенствоваться, наша работа с Orca 2 знаменует собой значительный шаг в диверсификации приложений и вариантов развертывания языковых моделей,
– написала исследовательская группа.

С выпуском моделей Orca 2 с открытым исходным кодом и постоянными исследованиями в этом направлении можно с уверенностью сказать, что в ближайшем будущем появится более высокопроизводительных малых речевых моделей.