За это время проект прошел путь от идеи до внедрения конкретных технических решений. Сейчас команды переходят к ключевому этапу – масштабной подготовки данных и формирования стандартов качества будущей LLM, информирует 24 Канал.

Смотрите также Благотворительный проект "Детская надежда" от Киевстар и dobro․ua отмечает 7 лет заботы о детях

На каком этапе разработка украинского LLM?

Да, технологическим фундаментом для национальной LLM стало семейство моделей Gemma от Google – эта современная открытая AI-модель нового поколения уже доказала свою эффективность в международных и локальных проектах. Именно ее адаптируют к украинскому языку, локального контекста и культурно-исторических реалий.

Сейчас проект находится на важной фазе – продолжается подготовка и проверка данных для обучения LLM. Качественная национальная модель требует не только открытых интернет источников, но и обработки исторических архивов, документальных материалов и тому подобное. Для обучения будут использовать специально отобранные, деперсонализированные корпуса текстов.

Сбор данных происходит во взаимодействии с государственными органами, медиа, учреждениями высшего образования и научными учреждениями. В то же время значительная часть ценных материалов хранится исключительно в бумажном формате, что подчеркивает необходимость дальнейшей цифровизации культурного и научного наследия Украины.

Для независимой оценки качества разработки сформировали экспертный комитет с четырьмя направлениями работы: научно-техническим, правовым, культурно-историческим и языковым. Среди его ключевых задач – создание профессиональных бенчмарков, которые позволят объективно оценивать качество, корректность и безопасность модели.

На январь 2026 года командой запланировано получить:

  • первую верифицированную базу текстовых данных для тренировки украинского LLM;
  • улучшенный токенизатор, учитывающий особенности украинского языка, чтобы повысить скорость и производительность обработки текстов;
  • собственную систему бенчмарков для оценки качества, эффективности и безопасности языковой модели.

Вместе с тем создается юридическая рамка, обеспечивающая соответствие работы с данными действующему законодательству и нормам интеллектуальной собственности, гарантирует прозрачность и безопасность процессов.

Запуск первой версии украинского LLM в формате бета-тестирования запланирован на весну 2026 года. Отдельно, в январе 2026 года, в приложении Дія состоится публичное голосование за название модели.