Как происходит разработка украинского ИИ?

Разработка украинской большой языковой модели базируется на взаимодействии бизнеса, в частности Киевстар, и государства через министерство цифровой трансформации Украины. Операционная команда Киевстара прямо работает над разработкой, привлекая специалистов для обработки данных, создания тестовых бенчмарков и обучения модели. Есть также open call для сбора данных из бизнеса, государственных учреждений и научных сообществ.

Какие критерии используются для выбора базовой платформы украинского LLM?

Команда выбирает базовую платформу для украинского LLM на основе нескольких критериев: открытость и лицензия, архитектура и масштабируемость, качество базовой компетентности в языках, оптимизация ресурсов, а также безопасность и контроль, включая механизмы соответствия целям разработки. Выбор платформы также учитывает требования к безопасности в таких сферах, как оборона.

Какие преимущества имеет создание национальной языковой модели для Украины?

Создание национальной языковой модели предоставляет Украине возможность обеспечить технологический суверенитет, поскольку данные будут оставаться в пределах страны, что является критическим для чувствительных сфер, таких как правительственная, медицинская и военная. Это также позволяет государству контролировать уровень безопасности и минимизировать риски, позволяя использовать модель в государственных сервисах, образовательных проектах и оборонных системах.

Как обеспечивается безопасность данных при разработке украинского ИИ?

Безопасность данных обеспечивается за счет разработки локальной большой языковой модели, которую можно развернуть в своей среде, что позволяет полностью контролировать данные. Это критично для чувствительных сфер, таких как правительственная, медицинская и военная. Первыми пользователями станут правительственные, медицинские и оборонные организации, а команда будет делать тонкую настройку модели под конкретные домены.

Минцифра готовит к запуску собственный ИИ: для чего он Украине, будет ли безопасен во время войны и когда заработает

24 сентября 2025, 16:00

14 мин

Лев Шевченко

Основные тезисы

Минцифра запустит базовую украинскую языковую модель до конца 2025 года с фокусом на безопасность и интеграцию в государственные процессы.
Проект реализуется в сотрудничестве с Киевстаром, с акцентом на уникальность данных и обеспечение технологического суверенитета Украины.

В начале 2025 года Минцифра запустила центр ИИ – WINWIN AI Center of Excellence для интеграции искусственного интеллекта в государственные процессы, в частности в оборону, медицину, образование и бизнес. Одна из его целей – создание украинского искусственного интеллекта, языковой модели, которая будет включать украинские знания и интегрируется в украинские продукты. Это должно быть безопасным, в частности и в оборонной сфере, ведь информация не будет выходить за пределы, уверяют в Минцифре.

Базовую модель украинского ИИ должны запустить до конца этого года. 24 Канал узнавал эксклюзивные детали у Даниила Цьвока, руководитель центра разработки и внедрения ИИ-решений в Минцифры, об украинской языковой модели – для кого она нужна, что в ней будет и будет ли она безопасной.

К теме В Минцифры запустили Центр искусственного интеллекта в Украине: что это, для чего и кто возглавит

Что такое большая языковая модель и способна ли она мыслить как человек?

Большая языковая модель (англ. Large Language Model, LLM) – это компьютерная система, которая умеет работать с человеческим языком: писать тексты, переводить, отвечать на вопросы или даже придумывать истории. Ее название объясняется тем, что она учится на огромных объемах текстов – от книг и статей до сайтов и форумов. Благодаря этому модель усваивает закономерности языка: как строятся предложения, какие слова чаще всего стоят рядом, как формируется стиль и логика высказывания.

Можно представить это так: языковая модель не понимает мир так, как человек, но она прекрасно угадывает, какое слово, фраза или мысль вероятнее всего подходит в определенном контексте. Это позволяет ей выглядеть умной и общаться почти как настоящий собеседник.

Однако стоит помнить: LLM не мыслит и не имеет собственного мнения. Он оперирует тем, что "видел" во время обучения, и может ошибаться или "выдумывать" факты. Поэтому человек всегда остается главным редактором и проверяющим. Другими словами, большая языковая модель – это мощный инструмент работы со словами, который имитирует разговор и помогает человеку, но не заменяет его ум.

Что сейчас с украинской большой языковой моделью?

За время с запуска WINWIN команда определила, как надо двигаться и что разрабатывать, рассказывает Даниил Цьвок. Эта модель базируется на взаимодействии бизнеса, в данном случае Киевстара, и государства, Министерства цифровой трансформации Украины. Соответственно, операционная команда на стороне Киевстара непосредственно работает над разработкой.

Операционная команда сейчас расширяет перечень специалистов, которые будут привлечены в непосредственную разработку языковой модели. Это обработка данных, создание тестовых бенчмарков, построение подхода – пайплайна, каким образом будет осуществляться обучение большой языковой модели. Выбирается фундаментальная модель на базе open-source решений, на которой будет происходить предварительное обучение (pre-training).

Активно происходит процесс комплектования команды на стороне Киевстара – как операционного ядра, которое будет осуществлять технологическую составляющую.

Даниил Цьвок

руководитель центра разработки и внедрения ИИ-решений в Минцифры

Мы также вышли в публичное пространство с open call на сбор данных. Бизнес, государственные учреждения, научные сообщества могут присоединиться к разработке украинской языковой модели и предоставить данные для ее обучения. Этот этап уже завершен. Сейчас прорабатывается юридическая составляющая, чтобы сформировать механизм агрегирования данных. Очень важно не нарушить права интеллектуальной собственности, авторские права.

Даниил Цьвок / Фото предоставлено 24 Каналу Минцифрой

Важно! Уже определены руководители направлений координационной рабочей группы по созданию языковой модели.

• Научно–техническое – Алексей Молчановский, руководитель Офиса по инновациям УКУ, преподаватель факультета прикладных наук УКУ, председатель Экспертно-консультационного комитета по развитию ИИ в Украине при Минцифре.

• Этико-правовое – Елена Андриенко, Chief Legal Tech Officer в Publicis Groupe Ukraine, член Экспертно-консультационного комитета по развитию ИИ в Украине при Минцифре.

• Культурно–историческое – Александр Алферов, председатель Украинского института национальной памяти.

• Языковедческое – Юлия Чернобров, председатель Национальной комиссии по стандартам государственного языка.

Очень важно не нарушить права интеллектуальной собственности и авторские права, – добавляет собеседник.

Даниил Цьвок

руководитель центра разработки и внедрения ИИ-решений в Минцифры

Руководители уже есть, но мы открыто привлекаем экспертов в комитеты. Подавать кандидатуры уже завершили, теперь будут выбирать конкретных людей.

Главные задачи такие:

задать рамку и предоставлять рекомендации разработки модели по вопросам направлений работы комитетов, чтобы минимизировать риски;
валидировать данные для учебного датасета;
сформировать команды экспертов к выбранным лидерам направлений;
построить бенчмарки – тестовые выборки вопросов-ответов, чтобы оценить качество работы модели в украинском контексте с точки зрения этики и отсутствия нарушений прав человека.

Итак, положение дел такое, объясняет Цьвок:

завершается формирование технологической команды проектного офиса на стороне Киевстара;
завершается формирование профильных комитетов рабочей группы;
продолжается сбор данных для обучения модели;
прорабатывается построение бенчмарков – тестов по работе модели по различным аспектам (качества, предупреждения, отсутствия пропаганды, и т.д.);
выбирается базовая модель для обучения.

На базе чего будет работать украинский LLM?

Украинская языковая модель – не совсем новейшее дело. Собственно из украинского там будет "начинка" – база данных, а вот платформа, на которой она будет работать – уже готова.

Цьвок отмечает, что на рынке есть модели от крупных компаний:

Meta (LLaMA);
Google (Gemini);
Microsoft (Phi);
Mistral;
другие.

И сейчас команда выбирает среди них. Есть несколько критериев:

Открытость и лицензия.
Архитектура и масштабируемость – способность эффективно работать как на высокопроизводительных дата-центрах, так и в более ограниченных средах (edge/он-премис).
Качество – базовая компетентность в английском и украинском языках, способность к мультидоменному обучению.
Оптимизация ресурсов – соотношение "качество/производительность/затраты на вычисления", чтобы модель была экономически целесообразной.
Безопасность и контроль – поддержка механизмов alignment (соответствие замыслам разработки и цели), чтобы снизить риски токсичности, предубеждений, манипуляций.

Например, для defense-домена есть ограничения. Это также влияет на выбор.

Будет ли готова Минцифры или Киевстар к тому, что модель будет делать ошибки?

Ошибки – это естественное явление, как и ошибки людей во время обучения. "Мы рассматриваем разработку модели как итерационный процесс", – отмечает Цьвок.

По его словам, сначала будет базовая версия LLM, потом следующие – улучшенные.

Даниил Цьвок

руководитель центра разработки и внедрения ИИ-решений в Минцифры

Когда базовая версия будет готова, мы выложим ее в формате бета-тестирования. К тестированию смогут присоединиться государственные, общественные, научные, образовательные и другие организации. Важная цель – сбор фидбэка. Будет предложен механизм сбора информации о возможных галлюцинациях и предубеждениях, который нивелирует их. Мы готовы открыто коммуницировать эти моменты.

Формат украинского LLM еще определяется. В любом случае модель будет выложена на специализированных ресурсах – например, Hugging Face, или других публичных репозиториях. Конечно, развернуть модель смогут те компании, которые будут иметь соответствующие мощности для этого, говорит Цьвок.

Даниил Цьвок

руководитель центра разработки и внедрения ИИ-решений в Минцифры

В то же время мы думаем над тем, как обеспечить тестовые мощности для более широкого круга пользователей. Это один из вопросов, который тоже является открытым в нашей совместной работе с Киевстаром. Запуск чат-бота технически несложный, но чтобы обеспечить инфраструктуру, нужно соответствующее финансирование. Поэтому мы работаем над тем, чтобы бизнес, граждане и организации могли попробовать использовать модель не только на уровне разработки в своих решениях, но и в формате взаимодействия пользователей с чатом. В любом случае, точно можем сказать, что данная модель будет работать в государственных сервисах для наших граждан.

Есть ли в Европе или США примеры государственного подхода к созданию языковых моделей?

Собственная государственная языковая модель ИИ – не уникальная история. В большинстве стран драйвером является государство, отмечает Даниил Цьвок: это типичная практика, финансирование в основном идет из бюджетов. Есть случаи сотрудничества с бизнесом или университетами, но государство – главный двигатель.

В Украине государство инициировало и координирует процесс, где наш партнер Киевстар взял на себя финансовую составляющую проекта и непосредственную технологическую реализацию. Мы ценим такое сотрудничество,
– добавляет Chief AI Officer Минцифры.

Во многих европейских странах сейчас разрабатывают собственные LLM. Это не только тренд, а технологическая необходимость, которую называют "суверенный ИИ" – это национальная языковая модель с уникальным контекстом и собственная инфраструктура.

"В комплексе это создает технологический суверенитет", – объясняет Цьвок. Например, в Польше около полугода назад создали национальную большую языковую модель – PLLuM. Это был консорциум государства с университетами.

В комплексе это создает технологический суверенитет, где государство имеет мощную основу – украинскую LLM для ИИ-проектов, продукты работают на собственной инфраструктуре, а данные остаются в дата-центрах в пределах страны.

Безопасно ли отдавать украинские секреты искусственному интеллекту?

Учитывая спекуляции о безопасности цифровых сервисов, не лишним будет вопрос о безопасности ИИ. В Минцифре отвечают, что собственно большая языковая модель – это об обеспечении уровня безопасности и минимизации рисков, поэтому Украина разрабатывает локальную модель, которую можно развернуть в своей среде.

Даниил Цьвок

руководитель центра разработки и внедрения ИИ-решений в Минцифры

Это позволяет полностью контролировать данные. Это критично для Украины, особенно для чувствительных сфер: правительственной, медицинской, военной.

Первыми пользователями станут правительственные, медицинские и оборонные организации. Над базовой моделью команда будет делать fine-tuning – тонкую настройку под конкретные домены (медицинский, оборонный, сферу услуг и т.д.).

В первую очередь планируем применять в правительственном и образовательном секторе, в проектах Дия и Мрия. Далее – оборонная и медицинская сферы,
– подробно объясняет Цьвок.

Базовую версию большой языковой модели, которая будет первым шагом к суверенному украинскому искусственному интеллекту, Минцифра планирует реализовать до конца этого года.

Даниил Цьвок

руководитель центра разработки и внедрения ИИ-решений в Минцифры

Далее модель будет выложена в бета-тестировании. Во время этого периода государственные, общественные, научные, образовательные и другие организации смогут загрузить модель и первыми попробовать ее работу. После тестового периода модель будет передана государству и станет open source – то есть доступной всем. Бизнес также сможет присоединиться к бета-тестированию модели, для этого нужно обратиться в Киевстар. Мы будем дообучать модель, чтобы следующие версии были лучше.

Впереди еще немало технических, правовых и этических вызовов, однако запуск базовой версии украинской LLM до конца года станет важной вехой в формировании цифровой независимости и технологического суверенитета государства.