В начале 2025 года Минцифра запустила центр ИИ – WINWIN AI Center of Excellence для интеграции искусственного интеллекта в государственные процессы, в частности в оборону, медицину, образование и бизнес. Одна из его целей – создание украинского искусственного интеллекта, языковой модели, которая будет включать украинские знания и интегрируется в украинские продукты. Это должно быть безопасным, в частности и в оборонной сфере, ведь информация не будет выходить за пределы, уверяют в Минцифре.
Базовую модель украинского ИИ должны запустить до конца этого года. 24 Канал узнавал эксклюзивные детали у Даниила Цьвока, руководитель центра разработки и внедрения ИИ-решений в Минцифры, об украинской языковой модели – для кого она нужна, что в ней будет и будет ли она безопасной.
К теме В Минцифры запустили Центр искусственного интеллекта в Украине: что это, для чего и кто возглавит
Что такое большая языковая модель и способна ли она мыслить как человек?
Большая языковая модель (англ. Large Language Model, LLM) – это компьютерная система, которая умеет работать с человеческим языком: писать тексты, переводить, отвечать на вопросы или даже придумывать истории. Ее название объясняется тем, что она учится на огромных объемах текстов – от книг и статей до сайтов и форумов. Благодаря этому модель усваивает закономерности языка: как строятся предложения, какие слова чаще всего стоят рядом, как формируется стиль и логика высказывания.
Можно представить это так: языковая модель не понимает мир так, как человек, но она прекрасно угадывает, какое слово, фраза или мысль вероятнее всего подходит в определенном контексте. Это позволяет ей выглядеть умной и общаться почти как настоящий собеседник.
Однако стоит помнить: LLM не мыслит и не имеет собственного мнения. Он оперирует тем, что "видел" во время обучения, и может ошибаться или "выдумывать" факты. Поэтому человек всегда остается главным редактором и проверяющим. Другими словами, большая языковая модель – это мощный инструмент работы со словами, который имитирует разговор и помогает человеку, но не заменяет его ум.
Что сейчас с украинской большой языковой моделью?
За время с запуска WINWIN команда определила, как надо двигаться и что разрабатывать, рассказывает Даниил Цьвок. Эта модель базируется на взаимодействии бизнеса, в данном случае Киевстара, и государства, Министерства цифровой трансформации Украины. Соответственно, операционная команда на стороне Киевстара непосредственно работает над разработкой.
Операционная команда сейчас расширяет перечень специалистов, которые будут привлечены в непосредственную разработку языковой модели. Это обработка данных, создание тестовых бенчмарков, построение подхода – пайплайна, каким образом будет осуществляться обучение большой языковой модели. Выбирается фундаментальная модель на базе open-source решений, на которой будет происходить предварительное обучение (pre-training).
Активно происходит процесс комплектования команды на стороне Киевстара – как операционного ядра, которое будет осуществлять технологическую составляющую.
Мы также вышли в публичное пространство с open call на сбор данных. Бизнес, государственные учреждения, научные сообщества могут присоединиться к разработке украинской языковой модели и предоставить данные для ее обучения. Этот этап уже завершен. Сейчас прорабатывается юридическая составляющая, чтобы сформировать механизм агрегирования данных. Очень важно не нарушить права интеллектуальной собственности, авторские права.
Даниил Цьвок / Фото предоставлено 24 Каналу Минцифрой
Важно! Уже определены руководители направлений координационной рабочей группы по созданию языковой модели.
• Научно–техническое – Алексей Молчановский, руководитель Офиса по инновациям УКУ, преподаватель факультета прикладных наук УКУ, председатель Экспертно-консультационного комитета по развитию ИИ в Украине при Минцифре.
• Этико-правовое – Елена Андриенко, Chief Legal Tech Officer в Publicis Groupe Ukraine, член Экспертно-консультационного комитета по развитию ИИ в Украине при Минцифре.
• Культурно–историческое – Александр Алферов, председатель Украинского института национальной памяти.
• Языковедческое – Юлия Чернобров, председатель Национальной комиссии по стандартам государственного языка.
Очень важно не нарушить права интеллектуальной собственности и авторские права, – добавляет собеседник.
Руководители уже есть, но мы открыто привлекаем экспертов в комитеты. Подавать кандидатуры уже завершили, теперь будут выбирать конкретных людей.
Главные задачи такие:
- задать рамку и предоставлять рекомендации разработки модели по вопросам направлений работы комитетов, чтобы минимизировать риски;
- валидировать данные для учебного датасета;
- сформировать команды экспертов к выбранным лидерам направлений;
- построить бенчмарки – тестовые выборки вопросов-ответов, чтобы оценить качество работы модели в украинском контексте с точки зрения этики и отсутствия нарушений прав человека.
Итак, положение дел такое, объясняет Цьвок:
- завершается формирование технологической команды проектного офиса на стороне Киевстара;
- завершается формирование профильных комитетов рабочей группы;
- продолжается сбор данных для обучения модели;
- прорабатывается построение бенчмарков – тестов по работе модели по различным аспектам (качества, предупреждения, отсутствия пропаганды, и т.д.);
- выбирается базовая модель для обучения.
На базе чего будет работать украинский LLM?
Украинская языковая модель – не совсем новейшее дело. Собственно из украинского там будет "начинка" – база данных, а вот платформа, на которой она будет работать – уже готова.
Цьвок отмечает, что на рынке есть модели от крупных компаний:
- Meta (LLaMA);
- Google (Gemini);
- Microsoft (Phi);
- Mistral;
- другие.
И сейчас команда выбирает среди них. Есть несколько критериев:
- Открытость и лицензия.
- Архитектура и масштабируемость – способность эффективно работать как на высокопроизводительных дата-центрах, так и в более ограниченных средах (edge/он-премис).
- Качество – базовая компетентность в английском и украинском языках, способность к мультидоменному обучению.
- Оптимизация ресурсов – соотношение "качество/производительность/затраты на вычисления", чтобы модель была экономически целесообразной.
- Безопасность и контроль – поддержка механизмов alignment (соответствие замыслам разработки и цели), чтобы снизить риски токсичности, предубеждений, манипуляций.
Например, для defense-домена есть ограничения. Это также влияет на выбор.
Читайте также Превосходит человеческий: что за сверхчеловеческий искусственный интеллект от Google и OpenAI и почему является угрозой
Будет ли готова Минцифры или Киевстар к тому, что модель будет делать ошибки?
Ошибки – это естественное явление, как и ошибки людей во время обучения. "Мы рассматриваем разработку модели как итерационный процесс", – отмечает Цьвок.
По его словам, сначала будет базовая версия LLM, потом следующие – улучшенные.
Когда базовая версия будет готова, мы выложим ее в формате бета-тестирования. К тестированию смогут присоединиться государственные, общественные, научные, образовательные и другие организации. Важная цель – сбор фидбэка. Будет предложен механизм сбора информации о возможных галлюцинациях и предубеждениях, который нивелирует их. Мы готовы открыто коммуницировать эти моменты.
Формат украинского LLM еще определяется. В любом случае модель будет выложена на специализированных ресурсах – например, Hugging Face, или других публичных репозиториях. Конечно, развернуть модель смогут те компании, которые будут иметь соответствующие мощности для этого, говорит Цьвок.
В то же время мы думаем над тем, как обеспечить тестовые мощности для более широкого круга пользователей. Это один из вопросов, который тоже является открытым в нашей совместной работе с Киевстаром. Запуск чат-бота технически несложный, но чтобы обеспечить инфраструктуру, нужно соответствующее финансирование. Поэтому мы работаем над тем, чтобы бизнес, граждане и организации могли попробовать использовать модель не только на уровне разработки в своих решениях, но и в формате взаимодействия пользователей с чатом. В любом случае, точно можем сказать, что данная модель будет работать в государственных сервисах для наших граждан.
Есть ли в Европе или США примеры государственного подхода к созданию языковых моделей?
Собственная государственная языковая модель ИИ – не уникальная история. В большинстве стран драйвером является государство, отмечает Даниил Цьвок: это типичная практика, финансирование в основном идет из бюджетов. Есть случаи сотрудничества с бизнесом или университетами, но государство – главный двигатель.
В Украине государство инициировало и координирует процесс, где наш партнер Киевстар взял на себя финансовую составляющую проекта и непосредственную технологическую реализацию. Мы ценим такое сотрудничество,
– добавляет Chief AI Officer Минцифры.
Во многих европейских странах сейчас разрабатывают собственные LLM. Это не только тренд, а технологическая необходимость, которую называют "суверенный ИИ" – это национальная языковая модель с уникальным контекстом и собственная инфраструктура.
"В комплексе это создает технологический суверенитет", – объясняет Цьвок. Например, в Польше около полугода назад создали национальную большую языковую модель – PLLuM. Это был консорциум государства с университетами.
В комплексе это создает технологический суверенитет, где государство имеет мощную основу – украинскую LLM для ИИ-проектов, продукты работают на собственной инфраструктуре, а данные остаются в дата-центрах в пределах страны.
Безопасно ли отдавать украинские секреты искусственному интеллекту?
Учитывая спекуляции о безопасности цифровых сервисов, не лишним будет вопрос о безопасности ИИ. В Минцифре отвечают, что собственно большая языковая модель – это об обеспечении уровня безопасности и минимизации рисков, поэтому Украина разрабатывает локальную модель, которую можно развернуть в своей среде.
Читайте также "Утечка" данных миллионов украинцев: все, что известно о ситуации, позиция Дии, советы для защиты
Это позволяет полностью контролировать данные. Это критично для Украины, особенно для чувствительных сфер: правительственной, медицинской, военной.
Первыми пользователями станут правительственные, медицинские и оборонные организации. Над базовой моделью команда будет делать fine-tuning – тонкую настройку под конкретные домены (медицинский, оборонный, сферу услуг и т.д.).
В первую очередь планируем применять в правительственном и образовательном секторе, в проектах Дия и Мрия. Далее – оборонная и медицинская сферы,
– подробно объясняет Цьвок.
Базовую версию большой языковой модели, которая будет первым шагом к суверенному украинскому искусственному интеллекту, Минцифра планирует реализовать до конца этого года.
Далее модель будет выложена в бета-тестировании. Во время этого периода государственные, общественные, научные, образовательные и другие организации смогут загрузить модель и первыми попробовать ее работу. После тестового периода модель будет передана государству и станет open source – то есть доступной всем. Бизнес также сможет присоединиться к бета-тестированию модели, для этого нужно обратиться в Киевстар. Мы будем дообучать модель, чтобы следующие версии были лучше.
Впереди еще немало технических, правовых и этических вызовов, однако запуск базовой версии украинской LLM до конца года станет важной вехой в формировании цифровой независимости и технологического суверенитета государства.



