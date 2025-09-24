В начале 2025 года Минцифра запустила центр ИИ – WINWIN AI Center of Excellence для интеграции искусственного интеллекта в государственные процессы, в частности в оборону, медицину, образование и бизнес. Одна из его целей – создание украинского искусственного интеллекта, языковой модели, которая будет включать украинские знания и интегрируется в украинские продукты. Это должно быть безопасным, в частности и в оборонной сфере, ведь информация не будет выходить за пределы, уверяют в Минцифре.

Базовую модель украинского ИИ должны запустить до конца этого года. 24 Канал узнавал эксклюзивные детали у Даниила Цьвока, руководитель центра разработки и внедрения ИИ-решений в Минцифры, об украинской языковой модели – для кого она нужна, что в ней будет и будет ли она безопасной.

Что такое большая языковая модель и способна ли она мыслить как человек?

Большая языковая модель (англ. Large Language Model, LLM) – это компьютерная система, которая умеет работать с человеческим языком: писать тексты, переводить, отвечать на вопросы или даже придумывать истории. Ее название объясняется тем, что она учится на огромных объемах текстов – от книг и статей до сайтов и форумов. Благодаря этому модель усваивает закономерности языка: как строятся предложения, какие слова чаще всего стоят рядом, как формируется стиль и логика высказывания.

Можно представить это так: языковая модель не понимает мир так, как человек, но она прекрасно угадывает, какое слово, фраза или мысль вероятнее всего подходит в определенном контексте. Это позволяет ей выглядеть умной и общаться почти как настоящий собеседник.

Однако стоит помнить: LLM не мыслит и не имеет собственного мнения. Он оперирует тем, что "видел" во время обучения, и может ошибаться или "выдумывать" факты. Поэтому человек всегда остается главным редактором и проверяющим. Другими словами, большая языковая модель – это мощный инструмент работы со словами, который имитирует разговор и помогает человеку, но не заменяет его ум.

Что сейчас с украинской большой языковой моделью?

За время с запуска WINWIN команда определила, как надо двигаться и что разрабатывать, рассказывает Даниил Цьвок. Эта модель базируется на взаимодействии бизнеса, в данном случае Киевстара, и государства, Министерства цифровой трансформации Украины. Соответственно, операционная команда на стороне Киевстара непосредственно работает над разработкой.

Операционная команда сейчас расширяет перечень специалистов, которые будут привлечены в непосредственную разработку языковой модели. Это обработка данных, создание тестовых бенчмарков, построение подхода – пайплайна, каким образом будет осуществляться обучение большой языковой модели. Выбирается фундаментальная модель на базе open-source решений, на которой будет происходить предварительное обучение (pre-training).

Активно происходит процесс комплектования команды на стороне Киевстара – как операционного ядра, которое будет осуществлять технологическую составляющую.

Даниил Цьвок руководитель центра разработки и внедрения ИИ-решений в Минцифры Мы также вышли в публичное пространство с open call на сбор данных. Бизнес, государственные учреждения, научные сообщества могут присоединиться к разработке украинской языковой модели и предоставить данные для ее обучения. Этот этап уже завершен. Сейчас прорабатывается юридическая составляющая, чтобы сформировать механизм агрегирования данных. Очень важно не нарушить права интеллектуальной собственности, авторские права.



Важно! Уже определены руководители направлений координационной рабочей группы по созданию языковой модели.



• Научно–техническое – Алексей Молчановский, руководитель Офиса по инновациям УКУ, преподаватель факультета прикладных наук УКУ, председатель Экспертно-консультационного комитета по развитию ИИ в Украине при Минцифре.



• Этико-правовое – Елена Андриенко, Chief Legal Tech Officer в Publicis Groupe Ukraine, член Экспертно-консультационного комитета по развитию ИИ в Украине при Минцифре.



• Культурно–историческое – Александр Алферов, председатель Украинского института национальной памяти.



• Языковедческое – Юлия Чернобров, председатель Национальной комиссии по стандартам государственного языка.

Со стороны государства идет процесс определения данных в различных институтах, чтобы понять, какие именно данные и в какой правовой плоскости можно использовать для обучения. Этот этап уже завершен, говорит Цьвок. Сейчас прорабатывается юридическая составляющая, чтобы придумать механизм агрегирования данных.

Очень важно не нарушить права интеллектуальной собственности и авторские права, – добавляет собеседник.

Даниил Цьвок руководитель центра разработки и внедрения ИИ-решений в Минцифры Руководители уже есть, но мы открыто привлекаем экспертов в комитеты. Подавать кандидатуры уже завершили, теперь будут выбирать конкретных людей.

Главные задачи такие:

задать рамку и предоставлять рекомендации разработки модели по вопросам направлений работы комитетов, чтобы минимизировать риски;

валидировать данные для учебного датасета;

сформировать команды экспертов к выбранным лидерам направлений;

построить бенчмарки – тестовые выборки вопросов-ответов, чтобы оценить качество работы модели в украинском контексте с точки зрения этики и отсутствия нарушений прав человека.

Итак, положение дел такое, объясняет Цьвок:

завершается формирование технологической команды проектного офиса на стороне Киевстара;

завершается формирование профильных комитетов рабочей группы;

продолжается сбор данных для обучения модели;

прорабатывается построение бенчмарков – тестов по работе модели по различным аспектам (качества, предупреждения, отсутствия пропаганды, и т.д.);

выбирается базовая модель для обучения.

На базе чего будет работать украинский LLM?

Украинская языковая модель – не совсем новейшее дело. Собственно из украинского там будет "начинка" – база данных, а вот платформа, на которой она будет работать – уже готова.

Цьвок отмечает, что на рынке есть модели от крупных компаний:

Meta (LLaMA);

Google (Gemini);

Microsoft (Phi);

Mistral;

другие.

И сейчас команда выбирает среди них. Есть несколько критериев:

Открытость и лицензия.

Архитектура и масштабируемость – способность эффективно работать как на высокопроизводительных дата-центрах, так и в более ограниченных средах (edge/он-премис).

Качество – базовая компетентность в английском и украинском языках, способность к мультидоменному обучению.

Оптимизация ресурсов – соотношение "качество/производительность/затраты на вычисления", чтобы модель была экономически целесообразной.

Безопасность и контроль – поддержка механизмов alignment (соответствие замыслам разработки и цели), чтобы снизить риски токсичности, предубеждений, манипуляций.

Например, для defense-домена есть ограничения. Это также влияет на выбор.

Будет ли готова Минцифры или Киевстар к тому, что модель будет делать ошибки?

Ошибки – это естественное явление, как и ошибки людей во время обучения. "Мы рассматриваем разработку модели как итерационный процесс", – отмечает Цьвок.

По его словам, сначала будет базовая версия LLM, потом следующие – улучшенные.

Даниил Цьвок руководитель центра разработки и внедрения ИИ-решений в Минцифры Когда базовая версия будет готова, мы выложим ее в формате бета-тестирования. К тестированию смогут присоединиться государственные, общественные, научные, образовательные и другие организации. Важная цель – сбор фидбэка. Будет предложен механизм сбора информации о возможных галлюцинациях и предубеждениях, который нивелирует их. Мы готовы открыто коммуницировать эти моменты.

Формат украинского LLM еще определяется. В любом случае модель будет выложена на специализированных ресурсах – например, Hugging Face, или других публичных репозиториях. Конечно, развернуть модель смогут те компании, которые будут иметь соответствующие мощности для этого, говорит Цьвок.

Даниил Цьвок руководитель центра разработки и внедрения ИИ-решений в Минцифры В то же время мы думаем над тем, как обеспечить тестовые мощности для более широкого круга пользователей. Это один из вопросов, который тоже является открытым в нашей совместной работе с Киевстаром. Запуск чат-бота технически несложный, но чтобы обеспечить инфраструктуру, нужно соответствующее финансирование Поэтому мы работаем над тем, чтобы бизнес, граждане и организации могли попробовать использовать модель не только на уровне разработки в своих решениях, но и в формате взаимодействия пользователей с чатом. В любом случае, точно можем сказать, что данная модель будет работать в государственных сервисах для наших граждан.

Есть ли в Европе или США примеры государственного подхода к созданию языковых моделей?

Собственная государственная языковая модель ИИ – не уникальная история. В большинстве стран драйвером является государство, отмечает Даниил Цьвок: это типичная практика, финансирование в основном идет из бюджетов. Есть случаи сотрудничества с бизнесом или университетами, но государство – главный двигатель.

В Украине государство инициировало и координирует процесс, где наш партнер Киевстар взял на себя финансовую составляющую проекта и непосредственную технологическую реализацию. Мы ценим такое сотрудничество,

– добавляет Chief AI Officer Минцифры.

Во многих европейских странах сейчас разрабатывают собственные LLM. Это не только тренд, а технологическая необходимость, которую называют "суверенный ИИ" – это национальная языковая модель с уникальным контекстом и собственная инфраструктура.

"В комплексе это создает технологический суверенитет", – объясняет Цьвок. Например, в Польше около полугода назад создали национальную большую языковую модель – PLLuM. Это был консорциум государства с университетами.

В комплексе это создает технологический суверенитет, где государство имеет мощную основу – украинскую LLM для ИИ-проектов, продукты работают на собственной инфраструктуре, а данные остаются в дата-центрах в пределах страны.

Безопасно ли отдавать украинские секреты искусственному интеллекту?

Учитывая спекуляции о безопасности цифровых сервисов, не лишним будет вопрос о безопасности ИИ. В Минцифре отвечают, что собственно большая языковая модель – это об обеспечении уровня безопасности и минимизации рисков, поэтому Украина разрабатывает локальную модель, которую можно развернуть в своей среде.

Читайте также "Утечка" данных миллионов украинцев: все, что известно о ситуации, позиция Дии, советы для защиты

Даниил Цьвок руководитель центра разработки и внедрения ИИ-решений в Минцифры Это позволяет полностью контролировать данные. Это критично для Украины, особенно для чувствительных сфер: правительственной, медицинской, военной.

Первыми пользователями станут правительственные, медицинские и оборонные организации. Над базовой моделью команда будет делать fine-tuning – тонкую настройку под конкретные домены (медицинский, оборонный, сферу услуг и т.д.).

В первую очередь планируем применять в правительственном и образовательном секторе, в проектах Дия и Мрия. Далее – оборонная и медицинская сферы,

– подробно объясняет Цьвок.

Базовую версию большой языковой модели, которая будет первым шагом к суверенному украинскому искусственному интеллекту, Минцифра планирует реализовать до конца этого года.

Даниил Цьвок руководитель центра разработки и внедрения ИИ-решений в Минцифры Далее модель будет выложена в бета-тестировании. Во время этого периода государственные, общественные, научные, образовательные и другие организации смогут загрузить модель и первыми попробовать ее работу. После тестового периода модель будет передана государству и станет open source – то есть доступной всем. Бизнес также сможет присоединиться к бета-тестированию модели, для этого нужно обратиться в Киевстар. Мы будем дообучать модель, чтобы следующие версии были лучше.

Впереди еще немало технических, правовых и этических вызовов, однако запуск базовой версии украинской LLM до конца года станет важной вехой в формировании цифровой независимости и технологического суверенитета государства.