Украина официально начинает разработку собственной большой языковой модели (LLM), которая станет фундаментом для национальных ИИ-сервисов в государственном и частном секторах. Министерство цифровой трансформации и компания Киевстар 17 июня подписали меморандум о стратегическом партнерстве, в рамках которого будет происходить создание украиноязычной LLM, натренированной на открытых данных, адаптированной к национальному контексту и полностью размещенной в пределах страны.

Этот проект является первым шагом к построению суверенной цифровой инфраструктуры Украины в эпоху искусственного интеллекта. Его цель – обеспечить государство, бизнес и граждан эффективными, безопасными и украинскими по происхождению ИИ-решениями. Разработка финансируется полностью за счет Киевстара без привлечения бюджетных средств, а после завершения этапа бета-тестирования модель будет передана государству и станет открытой для общественности в формате open source.

Проект предусматривает глубокую координацию между государством, бизнесом и научным сообществом. Его реализацией будут руководить технический, координационный и этический комитеты. Кроме разработки LLM, в планах – запуск более десяти ИИ-продуктов, в частности ИИ-ассистента в Дие и инструментов анализа нормативно-правовых актов. Подробнее об украинском искусственном интеллекте – в материале 24 Канала.

К теме Директор по искусственному интеллекту: как компании в Украине внедряют ИИ и создают новые должности

18 июня в Украине произошло событие, которое может стать определяющим в формировании цифровой независимости государства: объявлено о запуске проекта создания большой языковой модели (LLM), что будет иметь суверенный статус. Проект будет реализовываться совместно Минцифрой и компанией Киевстар.

Этот день будет важен для нашей страны в целом. Вы знаете, что где-то полгода назад мы приняли стратегию инновации в нашей стране. Это такой первый групповой документ, который мы разрабатывали не один месяц,
– отметил министр цифровой трансформации Михаил Федоров.

По его словам, несмотря на полномасштабную войну, Украина не имеет права остаться в стороне глобальных технологических гонок. Мир не останавливается: инвестирует в человеческий капитал, развивает компании, создает добавленную стоимость: "Мы в этой гонке остаемся, и нам нужно бороться с агрессором, при этом развивать экономику, собственное оружие, образование, человеческий капитал".

Федоров отметил успехи в сферах GovTech и DefenseTech. Украина поднялась со 102-го на 5-е место в мировом рейтинге цифровых государственных услуг, а количество компаний в секторе оборонных технологий выросло:

Мы сделали определенный прорыв в DefenseTech сфере. Мы с 0 компаний дошли до 500, из которых не менее 10 – это инновационные игроки.

Министр акцентировал, что ни одна инновационная стратегия не может существовать без искусственного интеллекта, ведь ИИ-интеллект изменит наш мир так, как в свое время его изменил интернет. Каждая компания будет использовать искусственный интеллект. Исчезнут некоторые бизнес-процессы, целые отрасли трансформируются.

Подписание меморандума – Михаил Федоров и Александр Комаров (справа) / Фото Минцифры

Украина намерена попасть в тройку лидеров мира по уровню практического внедрения ИИ. Для этого уже создан центр компетенций WINWIN, формируется ИИ-визия и инвестиции в инфраструктуру. Отдельно Федоров рассказал о создании суверенной LLM-модели в сотрудничестве с Киевстаром: "Она позволит нам хранить данные в стране, запускать сервисы без риска утечки, работать с уникальными украинскими дата-сетами, как Delta".

Модель будет обучаться исключительно на украинских источниках, без искажений и вражеских ИПСО. Применение – от государственных сервисов до бизнеса, от справок в Дие до аналитики оборонного сектора. Это наши библиотеки, наши ученые, наша история. Вся информация будет оцифрована и использована для обучения модели,
– добавил глава Минцифры.

Проект предусматривает создание стратегического, технического и этического комитетов. Продолжительность – около 9 месяцев. После завершения модель станет open-source для государственных и образовательных учреждений.

Генеральный директор Киевстара Александр Комаров рассказал во время презентации об участии компании:

Мы проходим самую большую трансформацию в истории компании: от оператора связи до поставщика цифровых сервисов. Киевстар уже имеет успешные проекты в телевидении, здравоохранении, мобильности. Участие в создании LLM – это логичный шаг в развитии компетенций.


Александр Комаров / Фото Минцифры

Комаров напомнил, что международная группа VEON, в которую входит Киевстар, уже имеет опыт создания LLM-модели на казахском языке совместно с Barcelona Computing Center:

Это была модель на 80 миллиардов токенов. Сейчас она работает на казахском, английском и турецком языках. Мы хотим реализовать аналогичный подход в Украине.

Проект в Украине также станет вкладом в национальную безопасность и суверенность: "Я считаю, что любая страна с точки зрения нацбезопасности должна иметь собственную LLM-модель. Это независимость, это снижение расходов, это новые возможности".

На момент анонса уже продолжается бета-тест первого ИИ-продукта в Дие – чат-бота, который консультирует по услугам. В будущем к нему присоединятся другие сервисы. Центр компетенций Минцифры уже анализирует нормативно-правовые акты с помощью ИИ, освобождая тысячи часов труда юристов.

После громкого анонса о создании большой языковой модели (LLM) в Украине, в рамках партнерства Минцифры и Киевстара, спикеры ответили на ключевые вопросы журналистов – о расходах, безопасности, коммерческих перспективах и открытости проекта для других игроков.

Как рассказал Михаил Нестор, директор по разработке диджитал-продуктов Киевстар, бюджет проекта еще окончательно не определен из-за научно-исследовательского характера инициативы:

Это действительно никто никогда не делал – LLM на украинском. Мы ведем переговоры с клауд-партнерами, у нас есть собственный клауд-бизнес, и это будет еще одна его ветка.

Он уточнил, что речь идет не о большой команде, а о "10 – 15 очень качественных специалистах", а также дополнительных командах для обработки данных, этики, тестирования: "Сколько нужно, чтобы мы сделали классный проект. Мы не остановимся на полпути".

По его словам, экономить ради посредственного продукта смысла нет – как и сделать продукт хуже Open Source или платных аналогов.

Читайте также В Минцифры запустили Центр искусственного интеллекта в Украине: что это, для чего и кто возглавит

На вопрос о коммерческом интересе Киевстара, Нестор ответил, что компания заинтересована в формировании собственной экспертизы в ИИ:

Мы хотим быть такими же лидерами в ИИ, как и в Data Science. Это стоит больше, чем продажа модели.
Модель будет иметь национальный статус и будет обучена на украинских корпусах данных. Для государства, обороны или финансов – это будут отдельные треки использования.

Александр Борняков, заместитель министра цифровой трансформации, сообщил, что на время тестирования модель будет бесплатной для государственных и образовательных учреждений:

На период тестирования модель будет доступна бесплатно. Затем – для всех.

При обсуждении будущих сценариев использования модели представители Минцифры подтвердили, что одним из вариантов применения станет чат-бот в приложении Дия. По словам заместителя министра цифровой трансформации Александра Борнякова, на то время будет ИИ-система, которая будет в Дие. "Потому что сейчас команда работает над ним. И мы его просто могли бы включить в эту модель, чтобы посмотреть, как она работает", – объяснил Борняков.

Говорится о включении будущей LLM-модели к уже имеющемуся функционалу, в частности в рамках джема (пробного запуска). Основная цель – собрать обратную связь о качестве работы системы:

Когда будет первая версия модели, нам важно будет получить фидбэк по качеству. Не исключено, что тестирование на государственном продукте станет одним из способов выявить, что нужно усовершенствовать, перед тем как модель станет полноценным open-source-решением.

Таким образом, публичный чат-бот, доступный гражданам, является частью стратегического плана тестирования и совершенствования LLM-модели до ее полноценного релиза.

К теме Минцифра запускает "песочницу" для ИИ-стартапов: что это такое и как будет работать

Михаил Нестор подтвердил, что к проекту могут присоединяться и другие компании: "Мы открыты. Можем инвестировать вместе".

Даниил Цьвок, Chief AI Officer Минцифры, добавил, что процесс создания модели не ограничится 9 месяцами: "Это длительный процесс, который предусматривает совершенствование данных, оцифровки, привлечения новых партнеров".

На вопрос о безопасности и борьбе с "галлюцинациями" LLM-моделей Даниил Цьвок объяснил:

  • инфраструктура будет сертифицированной;
  • персональные данные не будут попадать в тренировочную выборку;
  • будут применяться гардрейлы – фильтры для входящих и исходящих запросов;
  • будет работать этический комитет для контроля предубеждений;
  • будет проводиться Human Evaluation – человеческая оценка качества результатов.

"Этот вопрос суперприоритетный. Безопасность – и в процессе разработки, и в использовании", – добавил Цьвок. Относительно объема корпуса на украинском Цьвок признал, что этого недостаточно даже для модели среднего размера: "Надо будет сделать open call, инициативу для сбора дополнительных данных. Частные организации также могут присоединиться."

При этом все данные должны собираться с соблюдением авторского права и законодательства.

Нестор и Борняков также подтвердили, что модель будет интегрироваться в сервисы государства и бизнеса:
"Это будет как интернет. Это не выбор – это волна. Она будет во всех продуктах, компаниях, госучреждениях." Цьвок привел такой прогноз: "Если 22 миллиона пользователей ежегодно будут делать более 100 миллионов запросов – экономический эффект будет колоссальный".