Укр Рус
7 січня, 17:44
2

Київстар та Мінцифра переходять до ключового етапу розробки національної LLM

ПАРТНЕРСЬКИЙ МАТЕРІАЛ

У 2025 році WINWIN AI Center of Excellence при Міністерстві цифрової трансформації України у партнерстві з національним оператором електронних комунікацій Київстар визначили пріоритетний напрям – розробку національної мовної моделі. Київстар став стратегічним партнером держави та операційним виконавцем розробки.

За цей час проєкт пройшов шлях від ідеї до впровадження конкретних технічних рішень. Наразі команди переходять до ключового етапу – масштабної підготовки даних і формування стандартів якості майбутньої LLM, інформує 24 Канал

Дивіться також Благодійний проєкт "Дитяча надія" від Київстар і dobro․ua відзначає 7 років турботи про дітей 

На якому етапі розробка української LLM?

Так, технологічним фундаментом для національної LLM стало сімейство моделей Gemma від Google – ця сучасна відкрита AI-модель нового покоління вже довела свою ефективність у міжнародних і локальних проєктах. Саме її адаптують до української мови, локального контексту та культурно-історичних реалій.

Зараз проєкт перебуває на важливій фазі – триває підготовка на перевірка даних для навчання LLM. Якісна національна модель вимагає не тільки відкритих інтернет джерел, а й опрацювання історичних архівів, документальних матеріалів тощо. Для навчання використовуватимуть спеціально відібрані, деперсоналізовані корпуси текстів.

Збір даних відбувається у взаємодії з державними органами, медіа, закладами вищої освіти та науковими установами. Водночас значна частина цінних матеріалів зберігається виключно в паперовому форматі, що підкреслює необхідність подальшої цифровізації культурної та наукової спадщини України.

Для незалежної оцінки якості розробки сформували експертний комітет із чотирма напрямами роботи: науково-технічним, правовим, культурно-історичним і мовним. Серед його ключових завдань – створення професійних бенчмарків, які дадуть змогу об’єктивно оцінювати якість, коректність і безпеку моделі.

На січень 2026 року командою заплановано отримати:

  • першу верифіковану базу текстових даних для тренування української LLM;
  • покращений токенізатор, що враховує особливості української мови, аби підвищити швидкість і продуктивність обробки текстів;
  • власну систему бенчмарків для оцінки якості, ефективності та безпеки мовної моделі.

Разом з тим створюється юридична рамка, що забезпечує відповідність роботи з даними чинному законодавству та нормам інтелектуальної власності, гарантує прозорість і безпеку процесів.

Запуск першої версії української LLM у форматі бета-тестування заплановано на весну 2026 року. Окремо, у січні 2026 року, у застосунку Дія відбудеться публічне голосування за назву моделі.