За цей час проєкт пройшов шлях від ідеї до впровадження конкретних технічних рішень. Наразі команди переходять до ключового етапу – масштабної підготовки даних і формування стандартів якості майбутньої LLM, інформує 24 Канал.

Дивіться також Благодійний проєкт "Дитяча надія" від Київстар і dobro․ua відзначає 7 років турботи про дітей

На якому етапі розробка української LLM?

Так, технологічним фундаментом для національної LLM стало сімейство моделей Gemma від Google – ця сучасна відкрита AI-модель нового покоління вже довела свою ефективність у міжнародних і локальних проєктах. Саме її адаптують до української мови, локального контексту та культурно-історичних реалій.

Зараз проєкт перебуває на важливій фазі – триває підготовка на перевірка даних для навчання LLM. Якісна національна модель вимагає не тільки відкритих інтернет джерел, а й опрацювання історичних архівів, документальних матеріалів тощо. Для навчання використовуватимуть спеціально відібрані, деперсоналізовані корпуси текстів.

Збір даних відбувається у взаємодії з державними органами, медіа, закладами вищої освіти та науковими установами. Водночас значна частина цінних матеріалів зберігається виключно в паперовому форматі, що підкреслює необхідність подальшої цифровізації культурної та наукової спадщини України.

Для незалежної оцінки якості розробки сформували експертний комітет із чотирма напрямами роботи: науково-технічним, правовим, культурно-історичним і мовним. Серед його ключових завдань – створення професійних бенчмарків, які дадуть змогу об’єктивно оцінювати якість, коректність і безпеку моделі.

На січень 2026 року командою заплановано отримати:

  • першу верифіковану базу текстових даних для тренування української LLM;
  • покращений токенізатор, що враховує особливості української мови, аби підвищити швидкість і продуктивність обробки текстів;
  • власну систему бенчмарків для оцінки якості, ефективності та безпеки мовної моделі.

Разом з тим створюється юридична рамка, що забезпечує відповідність роботи з даними чинному законодавству та нормам інтелектуальної власності, гарантує прозорість і безпеку процесів.

Запуск першої версії української LLM у форматі бета-тестування заплановано на весну 2026 року. Окремо, у січні 2026 року, у застосунку Дія відбудеться публічне голосування за назву моделі.