За цей час проєкт пройшов шлях від ідеї до впровадження конкретних технічних рішень. Наразі команди переходять до ключового етапу – масштабної підготовки даних і формування стандартів якості майбутньої LLM, інформує 24 Канал.
Дивіться також Благодійний проєкт "Дитяча надія" від Київстар і dobro․ua відзначає 7 років турботи про дітей
На якому етапі розробка української LLM?
Так, технологічним фундаментом для національної LLM стало сімейство моделей Gemma від Google – ця сучасна відкрита AI-модель нового покоління вже довела свою ефективність у міжнародних і локальних проєктах. Саме її адаптують до української мови, локального контексту та культурно-історичних реалій.
Зараз проєкт перебуває на важливій фазі – триває підготовка на перевірка даних для навчання LLM. Якісна національна модель вимагає не тільки відкритих інтернет джерел, а й опрацювання історичних архівів, документальних матеріалів тощо. Для навчання використовуватимуть спеціально відібрані, деперсоналізовані корпуси текстів.
Збір даних відбувається у взаємодії з державними органами, медіа, закладами вищої освіти та науковими установами. Водночас значна частина цінних матеріалів зберігається виключно в паперовому форматі, що підкреслює необхідність подальшої цифровізації культурної та наукової спадщини України.
Для незалежної оцінки якості розробки сформували експертний комітет із чотирма напрямами роботи: науково-технічним, правовим, культурно-історичним і мовним. Серед його ключових завдань – створення професійних бенчмарків, які дадуть змогу об’єктивно оцінювати якість, коректність і безпеку моделі.
На січень 2026 року командою заплановано отримати:
- першу верифіковану базу текстових даних для тренування української LLM;
- покращений токенізатор, що враховує особливості української мови, аби підвищити швидкість і продуктивність обробки текстів;
- власну систему бенчмарків для оцінки якості, ефективності та безпеки мовної моделі.
Разом з тим створюється юридична рамка, що забезпечує відповідність роботи з даними чинному законодавству та нормам інтелектуальної власності, гарантує прозорість і безпеку процесів.
Запуск першої версії української LLM у форматі бета-тестування заплановано на весну 2026 року. Окремо, у січні 2026 року, у застосунку Дія відбудеться публічне голосування за назву моделі.

