В усьому світі закінчуються дані для навчання штучного інтелекту

Олександр Гайдамашко

Джерело:

The Conversation

Розробники штучного інтелекту починають відчувати нестачу навчальних даних

Ілюстративне фото / Freepik

Дослідники попереджають, що в найближчому майбутньому може закінчитися запас даних для навчання штучного інтелекту. Це може сильно сповільнити розвиток усієї галузі, особливо генеративних мовних моделей.

ШІ стикається з проблемою

Для навчання потужних, точних і якісних алгоритмів ШІ потрібна велика кількість даних. Наприклад, ChatGPT навчався на 570 гігабайтах текстових даних, або близько 300 мільярдах слів. Алгоритм стабільної дифузії, на якому засновано багато нейромереж для створення зображень, включно з DALL-E, Lensa і Midjourney, навчений на наборі даних LIAON-5B, що складається з 5,8 мільярда пар "зображення-текст". Якщо алгоритм навчається на недостатній кількості даних, він видаватиме неточні та неякісні результати.

Дивіться також Головний розробник ChatGPT висміяв штучний інтелект Ілона Маска

Якість навчальних даних також має велике значення. Низькоякісні дані, як-от повідомлення в соцмережах (привіт, Ілоне Маск) або фотографії низької роздільної здатності, легко отримати, але їх недостатньо для навчання високоефективних моделей ШІ. Тексти, взяті із соціальних мереж, можуть бути необ'єктивними або упередженими, містити дезінформацію і навіть незаконний контент.

Саме тому розробники ШІ прагнуть використовувати високоякісний контент:

Книги.
Інтернет-статті.
Наукові праці.
"Вікіпедію".
Відфільтрований вебконтент та інші подібні тексти, написані та відредаговані, як правло, компетентними людьми.

Індустрія навчає системи ШІ на дедалі ширших наборах даних, тому сьогодні ми маємо такі високоефективні моделі, як ChatGPT або DALL-E 3. Однак запаси даних в інтернеті зростають набагато повільніше, ніж потреби в навчанні штучного інтелекту.

За оцінками аудиторсько-консалтингової групи PwC, до 2030 року ШІ може принести світовій економіці до 15,7 трильйона доларів. Однак брак придатних для використання даних може загальмувати розвиток галузі. Утім, ситуація може виявитися не такою поганою, як прогнозується.

Виправити ситуацію можна, наприклад, завдяки вдосконаленню алгоритмів, що дають змогу ефективніше використовувати вже наявні дані. Цілком імовірно, що найближчими роками розробники зможуть навчати високопродуктивні системи ШІ, використовуючи менший обсяг даних і, можливо, меншу обчислювальну потужність.
Розробники також зможуть дещо розширити кількість доступних матеріалів кількома додатковими шляхами, як-от створення синтетичних даних за допомогою інших ШІ, оцифрування мільйонів текстів, створених пресою до появи інтернету, або ж укладання угод з правовласниками текстового контенту й оплати їм за навчальні дані. Але ясно, що й це рано чи пізно закінчиться.