Новий метод прискорює навчання мовних моделей штучного інтелекту в 300 разів

Михайло Года

Джерело:

Venture Beat

Ілюстративне фото / Venture Beat

Дослідники зі Швейцарської вищої технічної школи Цюріха представили революційний метод, здатний значно прискорити навчання мовних моделей штучного інтелекту (ШІ). Інноваційний підхід, детально описаний у нещодавній статті, фокусується на модифікації процесу виведення для оптимізації обчислювальних вимог нейронних мереж.

В чому суть нового методу

Суть цього досягнення полягає у впровадженні "шарів швидкого прямого поширення" (FFF), які замінюють традиційні шари прямого поширення в нейронних мережах.

Читайте на сайті Більше ніж люди: згенеровані ШІ інфлюенсери заробляють за місяць шалені суми

Ці шари FFF використовують умовне матричне множення (CMM), що є відходом від обчислювально інтенсивного щільного матричного множення (DMM), яке використовується у звичайних налаштуваннях. Вибірково активуючи нейрони на основі вхідних даних, FFF зменшує обчислювальне навантаження, пропонуючи помітні переваги для таких мовних моделей, як BERT і GPT-3.

Експерименти демонструють ефективність

В експериментах з моделлю BERT дослідники досягли скорочення обчислень на 99%. Подальша розробка FastBERT, модифікації моделі BERT Transformer від Google, продемонструвала порівнянну з базовими моделями продуктивність. Примітно, що найефективніша модель FastBERT відповідала продуктивності оригінальної моделі BERT, використовуючи при цьому лише 0,3% нейронів, що поширюються вперед.

Потенційні наслідки виходять за рамки BERT: дослідники припускають, що реалізація FFF в GPT-3 може призвести до більш ніж 300-кратного покращення вихідної швидкості. Хоча множення щільних матриць історично вважається високооптимізованою математичною операцією, її обмеження в програмних інтерфейсах вирішуються за допомогою умовного множення матриць FFF.

Дивіться також США, Британія та ще 16 країн підписали угоду про штучний інтелект: про що вона

Цей прорив обіцяє демократизувати доступ до передових мовних моделей, подолавши розрив між компаніями з великими обчислювальними ресурсами та компаніями з обмеженими можливостями. Потенціал для значного збільшення швидкості навчання мовних моделей ШІ вирішує критичну проблему в цій галузі – генерацію токенів в секунду, відкриваючи можливості для більш ефективної обробки запитів і підвищення продуктивності моделі.