В чому суть нового методу
Суть цього досягнення полягає у впровадженні "шарів швидкого прямого поширення" (FFF), які замінюють традиційні шари прямого поширення в нейронних мережах.
Читайте на сайті Більше ніж люди: згенеровані ШІ інфлюенсери заробляють за місяць шалені суми
Ці шари FFF використовують умовне матричне множення (CMM), що є відходом від обчислювально інтенсивного щільного матричного множення (DMM), яке використовується у звичайних налаштуваннях. Вибірково активуючи нейрони на основі вхідних даних, FFF зменшує обчислювальне навантаження, пропонуючи помітні переваги для таких мовних моделей, як BERT і GPT-3.
Експерименти демонструють ефективність
В експериментах з моделлю BERT дослідники досягли скорочення обчислень на 99%. Подальша розробка FastBERT, модифікації моделі BERT Transformer від Google, продемонструвала порівнянну з базовими моделями продуктивність. Примітно, що найефективніша модель FastBERT відповідала продуктивності оригінальної моделі BERT, використовуючи при цьому лише 0,3% нейронів, що поширюються вперед.
Потенційні наслідки виходять за рамки BERT: дослідники припускають, що реалізація FFF в GPT-3 може призвести до більш ніж 300-кратного покращення вихідної швидкості. Хоча множення щільних матриць історично вважається високооптимізованою математичною операцією, її обмеження в програмних інтерфейсах вирішуються за допомогою умовного множення матриць FFF.
Дивіться також США, Британія та ще 16 країн підписали угоду про штучний інтелект: про що вона
Цей прорив обіцяє демократизувати доступ до передових мовних моделей, подолавши розрив між компаніями з великими обчислювальними ресурсами та компаніями з обмеженими можливостями. Потенціал для значного збільшення швидкості навчання мовних моделей ШІ вирішує критичну проблему в цій галузі – генерацію токенів в секунду, відкриваючи можливості для більш ефективної обробки запитів і підвищення продуктивності моделі.