Новый метод ускоряет обучение языковым моделям искусственного интеллекта в 300 раз

29 ноября 2023, 15:07
Читати новину українською

Источник:

Venture Beat

Исследователи из Швейцарской высшей технической школы Цюриха представили революционный метод, способный значительно ускорить обучение языковым моделям искусственного интеллекта (ИИ). Инновационный подход, подробно описанный в недавней статье, фокусируется на модификации процесса вывода для оптимизации вычислительных требований нейронных сетей.

В чем суть нового метода

Суть этого достижения состоит в внедрении "слоев быстрого прямого распространения" (FFF), заменяющих традиционные слои прямого распространения в нейронных сетях.

Читайте на сайте Больше чем люди: сгенерированные ИИ инфлюэнсеры зарабатывают за месяц сумасшедшие суммы

Эти слои FFF используют условное матричное умножение (CMM), являющееся отходом от вычислительно интенсивного плотного матричного умножения (DMM), которое используется в обычных настройках. Выборочно активируя нейроны на основе входных данных, FFF уменьшает вычислительную нагрузку, предлагая заметные преимущества для таких языковых моделей, как BERT и GPT-3.

Эксперименты демонстрируют эффективность

В экспериментах с моделью BERT исследователи добились сокращения вычислений на 99%. Последующая разработка FastBERT, модификации модели BERT Transformer от Google, продемонстрировала сопоставимую с базовыми моделями производительность. Примечательно, что наиболее эффективная модель FastBERT соответствовала производительности оригинальной модели BERT, используя при этом лишь 0,3% распространяющихся вперед нейронов.

Потенциальные последствия выходят за рамки BERT: исследователи предполагают, что реализация FFF в GPT-3 может привести к более чем 300-кратному улучшению исходной скорости. Хотя умножение плотных матриц исторически считается высокооптимизированной математической операцией, ее ограничения в программных интерфейсах разрешаются с помощью условного умножения матриц FFF.

Примечательно, что исследователи разработали собственную реализацию операций условного умножения, достигнув 78-кратного увеличения выходной скорости на основе инструкций CPU и GPU. Они подразумевают еще больший прирост благодаря усовершенствованному аппаратному обеспечению и низкоуровневой реализации алгоритма.

Смотрите также США, Британия и еще 16 стран подписали соглашение об искусственном интеллекте: о чем оно

Этот прорыв обещает демократизировать доступ к передовым языковым моделям, преодолев разрыв между компаниями с большими вычислительными ресурсами и компаниями с ограниченными возможностями. Потенциал для значительного увеличения скорости обучения языковым моделям ИИ решает критическую проблему в этой области – генерацию токенов в секунду, открывая возможности для более эффективной обработки запросов и повышения производительности модели.