Новый метод ускоряет обучение языковым моделям искусственного интеллекта в 300 раз
Источник:
Venture BeatИсследователи из Швейцарской высшей технической школы Цюриха представили революционный метод, способный значительно ускорить обучение языковым моделям искусственного интеллекта (ИИ). Инновационный подход, подробно описанный в недавней статье, фокусируется на модификации процесса вывода для оптимизации вычислительных требований нейронных сетей.
В чем суть нового метода
Суть этого достижения состоит в внедрении "слоев быстрого прямого распространения" (FFF), заменяющих традиционные слои прямого распространения в нейронных сетях.
Читайте на сайте Больше чем люди: сгенерированные ИИ инфлюэнсеры зарабатывают за месяц сумасшедшие суммы
Эти слои FFF используют условное матричное умножение (CMM), являющееся отходом от вычислительно интенсивного плотного матричного умножения (DMM), которое используется в обычных настройках. Выборочно активируя нейроны на основе входных данных, FFF уменьшает вычислительную нагрузку, предлагая заметные преимущества для таких языковых моделей, как BERT и GPT-3.
Эксперименты демонстрируют эффективность
В экспериментах с моделью BERT исследователи добились сокращения вычислений на 99%. Последующая разработка FastBERT, модификации модели BERT Transformer от Google, продемонстрировала сопоставимую с базовыми моделями производительность. Примечательно, что наиболее эффективная модель FastBERT соответствовала производительности оригинальной модели BERT, используя при этом лишь 0,3% распространяющихся вперед нейронов.
Потенциальные последствия выходят за рамки BERT: исследователи предполагают, что реализация FFF в GPT-3 может привести к более чем 300-кратному улучшению исходной скорости. Хотя умножение плотных матриц исторически считается высокооптимизированной математической операцией, ее ограничения в программных интерфейсах разрешаются с помощью условного умножения матриц FFF.
Примечательно, что исследователи разработали собственную реализацию операций условного умножения, достигнув 78-кратного увеличения выходной скорости на основе инструкций CPU и GPU. Они подразумевают еще больший прирост благодаря усовершенствованному аппаратному обеспечению и низкоуровневой реализации алгоритма.Смотрите также США, Британия и еще 16 стран подписали соглашение об искусственном интеллекте: о чем оно
Этот прорыв обещает демократизировать доступ к передовым языковым моделям, преодолев разрыв между компаниями с большими вычислительными ресурсами и компаниями с ограниченными возможностями. Потенциал для значительного увеличения скорости обучения языковым моделям ИИ решает критическую проблему в этой области – генерацию токенов в секунду, открывая возможности для более эффективной обработки запросов и повышения производительности модели.