Сейчас трудно сказать, насколько заявленные характеристики будут соответствовать действительности на практике, ведь процессоры, которые Google использует в своих смартфонах, всегда недотягивали до разработок Qualcomm, а тем более Apple, при том, что чипы Tensor подаются как предназначенные специально для работы с искусственным интеллектом. Пока что мировым лидером в разработке микросхем для ИИ является NVIDIA. Наряду с ней свои решения разрабатывают Microsoft с ее Maia 100 AI Accelerator и Amazon с ее Trainium2.

Смотрите также В скором времени прямо в Chrome появится функция "Помоги мне написать" на основе искусственного интеллекта

Что известно о новых чипах

Cloud TPU v5p - это самый мощный и эффективный TPU (Cloud Tensor Processing Unit) от Google сегодня. Каждый блок TPU v5p состоит из 8 960 чипов, соединенных между собой с помощью высокоскоростного межчипового соединения с вдвое более высокой пропускной способностью в 4800 гигабит в секунду на каждый чип. Это обеспечивает высокую скорость передачи данных и оптимальную производительность. Google не собирается останавливаться на достигнутом и заявляет, что цифры скачка будущих поколений нас поразят.

  • По сравнению с TPU v4, недавно выпущенный v5p имеет вдвое большее количество FLOPS (операций с плавающей запятой в секунду) и втрое большую пропускную способность оперативной памяти.
  • Когда дело доходит до обучения моделей, TPU v5p демонстрирует скачок в скорости обучения LLM в 2,8 раза.
  • Google также создал пространство, чтобы выжать больше вычислительной мощности, поскольку TPU v5p "в 4 раза более масштабируемый, чем TPU v4 с точки зрения общего количества доступных FLOPs на модуль".

Гиперкомпьютер

Компания также упоминает о чем-то, что называет "гиперкомпьютером ИИ". Это "набор элементов, предназначенных для совместной работы для обеспечения современных рабочих нагрузок ИИ". Google объединила оптимизированные по производительности вычисления, оптимальное хранение данных вместе с жидкостным охлаждением, чтобы использовать все эти возможности вместе, чтобы достичь наивысшей производительности. Предположительно, речь идет о каких-то мощных серверах, построенных по последним инновациям в сфере.

Все работает на соответствующем программном обеспечении, которое гарантирует "наилучшую производительность" для оборудования. Вот краткий обзор недавно добавленных программных ресурсов в гиперкомпьютере искусственного интеллекта:

  • Широкая поддержка популярных фреймворков ML, таких как JAX, TensorFlow и PyTorch, доступна прямо из коробки. И JAX, и PyTorch работают на основе компилятора OpenXLA для построения сложных языковых моделей. XLA служит фундаментальной основой, позволяющей создавать сложные многослойные модели (обучение Llama 2 и вывод на облачных TPU с помощью PyTorch/XLA). Он оптимизирует распределенные архитектуры на широком спектре аппаратных платформ, обеспечивая простую в использовании и эффективную разработку моделей для различных случаев применения ИИ (AssemblyAI использует JAX/XLA и Cloud TPU для крупномасштабного вещания ИИ).
  • Открытое и уникальное программное обеспечение Multislice Training и Multihost Inferencing, соответственно, делает масштабирование, обучение и обслуживание рабочих нагрузок простыми и легкими. Разработчики могут масштабировать до десятков тысяч чипов для поддержки высоких рабочих нагрузок ИИ.
  • Глубокая интеграция с Google Kubernetes Engine (GKE) и Google Compute Engine обеспечивает эффективное управление ресурсами, согласованность операционных сред, автоматическое масштабирование, автоматическое резервирование пулов узлов, автоматическую контрольную точку, автоматическое восстановление и своевременное восстановление после сбоев.

Революционный подход Google к искусственному интеллекту вполне очевиден благодаря новому набору аппаратных и программных элементов, которые готовы сломать барьеры, ограничивающие отрасль. Будет интересно посмотреть, как новые вычислительные блоки Cloud TPU v5p в сочетании с гиперкомпьютером AI помогут в текущих разработках, но одно можно сказать наверняка: они, несомненно, усилят конкуренцию.