Производительность и задержка AMD Instinct MI300X AI улучшены в 7 раз благодаря настройке GEMM

Июн 30, 2024 | Новости игр | Нет комментариев

0
(0)
Время чтения 3 минуты

Компания Nscale протестировала флагманский ИИ-ускоритель Instinct MI300X от AMD с использованием фреймворка настройки GEMM, добившись повышения производительности в 7 раз.

Новейший бенчмаркинг AMD MI300X от Nscale показывает, что настройка GEMM привела к значительному повышению производительности

Пресс-релиз ]: В последнем техническом обзоре Nscale мы изучаем критически важный аспект оптимизации модели ИИ: сравнительный анализ пропускной способности, настройку производительности и сокращение задержек с помощью настройки GEMM (общее матричное умножение).

Максимизация производительности задач с ускорением на графическом процессоре предполагает нечто большее, чем просто скорость. Оптимизация GEMM обеспечивает эффективную обработку, более высокую пропускную способность и возможность эффективно обрабатывать сложные модели и наборы данных.

Производительность и задержка AMD Instinct MI300X AI улучшены в 7 раз благодаря настройке GEMM Tuning 2

В этом блоге мы рассмотрим бенчмаркинг пропускной способности vLLM по нескольким моделям и углубимся в существенное влияние настройки GEMM. Мощные библиотеки, такие как  rocBLAS  (ROCm Basic Linear Algebra Subprograms) и  hipBLASlt  (Heterogeneous-Compute Interface for Portability, Basic Linear Algebra Subprograms), играют важную роль в этом процессе.

Эти библиотеки предоставляют оптимизированные реализации операций GEMM вместе с рядом параметров настройки, позволяя разработчикам точно настраивать свои приложения и раскрывать весь потенциал базового оборудования, в конечном итоге максимизируя производительность vLLM.

Что такое настройка GEMM?

Настройка GEMM — это мощный метод повышения производительности операций умножения матриц. Этот процесс включает в себя выбор наиболее подходящего алгоритма на основе таких факторов, как память, кэш и вычислительные возможности».

Путем точной настройки параметров и выбора оптимальных алгоритмов мы обеспечиваем максимальную эффективность использования доступных вычислительных ресурсов в работе GEMM. Это приводит к значительному повышению скорости моделей искусственного интеллекта и машинного обучения.

Сравнение показателей

В нашем анализе мы сравнили несколько ключевых показателей производительности между двумя тестами.

  • Скорость генерации (токенов в секунду):  позволила нам оценить эффективность генерации токенов как для входных, так и для выходных процессов.
  • Запросов в секунду:  четкое представление о способности системы эффективно управлять несколькими одновременными запросами.
  • Общая пропускная способность (токенов, обработанных в секунду):  отражает совокупную эффективность скорости генерации и обработки запросов, предлагая комплексное представление о производительности системы в различных конфигурациях .
  • Средняя задержка (секунды): измерение времени, необходимого для генерации ответа.

Настройки для эталонных прогонов

Мы настроили каждый запуск теста со следующими настройками:

  • Длина входного запроса для каждого запроса:  256 токенов.
  • Выходная длина для каждого запроса:  256 токенов
  • Размер тензорной параллели: 1 (с использованием одного графического процессора, в частности MI300X )
  • Размер партии : 1, 2 и 4

Ключевые наблюдения:

Давайте углубимся в заметные достижения, достигнутые с помощью настройки GEMM для LLM, таких как Llama, Mistral, Mistral и Falcon. Мы проанализируем ряд графиков и визуализаций данных, которые проясняют влияние настроенного GEMM на производительность и эффективность этих моделей.

На графике показано значительное увеличение скорости генерации при включенной настройке GeMM на AI-ускорителе AMD Instinct MI300X.

Влияние настройки GEMM:  включение настройки GEMM увеличивает пропускную способность до 7,2 раз, как показано на примере модели LLaMA-2-70B.

Размер модели:  более крупные модели, такие как LLaMA-2-70B и LLaMA-3-70B, демонстрируют наиболее значительные улучшения в пропускной способности — в 7,2 раза и 5,9 раза соответственно.

Размер партии:  более высокие размеры партии обычно приводят к большей пропускной способности, что усиливается за счет настройки GEMM. Например, пропускная способность модели Falcon 7B возрастает с 244,74 токенов в секунду при размере пакета 1 до 952,38 токенов в секунду при размере пакета 4 без настройки GEMM. После настройки она возрастает до 2736,58 токенов в секунду.

Сравнение моделей:  Среди протестированных моделей LLaMA-2-70B и LLaMA-3-70B демонстрируют самую высокую пропускную способность из-за своей сложности и размера. И наоборот, модели меньшего размера, такие как Qwen 1.5 4B и Falcon 7B, демонстрируют относительно более высокую пропускную способность, что указывает на более эффективную обработку менее сложных моделей.

Задержка:

На графике показано последовательное снижение задержки, достигнутое за счет настройки GEMM.

Влияние настройки GEMM: задержка значительно снижается во всех моделях. Например, задержка для модели LLaMA-2-7B снижается с 1,00 до 0,35 секунды. В ходе тестирования мы заметили, что при включенной настройке GEMM задержка модели LLaMA-2-7B с размером пакета 1 снизилась на 66,5% с 1,97 секунды до 0,66 секунды. Эта закономерность сохраняется до размера партии, равной 4, что подчеркивает значительное повышение производительности, которое предлагает настройка GEMM.

Размер модели : более крупные модели изначально демонстрируют более высокую задержку. Например, модель LLaMA-2-70B показывает задержку в 1,00 секунды без настройки GEMM и 0,14 секунды с включенной настройкой. Для сравнения, более мелкие модели, такие как LLaMA-2-7B, показывают гораздо более низкую задержку в аналогичных условиях. Эта тенденция сохраняется для всех размеров партии, что подчеркивает, что размер модели напрямую влияет на время обработки.

Размер пакета.  Хотя большие размеры пакетов обычно увеличивают задержку, настройка GEMM смягчает это, поддерживая более низкую задержку. В нашем тестировании модели LLaMA-2-7B без настройки GEMM задержка увеличивается с 1,97 секунды при размере пакета 1 до 2,11 секунды при размере пакета 4. При включенной настройке GEMM увеличение составляет с 0,66 секунды до 0,77 секунды. Это говорит о том, что, хотя настройка GEMM в некоторой степени смягчает увеличение задержки, обработка больших пакетов, естественно, требует больше вычислительных усилий и времени.

Сравнение моделей: такие модели, как Qwen 1.5 4B и Falcon 7B, также демонстрируют сниженную задержку, что подчеркивает эффективность настройки GEMM для систем различной сложности.

Заключение:

Наше комплексное сравнительное исследование графических процессоров AMD MI300X с настройкой GEMM выявило улучшения как пропускной способности, так и задержки, с приростом до 7,2x в определенных моделях. Оптимизировав операции GEMM с использованием библиотек rocBLAS и hipBLASlt, мы значительно повысили производительность и эффективность различных крупных языковых моделей, включая LLaMA, Mistral, Mixtral и Falcon.

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 0 / 5. Количество оценок: 0

Оценок пока нет. Поставьте оценку первым.

Подпишитесь на нашу рассылку

AliExpress WW

0 Комментариев

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

 

Не копируйте текст!