Ускоритель Intel Gaudi 2 до 55% быстрее, чем NVIDIA H100 в стабильной диффузии, в 3 раза быстрее, чем A100 в тесте AI Benchmark

Мар 12, 2024 | Железо и Программы | Нет комментариев

0
(0)
Время чтения 3 минуты

Компания Stability AI опубликовала новую публикацию в блоге, в которой предлагает сравнить результаты тестов искусственного интеллекта между Intel Gaudi 2 и графическими ускорителями NVIDIA H100 и A100. Тесты показывают, что решения Intel предлагают большую ценность и могут рассматриваться как уважаемая альтернатива для клиентов, которые ищут быстрое и легкодоступное решение по сравнению с предложениями NVIDIA.

Битва Intel против NVIDIA AI Accelerator: Gaudi 2 демонстрирует высокую производительность по сравнению с H100 и A100 в Stable Diffusion и Llama 2 LLM, отличная производительность / $ отмечены как веская причина для перехода в синюю команду

Фирма Stability AI , занимающаяся искусственным интеллектом , создает открытые модели, которые могут эффективно решать широкий спектр задач. Чтобы проверить это, компания Stability AI использовала две свои модели, в том числе Stable Diffusion 3, и провела сравнительный анализ самых популярных ускорителей искусственного интеллекта от NVIDIA и Intel, чтобы увидеть, как они работают друг против друга.

В Stability Diffusion 3, следующей главе очень популярной модели преобразования текста в изображение, ИИ-ускоритель Intel Gaudi 2 показал исключительные результаты. Модель имеет параметры от 800M до 8B и была протестирована с использованием версии параметров 2B. Для сравнения использовались 2 узла с 16 ускорителями Intel и NVIDIA с размером пакета, установленным на 16 на ускоритель, и размером пакета до 512. Конечным результатом стал Intel Gaudi 2, предлагающий ускорение на 56% по сравнению с H100. 80 ГБ графического процессора и ускорение в 2,43 раза по сравнению с графическим процессором A100 80 ГБ.

Источник изображения: Стабильность AI

Емкость HBM объемом 96 ГБ также позволила процессору Intel Gaudi 2 разместить 32 изображения на каждый ускоритель, а общий размер пакета составил 512. Это позволило повысить скорость обработки до 1254 изображений в секунду, что на 35 % выше по сравнению с 16 пакетами. Ускоритель Gaudi 2, в 2,10 раза больше, чем у H100 80 ГБ, и в 3,26 раза больше, чем у A100 80 ГБ AI-графических процессоров.

Источник изображения: Стабильность AI

При дальнейшем масштабировании до 32 узлов (256 ускорителей) для графических процессоров Gaudi 2 и A100 80 ГБ вы увидите увеличение в 3,16 раза у решения Intel, которое может выводить 49,4 изображений в секунду на устройство по сравнению всего с 15,6 у решения A100.

Хотя производительность обучения на ИИ-ускорителях Gaudi 2 превосходна, похоже, что NVIDIA по-прежнему удерживает трон в области вывода благодаря оптимизации Tensor-RT, которая добилась огромного прогресса за предыдущий год , а «зеленая» команда постоянно добивается больших успехов в этом направлении. эта экосистема. Говорят, что графические процессоры A100 создают изображения на 40% быстрее в этих конкретных рабочих нагрузках при той же модели Stable Diffusion 3 8B по сравнению с ускорителями Gaudi 2.

В тестах вывода с моделью параметров Stable Diffusion 3 8B чипы Gaudi 2 обеспечивают скорость вывода, аналогичную скорости чипов Nvidia A100, использующих базовый PyTorch. Однако благодаря оптимизации TensorRT чипы A100 создают изображения на 40% быстрее, чем Gaudi 2. Мы ожидаем, что при дальнейшей оптимизации Gaudi 2 вскоре превзойдет A100 на этой модели. В более ранних тестах нашей модели SDXL с базовым PyTorch Gaudi 2 генерировал изображение размером 1024×1024 за 30 шагов за 3,2 секунды по сравнению с 3,6 секунды для PyTorch на A100 и 2,7 секунды для поколения с TensorRT на A100.

Более высокий объем памяти и быстрое соединение Gaudi 2, а также другие конструктивные особенности делают его конкурентоспособным при использовании архитектуры Diffusion Transformer, которая лежит в основе медиа-моделей следующего поколения.

через ИИ стабильности

Наконец, у нас есть результаты по второй модели — Stable Beluga 2.5 70B, доработанной версии LLaMA 2 70B. Без каких-либо дополнительных оптимизаций и при работе под управлением PyTorch 256 ИИ-ускорителей Intel Gaudi 2 достигли средней пропускной способности 116 777 токенов в секунду. Это было примерно на 28% быстрее, чем решение A100 80 ГБ, работающее под управлением TensorRT.

Все это показывает, насколько конкурентоспособной становится среда искусственного интеллекта, и важнее всего не аппаратное обеспечение, а программное обеспечение и оптимизация для каждого конкретного ускорителя. Хотя аппаратное обеспечение имеет важное значение, вы можете иметь новейшее и лучшее, но если нет прочной основы для управления всеми этими ядрами, памятью и различными ускорителями, специфичными для искусственного интеллекта, вам придется нелегко в этой области.

NVIDIA знает об этом уже давно, поэтому Intel и AMD только начали укреплять свои программные пакеты для искусственного интеллекта, и будут ли они догонять зеленого гиганта или смогут справиться с архитектурой CUDA/Tensor с помощью быстрых выпусков программного обеспечения, еще предстоит выяснить. быть увиденным. Эти тесты показывают, что Intel становится очень жизнеспособным решением не только в качестве альтернативы, но и в качестве конкурентоспособного решения по сравнению с предложениями NVIDIA, а с будущими предложениями Gaudi и AI GPU мы можем ожидать более надежного сегмента искусственного интеллекта с отличными решениями, которые клиенты смогут выбрать. вместо того, чтобы полагаться на одну единственную компанию.

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 0 / 5. Количество оценок: 0

Оценок пока нет. Поставьте оценку первым.

Подпишитесь на нашу рассылку

AliExpress WW

0 Комментариев

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

 

Не копируйте текст!