Intel готова к рабочим нагрузкам Meta Llama 3 GenAI: оптимизирована для процессоров Xeon и Core Ultra, графических процессоров Arc и ускорителей Gaudi

Апр 19, 2024 | Железо и Программы | Нет комментариев

Наши соц.сети

Подпишитесь на нашу рассылку

AliExpress WW
0
(0)
Время чтения 3 минуты

Intel объявила о проверке и оптимизации своих линеек продуктов Xeon, Core Ultra, Arc и Gaudi для новейших рабочих нагрузок Meta Llama 3 GenAI.

Intel проверяет и тестирует рабочие нагрузки Llama 3 GenAI компании Meta в своих процессорах Xeon, процессорах Core Ultra, графических процессорах Arc и ускорителях Gaudi

Пресс-релиз: Сегодня компания Meta запустила Meta  Llama 3 , свою модель большого языка (LLM) следующего поколения. В день запуска компания Intel утвердила свой портфель продуктов искусственного интеллекта для первых моделей Llama 3 8B и 70B с ускорителями Gaudi, процессорами Xeon, процессорами Core Ultra и графическими процессорами Arc.

Почему это важно.  В рамках своей миссии по распространению искусственного интеллекта повсюду компания Intel инвестирует в программное обеспечение и экосистему искусственного интеллекта, чтобы гарантировать, что ее продукты готовы к новейшим инновациям в динамичной сфере искусственного интеллекта. В центрах обработки данных процессоры Gaudi и Xeon с ускорением Advanced Matrix Extension (AMX) предоставляют клиентам возможность удовлетворить динамические и разнообразные требования.

Процессоры Intel Core Ultra и графические продукты Arc обеспечивают как средство локальной разработки, так и развертывание на миллионах устройств с поддержкой комплексных программных платформ и инструментов, включая PyTorch и Intel Extension для PyTorch, используемых для локальных исследований и разработок, а также набор инструментов OpenVINO для разработки моделей и вывода. .

О процессоре Llama 3, работающем на платформе Intel. При первоначальном тестировании и результатах производительности моделей Llama 3 8B и 70B компания Intel использовала программное обеспечение с открытым исходным кодом, включая PyTorch, DeepSpeed, библиотеку Optimum Habana и расширение Intel для PyTorch, обеспечивающее новейшую оптимизацию программного обеспечения.

  • Ускорители Intel Gaudi 2 оптимизировали производительность моделей Llama 2 — параметры 7B, 13B и 70B — и теперь имеют первоначальные измерения производительности для новой модели Llama 3. Благодаря зрелости программного обеспечения Гауди Intel легко запустила новую модель Llama 3 и получила результаты для вывода и точной настройки. Llama 3 также поддерживается недавно анонсированным ускорителем Gaudi 3.
  • Процессоры Intel Xeon справляются со сложными сквозными рабочими нагрузками искусственного интеллекта, а Intel инвестирует в оптимизацию результатов LLM для уменьшения задержек. Процессоры Xeon 6 с ядрами Performance (под кодовым названием Granite Rapids) демонстрируют двукратное улучшение задержки вывода Llama 3 8B по сравнению с процессорами Xeon 4-го поколения и возможность запуска более крупных языковых моделей, таких как Llama 3 70B, со скоростью менее 100 мс на каждый сгенерированный токен.
  • Intel Core Ultra и Arc Graphics обеспечивают впечатляющую производительность для Llama 3. В первом раунде тестирования процессоры Core Ultra уже обеспечивают скорость чтения, превышающую обычную человеческую скорость. Кроме того, графический процессор Arc A770 оснащен искусственным интеллектом X e Matrix eXtensions (XMX) и 16 ГБ выделенной памяти, что обеспечивает исключительную производительность для рабочих нагрузок LLM.

Масштабируемые процессоры Xeon

Intel постоянно оптимизирует вывод LLM для платформ Xeon. Например, по сравнению с версией Llama 2, улучшения программного обеспечения для запуска PyTorch и расширения Intel для PyTorch позволили сократить задержку в 5 раз. Оптимизация использует постраничное внимание и тензорную параллель, чтобы максимизировать использование доступных вычислений и пропускную способность памяти. На рис. 1 показана производительность вывода Meta Llama 3 8B на экземпляре AWS m7i.metal-48x, который основан на масштабируемом процессоре Xeon 4-го поколения.

llama3-xeon-производительность-диаграмма2

Мы протестировали Meta Llama 3 на процессоре Xeon 6 с ядрами Performance (ранее под кодовым названием Granite Rapids), чтобы поделиться предварительным обзором производительности. Эти предварительные цифры демонстрируют, что Xeon 6 обеспечивает двукратное улучшение задержки вывода Llama 3 8B по сравнению с широко доступными процессорами Xeon 4-го поколения, а также возможность запуска более крупных языковых моделей, таких как Llama 3 70B, менее 100 мс на каждый сгенерированный токен на одном двухъядерном процессоре. сокет-сервер.

МодельТПТочностьВходная длинаВыходная длинаПропускная способностьЗадержка*Партия
Мета-Лама-3-8B-Инструктировать1fp82 тыс.1549,27токен/сек7.747РС12
Мета-Лама-3-8B-Инструктировать1бф161 тыс.3 тыс.469,11токен/сек8.527РС4
Мета-Лама-3-70Б-Инструктировать8fp82 тыс.4927,31токен/сек56,23РС277
Мета-Лама-3-70Б-Инструктировать8бф162 тыс.2 тыс.3574,81токен/сек60,425РС216

Клиентские платформы

На начальном этапе оценки процессор Intel Core Ultra уже обеспечивает скорость чтения, превышающую обычную для человека. Эти результаты обусловлены встроенным графическим процессором Arc с 8 ядрами Xe, включая ускорение искусственного интеллекта DP4a и пропускную способность системной памяти до 120 ГБ/с. Мы рады инвестировать в дальнейшую оптимизацию производительности и энергоэффективности Llama 3, особенно по мере перехода на наши процессоры следующего поколения.

Благодаря поддержке процессоров Core Ultra и графических продуктов Arc в день запуска сотрудничество между Intel и Meta обеспечивает как локальную среду разработки, так и развертывание на миллионах устройств. Клиентское оборудование Intel ускоряется с помощью комплексных программных платформ и инструментов, включая PyTorch и Intel Extension для PyTorch, используемых для локальных исследований и разработок, а также OpenVINO Toolkit для развертывания моделей и получения логических выводов.

Что дальше:  В ближайшие месяцы Meta планирует представить новые возможности, дополнительные размеры моделей и повышенную производительность. Intel продолжит оптимизировать производительность своих продуктов искусственного интеллекта для поддержки нового LLM.

Заходите на другие соц.сети

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 0 / 5. Количество оценок: 0

Оценок пока нет. Поставьте оценку первым.

0 Комментариев

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

 

Не копируйте текст!