Официальная архитектура графического процессора NVIDIA Blackwell: 208 миллиардов транзисторов, 5-кратная производительность искусственного интеллекта, 192 ГБ памяти HBM3e, пропускная способность 8 ТБ/с

Мар 19, 2024 | Железо и Программы | Нет комментариев

0
(0)
Время чтения 5 минуты

NVIDIA официально представила архитектуру графического процессора Blackwell следующего поколения, которая обеспечивает пятикратное увеличение производительности по сравнению с графическими процессорами Hopper H100 .

Графические процессоры NVIDIA Blackwell обеспечивают в 5 раз более высокую производительность искусственного интеллекта, чем Hopper H100, что является лидером в области вычислений с использованием искусственного интеллекта нового поколения

NVIDIA официально представила полную информацию о своей архитектуре AI & Tensor Core следующего поколения под кодовым названием Blackwell. Как и ожидалось, графические процессоры Blackwell являются первыми, использующими первый дизайн NVIDIA MCM, который будет включать два графических процессора на одном кристалле.

  • Самый мощный чип в мире  . Графические процессоры с архитектурой Blackwell, оснащенные 208 миллиардами транзисторов, производятся с использованием специального процесса 4NP TSMC с кристаллами графического процессора с двумя сетками, соединенными между чипами со скоростью 10 ТБ/секунду в единый унифицированный графический процессор. .
  • Трансформатор второго поколения  . Благодаря новой поддержке микротензорного масштабирования и усовершенствованным алгоритмам управления динамическим диапазоном NVIDIA, интегрированным в платформы NVIDIA TensorRT™-LLM и NeMo Megatron, Blackwell будет поддерживать удвоенный размер вычислений и моделей с помощью нового 4-битного искусственного интеллекта с плавающей запятой. возможности вывода.
  • NVLink пятого поколения  . Для повышения производительности моделей искусственного интеллекта с несколькими триллионами параметров и смешанными экспертами последняя итерация NVIDIA NVLink® обеспечивает революционную двунаправленную пропускную способность 1,8 ТБ/с на каждый графический процессор, обеспечивая бесперебойную высокоскоростную связь между 576 графическими процессорами. для самых сложных LLM.
  • RAS Engine  — графические процессоры на базе Blackwell включают специальный движок, обеспечивающий надежность, доступность и удобство обслуживания. Кроме того, архитектура Blackwell добавляет возможности на уровне чипа для использования профилактического обслуживания на основе искусственного интеллекта для проведения диагностики и прогнозирования проблем с надежностью. Это максимизирует время безотказной работы системы и повышает отказоустойчивость для крупномасштабных развертываний ИИ, обеспечивая непрерывную работу в течение недель или даже месяцев, а также снижает эксплуатационные расходы.
  • Безопасный ИИ  . Расширенные возможности конфиденциальных вычислений защищают модели ИИ и данные клиентов без ущерба для производительности благодаря поддержке новых протоколов шифрования интерфейса, которые имеют решающее значение для отраслей, чувствительных к конфиденциальности, таких как здравоохранение и финансовые услуги.
  • Механизм декомпрессии  . Специальный механизм распаковки поддерживает новейшие форматы, ускоряя запросы к базе данных и обеспечивая высочайшую производительность в области анализа и обработки данных. В ближайшие годы обработка данных, на которую компании ежегодно тратят десятки миллиардов долларов, будет все больше ускоряться с помощью графических процессоров.
nvidia-blackwell-_2

Если углубляться в детали, то графический процессор NVIDIA Blackwell содержит в общей сложности 104 миллиарда транзисторов на каждом вычислительном кристалле, изготовленном на технологическом узле TSMC 4NP. Каждый чип оснащен интерфейсом с высокой пропускной способностью 10 ТБ/с, который обеспечивает сверхбыстрое соединение между чипами. Эти графические процессоры объединены в один чип в одном корпусе, предлагая до 208 миллиардов транзисторов и полную когерентность кэша графического процессора.

По сравнению с Hopper, графический процессор NVIDIA Blackwell предлагает на 128 миллиардов больше транзисторов, в 5 раз большую производительность искусственного интеллекта, которая увеличена до 20 петафлопс на чип, и в 4 раза больше встроенной памяти. Сам графический процессор соединен с 8 стеками HBM3e, представляющими самое быстрое в мире решение для памяти, обеспечивающее пропускную способность памяти 8 ТБ/с через 8192-битный интерфейс шины и до 192 ГБ памяти HBM3e. Если быстро подвести итоги производительности по сравнению с Хоппером, вы получите:

  • 20 PFLOPS FP8 (2,5-кратный бункер)
  • 20 PFLOPS FP6 (2,5-кратный бункер)
  • 40 ПФЛОПС FP4 (5,0-кратный бункер)
  • Параметры 740B (хоппер 6.0x)
  • 34T параметров/сек (5,0x бункер)
  • 7,2 ТБ/с NVLINK (4,0-кратный бункер)

NVIDIA будет предлагать графические процессоры Blackwell в качестве полноценной платформы, объединяющей два из этих графических процессоров (четыре вычислительных кристалла) с одним процессором Grace (72 ядра процессора ARM Neoverse V2). Графические процессоры будут связаны друг с другом и процессорами Grace с использованием протокола NVLINK со скоростью 900 ГБ/с.

Графические процессоры NVIDIA Blackwell B200 на 2024 г. — 192 ГБ HBM3e

Прежде всего, у нас есть графический процессор NVIDIA Blackwell B200. Это первый из двух чипов Blackwell, которые будут использоваться в различных конструкциях, начиная от модулей SXM, плат PCIe AIC и платформ Superchip. Графический процессор B200 станет первым графическим процессором NVIDIA, использующим конструкцию чиплета с двумя вычислительными кристаллами на базе 4-нм технологического процесса TSMC.

MCM или многочиповый модуль уже давно появился на стороне NVIDIA, и наконец он здесь, поскольку компания пытается решить проблемы, связанные с технологическими узлами следующего поколения, такие как производительность и стоимость. Чиплеты представляют собой жизнеспособную альтернативу, где NVIDIA может по-прежнему достигать более высокой производительности между поколениями без ущерба для поставок или затрат, и это всего лишь ступенька на пути к чиплетам.

Графический процессор NVIDIA Blackwell B200 станет чипом-монстром. Он включает в себя в общей сложности 160 SM на 20 480 ядер. Графический процессор будет оснащен новейшей технологией межсоединения NVLINK, поддерживающей ту же архитектуру из 8 графических процессоров и сетевой коммутатор 400 GbE. Он также будет очень энергоемким с пиковым TDP 700 Вт, хотя он такой же, как у чипов H100 и H200. Подводя итог этой фишке:

  • Узел процесса TMSC 4NP
  • Многочиповый графический процессор
  • 1-GPU 104 миллиарда транзисторов
  • 2-GPU 208 миллиардов транзисторов
  • 160 SM (20 480 ядер)
  • 8 пакетов HBM
  • Память HBM3e 192 ГБ
  • Пропускная способность памяти 8 ТБ/с
  • 8192-битный интерфейс шины памяти
  • 8-Привет Стек HBM3e
  • Поддержка PCIe 6.0
  • TDP 700 Вт (пиковая)

Что касается памяти, графический процессор Blackwell B200 будет иметь до 192 ГБ памяти HBM3e. Он будет представлен в виде восьми стеков модулей 8-hi, каждый из которых будет иметь емкость 24 ГБ видеопамяти и интерфейс шины шириной 8192 бита. Это будет в 2,4 раза больше, чем у графических процессоров H100 с объемом памяти 80 ГБ, что позволяет чипу запускать более крупные LLM.

NVIDIA Blackwell B200 и соответствующие платформы откроют новую эру вычислений на базе искусственного интеллекта и составят жесткую конкуренцию новейшим предложениям чипов AMD и Intel , которые еще не получили широкого распространения. С появлением Blackwell NVIDIA снова закрепила за собой роль доминирующей силы на рынке искусственного интеллекта.

Графические процессоры NVIDIA для высокопроизводительных вычислений и искусственного интеллекта

ВИДЕОКАРТА NVIDIA TESLANVIDIA B200NVIDIA H200 (SXM5)NVIDIA H100 (SMX5)NVIDIA H100 (PCIE)NVIDIA A100 (SXM4)NVIDIA A100 (PCIE4)ТЕСЛА V100S (PCIE)ТЕСЛА V100 (SXM2)ТЕСЛА П100 (SXM2)ТЕСЛА P100
(PCI-ЭКСПРЕСС)
ТЕСЛА М40
(PCI-ЭКСПРЕСС)
ТЕСЛА К40
(PCI-ЭКСПРЕСС)
графический процессорБ200H200 (Бункер)H100 (Бункер)H100 (Бункер)А100 (Ампер)А100 (Ампер)ГВ100 (Вольта)ГВ100 (Вольта)GP100 (Паскаль)GP100 (Паскаль)GM200 (Максвелл)ГК110 (Кеплер)
Узел процесса4 нм4 нм4 нм4 нм7 нм7 нм12 нм12 нм16 нм16 нм28 нм28 нм
Транзисторы208 миллиардов80 миллиардов80 миллиардов80 миллиардов54,2 миллиарда54,2 миллиарда21,1 миллиарда21,1 миллиарда15,3 миллиарда15,3 миллиарда8 миллиардов7,1 миллиарда
Размер кристалла графического процессораподлежит уточнению814 мм2814 мм2814 мм2826 мм2826 мм2815 мм2815 мм2610 мм2610 мм2601 мм2551 мм2
SMS160132132114108108808056562415
ТПК806666575454404028282415
Размер кэша L2подлежит уточнению51200 КБ51200 КБ51200 КБ40960 КБ40960 КБ6144 КБ6144 КБ4096 КБ4096 КБ3072 КБ1536 КБ
FP32 Ядер CUDA на SMподлежит уточнению128128128646464646464128192
Ядра CUDA FP64/SMподлежит уточнению128128128323232323232464
Ядра CUDA FP32подлежит уточнению16896168961459269126912512051203584358430722880
Ядра CUDA FP64подлежит уточнению16896168961459234563456256025601792 г.1792 г.96960
Тензорные ядраподлежит уточнению528528456432432640640Н/ДН/ДН/ДН/Д
Текстурные единицыподлежит уточнению528528456432432320320224224192240
Увеличение частотыподлежит уточнению~1850 МГц~1850 МГц~1650 МГц1410 МГц1410 МГц1601 МГц1530 МГц1480 МГц1329 МГц1114 МГц875 МГц
ТОПы (DNN/AI)20 000 ТОПов3958 ТОПов3958 ТОПов3200 ТОПов2496 ТОПов2496 ТОПов130 ТОПов125 ТОПовН/ДН/ДН/ДН/Д
FP16 Вычисленияподлежит уточнению1979 терафлопс1979 терафлопс1600 Тфлопс624 Тфлопс624 Тфлопс32,8 Тфлопс30,4 терафлопс21,2 терафлопс18,7 ТфлопсН/ДН/Д
FP32 Вычислениеподлежит уточнению67 Тфлопс67 Тфлопс800 Тфлопс156 терафлопс
(стандартно 19,5 терафлопс)
156 терафлопс
(стандартно 19,5 терафлопс)
16,4 терафлопс15,7 Тфлопс10,6 Тфлопс10,0 Тфлопс6,8 терафлопс5,04 Тфлопс
FP64 Вычислениеподлежит уточнению34 Тфлопс34 Тфлопс48 Тфлопс19,5 терафлопс
(стандарт 9,7 терафлопс)
19,5 терафлопс
(стандарт 9,7 терафлопс)
8,2 терафлопс7,80 Тфлопс5,30 Тфлопс4,7 терафлопс0,2 Тфлопс1,68 Тфлопс
Интерфейс памяти8192-битный HBM45120-битный HBM3e5120-битный HBM35120-битный HBM2e6144-битный HBM2e6144-битный HBM2e4096-битный HBM24096-битный HBM24096-битный HBM24096-битный HBM2384-битная память GDDR5384-битная память GDDR5
Объем памятиДо 192 ГБ HBM3 при 8,0 Гбит/сДо 141 ГБ HBM3e при 6,5 Гбит/сДо 80 ГБ HBM3 при 5,2 Гбит/сДо 94 ГБ HBM2e при 5,1 Гбит/сДо 40 ГБ HBM2 при 1,6 ТБ/с
До 80 ГБ HBM2 при 1,6 ТБ/с
До 40 ГБ HBM2 при 1,6 ТБ/с
До 80 ГБ HBM2 при 2,0 ТБ/с
16 ГБ HBM2 @ 1134 ГБ/с16 ГБ HBM2 @ 900 ГБ/с16 ГБ HBM2 @ 732 ГБ/с16 ГБ HBM2 @ 732 ГБ/с
12 ГБ HBM2 @ 549 ГБ/с
24 ГБ GDDR5 @ 288 ГБ/с12 ГБ GDDR5 @ 288 ГБ/с
TDP700 Вт700 Вт700 Вт350 Вт400 Вт250 Вт250 Вт3

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 0 / 5. Количество оценок: 0

Оценок пока нет. Поставьте оценку первым.

SiteAnalyzer, технический и SEO-анализ сайтов

Подпишитесь на нашу рассылку

0 Комментариев

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

 

Не копируйте текст!