Официальная архитектура графического процессора NVIDIA Blackwell: 208 миллиардов транзисторов, 5-кратная производительность искусственного интеллекта, 192 ГБ памяти HBM3e, пропускная способность 8 ТБ/с

Мар 19, 2024 | Железо и Программы | Нет комментариев

Время чтения 5 минуты

NVIDIA официально представила архитектуру графического процессора Blackwell следующего поколения, которая обеспечивает пятикратное увеличение производительности по сравнению с графическими процессорами Hopper H100 .

Графические процессоры NVIDIA Blackwell обеспечивают в 5 раз более высокую производительность искусственного интеллекта, чем Hopper H100, что является лидером в области вычислений с использованием искусственного интеллекта нового поколения

NVIDIA официально представила полную информацию о своей архитектуре AI & Tensor Core следующего поколения под кодовым названием Blackwell. Как и ожидалось, графические процессоры Blackwell являются первыми, использующими первый дизайн NVIDIA MCM, который будет включать два графических процессора на одном кристалле.

Самый мощный чип в мире . Графические процессоры с архитектурой Blackwell, оснащенные 208 миллиардами транзисторов, производятся с использованием специального процесса 4NP TSMC с кристаллами графического процессора с двумя сетками, соединенными между чипами со скоростью 10 ТБ/секунду в единый унифицированный графический процессор. .
Трансформатор второго поколения . Благодаря новой поддержке микротензорного масштабирования и усовершенствованным алгоритмам управления динамическим диапазоном NVIDIA, интегрированным в платформы NVIDIA TensorRT™-LLM и NeMo Megatron, Blackwell будет поддерживать удвоенный размер вычислений и моделей с помощью нового 4-битного искусственного интеллекта с плавающей запятой. возможности вывода.
NVLink пятого поколения . Для повышения производительности моделей искусственного интеллекта с несколькими триллионами параметров и смешанными экспертами последняя итерация NVIDIA NVLink® обеспечивает революционную двунаправленную пропускную способность 1,8 ТБ/с на каждый графический процессор, обеспечивая бесперебойную высокоскоростную связь между 576 графическими процессорами. для самых сложных LLM.
RAS Engine — графические процессоры на базе Blackwell включают специальный движок, обеспечивающий надежность, доступность и удобство обслуживания. Кроме того, архитектура Blackwell добавляет возможности на уровне чипа для использования профилактического обслуживания на основе искусственного интеллекта для проведения диагностики и прогнозирования проблем с надежностью. Это максимизирует время безотказной работы системы и повышает отказоустойчивость для крупномасштабных развертываний ИИ, обеспечивая непрерывную работу в течение недель или даже месяцев, а также снижает эксплуатационные расходы.
Безопасный ИИ . Расширенные возможности конфиденциальных вычислений защищают модели ИИ и данные клиентов без ущерба для производительности благодаря поддержке новых протоколов шифрования интерфейса, которые имеют решающее значение для отраслей, чувствительных к конфиденциальности, таких как здравоохранение и финансовые услуги.
Механизм декомпрессии . Специальный механизм распаковки поддерживает новейшие форматы, ускоряя запросы к базе данных и обеспечивая высочайшую производительность в области анализа и обработки данных. В ближайшие годы обработка данных, на которую компании ежегодно тратят десятки миллиардов долларов, будет все больше ускоряться с помощью графических процессоров.

Если углубляться в детали, то графический процессор NVIDIA Blackwell содержит в общей сложности 104 миллиарда транзисторов на каждом вычислительном кристалле, изготовленном на технологическом узле TSMC 4NP. Каждый чип оснащен интерфейсом с высокой пропускной способностью 10 ТБ/с, который обеспечивает сверхбыстрое соединение между чипами. Эти графические процессоры объединены в один чип в одном корпусе, предлагая до 208 миллиардов транзисторов и полную когерентность кэша графического процессора.

По сравнению с Hopper, графический процессор NVIDIA Blackwell предлагает на 128 миллиардов больше транзисторов, в 5 раз большую производительность искусственного интеллекта, которая увеличена до 20 петафлопс на чип, и в 4 раза больше встроенной памяти. Сам графический процессор соединен с 8 стеками HBM3e, представляющими самое быстрое в мире решение для памяти, обеспечивающее пропускную способность памяти 8 ТБ/с через 8192-битный интерфейс шины и до 192 ГБ памяти HBM3e. Если быстро подвести итоги производительности по сравнению с Хоппером, вы получите:

20 PFLOPS FP8 (2,5-кратный бункер)
20 PFLOPS FP6 (2,5-кратный бункер)
40 ПФЛОПС FP4 (5,0-кратный бункер)
Параметры 740B (хоппер 6.0x)
34T параметров/сек (5,0x бункер)
7,2 ТБ/с NVLINK (4,0-кратный бункер)

NVIDIA будет предлагать графические процессоры Blackwell в качестве полноценной платформы, объединяющей два из этих графических процессоров (четыре вычислительных кристалла) с одним процессором Grace (72 ядра процессора ARM Neoverse V2). Графические процессоры будут связаны друг с другом и процессорами Grace с использованием протокола NVLINK со скоростью 900 ГБ/с.

Графические процессоры NVIDIA Blackwell B200 на 2024 г. — 192 ГБ HBM3e

Прежде всего, у нас есть графический процессор NVIDIA Blackwell B200. Это первый из двух чипов Blackwell, которые будут использоваться в различных конструкциях, начиная от модулей SXM, плат PCIe AIC и платформ Superchip. Графический процессор B200 станет первым графическим процессором NVIDIA, использующим конструкцию чиплета с двумя вычислительными кристаллами на базе 4-нм технологического процесса TSMC.

MCM или многочиповый модуль уже давно появился на стороне NVIDIA, и наконец он здесь, поскольку компания пытается решить проблемы, связанные с технологическими узлами следующего поколения, такие как производительность и стоимость. Чиплеты представляют собой жизнеспособную альтернативу, где NVIDIA может по-прежнему достигать более высокой производительности между поколениями без ущерба для поставок или затрат, и это всего лишь ступенька на пути к чиплетам.

Графический процессор NVIDIA Blackwell B200 станет чипом-монстром. Он включает в себя в общей сложности 160 SM на 20 480 ядер. Графический процессор будет оснащен новейшей технологией межсоединения NVLINK, поддерживающей ту же архитектуру из 8 графических процессоров и сетевой коммутатор 400 GbE. Он также будет очень энергоемким с пиковым TDP 700 Вт, хотя он такой же, как у чипов H100 и H200. Подводя итог этой фишке:

Узел процесса TMSC 4NP
Многочиповый графический процессор
1-GPU 104 миллиарда транзисторов
2-GPU 208 миллиардов транзисторов
160 SM (20 480 ядер)
8 пакетов HBM
Память HBM3e 192 ГБ
Пропускная способность памяти 8 ТБ/с
8192-битный интерфейс шины памяти
8-Привет Стек HBM3e
Поддержка PCIe 6.0
TDP 700 Вт (пиковая)

Что касается памяти, графический процессор Blackwell B200 будет иметь до 192 ГБ памяти HBM3e. Он будет представлен в виде восьми стеков модулей 8-hi, каждый из которых будет иметь емкость 24 ГБ видеопамяти и интерфейс шины шириной 8192 бита. Это будет в 2,4 раза больше, чем у графических процессоров H100 с объемом памяти 80 ГБ, что позволяет чипу запускать более крупные LLM.

NVIDIA Blackwell B200 и соответствующие платформы откроют новую эру вычислений на базе искусственного интеллекта и составят жесткую конкуренцию новейшим предложениям чипов AMD и Intel , которые еще не получили широкого распространения. С появлением Blackwell NVIDIA снова закрепила за собой роль доминирующей силы на рынке искусственного интеллекта.

Графические процессоры NVIDIA для высокопроизводительных вычислений и искусственного интеллекта

ВИДЕОКАРТА NVIDIA TESLA	NVIDIA B200	NVIDIA H200 (SXM5)	NVIDIA H100 (SMX5)	NVIDIA H100 (PCIE)	NVIDIA A100 (SXM4)	NVIDIA A100 (PCIE4)	ТЕСЛА V100S (PCIE)	ТЕСЛА V100 (SXM2)	ТЕСЛА П100 (SXM2)	ТЕСЛА P100 (PCI-ЭКСПРЕСС)	ТЕСЛА М40 (PCI-ЭКСПРЕСС)	ТЕСЛА К40 (PCI-ЭКСПРЕСС)
графический процессор	Б200	H200 (Бункер)	H100 (Бункер)	H100 (Бункер)	А100 (Ампер)	А100 (Ампер)	ГВ100 (Вольта)	ГВ100 (Вольта)	GP100 (Паскаль)	GP100 (Паскаль)	GM200 (Максвелл)	ГК110 (Кеплер)
Узел процесса	4 нм	4 нм	4 нм	4 нм	7 нм	7 нм	12 нм	12 нм	16 нм	16 нм	28 нм	28 нм
Транзисторы	208 миллиардов	80 миллиардов	80 миллиардов	80 миллиардов	54,2 миллиарда	54,2 миллиарда	21,1 миллиарда	21,1 миллиарда	15,3 миллиарда	15,3 миллиарда	8 миллиардов	7,1 миллиарда
Размер кристалла графического процессора	подлежит уточнению	814 мм2	814 мм2	814 мм2	826 мм2	826 мм2	815 мм2	815 мм2	610 мм2	610 мм2	601 мм2	551 мм2
SMS	160	132	132	114	108	108	80	80	56	56	24	15
ТПК	80	66	66	57	54	54	40	40	28	28	24	15
Размер кэша L2	подлежит уточнению	51200 КБ	51200 КБ	51200 КБ	40960 КБ	40960 КБ	6144 КБ	6144 КБ	4096 КБ	4096 КБ	3072 КБ	1536 КБ
FP32 Ядер CUDA на SM	подлежит уточнению	128	128	128	64	64	64	64	64	64	128	192
Ядра CUDA FP64/SM	подлежит уточнению	128	128	128	32	32	32	32	32	32	4	64
Ядра CUDA FP32	подлежит уточнению	16896	16896	14592	6912	6912	5120	5120	3584	3584	3072	2880
Ядра CUDA FP64	подлежит уточнению	16896	16896	14592	3456	3456	2560	2560	1792 г.	1792 г.	96	960
Тензорные ядра	подлежит уточнению	528	528	456	432	432	640	640	Н/Д	Н/Д	Н/Д	Н/Д
Текстурные единицы	подлежит уточнению	528	528	456	432	432	320	320	224	224	192	240
Увеличение частоты	подлежит уточнению	~1850 МГц	~1850 МГц	~1650 МГц	1410 МГц	1410 МГц	1601 МГц	1530 МГц	1480 МГц	1329 МГц	1114 МГц	875 МГц
ТОПы (DNN/AI)	20 000 ТОПов	3958 ТОПов	3958 ТОПов	3200 ТОПов	2496 ТОПов	2496 ТОПов	130 ТОПов	125 ТОПов	Н/Д	Н/Д	Н/Д	Н/Д
FP16 Вычисления	подлежит уточнению	1979 терафлопс	1979 терафлопс	1600 Тфлопс	624 Тфлопс	624 Тфлопс	32,8 Тфлопс	30,4 терафлопс	21,2 терафлопс	18,7 Тфлопс	Н/Д	Н/Д
FP32 Вычисление	подлежит уточнению	67 Тфлопс	67 Тфлопс	800 Тфлопс	156 терафлопс (стандартно 19,5 терафлопс)	156 терафлопс (стандартно 19,5 терафлопс)	16,4 терафлопс	15,7 Тфлопс	10,6 Тфлопс	10,0 Тфлопс	6,8 терафлопс	5,04 Тфлопс
FP64 Вычисление	подлежит уточнению	34 Тфлопс	34 Тфлопс	48 Тфлопс	19,5 терафлопс (стандарт 9,7 терафлопс)	19,5 терафлопс (стандарт 9,7 терафлопс)	8,2 терафлопс	7,80 Тфлопс	5,30 Тфлопс	4,7 терафлопс	0,2 Тфлопс	1,68 Тфлопс
Интерфейс памяти	8192-битный HBM4	5120-битный HBM3e	5120-битный HBM3	5120-битный HBM2e	6144-битный HBM2e	6144-битный HBM2e	4096-битный HBM2	4096-битный HBM2	4096-битный HBM2	4096-битный HBM2	384-битная память GDDR5	384-битная память GDDR5
Объем памяти	До 192 ГБ HBM3 при 8,0 Гбит/с	До 141 ГБ HBM3e при 6,5 Гбит/с	До 80 ГБ HBM3 при 5,2 Гбит/с	До 94 ГБ HBM2e при 5,1 Гбит/с	До 40 ГБ HBM2 при 1,6 ТБ/с До 80 ГБ HBM2 при 1,6 ТБ/с	До 40 ГБ HBM2 при 1,6 ТБ/с До 80 ГБ HBM2 при 2,0 ТБ/с	16 ГБ HBM2 @ 1134 ГБ/с	16 ГБ HBM2 @ 900 ГБ/с	16 ГБ HBM2 @ 732 ГБ/с	16 ГБ HBM2 @ 732 ГБ/с 12 ГБ HBM2 @ 549 ГБ/с	24 ГБ GDDR5 @ 288 ГБ/с	12 ГБ GDDR5 @ 288 ГБ/с
TDP	700 Вт	700 Вт	700 Вт	350 Вт	400 Вт	250 Вт	250 Вт	3

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 0 / 5. Количество оценок: 0

Оценок пока нет. Поставьте оценку первым.

Рубрики

Свежие записи

SiteAnalyzer, технический и SEO-анализ сайтов

Графические процессоры NVIDIA Blackwell B200 на 2024 г. — 192 ГБ HBM3e

Графические процессоры NVIDIA для высокопроизводительных вычислений и искусственного интеллекта

Похожие статьи

Рубрики

Свежие записи

Архив

Подпишитесь на нашу рассылку

0 Комментариев

Оставить комментарий Отменить ответ