NVIDIA официально представила архитектуру графического процессора Blackwell следующего поколения, которая обеспечивает пятикратное увеличение производительности по сравнению с графическими процессорами Hopper H100 .
Графические процессоры NVIDIA Blackwell обеспечивают в 5 раз более высокую производительность искусственного интеллекта, чем Hopper H100, что является лидером в области вычислений с использованием искусственного интеллекта нового поколения
NVIDIA официально представила полную информацию о своей архитектуре AI & Tensor Core следующего поколения под кодовым названием Blackwell. Как и ожидалось, графические процессоры Blackwell являются первыми, использующими первый дизайн NVIDIA MCM, который будет включать два графических процессора на одном кристалле.
- Самый мощный чип в мире . Графические процессоры с архитектурой Blackwell, оснащенные 208 миллиардами транзисторов, производятся с использованием специального процесса 4NP TSMC с кристаллами графического процессора с двумя сетками, соединенными между чипами со скоростью 10 ТБ/секунду в единый унифицированный графический процессор. .
- Трансформатор второго поколения . Благодаря новой поддержке микротензорного масштабирования и усовершенствованным алгоритмам управления динамическим диапазоном NVIDIA, интегрированным в платформы NVIDIA TensorRT™-LLM и NeMo Megatron, Blackwell будет поддерживать удвоенный размер вычислений и моделей с помощью нового 4-битного искусственного интеллекта с плавающей запятой. возможности вывода.
- NVLink пятого поколения . Для повышения производительности моделей искусственного интеллекта с несколькими триллионами параметров и смешанными экспертами последняя итерация NVIDIA NVLink® обеспечивает революционную двунаправленную пропускную способность 1,8 ТБ/с на каждый графический процессор, обеспечивая бесперебойную высокоскоростную связь между 576 графическими процессорами. для самых сложных LLM.
- RAS Engine — графические процессоры на базе Blackwell включают специальный движок, обеспечивающий надежность, доступность и удобство обслуживания. Кроме того, архитектура Blackwell добавляет возможности на уровне чипа для использования профилактического обслуживания на основе искусственного интеллекта для проведения диагностики и прогнозирования проблем с надежностью. Это максимизирует время безотказной работы системы и повышает отказоустойчивость для крупномасштабных развертываний ИИ, обеспечивая непрерывную работу в течение недель или даже месяцев, а также снижает эксплуатационные расходы.
- Безопасный ИИ . Расширенные возможности конфиденциальных вычислений защищают модели ИИ и данные клиентов без ущерба для производительности благодаря поддержке новых протоколов шифрования интерфейса, которые имеют решающее значение для отраслей, чувствительных к конфиденциальности, таких как здравоохранение и финансовые услуги.
- Механизм декомпрессии . Специальный механизм распаковки поддерживает новейшие форматы, ускоряя запросы к базе данных и обеспечивая высочайшую производительность в области анализа и обработки данных. В ближайшие годы обработка данных, на которую компании ежегодно тратят десятки миллиардов долларов, будет все больше ускоряться с помощью графических процессоров.
Если углубляться в детали, то графический процессор NVIDIA Blackwell содержит в общей сложности 104 миллиарда транзисторов на каждом вычислительном кристалле, изготовленном на технологическом узле TSMC 4NP. Каждый чип оснащен интерфейсом с высокой пропускной способностью 10 ТБ/с, который обеспечивает сверхбыстрое соединение между чипами. Эти графические процессоры объединены в один чип в одном корпусе, предлагая до 208 миллиардов транзисторов и полную когерентность кэша графического процессора.
По сравнению с Hopper, графический процессор NVIDIA Blackwell предлагает на 128 миллиардов больше транзисторов, в 5 раз большую производительность искусственного интеллекта, которая увеличена до 20 петафлопс на чип, и в 4 раза больше встроенной памяти. Сам графический процессор соединен с 8 стеками HBM3e, представляющими самое быстрое в мире решение для памяти, обеспечивающее пропускную способность памяти 8 ТБ/с через 8192-битный интерфейс шины и до 192 ГБ памяти HBM3e. Если быстро подвести итоги производительности по сравнению с Хоппером, вы получите:
- 20 PFLOPS FP8 (2,5-кратный бункер)
- 20 PFLOPS FP6 (2,5-кратный бункер)
- 40 ПФЛОПС FP4 (5,0-кратный бункер)
- Параметры 740B (хоппер 6.0x)
- 34T параметров/сек (5,0x бункер)
- 7,2 ТБ/с NVLINK (4,0-кратный бункер)
NVIDIA будет предлагать графические процессоры Blackwell в качестве полноценной платформы, объединяющей два из этих графических процессоров (четыре вычислительных кристалла) с одним процессором Grace (72 ядра процессора ARM Neoverse V2). Графические процессоры будут связаны друг с другом и процессорами Grace с использованием протокола NVLINK со скоростью 900 ГБ/с.
Графические процессоры NVIDIA Blackwell B200 на 2024 г. — 192 ГБ HBM3e
Прежде всего, у нас есть графический процессор NVIDIA Blackwell B200. Это первый из двух чипов Blackwell, которые будут использоваться в различных конструкциях, начиная от модулей SXM, плат PCIe AIC и платформ Superchip. Графический процессор B200 станет первым графическим процессором NVIDIA, использующим конструкцию чиплета с двумя вычислительными кристаллами на базе 4-нм технологического процесса TSMC.
MCM или многочиповый модуль уже давно появился на стороне NVIDIA, и наконец он здесь, поскольку компания пытается решить проблемы, связанные с технологическими узлами следующего поколения, такие как производительность и стоимость. Чиплеты представляют собой жизнеспособную альтернативу, где NVIDIA может по-прежнему достигать более высокой производительности между поколениями без ущерба для поставок или затрат, и это всего лишь ступенька на пути к чиплетам.
Графический процессор NVIDIA Blackwell B200 станет чипом-монстром. Он включает в себя в общей сложности 160 SM на 20 480 ядер. Графический процессор будет оснащен новейшей технологией межсоединения NVLINK, поддерживающей ту же архитектуру из 8 графических процессоров и сетевой коммутатор 400 GbE. Он также будет очень энергоемким с пиковым TDP 700 Вт, хотя он такой же, как у чипов H100 и H200. Подводя итог этой фишке:
- Узел процесса TMSC 4NP
- Многочиповый графический процессор
- 1-GPU 104 миллиарда транзисторов
- 2-GPU 208 миллиардов транзисторов
- 160 SM (20 480 ядер)
- 8 пакетов HBM
- Память HBM3e 192 ГБ
- Пропускная способность памяти 8 ТБ/с
- 8192-битный интерфейс шины памяти
- 8-Привет Стек HBM3e
- Поддержка PCIe 6.0
- TDP 700 Вт (пиковая)
Что касается памяти, графический процессор Blackwell B200 будет иметь до 192 ГБ памяти HBM3e. Он будет представлен в виде восьми стеков модулей 8-hi, каждый из которых будет иметь емкость 24 ГБ видеопамяти и интерфейс шины шириной 8192 бита. Это будет в 2,4 раза больше, чем у графических процессоров H100 с объемом памяти 80 ГБ, что позволяет чипу запускать более крупные LLM.
NVIDIA Blackwell B200 и соответствующие платформы откроют новую эру вычислений на базе искусственного интеллекта и составят жесткую конкуренцию новейшим предложениям чипов AMD и Intel , которые еще не получили широкого распространения. С появлением Blackwell NVIDIA снова закрепила за собой роль доминирующей силы на рынке искусственного интеллекта.
Графические процессоры NVIDIA для высокопроизводительных вычислений и искусственного интеллекта
ВИДЕОКАРТА NVIDIA TESLA | NVIDIA B200 | NVIDIA H200 (SXM5) | NVIDIA H100 (SMX5) | NVIDIA H100 (PCIE) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIE4) | ТЕСЛА V100S (PCIE) | ТЕСЛА V100 (SXM2) | ТЕСЛА П100 (SXM2) | ТЕСЛА P100 (PCI-ЭКСПРЕСС) | ТЕСЛА М40 (PCI-ЭКСПРЕСС) | ТЕСЛА К40 (PCI-ЭКСПРЕСС) |
---|---|---|---|---|---|---|---|---|---|---|---|---|
графический процессор | Б200 | H200 (Бункер) | H100 (Бункер) | H100 (Бункер) | А100 (Ампер) | А100 (Ампер) | ГВ100 (Вольта) | ГВ100 (Вольта) | GP100 (Паскаль) | GP100 (Паскаль) | GM200 (Максвелл) | ГК110 (Кеплер) |
Узел процесса | 4 нм | 4 нм | 4 нм | 4 нм | 7 нм | 7 нм | 12 нм | 12 нм | 16 нм | 16 нм | 28 нм | 28 нм |
Транзисторы | 208 миллиардов | 80 миллиардов | 80 миллиардов | 80 миллиардов | 54,2 миллиарда | 54,2 миллиарда | 21,1 миллиарда | 21,1 миллиарда | 15,3 миллиарда | 15,3 миллиарда | 8 миллиардов | 7,1 миллиарда |
Размер кристалла графического процессора | подлежит уточнению | 814 мм2 | 814 мм2 | 814 мм2 | 826 мм2 | 826 мм2 | 815 мм2 | 815 мм2 | 610 мм2 | 610 мм2 | 601 мм2 | 551 мм2 |
SMS | 160 | 132 | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | 15 |
ТПК | 80 | 66 | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | 15 |
Размер кэша L2 | подлежит уточнению | 51200 КБ | 51200 КБ | 51200 КБ | 40960 КБ | 40960 КБ | 6144 КБ | 6144 КБ | 4096 КБ | 4096 КБ | 3072 КБ | 1536 КБ |
FP32 Ядер CUDA на SM | подлежит уточнению | 128 | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
Ядра CUDA FP64/SM | подлежит уточнению | 128 | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
Ядра CUDA FP32 | подлежит уточнению | 16896 | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
Ядра CUDA FP64 | подлежит уточнению | 16896 | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 г. | 1792 г. | 96 | 960 |
Тензорные ядра | подлежит уточнению | 528 | 528 | 456 | 432 | 432 | 640 | 640 | Н/Д | Н/Д | Н/Д | Н/Д |
Текстурные единицы | подлежит уточнению | 528 | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
Увеличение частоты | подлежит уточнению | ~1850 МГц | ~1850 МГц | ~1650 МГц | 1410 МГц | 1410 МГц | 1601 МГц | 1530 МГц | 1480 МГц | 1329 МГц | 1114 МГц | 875 МГц |
ТОПы (DNN/AI) | 20 000 ТОПов | 3958 ТОПов | 3958 ТОПов | 3200 ТОПов | 2496 ТОПов | 2496 ТОПов | 130 ТОПов | 125 ТОПов | Н/Д | Н/Д | Н/Д | Н/Д |
FP16 Вычисления | подлежит уточнению | 1979 терафлопс | 1979 терафлопс | 1600 Тфлопс | 624 Тфлопс | 624 Тфлопс | 32,8 Тфлопс | 30,4 терафлопс | 21,2 терафлопс | 18,7 Тфлопс | Н/Д | Н/Д |
FP32 Вычисление | подлежит уточнению | 67 Тфлопс | 67 Тфлопс | 800 Тфлопс | 156 терафлопс (стандартно 19,5 терафлопс) | 156 терафлопс (стандартно 19,5 терафлопс) | 16,4 терафлопс | 15,7 Тфлопс | 10,6 Тфлопс | 10,0 Тфлопс | 6,8 терафлопс | 5,04 Тфлопс |
FP64 Вычисление | подлежит уточнению | 34 Тфлопс | 34 Тфлопс | 48 Тфлопс | 19,5 терафлопс (стандарт 9,7 терафлопс) | 19,5 терафлопс (стандарт 9,7 терафлопс) | 8,2 терафлопс | 7,80 Тфлопс | 5,30 Тфлопс | 4,7 терафлопс | 0,2 Тфлопс | 1,68 Тфлопс |
Интерфейс памяти | 8192-битный HBM4 | 5120-битный HBM3e | 5120-битный HBM3 | 5120-битный HBM2e | 6144-битный HBM2e | 6144-битный HBM2e | 4096-битный HBM2 | 4096-битный HBM2 | 4096-битный HBM2 | 4096-битный HBM2 | 384-битная память GDDR5 | 384-битная память GDDR5 |
Объем памяти | До 192 ГБ HBM3 при 8,0 Гбит/с | До 141 ГБ HBM3e при 6,5 Гбит/с | До 80 ГБ HBM3 при 5,2 Гбит/с | До 94 ГБ HBM2e при 5,1 Гбит/с | До 40 ГБ HBM2 при 1,6 ТБ/с До 80 ГБ HBM2 при 1,6 ТБ/с | До 40 ГБ HBM2 при 1,6 ТБ/с До 80 ГБ HBM2 при 2,0 ТБ/с | 16 ГБ HBM2 @ 1134 ГБ/с | 16 ГБ HBM2 @ 900 ГБ/с | 16 ГБ HBM2 @ 732 ГБ/с | 16 ГБ HBM2 @ 732 ГБ/с 12 ГБ HBM2 @ 549 ГБ/с | 24 ГБ GDDR5 @ 288 ГБ/с | 12 ГБ GDDR5 @ 288 ГБ/с |
TDP | 700 Вт | 700 Вт | 700 Вт | 350 Вт | 400 Вт | 250 Вт | 250 Вт | 3 |
0 Комментариев