Кэш-память DRAM для графических процессоров повышает производительность до 12,5 раз при значительном снижении энергопотребления по сравнению с HBM

Мар 18, 2024 | Железо и Программы | Нет комментариев

0
(0)
Время чтения 3 минуты

Новое исследование выявило полезность кэша DRAM для графических процессоров, который может помочь обеспечить более высокую производительность при низком энергопотреблении.

Исследователи предлагают использовать выделенные кэши DRAM на новых SCM для графических процессоров, заменив традиционную конфигурацию HBM

Индустрия графических процессоров, в которую входят потребительские, рабочие станции и графические процессоры для искусственного интеллекта, развивается таким образом, что мы видим прогресс в области емкости памяти и пропускной способности, но она не является устойчивой, и, в конечном итоге, мы можем достичь предела, если будет использован инновационный подход. не взято.

Мы видели, как производители графических процессоров продвигают этот сегмент, либо внедряя большие суммы вторичных LLC (кеша последнего уровня) , либо увеличивая размер кэшей L2 . Помня об этом, исследователи разработали новый способ разработки памяти графического процессора, в частности HBM, чтобы преодолеть современные ограничения пропускной способности и пропускной способности, а также сделать передачу данных и управление ими намного более эффективными.

На основании исследовательской работы, опубликованной на ArVix , исследователи предложили использовать выделенный кэш DRAM в памяти графического процессора, аналогичный тому, что мы видим в современных твердотельных накопителях. Кэш-память DRAM — это высокоскоростное хранилище памяти, обеспечивающее эффективный процесс «выборки и выполнения». Однако этот кэш отличается от того, что мы видим в твердотельных накопителях, он несколько отличается, поскольку он предполагает использование SCM (памяти класса хранения), которая является гораздо более жизнеспособной альтернативой современному HBM и имеет меньшую производительность. бит-доллар стоит дороже, чем DRAM.

Исследователи предложили гибридный подход, в котором одновременно используются SCM и DRAM, чтобы уменьшить и избежать переподписки памяти, а также обеспечить более высокую производительность на единицу емкости.

Как и ожидалось, исследование довольно глубокое и включает в себя несколько моделей потоков данных, которые помогают процессу выборки данных SCM, и одна из них — организация кэша DRAM с агрегированными метаданными в последнем столбце (AMIL), которая это попытка ускорить процесс получения «тегов данных», которые сообщают, где находятся данные в каждой строке кэша. Метод AMIL предлагает хранить все теги вместе в последнем столбце одной строки в кэше DRAM для более быстрого доступа, снижения накладных расходов на проверку тегов и поддержания защиты с помощью кода исправления ошибок (ECC).

Мы предлагаем преодолеть ограничение емкости памяти графических процессоров с помощью высокопроизводительной памяти Storage-Class Memory (SCM) и кэша DRAM. Значительно увеличивая объем памяти с помощью SCM, графический процессор может захватывать большую часть используемой памяти, чем HBM, для рабочих нагрузок, требующих переподписки памяти, что приводит к существенному ускорению. Однако кэш DRAM должен быть тщательно спроектирован с учетом ограничений задержки и пропускной способности SCM, минимизируя при этом накладные расходы и учитывая характеристики графического процессора. Поскольку огромное количество потоков графического процессора может легко перегрузить кэш DRAM и снизить производительность, мы сначала предлагаем политику обхода кэша DRAM с поддержкой SCM для графических процессоров, которая учитывает многомерные характеристики доступа к памяти графическими процессорами с SCM для обхода DRAM для данных с низкой производительностью. полезность. Кроме того, чтобы уменьшить трафик проверки кэша DRAM и увеличить эффективную пропускную способность DRAM с минимальными затратами, мы предлагаем настраиваемый кэш тегов (CTC), который переназначает часть кэша L2 для кэширования тегов строк кэша DRAM. Емкость L2, используемая для CTC, может корректироваться пользователями для обеспечения адаптивности. Кроме того, чтобы свести к минимуму трафик зонда кэша DRAM из-за промахов CTC, наша организация кэша DRAM с агрегированными метаданными в последнем столбце (AMIL) объединяет все теги кэша DRAM в один столбец в строке. AMIL также сохраняет полную защиту ECC, в отличие от предыдущей реализации кэша DRAM с организацией Tag-And-Data (TAD).

По сравнению с HBM, HMS повышает производительность до 12,5 раз (в целом в 2,9 раза) и снижает энергопотребление до 89,3% (в целом на 48,1%). По сравнению с предыдущими работами мы уменьшили трафик проверки кэша DRAM и трафик записи SCM на 91–93% и 57–75% соответственно.

Бумага — Кэш-память DRAM с эффективной пропускной способностью для графических процессоров с памятью класса хранения

Теперь переходим к более интересному: предлагаемое решение гарантирует значительное повышение производительности: в 12,5 раз по сравнению с HBM и на 89,3% более энергоэффективное. Эти оптимистичные цифры потенциально могут означать переход отрасли к более «инновационным» решениям для графических процессоров следующего поколения, учитывая, что SCM в сочетании с DRAM станет реальной реальностью после прохождения определенных квалификационных испытаний.

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 0 / 5. Количество оценок: 0

Оценок пока нет. Поставьте оценку первым.

Подпишитесь на нашу рассылку

AliExpress WW

0 Комментариев

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

 

Не копируйте текст!