Site icon compsnews.ru

Графические процессоры NVIDIA поддерживают модель следующего поколения Llama 3 от Meta и оптимизированный искусственный интеллект для всех платформ, включая RTX

Время чтения 2 минуты

NVIDIA объявила , что LLM Llama 3 от Meta созданы на основе графических процессоров NVIDIA и оптимизированы для работы на всех платформах, от серверов до ПК.

LLM следующего поколения Llama 3 AI от Meta уже здесь, и NVIDIA является их движущей силой, оптимизированная поддержка на облачных, Edge и RTX ПК

Пресс-релиз: Сегодня NVIDIA объявила об оптимизации на всех своих платформах для ускорения Meta Llama 3, последнего поколения модели большого языка (LLM). Открытая модель в сочетании с ускоренными вычислениями NVIDIA дает разработчикам, исследователям и предприятиям возможность ответственно внедрять инновации в самых разных приложениях.

Обучение на NVIDIA AI

Мета-инженеры обучали Llama 3 на компьютерном кластере, оснащенном 24 576 графическими процессорами H100 Tensor Core , связанными с сетью Quantum-2 InfiniBand. При поддержке NVIDIA Meta настроила свою сеть, программное обеспечение и архитектуру моделей для своего флагманского LLM.

В целях дальнейшего развития современных технологий генеративного искусственного интеллекта компания Meta недавно рассказала о планах масштабировать свою инфраструктуру до 350 000 графических процессоров H100 .

Заставляем Ламу 3 работать

Версии Llama 3, ускоренные на графических процессорах NVIDIA, доступны уже сегодня для использования в облаке, центрах обработки данных, периферийных устройствах и на ПК.

Источник изображения: Wccftech (сгенерировано AI)

Компании могут точно настроить Llama 3 на основе своих данных с помощью  NVIDIA NeMo , платформы с открытым исходным кодом для LLM, которая является частью безопасной и поддерживаемой платформы NVIDIA AI Enterprise. Пользовательские модели можно оптимизировать для вывода с помощью NVIDIA TensorRT-LLM и развернуть с помощью Triton Inference Server.

Перенос Llama 3 на устройства и ПК

Llama 3 также работает на Jetson Orin для робототехники и периферийных вычислительных устройств, создавая интерактивные агенты, подобные тем, что используются в Jetson AI Lab. Более того, графические процессоры RTX и GeForce RTX для рабочих станций и ПК ускоряют вывод на Llama 3. Эти системы дают разработчикам цель создать более 100 миллионов систем с ускорением NVIDIA по всему миру.

Получите оптимальную производительность с Llama 3

Лучшие практики развертывания LLM для чат-бота включают баланс низкой задержки, хорошей скорости чтения и оптимального использования графического процессора для снижения затрат. Такая служба должна доставлять токены — грубый эквивалент слов в LLM — примерно в два раза быстрее скорости чтения пользователя, которая составляет около 10 токенов в секунду.

Применяя эти показатели, один  графический процессор NVIDIA H200 с тензорными ядрами генерировал около 3000 токенов в секунду — этого достаточно для одновременного обслуживания около 300 пользователей — в первоначальном тесте с использованием версии Llama 3 с 70 миллиардами параметров. Это означает, что один сервер NVIDIA HGX с восемью графическими процессорами H200 может доставлять 24 000 токенов в секунду, что дополнительно оптимизирует затраты за счет одновременной поддержки более 2400 пользователей.

Для периферийных устройств версия Llama 3 с восемью миллиардами параметров генерирует до 40 токенов в секунду на Jetson AGX Orin и 15 токенов в секунду на Jetson Orin Nano.

Развитие моделей сообщества

Будучи активным участником открытого исходного кода, NVIDIA стремится оптимизировать программное обеспечение сообщества, которое помогает пользователям решать самые сложные задачи. Модели с открытым исходным кодом также способствуют прозрачности ИИ и позволяют пользователям широко делиться результатами работы по безопасности и устойчивости ИИ.

Exit mobile version