NVIDIA объявила , что LLM Llama 3 от Meta созданы на основе графических процессоров NVIDIA и оптимизированы для работы на всех платформах, от серверов до ПК.
LLM следующего поколения Llama 3 AI от Meta уже здесь, и NVIDIA является их движущей силой, оптимизированная поддержка на облачных, Edge и RTX ПК
Пресс-релиз: Сегодня NVIDIA объявила об оптимизации на всех своих платформах для ускорения Meta Llama 3, последнего поколения модели большого языка (LLM). Открытая модель в сочетании с ускоренными вычислениями NVIDIA дает разработчикам, исследователям и предприятиям возможность ответственно внедрять инновации в самых разных приложениях.
Обучение на NVIDIA AI
Мета-инженеры обучали Llama 3 на компьютерном кластере, оснащенном 24 576 графическими процессорами H100 Tensor Core , связанными с сетью Quantum-2 InfiniBand. При поддержке NVIDIA Meta настроила свою сеть, программное обеспечение и архитектуру моделей для своего флагманского LLM.
В целях дальнейшего развития современных технологий генеративного искусственного интеллекта компания Meta недавно рассказала о планах масштабировать свою инфраструктуру до 350 000 графических процессоров H100 .
Заставляем Ламу 3 работать
Версии Llama 3, ускоренные на графических процессорах NVIDIA, доступны уже сегодня для использования в облаке, центрах обработки данных, периферийных устройствах и на ПК.
Компании могут точно настроить Llama 3 на основе своих данных с помощью NVIDIA NeMo , платформы с открытым исходным кодом для LLM, которая является частью безопасной и поддерживаемой платформы NVIDIA AI Enterprise. Пользовательские модели можно оптимизировать для вывода с помощью NVIDIA TensorRT-LLM и развернуть с помощью Triton Inference Server.
Перенос Llama 3 на устройства и ПК
Llama 3 также работает на Jetson Orin для робототехники и периферийных вычислительных устройств, создавая интерактивные агенты, подобные тем, что используются в Jetson AI Lab. Более того, графические процессоры RTX и GeForce RTX для рабочих станций и ПК ускоряют вывод на Llama 3. Эти системы дают разработчикам цель создать более 100 миллионов систем с ускорением NVIDIA по всему миру.
Получите оптимальную производительность с Llama 3
Лучшие практики развертывания LLM для чат-бота включают баланс низкой задержки, хорошей скорости чтения и оптимального использования графического процессора для снижения затрат. Такая служба должна доставлять токены — грубый эквивалент слов в LLM — примерно в два раза быстрее скорости чтения пользователя, которая составляет около 10 токенов в секунду.
Применяя эти показатели, один графический процессор NVIDIA H200 с тензорными ядрами генерировал около 3000 токенов в секунду — этого достаточно для одновременного обслуживания около 300 пользователей — в первоначальном тесте с использованием версии Llama 3 с 70 миллиардами параметров. Это означает, что один сервер NVIDIA HGX с восемью графическими процессорами H200 может доставлять 24 000 токенов в секунду, что дополнительно оптимизирует затраты за счет одновременной поддержки более 2400 пользователей.
Для периферийных устройств версия Llama 3 с восемью миллиардами параметров генерирует до 40 токенов в секунду на Jetson AGX Orin и 15 токенов в секунду на Jetson Orin Nano.
Развитие моделей сообщества
Будучи активным участником открытого исходного кода, NVIDIA стремится оптимизировать программное обеспечение сообщества, которое помогает пользователям решать самые сложные задачи. Модели с открытым исходным кодом также способствуют прозрачности ИИ и позволяют пользователям широко делиться результатами работы по безопасности и устойчивости ИИ.
0 Комментариев