NVIDIA의 Llama 3.1-Nemotron-51B는 뛰어난 정확성과 효율성으로 AI 분야의 새로운 벤치마크를 설정하여 단일 GPU에서 높은 워크로드를 지원합니다.
NVIDIA의 최신 언어 모델인 Llama 3.1-Nemotron-51B는 탁월한 정확성과 효율성으로 AI 성능의 새로운 표준을 제시합니다. 이 모델은 높은 워크로드에서도 단일 GPU에 맞게 LLM을 확장하는 데 있어 발전을 이루었습니다.
NVIDIA는 뛰어난 정확성과 효율성으로 AI 성능의 도약을 약속하는 Llama 3.1-Nemotron-51B라는 새로운 언어 모델을 공개했습니다. 이 모델은 Meta의 Llama-3.1-70B에서 파생되었으며 새로운 NAS(신경 아키텍처 검색) 접근 방식을 활용하여 정확성과 효율성을 모두 최적화합니다. 놀랍게도 이 모델은 워크로드가 높은 경우에도 단일 NVIDIA H100 GPU에 적합하므로 접근성이 뛰어나고 비용 효율적입니다.
Llama 3.1-Nemotron-51B 모델은 이전 모델에 비해 거의 동일한 수준의 정확도를 유지하면서 2.2배 빠른 추론 속도를 자랑합니다. 이러한 효율성 덕분에 메모리 공간이 줄어들고 아키텍처가 최적화되어 추론 중에 단일 GPU에서 4배 더 큰 워크로드가 가능합니다.
대형 언어 모델(LLM)을 채택할 때의 과제 중 하나는 높은 추론 비용입니다. Llama 3.1-Nemotron-51B 모델은 정확성과 효율성 사이의 균형 잡힌 균형을 제공하여 이를 해결함으로써 엣지 시스템에서 클라우드 데이터 센터에 이르는 다양한 애플리케이션을 위한 비용 효율적인 솔루션을 제공합니다. 이 기능은 Kubernetes 및 NIM 청사진을 통해 여러 모델을 배포하는 데 특히 유용합니다.
Nemotron 모델은 더 높은 추론 성능을 위해 TensorRT-LLM 엔진에 최적화되어 있으며 NVIDIA NIM 추론 마이크로서비스로 패키지되어 있습니다. 이 설정은 클라우드, 데이터 센터, 워크스테이션을 포함한 NVIDIA의 가속화된 인프라 전반에 걸쳐 생성 AI 모델의 배포를 단순화하고 가속화합니다.
Llama 3.1-Nemotron-51B-Instruct 모델은 효율적인 NAS 기술과 훈련 방법을 사용하여 구축되었으며, 이를 통해 특정 GPU에 최적화된 비표준 변환기 모델을 생성할 수 있습니다. 이 접근 방식에는 다양한 블록 변형을 병렬로 훈련하는 블록 증류 프레임워크가 포함되어 있어 효율적이고 정확한 추론이 보장됩니다.
NVIDIA의 NAS 접근 방식을 통해 사용자는 정확성과 효율성 사이에서 최적의 균형을 선택할 수 있습니다. 예를 들어, Llama-3.1-Nemotron-40B-Instruct 변형은 속도와 비용을 우선시하기 위해 만들어졌으며 정확도는 약간 감소하면서 상위 모델에 비해 3.2배 속도 증가를 달성했습니다.
Llama 3.1-Nemotron-51B-Instruct 모델은 여러 산업 표준에 대한 벤치마킹을 통해 다양한 시나리오에서 탁월한 성능을 보여주었습니다. 참조 모델의 처리량을 두 배로 늘려 여러 사용 사례에 걸쳐 비용 효율적으로 만듭니다.
Llama 3.1-Nemotron-51B-Instruct 모델은 사용자와 회사가 매우 정확한 기초 모델을 비용 효율적으로 활용할 수 있는 새로운 가능성을 제공합니다. 정확성과 효율성 사이의 균형은 빌더에게 매력적인 옵션을 제공하며 NVIDIA가 다른 모델로 확장하는 것을 목표로 하는 NAS 접근 방식의 효율성을 강조합니다.
위 내용은 NVIDIA, Llama 3.1-Nemotron-51B 공개: 정확성과 효율성의 도약의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!