>  기사  >  기술 주변기기  >  GPT-3 기반의 대규모 언어 모델 훈련 작업은 새로운 기록을 세웠습니다. NVIDIA H100 가속기 카드는 단 11분 밖에 걸리지 않았습니다.

GPT-3 기반의 대규모 언어 모델 훈련 작업은 새로운 기록을 세웠습니다. NVIDIA H100 가속기 카드는 단 11분 밖에 걸리지 않았습니다.

PHPz
PHPz앞으로
2023-06-28 21:02:021204검색

6월 28일 뉴스에 따르면 AI 기술의 급속한 발전으로 인해 NVIDIA의 그래픽 카드가 시장에서 매우 기대되고 인기 있는 제품이 되었습니다. 특히 고급형 H100 가속기 카드는 25만 위안 이상에 팔리지만 시장 공급이 부족한 상황이다. 이 가속기 카드의 성능도 매우 놀랍습니다. 최신 AI 테스트 결과에 따르면 GPT-3 기반의 대규모 언어 모델 훈련 작업은 완료 시간이 단 11분으로 신기록을 세웠습니다.

基于GPT-3的大语言模型训练任务刷新记录:NVIDIA H100加速卡仅用11分钟

편집자가 이해한 대로 기계 학습 및 인공 지능 분야의 개방형 산업 연합인 MLCommons가 최신 MLPerf 벤치마크 평가를 발표했습니다. 여기에는 플랫폼의 AI 성능을 평가하기 위한 높은 요구 사항을 제시하는 GPT-3 오픈 소스 모델을 기반으로 하는 LLM 대규모 언어 모델 테스트를 포함하여 8개의 로드 테스트가 포함되어 있습니다.

테스트에 참여하는 NVIDIA 플랫폼은 896개의 Intel Xeon 8462Y+ 프로세서와 3584개의 H100 가속기 카드로 구성됩니다. 모든 참여 플랫폼 중에서 모든 테스트를 완료할 수 있는 유일한 플랫폼입니다. 게다가 NVIDIA 플랫폼은 새로운 기록을 세웠습니다. GPT-3 기반의 주요 대규모 언어 모델 훈련 작업에서 H100 플랫폼은 10.94분밖에 걸리지 않았지만, 96개의 Xeon 8380 프로세서와 96개의 Habana Gaudi2 AI 칩으로 구축된 Intel 플랫폼은 동일한 테스트를 완료하는 데 311.94분이 소요되었습니다. 분.

H100 플랫폼의 성능은 인텔 플랫폼의 30배에 가깝습니다. 물론 두 플랫폼의 규모에는 큰 차이가 있습니다. 하지만 훈련에 H100 가속기 카드 768장만 사용해도 훈련에 필요한 시간은 여전히 ​​45.6분에 불과해 인텔 플랫폼을 사용한 AI 칩보다 훨씬 길다.

H100 가속기 카드는 맞춤형 TSMC 4nm 프로세스로 제조된 GH100 GPU 코어를 사용하며 800억 개의 트랜지스터를 갖추고 있습니다. 18432개의 CUDA 코어, 576개의 텐서 코어, 60MB의 보조 캐시를 통합하고 6144비트 HBM 고대역폭 메모리와 PCIe 5.0 인터페이스를 지원합니다.

基于GPT-3的大语言模型训练任务刷新记录:NVIDIA H100加速卡仅用11分钟

H100 컴퓨팅 카드는 SXM 및 PCIe 5.0 스타일로 제공됩니다. SXM 버전에는 15,872개의 CUDA 코어와 528개의 Tensor 코어가 있고, PCIe 5.0 버전에는 14,952개의 CUDA 코어와 456개의 Tensor 코어가 있습니다. 카드의 전력 소비는 최대 700W에 달할 수 있습니다.

성능 측면에서 H100 가속기 카드는 FP64/FP32 계산에서 초당 60조 회 계산, FP16 계산에서 초당 2000조 회 계산을 달성할 수 있습니다. 또한 A100의 3배인 초당 1000조회에 도달할 수 있는 TF32 계산도 지원합니다. FP8 컴퓨팅 측면에서 H100 가속기 카드의 성능은 A100의 6배인 초당 4,000조 작업에 도달할 수 있습니다.

위 내용은 GPT-3 기반의 대규모 언어 모델 훈련 작업은 새로운 기록을 세웠습니다. NVIDIA H100 가속기 카드는 단 11분 밖에 걸리지 않았습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 itbear.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제