ホームページ >テクノロジー周辺機器 >IT業界 >GPT-3 に基づく大規模言語モデルのトレーニング タスクは新記録を樹立しました。NVIDIA H100 アクセラレータ カードの所要時間はわずか 11 分でした。
6 月 28 日のニュース、AI テクノロジーの急速な発展により、NVIDIA のグラフィックス カードは市場で多くの注目を集めている注目の製品になりました。特にハイエンドのH100アクセラレータカードは25万元以上で販売されているが、市場では品薄状態だ。このアクセラレータ カードのパフォーマンスも非常に素晴らしく、最新の AI テスト結果によると、GPT-3 に基づく大規模言語モデルのトレーニング タスクの完了時間はわずか 11 分で新記録を樹立しました。
編集者の理解によると、機械学習と人工知能の分野におけるオープン業界アライアンスである MLCommons が、最新の MLPerf ベンチマーク評価をリリースしました。これには、プラットフォームの AI パフォーマンスを評価するための高い要件を提示する、GPT-3 オープンソース モデルに基づく LLM 大規模言語モデル テストを含む 8 つの負荷テストが含まれています。
テストに参加する NVIDIA プラットフォームは、896 個の Intel Xeon 8462Y プロセッサと 3584 個の H100 アクセラレータ カードで構成されており、すべての参加プラットフォームの中ですべてのテストを完了できる唯一のプラットフォームです。さらに、NVIDIA プラットフォームは新記録を樹立しました。 GPT-3 ベースの大規模言語モデルの主要なトレーニング タスクでは、H100 プラットフォームの所要時間はわずか 10.94 分でした。これに対し、96 個の Xeon 8380 プロセッサーと 96 個の Habana Gaudi2 AI チップで構築されたインテル プラットフォームは、同じテストを完了しました。所要時間は 311.94 分でした。分。
H100 プラットフォームのパフォーマンスは Intel プラットフォームのほぼ 30 倍ですが、当然ながら、2 つのプラットフォームの規模には大きな違いがあります。しかし、トレーニングに 768 枚の H100 アクセラレータ カードだけを使用したとしても、必要な時間はわずか 45.6 分であり、Intel プラットフォームを使用した AI チップよりもはるかに長くなります。
H100 アクセラレータ カードは、カスタマイズされた TSMC 4nm プロセスで製造された GH100 GPU コアを使用し、800 億個のトランジスタを備えています。 18432 個の CUDA コア、576 個のテンソル コア、60MB の二次キャッシュを統合し、6144 ビット HBM 高帯域幅メモリと PCIe 5.0 インターフェイスをサポートします。
H100 コンピューティング カードは、SXM および PCIe 5.0 スタイルで使用できます。 SXM バージョンには 15,872 個の CUDA コアと 528 個の Tensor コアがあり、PCIe 5.0 バージョンには 14,952 個の CUDA コアと 456 個の Tensor コアがあります。カードの消費電力は最大 700 W に達することがあります。
パフォーマンスの点では、H100 アクセラレータ カードは、FP64/FP32 の計算では 1 秒あたり 60 兆回の計算、FP16 の計算では 1 秒あたり 2,000 兆回の計算を達成できます。さらに、A100 の 3 倍である 1 秒あたり 1000 兆回に達する TF32 計算もサポートしています。 FP8 コンピューティングの観点から見ると、H100 アクセラレータ カードのパフォーマンスは 1 秒あたり 4,000 兆オペレーションに達し、これは A100 の 6 倍です。
以上がGPT-3 に基づく大規模言語モデルのトレーニング タスクは新記録を樹立しました。NVIDIA H100 アクセラレータ カードの所要時間はわずか 11 分でした。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。