ホームページ  >  記事  >  テクノロジー周辺機器  >  NVIDIA が AMD の顔を平手打ち: ソフトウェア サポートにより、H100 の AI パフォーマンスは MI300X よりも 47% 高速です。

NVIDIA が AMD の顔を平手打ち: ソフトウェア サポートにより、H100 の AI パフォーマンスは MI300X よりも 47% 高速です。

WBOY
WBOY転載
2023-12-15 18:15:121284ブラウズ

NVIDIA が AMD の顔を平手打ち: ソフトウェア サポートにより、H100 の AI パフォーマンスは MI300X よりも 47% 高速です。

12 月 14 日のニュースによると、AMD は今月初めに最も強力な AI チップ Instinct MI300X を発売し、同社の 8 GPU サーバーの AI パフォーマンスは Nvidia H100 8 GPU より 60% 向上しました。この点に関して、NVIDIA は最近、H100 と MI300X の間の一連の最新のパフォーマンス比較データをリリースしました。これは、H100 が適切なソフトウェアを使用して MI300X よりも高速な AI パフォーマンスを提供する方法を示しています。

AMD が以前にリリースしたデータによると、MI300X の FP8/FP16 パフォーマンスは NVIDIA H100 の 1.3 倍に達し、Llama 2 70B および FlashAttendant 2 モデルの実行速度は H100 より 20% 高速です。 8v8 サーバーでは、Llama 2 70B モデルを実行している場合、MI300X は H100 より 40% 高速であり、Bloom 176B モデルを実行している場合、MI300X は H100 より 60% 高速です。

ただし、MI300X と NVIDIA H100 を比較する場合、AMD は最新の ROCm 6.0 スイート (スパーシティなどを含む FP16、Bf16、FP8 などの最新のコンピューティング フォーマットをサポートできる) の最適化ライブラリを使用していることに注意してください。これらの数字を取得します。対照的に、NVIDIA H100 は、NVIDIA の TensorRT-LLM などの最適化ソフトウェアを使用せずにはテストされませんでした。

NVIDIA H100 テストに関する AMD の暗黙の声明は、vLLM v.02.2.2 推論ソフトウェアと NVIDIA DGX H100 システムを使用した Llama 2 70B クエリの入力シーケンス長が 2048、出力シーケンス長が 128 であることを示しています

NVIDIA が DGX H100 (8 個の NVIDIA H100 Tensor コア GPU、80 GB HBM3 を搭載) に対してリリースした最新のテスト結果は、パブリック NVIDIA TensorRT LLM ソフトウェアが使用されており、その v0.5.0 がバッチ 1 テストに使用されていることを示しています。 、レイテンシーしきい値測定用の v0.6.1。テスト ワークロードの詳細は、以前に実施された AMD テストと同じです

NVIDIA が AMD の顔を平手打ち: ソフトウェア サポートにより、H100 の AI パフォーマンスは MI300X よりも 47% 高速です。

結果によると、最適化されたソフトウェアを使用した後、NVIDIA DGX H100 サーバーのパフォーマンスは 2 倍以上向上し、AMD が発表した MI300X 8-GPU サーバーよりも 47% 高速になりました。

DGX H100 は、1 つの推論タスクを 1.7 秒で処理できます。応答時間とデータセンターのスループットを最適化するために、クラウド サービスは特定のサービスに対して固定の応答時間を設定します。これにより、複数の推論リクエストをより大きな「バッチ」に結合できるため、サーバー上の 1 秒あたりの推論の総数が増加します。 MLPerf などの業界標準ベンチマークでも、この固定応答時間メトリクスを使用してパフォーマンスを測定します

応答時間のわずかなトレードオフにより、サーバーがリアルタイムで処理できる推論リクエストの数に不確実性が生じる可能性があります。固定の 2.5 秒の応答時間バジェットを使用すると、NVIDIA DGX H100 サーバーは 1 秒あたり 5 件を超える Llama 2 70B 推論を処理できますが、Batch-1 は 1 秒あたり 1 件未満しか処理できません。

明らかに、Nvidia がこれらの新しいベンチマークを使用するのは比較的公平です。結局のところ、AMD も最適化されたソフトウェアを使用して GPU のパフォーマンスを評価しているため、Nvidia H100 をテストするときに同じことを行わないのはなぜでしょうか?

NVIDIA のソフトウェア スタックは CUDA エコシステムを中心に展開しており、長年の努力と開発を経て、人工知能市場で非常に強力な地位を築いていますが、一方で AMD の ROCm 6.0 は新しく、まだテストされていないことを知っておく必要があります。現実世界のシナリオ。

AMD が以前に開示した情報によると、AMD は Microsoft や Meta などの大企業との契約の大部分に達しており、これらの企業は同社の MI300X GPU を Nvidia の H100 ソリューションの代替品と見なしています。

AMD の最新の Instinct MI300X は、2024 年上半期に大量に出荷される予定です。ただし、NVIDIA のより強力な H200 GPU もそれまでに出荷され、NVIDIA は新世代の Blackwell B100 も 2024 年上半期に発売される予定です。 2024年の半分。さらに、インテルは新世代 AI チップ Gaudi 3 も発売します。次に、人工知能分野での競争はさらに激化しそうだ。

編集者: Xinzhixun-Rurounijian

以上がNVIDIA が AMD の顔を平手打ち: ソフトウェア サポートにより、H100 の AI パフォーマンスは MI300X よりも 47% 高速です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はsohu.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。