ホームページ > 記事 > テクノロジー周辺機器 > Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に
大規模モデルの推論速度がわずか 1 か月で 2 倍になりました。
最近、Nvidia は、LLM 推論プロセスの高速化を目的として、H100 用に特別に設計された「鶏の血パッケージ」の発売を発表しました。
もしかしたら、GH200 を待つ必要はなくなるかもしれません。来年納品予定です。。
#GPU の計算能力は大規模モデルのパフォーマンスに影響を与えています。ハードウェア サプライヤーとユーザーの両方がより高速な計算速度を実現することを望んでいます最大のサプライヤーとしてNVIDIA は、大型モデルの背後にあるハードウェアを高速化する方法を研究してきました。 NVIDIA は、多くの AI 企業との協力を通じて、大規模モデル推論最適化プログラム TensorRT-LLM (仮称 TensorRT) をついに開始しました。 TensorRT は、大規模モデルの推論速度を 2 倍にするだけでなく、非常に使いやすいです。
C や CUDA に関する深い知識がなくても、最適化戦略をすばやくカスタマイズし、H100 で大規模なモデルをより高速に実行できます。
NVIDIA の科学者 Jim Fan 氏は、NVIDIA の「もう 1 つの利点」は、GPU のパフォーマンスを最大限に活用できるサポート ソフトウェアであると転送し、コメントしました。 NVIDIA は、Lao Huang の格言「買えば買うほど節約になる」を実践しているかのように、ソフトウェアを通じて自社製品に新たな活力を注入しています。しかし、だからといって製品の価格が高すぎると考える人もいるでしょう。 価格に加えて、一部のネチズンはその効果を疑問視しています。(宣伝どおり) パフォーマンスが何倍も向上していることを私たちは常に確認してきましたが、Llama 2 を自分で実行すると、依然として 1 秒あたり数十のトークンしか処理できません。 TensorRT については、それが本当に効果的かどうかを判断するためにさらなるテストが必要です。まず、TensorRT について詳しく見てみましょう。大規模モデルの推論速度を 2 倍にしますTensorRT-LLM に最適化された H100 は、大規模モデルの実行速度はどれくらいですか? Nvidia の発表では、Llama 2 と GPT-J-6B の 2 つのモデルのデータが提供されています。 最適化された H100 では、Llama 2 を実行する推論速度は、8 月時点で A100 の 4.6 倍、最適化されていない H100 の 1.77 倍です。 GPT-J-6B の推論速度はA100 の 8 倍、8 月の非最適化バージョン の 2 倍です。
TensorRT は、さまざまな LLM 要件に従って最適化ソリューションを迅速にカスタマイズできるオープン ソースのモジュラー Python API も提供します。この API は、深層学習コンパイラと、カーネルの最適化、前処理/後処理、およびマルチノード通信機能が統合されています。 GPT(2/3) や Llama などの一般的なモデルのカスタマイズされたバージョンもあり、「すぐに使用できる」。
TensorRT の最新のオープンソース AI カーネルを通じて、開発者は、Transformer を大幅に高速化するアテンション アルゴリズム FlashAttend など、モデル自体を最適化することもできます。 TensorRT は、深層学習推論を最適化するための高性能推論エンジンです。混合精度コンピューティング、動的グラフ最適化、レイヤー融合などのテクノロジーを使用して、LLM 推論速度を最適化します。具体的には、TensorRT は、浮動小数点計算を半精度浮動小数点計算に変換することで、計算量とメモリ帯域幅の要件を削減し、推論速度を向上させます。さらに、TensorRT は動的グラフ最適化テクノロジーを使用して、入力データの特性に基づいて最適なネットワーク構造を動的に選択し、推論速度をさらに向上させます。さらに、TensorRT はレイヤー フュージョン テクノロジーを使用して、複数のコンピューティング レイヤーをより効率的なコンピューティング レイヤーにマージし、コンピューティングとメモリ アクセスのオーバーヘッドを削減し、推論速度をさらに向上させます。つまり、TensorRT は、さまざまな最適化テクノロジを通じて LLM 推論の速度と効率を大幅に向上させました。まず第一に、これは TensorRTによるマルチノードの共同作業の最適化によるものです。 。
Llama のような巨大なモデルは 1 枚のカードでは実行できません。一緒に実行するには複数の GPU が必要です。以前は、この作業を達成するには、人が手動でモデルを分解する必要がありました。
TensorRT を使用すると、システムはモデルを自動的に分割し、NVLink を通じて複数の GPU 間で効率的に実行できます
第 2 に、TensorRT は # と呼ばれる最適化されたスケジューリング テクノロジも使用します。 ##動的バッチ処理が使用されます。
推論プロセス中、LLM はモデルの反復を複数回実行することによって実際に実行されます。動的バッチ処理テクノロジは、タスクのバッチ全体を待つのではなく、完了したシーケンスをすぐに開始します。完了すると、次の一連のリクエストを処理します。 実際のテストでは、動的バッチ処理テクノロジーにより LLM の GPU リクエスト スループットを半分に削減することに成功し、運用コストを大幅に削減しました。もう 1 つの重要なポイントは16 ビット精度の浮動小数点数を次の値に変換することです。 8 ビット精度 により、メモリ消費量が削減されます。
トレーニング段階での FP16 と比較すると、FP8 はリソース消費量が少なく、INT-8 よりも正確です。モデルの精度に影響を与えることなくパフォーマンスを向上させることができます。使用ホッパートランスフォーマーエンジン、システムは、モデル内のコードを手動で変更する必要がなく、FP16 から FP8 への変換とコンパイルを自動的に完了します。現在、TensorRT-LLM の初期バージョンがダウンロード可能であり、正式バージョンはダウンロード可能です。数週間後にローンチされ、NeMo フレームワークに統合されます One More Thing 大きなイベントが起こるたびに、「レーウェンフック」の存在は欠かせません。 Nvidia の発表では、Meta などの大手人工知能企業との協力について触れられていましたが、OpenAI については言及されていませんでした。 この発表から、一部のネチズンがこの点を発見し、OpenAI フォーラムに投稿しました。 :ラオ・ファン (手動犬頭) にキューされていない人を教えてくださいあなたはまだ何ですかラオ・ファンが私たちにもたらす「驚き」を期待していますか?
以上がLao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍にの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。