ホームページ >テクノロジー周辺機器 >AI >Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に
大規模モデルの推論速度がわずか 1 か月で 2 倍になりました。
最近、Nvidia は、LLM 推論プロセスの高速化を目的として、H100 用に特別に設計された「鶏の血パッケージ」の発売を発表しました。
もしかしたら、GH200 を待つ必要はなくなるかもしれません。来年納品予定です。。
推論速度を 2 倍にするだけでなく、非常に使いやすいです。
C や CUDA に関する深い知識がなくても、最適化戦略をすばやくカスタマイズし、H100 で大規模なモデルをより高速に実行できます。
NVIDIA の科学者 Jim Fan 氏は、NVIDIA の「もう 1 つの利点」は、GPU のパフォーマンスを最大限に活用できるサポート ソフトウェアであると転送し、コメントしました。A100 の 8 倍、8 月の非最適化バージョン の 2 倍です。
「すぐに使用できる」。
TensorRT の最新のオープンソース AI カーネルを通じて、開発者は、Transformer を大幅に高速化するアテンション アルゴリズム FlashAttend など、モデル自体を最適化することもできます。 TensorRT は、深層学習推論を最適化するための高性能推論エンジンです。混合精度コンピューティング、動的グラフ最適化、レイヤー融合などのテクノロジーを使用して、LLM 推論速度を最適化します。具体的には、TensorRT は、浮動小数点計算を半精度浮動小数点計算に変換することで、計算量とメモリ帯域幅の要件を削減し、推論速度を向上させます。さらに、TensorRT は動的グラフ最適化テクノロジーを使用して、入力データの特性に基づいて最適なネットワーク構造を動的に選択し、推論速度をさらに向上させます。さらに、TensorRT はレイヤー フュージョン テクノロジーを使用して、複数のコンピューティング レイヤーをより効率的なコンピューティング レイヤーにマージし、コンピューティングとメモリ アクセスのオーバーヘッドを削減し、推論速度をさらに向上させます。つまり、TensorRT は、さまざまな最適化テクノロジを通じて LLM 推論の速度と効率を大幅に向上させました。まず第一に、これは TensorRTによるマルチノードの共同作業の最適化によるものです。 。
Llama のような巨大なモデルは 1 枚のカードでは実行できません。一緒に実行するには複数の GPU が必要です。以前は、この作業を達成するには、人が手動でモデルを分解する必要がありました。
TensorRT を使用すると、システムはモデルを自動的に分割し、NVLink を通じて複数の GPU 間で効率的に実行できます
第 2 に、TensorRT は # と呼ばれる最適化されたスケジューリング テクノロジも使用します。 ##動的バッチ処理が使用されます。
推論プロセス中、LLM はモデルの反復を複数回実行することによって実際に実行されます。動的バッチ処理テクノロジは、タスクのバッチ全体を待つのではなく、完了したシーケンスをすぐに開始します。完了すると、次の一連のリクエストを処理します。 実際のテストでは、動的バッチ処理テクノロジーにより LLM の GPU リクエスト スループットを半分に削減することに成功し、運用コストを大幅に削減しました。もう 1 つの重要なポイントは16 ビット精度の浮動小数点数を次の値に変換することです。 8 ビット精度 により、メモリ消費量が削減されます。
トレーニング段階での FP16 と比較すると、FP8 はリソース消費量が少なく、INT-8 よりも正確です。モデルの精度に影響を与えることなくパフォーマンスを向上させることができます。使用ホッパートランスフォーマーエンジン、システムは、モデル内のコードを手動で変更する必要がなく、FP16 から FP8 への変換とコンパイルを自動的に完了します。現在、TensorRT-LLM の初期バージョンがダウンロード可能であり、正式バージョンはダウンロード可能です。数週間後にローンチされ、NeMo フレームワークに統合されます One More Thing 大きなイベントが起こるたびに、「レーウェンフック」の存在は欠かせません。 Nvidia の発表では、Meta などの大手人工知能企業との協力について触れられていましたが、OpenAI については言及されていませんでした。 この発表から、一部のネチズンがこの点を発見し、OpenAI フォーラムに投稿しました。 :ラオ・ファン (手動犬頭) にキューされていない人を教えてください
以上がLao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍にの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。