検索
ホームページテクノロジー周辺機器AILao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

大規模モデルの推論速度がわずか 1 か月で 2 倍になりました。

最近、Nvidia は、LLM 推論プロセスの高速化を目的として、H100 用に特別に設計された「鶏の血パッケージ」の発売を発表しました。

もしかしたら、GH200 を待つ必要はなくなるかもしれません。来年納品予定です。Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

#GPU の計算能力は大規模モデルのパフォーマンスに影響を与えています。ハードウェア サプライヤーとユーザーの両方がより高速な計算速度を実現することを望んでいます

最大のサプライヤーとしてNVIDIA は、大型モデルの背後にあるハードウェアを高速化する方法を研究してきました。

NVIDIA は、多くの AI 企業との協力を通じて、大規模モデル推論最適化プログラム TensorRT-LLM (仮称 TensorRT) をついに開始しました。

TensorRT は、大規模モデルの

推論速度を 2 倍にするだけでなく、非常に使いやすいです。

C や CUDA に関する深い知識がなくても、最適化戦略をすばやくカスタマイズし、H100 で大規模なモデルをより高速に実行できます。

NVIDIA の科学者 Jim Fan 氏は、NVIDIA の「もう 1 つの利点」は、GPU のパフォーマンスを最大限に活用できるサポート ソフトウェアであると転送し、コメントしました。

Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

NVIDIA は、Lao Huang の格言「買えば買うほど節約になる」を実践しているかのように、ソフトウェアを通じて自社製品に新たな活力を注入しています。しかし、だからといって製品の価格が高すぎると考える人もいるでしょう。

Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

価格に加えて、一部のネチズンはその効果を疑問視しています。

(宣伝どおり) パフォーマンスが何倍も向上していることを私たちは常に確認してきましたが、Llama 2 を自分で実行すると、依然として 1 秒あたり数十のトークンしか処理できません。

Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

TensorRT については、それが本当に効果的かどうかを判断するためにさらなるテストが必要です。まず、TensorRT について詳しく見てみましょう。

大規模モデルの推論速度を 2 倍にします

TensorRT-LLM に最適化された H100 は、大規模モデルの実行速度はどれくらいですか?

Nvidia の発表では、Llama 2 と GPT-J-6B の 2 つのモデルのデータが提供されています。

最適化された H100 では、Llama 2 を実行する推論速度は、8 月時点で A100 の 4.6 倍、最適化されていない H100 の 1.77 倍です。

Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

GPT-J-6B の推論速度は

A100 の 8 倍、8 月の非最適化バージョン の 2 倍です。

Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

TensorRT は、さまざまな LLM 要件に従って最適化ソリューションを迅速にカスタマイズできるオープン ソースのモジュラー Python API も提供します。

この API は、深層学習コンパイラと、カーネルの最適化、前処理/後処理、およびマルチノード通信機能が統合されています。

GPT(2/3) や Llama などの一般的なモデルのカスタマイズされたバージョンもあり、

「すぐに使用できる」

TensorRT の最新のオープンソース AI カーネルを通じて、開発者は、Transformer を大幅に高速化するアテンション アルゴリズム FlashAttend など、モデル自体を最適化することもできます。

TensorRT は、深層学習推論を最適化するための高性能推論エンジンです。混合精度コンピューティング、動的グラフ最適化、レイヤー融合などのテクノロジーを使用して、LLM 推論速度を最適化します。具体的には、TensorRT は、浮動小数点計算を半精度浮動小数点計算に変換することで、計算量とメモリ帯域幅の要件を削減し、推論速度を向上させます。さらに、TensorRT は動的グラフ最適化テクノロジーを使用して、入力データの特性に基づいて最適なネットワーク構造を動的に選択し、推論速度をさらに向上させます。さらに、TensorRT はレイヤー フュージョン テクノロジーを使用して、複数のコンピューティング レイヤーをより効率的なコンピューティング レイヤーにマージし、コンピューティングとメモリ アクセスのオーバーヘッドを削減し、推論速度をさらに向上させます。つまり、TensorRT は、さまざまな最適化テクノロジを通じて LLM 推論の速度と効率を大幅に向上させました。

まず第一に、これは TensorRT

によるマルチノードの共同作業の最適化によるものです。

Llama のような巨大なモデルは 1 枚のカードでは実行できません。一緒に実行するには複数の GPU が必要です。

以前は、この作業を達成するには、人が手動でモデルを分解する必要がありました。

TensorRT を使用すると、システムはモデルを自動的に分割し、NVLink を通じて複数の GPU 間で効率的に実行できます

Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

第 2 に、TensorRT は # と呼ばれる最適化されたスケジューリング テクノロジも使用します。 ##動的バッチ処理が使用されます。

推論プロセス中、LLM はモデルの反復を複数回実行することによって実際に実行されます。

動的バッチ処理テクノロジは、タスクのバッチ全体を待つのではなく、完了したシーケンスをすぐに開始します。完了すると、次の一連のリクエストを処理します。

実際のテストでは、動的バッチ処理テクノロジーにより LLM の GPU リクエスト スループットを半分に削減することに成功し、運用コストを大幅に削減しました。

もう 1 つの重要なポイントは

16 ビット精度の浮動小数点数を次の値に変換することです。 8 ビット精度 により、メモリ消費量が削減されます。

トレーニング段階での FP16 と比較すると、FP8 はリソース消費量が少なく、INT-8 よりも正確です。モデルの精度に影響を与えることなくパフォーマンスを向上させることができます。

使用ホッパートランスフォーマーエンジン、システムは、モデル内のコードを手動で変更する必要がなく、FP16 から FP8 への変換とコンパイルを自動的に完了します。

現在、TensorRT-LLM の初期バージョンがダウンロード可能であり、正式バージョンはダウンロード可能です。数週間後にローンチされ、NeMo フレームワークに統合されます

One More Thing

大きなイベントが起こるたびに、「レーウェンフック」の存在は欠かせません。

Nvidia の発表では、Meta などの大手人工知能企業との協力について触れられていましたが、OpenAI については言及されていませんでした。

この発表から、一部のネチズンがこの点を発見し、OpenAI フォーラムに投稿しました。 :

ラオ・ファン (手動犬頭) にキューされていない人を教えてください

Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

あなたはまだ何ですかラオ・ファンが私たちにもたらす「驚き」を期待していますか?

以上がLao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍にの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
迅速なエンジニアリングにおける思考のグラフは何ですか迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますGenaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

PIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaPIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析Vidhya生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

金融セクターにおける生成AIの応用金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドオンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター