Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に-AI-php.cn

ホームページ

テクノロジー周辺機器

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 18, 2023 pm 03:45 PM

ai電車

大規模モデルの推論速度がわずか 1 か月で 2 倍になりました。

最近、Nvidia は、LLM 推論プロセスの高速化を目的として、H100 用に特別に設計された「鶏の血パッケージ」の発売を発表しました。

もしかしたら、GH200 を待つ必要はなくなるかもしれません。来年納品予定です。 Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に。

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に

#GPU の計算能力は大規模モデルのパフォーマンスに影響を与えています。ハードウェアサプライヤーとユーザーの両方がより高速な計算速度を実現することを望んでいます

最大のサプライヤーとしてNVIDIA は、大型モデルの背後にあるハードウェアを高速化する方法を研究してきました。

NVIDIA は、多くの AI 企業との協力を通じて、大規模モデル推論最適化プログラム TensorRT-LLM (仮称 TensorRT) をついに開始しました。

TensorRT は、大規模モデルの

推論速度を 2 倍にするだけでなく、非常に使いやすいです。

C や CUDA に関する深い知識がなくても、最適化戦略をすばやくカスタマイズし、H100 で大規模なモデルをより高速に実行できます。

NVIDIA の科学者 Jim Fan 氏は、NVIDIA の「もう 1 つの利点」は、GPU のパフォーマンスを最大限に活用できるサポートソフトウェアであると転送し、コメントしました。

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に

NVIDIA は、Lao Huang の格言「買えば買うほど節約になる」を実践しているかのように、ソフトウェアを通じて自社製品に新たな活力を注入しています。しかし、だからといって製品の価格が高すぎると考える人もいるでしょう。

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に

価格に加えて、一部のネチズンはその効果を疑問視しています。

(宣伝どおり) パフォーマンスが何倍も向上していることを私たちは常に確認してきましたが、Llama 2 を自分で実行すると、依然として 1 秒あたり数十のトークンしか処理できません。

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に

TensorRT については、それが本当に効果的かどうかを判断するためにさらなるテストが必要です。まず、TensorRT について詳しく見てみましょう。

大規模モデルの推論速度を 2 倍にします

TensorRT-LLM に最適化された H100 は、大規模モデルの実行速度はどれくらいですか?

Nvidia の発表では、Llama 2 と GPT-J-6B の 2 つのモデルのデータが提供されています。

最適化された H100 では、Llama 2 を実行する推論速度は、8 月時点で A100 の 4.6 倍、最適化されていない H100 の 1.77 倍です。

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に

GPT-J-6B の推論速度は

A100 の 8 倍、8 月の非最適化バージョン の 2 倍です。

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に

TensorRT は、さまざまな LLM 要件に従って最適化ソリューションを迅速にカスタマイズできるオープンソースのモジュラー Python API も提供します。

この API は、深層学習コンパイラと、カーネルの最適化、前処理/後処理、およびマルチノード通信機能が統合されています。

GPT(2/3) や Llama などの一般的なモデルのカスタマイズされたバージョンもあり、

「すぐに使用できる」。

TensorRT の最新のオープンソース AI カーネルを通じて、開発者は、Transformer を大幅に高速化するアテンションアルゴリズム FlashAttend など、モデル自体を最適化することもできます。

TensorRT は、深層学習推論を最適化するための高性能推論エンジンです。混合精度コンピューティング、動的グラフ最適化、レイヤー融合などのテクノロジーを使用して、LLM 推論速度を最適化します。具体的には、TensorRT は、浮動小数点計算を半精度浮動小数点計算に変換することで、計算量とメモリ帯域幅の要件を削減し、推論速度を向上させます。さらに、TensorRT は動的グラフ最適化テクノロジーを使用して、入力データの特性に基づいて最適なネットワーク構造を動的に選択し、推論速度をさらに向上させます。さらに、TensorRT はレイヤーフュージョンテクノロジーを使用して、複数のコンピューティングレイヤーをより効率的なコンピューティングレイヤーにマージし、コンピューティングとメモリアクセスのオーバーヘッドを削減し、推論速度をさらに向上させます。つまり、TensorRT は、さまざまな最適化テクノロジを通じて LLM 推論の速度と効率を大幅に向上させました。

まず第一に、これは TensorRT

によるマルチノードの共同作業の最適化によるものです。。

Llama のような巨大なモデルは 1 枚のカードでは実行できません。一緒に実行するには複数の GPU が必要です。

以前は、この作業を達成するには、人が手動でモデルを分解する必要がありました。

TensorRT を使用すると、システムはモデルを自動的に分割し、NVLink を通じて複数の GPU 間で効率的に実行できます

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に

第 2 に、TensorRT は # と呼ばれる最適化されたスケジューリングテクノロジも使用します。 ##動的バッチ処理が使用されます。

推論プロセス中、LLM はモデルの反復を複数回実行することによって実際に実行されます。

動的バッチ処理テクノロジは、タスクのバッチ全体を待つのではなく、完了したシーケンスをすぐに開始します。完了すると、次の一連のリクエストを処理します。

実際のテストでは、動的バッチ処理テクノロジーにより LLM の GPU リクエストスループットを半分に削減することに成功し、運用コストを大幅に削減しました。

もう 1 つの重要なポイントは

16 ビット精度の浮動小数点数を次の値に変換することです。 8 ビット精度 により、メモリ消費量が削減されます。

トレーニング段階での FP16 と比較すると、FP8 はリソース消費量が少なく、INT-8 よりも正確です。モデルの精度に影響を与えることなくパフォーマンスを向上させることができます。

使用ホッパートランスフォーマーエンジン、システムは、モデル内のコードを手動で変更する必要がなく、FP16 から FP8 への変換とコンパイルを自動的に完了します。

現在、TensorRT-LLM の初期バージョンがダウンロード可能であり、正式バージョンはダウンロード可能です。数週間後にローンチされ、NeMo フレームワークに統合されます

One More Thing

大きなイベントが起こるたびに、「レーウェンフック」の存在は欠かせません。

Nvidia の発表では、Meta などの大手人工知能企業との協力について触れられていましたが、OpenAI については言及されていませんでした。

この発表から、一部のネチズンがこの点を発見し、OpenAI フォーラムに投稿しました。 :

ラオ・ファン (手動犬頭) にキューされていない人を教えてください

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に

あなたはまだ何ですかラオ・ファンが私たちにもたらす「驚き」を期待していますか？

以上がLao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍にの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7491

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

PhpStorm Mac バージョン

ゼンドスタジオ 13.0.1

SAP NetWeaver Server Adapter for Eclipse

SublimeText3 Mac版

VSCode Windows 64 ビットのダウンロード

ホットトピック

Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

PhpStorm Mac バージョン

ゼンドスタジオ 13.0.1

SAP NetWeaver Server Adapter for Eclipse

SublimeText3 Mac版

VSCode Windows 64 ビットのダウンロード

ホットトピック

Lao Huang が H100 を強化: Nvidia が大型モデルアクセラレーションパッケージを発売、Llama2 の推論速度を 2 倍に