Lao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍に
大規模モデルの推論速度がわずか 1 か月で 2 倍になりました。
最近、Nvidia は、LLM 推論プロセスの高速化を目的として、H100 用に特別に設計された「鶏の血パッケージ」の発売を発表しました。
もしかしたら、GH200 を待つ必要はなくなるかもしれません。来年納品予定です。。
推論速度を 2 倍にするだけでなく、非常に使いやすいです。
C や CUDA に関する深い知識がなくても、最適化戦略をすばやくカスタマイズし、H100 で大規模なモデルをより高速に実行できます。
NVIDIA の科学者 Jim Fan 氏は、NVIDIA の「もう 1 つの利点」は、GPU のパフォーマンスを最大限に活用できるサポート ソフトウェアであると転送し、コメントしました。A100 の 8 倍、8 月の非最適化バージョン の 2 倍です。
「すぐに使用できる」。
TensorRT の最新のオープンソース AI カーネルを通じて、開発者は、Transformer を大幅に高速化するアテンション アルゴリズム FlashAttend など、モデル自体を最適化することもできます。 TensorRT は、深層学習推論を最適化するための高性能推論エンジンです。混合精度コンピューティング、動的グラフ最適化、レイヤー融合などのテクノロジーを使用して、LLM 推論速度を最適化します。具体的には、TensorRT は、浮動小数点計算を半精度浮動小数点計算に変換することで、計算量とメモリ帯域幅の要件を削減し、推論速度を向上させます。さらに、TensorRT は動的グラフ最適化テクノロジーを使用して、入力データの特性に基づいて最適なネットワーク構造を動的に選択し、推論速度をさらに向上させます。さらに、TensorRT はレイヤー フュージョン テクノロジーを使用して、複数のコンピューティング レイヤーをより効率的なコンピューティング レイヤーにマージし、コンピューティングとメモリ アクセスのオーバーヘッドを削減し、推論速度をさらに向上させます。つまり、TensorRT は、さまざまな最適化テクノロジを通じて LLM 推論の速度と効率を大幅に向上させました。まず第一に、これは TensorRTによるマルチノードの共同作業の最適化によるものです。 。
Llama のような巨大なモデルは 1 枚のカードでは実行できません。一緒に実行するには複数の GPU が必要です。以前は、この作業を達成するには、人が手動でモデルを分解する必要がありました。
TensorRT を使用すると、システムはモデルを自動的に分割し、NVLink を通じて複数の GPU 間で効率的に実行できます
第 2 に、TensorRT は # と呼ばれる最適化されたスケジューリング テクノロジも使用します。 ##動的バッチ処理が使用されます。
推論プロセス中、LLM はモデルの反復を複数回実行することによって実際に実行されます。動的バッチ処理テクノロジは、タスクのバッチ全体を待つのではなく、完了したシーケンスをすぐに開始します。完了すると、次の一連のリクエストを処理します。 実際のテストでは、動的バッチ処理テクノロジーにより LLM の GPU リクエスト スループットを半分に削減することに成功し、運用コストを大幅に削減しました。もう 1 つの重要なポイントは16 ビット精度の浮動小数点数を次の値に変換することです。 8 ビット精度 により、メモリ消費量が削減されます。
トレーニング段階での FP16 と比較すると、FP8 はリソース消費量が少なく、INT-8 よりも正確です。モデルの精度に影響を与えることなくパフォーマンスを向上させることができます。使用ホッパートランスフォーマーエンジン、システムは、モデル内のコードを手動で変更する必要がなく、FP16 から FP8 への変換とコンパイルを自動的に完了します。現在、TensorRT-LLM の初期バージョンがダウンロード可能であり、正式バージョンはダウンロード可能です。数週間後にローンチされ、NeMo フレームワークに統合されます One More Thing 大きなイベントが起こるたびに、「レーウェンフック」の存在は欠かせません。 Nvidia の発表では、Meta などの大手人工知能企業との協力について触れられていましたが、OpenAI については言及されていませんでした。 この発表から、一部のネチズンがこの点を発見し、OpenAI フォーラムに投稿しました。 :ラオ・ファン (手動犬頭) にキューされていない人を教えてください
以上がLao Huang が H100 を強化: Nvidia が大型モデル アクセラレーション パッケージを発売、Llama2 の推論速度を 2 倍にの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター
