ホームページ >テクノロジー周辺機器 >AI >Nvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリース

Nvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリース

王林転載: 2023-09-14 12:29:051097ブラウズ

Nvidia发布TensorRT-LLM开源软件提升高端GPU芯片上的AI模型性能

Nvidia は最近、TensorRT-LLM と呼ばれる新しいオープンソースソフトウェアスイートのリリースを発表しました。これは Nvidia GPU での大規模言語モデルの最適化機能を拡張し、導入後の人工知能推論パフォーマンスの限界を突破します。

生成 AI 大規模言語モデルは、その優れた機能により人気が高まっています。人工知能の可能性を広げ、さまざまな業界で広く活用されています。ユーザーは、チャットボットと会話することで情報を取得し、大規模なドキュメントを要約し、ソフトウェアコードを作成し、情報を理解するための新しい方法を発見できます

Nvidia のハイパースケールおよびハイパフォーマンスコンピューティング担当バイスプレジデントであるイアンバック氏は次のように述べています。モデルが複雑になり、よりスマートになり、大規模になるのは当然のことですが、モデルが単一の GPU を超えて拡張され、複数の GPU で実行する必要がある場合、「

人工知能における推論は、次のようなプロセスです。モデルは、要約、コードの生成、提案の提供、質問への回答など、これまでに見たことのない新しいデータを処理する大規模な言語モデルの主力製品です。

モデルのエコシステムの急速な拡大に伴い、モデルはますます大きくなり、機能も豊富になっています。これは、モデルが非常に大きくなり、単一の GPU で同時に実行できず、分割する必要があることも意味します。開発者とエンジニアは、リアルタイムで応答を得るためにワークロードを手動で分散および調整する必要があります。 TensorRT-LLM は、「テンソル並列処理」を実装することでこの問題を解決し、複数の GPU で大規模かつ効率的な推論を可能にします

これに加えて、今日の市場には多種多様な大規模言語モデルがあるため、Nvidia はコアを最適化しました。現在主流の大規模言語モデル。このソフトウェアスイートには、Meta Platform の Llama 2、OpenAI の GPT-2 および GPT-3、Falcon、MosaicMPT、BLOOM などの大規模言語モデルの完全に最適化されたすぐに実行できるバージョンが含まれています。

動的なワークロードに対処するための「オンザフライバッチ処理」メカニズム

大規模な言語モデル自体の性質により、モデルのワークロードは非常に動的になる可能性があり、ワークロード要件やタスクの使用状況も時間の経過とともに変化する可能性があります。単一のモデルは、質問と回答を行うチャットボットとして同時に使用でき、短い文書だけでなく大きな文書の要約にも使用できます。したがって、出力サイズはまったく異なる桁になる可能性があります。

これらのさまざまなワークロードに対処するために、TensorRT-LLM は「オンザフライバッチ処理」と呼ばれるメカニズムを導入しています。これは、テキスト生成プロセスを複数の部分に分割して、テキスト生成プロセスを複数の部分に分割する最適化されたスケジューリングプロセスです。 GPU 出力により、新しいバッチを開始する前にワークロードのバッチ全体を完了する必要がありません。

以前は、非常に大きなドキュメントの要約などの大きなリクエストがある場合、キューが前に進む前に、後ろにあるものはプロセスが完了するまで待機する必要がありました。

Nvidia は、Meta、Cohere、Grammarly、Databricks、Tabnine を含む多くのベンダーと協力して TensorRT-LLM を最適化してきました。彼らの支援により、Nvidia は、大規模な言語モデルをカスタマイズするための新しいアーキテクチャを定義および最適化するためのオープンソース Python アプリケーションユーザーインターフェイスを含む、ソフトウェアスイート内の機能とツールセットの合理化を続けています。

たとえば、MosaicML が TensorRT-LLM を既存のソフトウェアスタックと統合したとき、TensorRT-LLM の上に追加機能が追加されました。 Databricks のエンジニアリング担当副社長である Naveen Rao 氏は、プロセスは非常にシンプルであると述べました

「TensorRT-LLM は使いやすく、トークンストリーミング、動的バッチ処理、ページアテンション、量子化などを含む豊富な機能を備えています。非常に効率的であり、NVIDIA GPU を使用するための最適なソリューションを提供します。大規模な言語モデルサービスは最高のパフォーマンスを提供し、コスト削減を顧客に還元することができます。」

Nvidia は TensorRT-LLM とそれがもたらす利点について述べました。バッチ処理機能を含む、Nvidia による記事概要抽出の推論パフォーマンスが 1 倍以上向上しました。 GPT-J-6B モデルを使用して CNN/Daily Mail 記事の要約で A100 テストを実行した場合、H100 のみを使用すると A100 よりも 4 倍高速になり、TensorRT-LLM 最適化を有効にすると速度は 8 倍向上しました

TensorRT-LLM開発者とエンジニアにディープラーニングコンパイラ、最適化された大規模言語モデルカーネル、前処理および後処理、マルチ GPU/マルチノード通信機能、およびシンプルなオープンソース API を提供し、大規模な言語モデルを迅速に最適化して実行できるようにします。制作推理。大規模な言語モデルがデータセンターの再構築を続ける中、企業のより高いパフォーマンスへの要求により、開発者はより高いパフォーマンスの結果を実現するための機能とアクセスを提供するツールをこれまで以上に必要としています。

TensorRT-LLM ソフトウェアスイートは、Nvidia 開発者プログラムの開発者向けに早期アクセスが可能になり、来月にはプロダクション AI エンドツーエンドソフトウェアプラットフォーム Nvidia AI Enterprise の NeMo フレームワークに統合される予定です。 TensorRT-LLM ソフトウェアスイートは、Nvidia 開発者プログラムの開発者による早期アクセス用にリリースされており、来月、プロダクション AI エンドツーエンドソフトウェアプラットフォームとして Nvidia AI Enterprise の NeMo フレームワークに統合される予定です

以上がNvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python 架构栈堆人工智能 cnn gpt-3 数据中心开源软件 gpt llama

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：「ダイナミックロボットアームサイドモップ」のアップグレード版：Roborock自動清掃掃除・モップロボットP10 Pro 映像鑑賞次の記事：「ダイナミックロボットアームサイドモップ」のアップグレード版：Roborock自動清掃掃除・モップロボットP10 Pro 映像鑑賞

続きを見る

Nvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソース ソフトウェアをリリース

動的なワークロードに対処するための「オンザフライ バッチ処理」メカニズム

関連記事

Nvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリース

動的なワークロードに対処するための「オンザフライバッチ処理」メカニズム