ホームページ > 記事 > テクノロジー周辺機器 > NVIDIA RTX グラフィックス カードは AI 推論を 5 倍高速化します。 RTX PC はローカルで大規模なモデルを簡単に処理できます
Microsoft Iginte Global Technology Conference で、マイクロソフトは、開発者がハードウェアのパフォーマンスを最大限に活用し、AI アプリケーション分野を拡大できるよう支援することを目的として、一連の新しい AI 関連の最適化モデルと開発ツール リソースをリリースしました。
特に、現在 AI 分野で絶対的な支配的地位を占めている NVIDIA に対して、Microsoft は今回大きなギフト パッケージを送りました。それが OpenAI Chat API 用の TensorRT-LLM パッケージング インターフェイスであれ、RTX であれ、主導的なパフォーマンスの向上 Llama 2 の DirectML およびその他の一般的なラージ言語モデル (LLM) は、より高速化され、NVIDIA ハードウェアに適用できます。
その中で、
TensorRT-LLM は、LLM 推論を高速化するために使用されるライブラリであり、AI 推論のパフォーマンスを大幅に向上させることができます。これは、より多くの言語モデルをサポートするために常に更新されており、オープン ソースでもあります。
NVIDIA は 10 月に Windows プラットフォーム用の TensorRT-LLM をリリースしました。 RTX 30/40 シリーズ GPU グラフィックス カードを搭載したデスクトップおよびラップトップの場合、グラフィックス メモリが 8 GB 以上に達する限り、要求の厳しい AI ワークロードをより簡単に完了できます
Windows 用 Tensor RT-LLM は、新しいカプセル化インターフェイスを通じて OpenAI の人気のチャット API と互換性があるため、クラウドに接続する必要がなく、さまざまな関連アプリケーションをローカルで直接実行できるため、有益です。プライバシーの漏洩を防ぐために、PC 上の個人データや専有データを保護します。
TensorRT-LLM によって最適化された大規模な言語モデルである限り、Llama 2、Mistral、NV LLM などを含むこのパッケージ化インターフェイスで使用できます。開発者にとっては、面倒なコードの書き換えや移植の必要がなく、
コードを 1 ~ 2 行変更するだけで、AI アプリケーションをローカルですばやく実行できます。
↑↑↑TensorRT-LLM に基づく Microsoft Visual Studio コード プラグイン - Continue.dev コーディング アシスタント
TensorRT-LLM v0.6.0 は今月末に更新されます。これにより、RTX GPU での推論パフォーマンスが最大 5 倍向上します。また、新しい The 7 を含む、より一般的な LLM をサポートします。 10 億パラメータの Mistral と 80 億パラメータの Nemotron-3 を使用すると、デスクトップとラップトップでいつでも迅速かつ正確に LLM をローカルで実行できます。 実際の測定データによると、
RTX 4060 グラフィックス カードと TenroRT-LLM を組み合わせた場合、推論パフォーマンスは 1 秒あたり 319 トークンに達し、これは他のバックエンドの 1 秒あたり 61 トークンよりも完全に 4.2 倍高速です。RTX 4090 は、1 秒あたりのトークン数から 2.8 倍の 829 トークンまで高速化できます。
NVIDIA RTX は、強力なハードウェア パフォーマンス、豊富な開発エコシステム、幅広いアプリケーション シナリオを備えており、ローカル AI にとって不可欠かつ強力なアシスタントになりつつあります。同時に、最適化、モデル、リソースの継続的な強化により、数億台の RTX PC での AI 機能の人気も加速しています
現在、RTX GPU アクセラレーションをサポートする AI アプリケーションやゲームをリリースしているパートナーは 400 社を超えており、モデルの使いやすさが向上するにつれて、Windows PC プラットフォームにも AIGC 機能がさらに増えていくと思います。
以上がNVIDIA RTX グラフィックス カードは AI 推論を 5 倍高速化します。 RTX PC はローカルで大規模なモデルを簡単に処理できますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。