パフォーマンスは、主に合成データに使用される Llama-3 を上回ります。 NVIDIAの総合大型モデルNemotronは、最新の3400億パラメータ版をオープンソース化しました。 今週金曜日、NVIDIA は Nemotron-4 340B の発売を発表しました。これには、開発者が大規模言語モデル (LLM) をトレーニングするための合成データを生成するために使用できる一連のオープン モデルが含まれており、医療、金融、製造、小売などのあらゆる業界の商用アプリケーションに使用できます。 高品質のトレーニング データは、カスタム LLM の応答性、精度、品質において重要な役割を果たしますが、強力なデータセットは高価でアクセスできないことがよくあります。 Nemotron-4 340B は、独自のオープン モデル ライセンスを通じて、強力な LLM の構築を支援する合成データを生成する無料でスケーラブルな方法を開発者に提供します。 Nemotron-4 340B シリーズには、LLM のトレーニングと改善のための合成データを生成するためのパイプラインを形成する、Base、Instruct、Reward モデルが含まれています。これらのモデルは、データ管理、カスタマイズ、評価を含むエンドツーエンドのモデル トレーニング用のオープン ソース フレームワークである NVIDIA NeMo で使用するために最適化されています。また、オープンソースの NVIDIA TensorRT-LLM ライブラリを使用した推論用に最適化されています。 Nvidia によると、Nemotron-4 340B は Hugging Face からダウンロードできるようになりました。開発者は間もなく、ai.nvidia.com でこれらのモデルにアクセスできるようになります。これらのモデルは、どこにでも展開できる標準のアプリケーション プログラミング インターフェイスを備えた NVIDIA NIM マイクロサービスとしてパッケージ化されます。 ハグフェイスのダウンロード: https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911 Nemotron に移動して合成データを生成します 大規模な言語モデルでは、開発者が大規模で多様なラベル付きデータセットにアクセスせずに合成トレーニング データを生成できるようにします。 Nemotron-4 340B 命令モデルは、現実世界のデータの特性を模倣する多様な合成データを作成し、データ品質の向上に役立ち、それによってさまざまなドメインにおけるカスタム LLM のパフォーマンスと堅牢性が向上します。 AI 生成データの品質を向上させるために、開発者は Nemotron-4 340B 報酬モデルを使用して高品質の応答をフィルターできます。 Nemotron-4 340B Reward は、使いやすさ、正確さ、一貫性、複雑さ、冗長性の 5 つの属性に基づいて応答をスコア付けします。 AI2 が作成した報酬モデルのパワー、セキュリティ、欠陥を評価する Hugging Face RewardBench ランキングで現在、第 1 位にランクされています。 この合成データ パイプラインでは、(1) Nemotron-4 340B 命令モデルを使用してテキストベースの合成出力を生成します。次に、評価モデル (2) Nemotron-4 340B Reward が生成されたテキストを評価し、反復的な改善を導き、合成データの精度を確保するためのフィードバックを提供します。 研究者は、付属の HelpSteer2 データセットと組み合わせた独自のデータを使用して Nemotron-4 340B ベース モデルをカスタマイズし、独自の指示モデルまたは報酬モデルを作成することもできます。 論文アドレス: https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf メソッドの紹介Nemotron-4-340B-Base モデル アーキテクチャは、因果的注意マスク、回転位置埋め込み (RoPE)、SentencePiece トークナイザーなどを備えた標準デコーダー専用の Transformer アーキテクチャ。 Nemotron-4-340B-Base のハイパーパラメータを表 1 に示します。 94 億の埋め込みパラメータと 3,316 億の非埋め込みパラメータがあります。 次の表は、Nemotron-4-340B-Base モデルのトレーニングの詳細を示しています。この表には、各反復時間とモデルの FLOP/s 使用率を含むバッチ サイズ勾配の 3 段階がまとめられています。 強力な報酬モデルを開発するために、NVIDIA は HelpSteer2 と呼ばれる 10,000 の人間の嗜好データのデータセットを収集し、一般公開しました。データセットのアドレス: https://huggingface.co/datasets/nvidia/HelpSteer2回帰報酬モデル Nemotron-4-340B-Reward は、Nemotron-4-340B-Base モデルに基づいて構築されています。そして、最後のソフトマックス層を新しい報酬ヘッダーに置き換えます。このヘッダーは、最後のレイヤーの非表示状態を HelpSteer プロパティ (有用性、正確性、一貫性、複雑さ、冗長性) の 5 次元ベクトルにマップする線形投影です。推論プロセス中に、これらの属性値は加重合計を通じて全体の報酬に集約できます。このボーナス モードは、Nemotron-4-340B-Instruct をトレーニングするための強固な基盤を提供します。 調査では、このようなモデルが RewardBench で非常にうまく機能することがわかりました: NeMo で微調整され、TensorRT-LLM で推論が最適化されました オープンソースの NVIDIA NeMo と NVIDIA Tensor を使用RT -LLM を使用すると、開発者はガイダンスと報酬モデルの効率を最適化し、合成データを生成し、応答をスコアリングできます。 すべての Nemotron-4 340B モデルは、TensorRT-LLM を使用して最適化されており、テンソル並列処理、つまり単一の重み行列が複数の GPU とサーバーに分割されて大規模な効率的な推論を実現するモデル並列処理の一種です。 Nemotron-4 340B Base は 9 兆個のトークンでトレーニングされており、特定のユースケースやドメインに合わせて NeMo フレームワークを使用してカスタマイズできます。この微調整プロセスは、大量の事前トレーニング データの恩恵を受け、特定の下流タスクに対してより正確な出力を提供します。 その中で、NeMo フレームワークは、低ランク適応 (LoRA) などの教師あり微調整やパラメーター効率の良い微調整方法など、さまざまなカスタマイズ方法を提供します。 モデルの品質を向上させるために、開発者は NeMo Aligner と Nemotron-4 340B Reward によって注釈が付けられたデータセットを使用してモデルを位置合わせできます。アライメントは、大規模な言語モデルをトレーニングする際の重要なステップであり、RLHF などのアルゴリズムを使用してモデルの動作が微調整され、その出力が安全で正確でコンテキストに沿ったものであり、定められた目標と一致していることが保証されます。 エンタープライズ グレードのサポートと安全な運用環境を求めている企業は、クラウドネイティブの NVIDIA AI Enterprise ソフトウェア プラットフォームを通じて NeMo と TensorRT-LLM にアクセスすることもできます。このプラットフォームは、生成 AI ベース モデルに高速かつ効率的なランタイム環境を提供します。 評価データ図 1 は、選択されたミッションにおける Nemotron-4 340B モデル ファミリーの精度を示しています。具体的には: Nemotron-4-340B-Base は、ARC-Challenge、MMLU、BigBench Hard などの常識推論タスクにおいて、Llama-3 70B、Mixtral 8x22B、Qwen-2 72B などのオープンアクセス基本モデルと同等です。ベンチマーク 同等。 命令のフォローとチャット機能の点で、Nemotron-4-340B-Instruct は対応する命令モデルを上回っています。 Nemotron-4-340B Reward は、RewardBench で最高の精度を達成し、GPT-4o-0513 や Gemini 1.5 Pro-0514 などの独自モデルをも上回ります。 Nemotron-4-340B の発売後、評価プラットフォームはすぐにベンチマーク結果を公開しました。その結果は、Arena-Hard-Auto などのハードベンチマーク テストで Llama-3-70b を上回ったことがわかります。 これは、業界で最も強力な新しいモデルが登場したことを意味しますか? 参考リンク:https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/https: //x.com/lmsysorg/status/1801682893988892716