ホームページ > 記事 > テクノロジー周辺機器 > Zhiyuanとその他の機関は、LM-Cocktailモデルのマルチスキル大規模モデルガバナンス戦略を発表
ラージモデルテクノロジーの開発と実装に伴い、「モデルガバナンス」が現在大きな注目を集めている命題となっています。しかし、実際には、研究者は複数の課題に直面することがよくあります。
一方で、ターゲット タスクのパフォーマンスを向上させるために、研究者はターゲット タスク データ セットを収集して構築し、大規模言語モデル (LLM) を微調整します。この方法では、通常、ターゲット タスク以外の一般タスクのパフォーマンスが大幅に低下し、LLM の本来の一般的な機能が損なわれます。
一方、オープンソース コミュニティのモデルの数は徐々に増加しており、大規模なモデル開発者は複数のトレーニングでより多くのモデルを蓄積する可能性もあり、各モデルには独自のモデルがあります。利点としては、タスクを実行するために適切なモデルを選択する方法、またはタスクをさらに微調整する方法が問題になります。
最近、Zhiyuan Research Institute の情報検索およびナレッジ コンピューティング グループは、大規模モデル開発者に低コストのモデル ガバナンスを提供することを目的とした LM-Cocktail モデル ガバナンス戦略 を発表しました。モデルのパフォーマンスを向上させる持続可能な方法: 少数のサンプルを通じて融合重みを計算し、モデル融合テクノロジーを使用して、微調整されたモデルと元のモデルの利点を組み合わせて、「モデル リソース」の効率的な使用を実現します。
LM カクテル戦略はカクテルを作るのと似ており、各モデルの利点と機能を組み合わせ、異なるモデルをブレンドすることで独自のモデルを作成できます。複数の専門性を備えた「多用途」モデル
手法の革新
開発者に特定のターゲット タスクのラベル データが不足している場合、またはモデルの微調整のためのコンピューティング リソースが不足している場合は、LM-Cocktail 戦略を使用してモデルの微調整のステップを排除できます。非常に少量のデータ サンプルを構築するだけでよく、オープン ソース コミュニティの既存の大規模言語モデルを統合して、独自の「LM カクテル」を準備できます
上の図に示すように、特定のターゲット タスクで Llama を微調整すると、ターゲット タスクの精度が大幅に向上しますが、他のタスクの一般的な能力は損なわれます。 LM-Cocktailを採用することでこの問題を解決できます。
LM-Cocktail の核心は、微調整されたモデルを他の複数のモデルのパラメーターと融合し、複数のモデルの利点を統合しながら、ターゲット タスクの精度を向上させることです。他のタスクに関する一般的な能力を維持します。具体的な形式としては、対象となるタスク、基本モデル、およびそのタスクに対して基本モデルを微調整したモデルが与えられ、オープンソースコミュニティからモデルや事前にトレーニングされたモデルを収集してコレクションを形成します。ターゲットタスクの少数のサンプルを通じて各モデルの融合重みを計算し、これらのモデルのパラメータの加重和を実行して新しいモデルを取得します(具体的なプロセスについては、論文またはオープンソースコードを参照してください) 。オープンソース コミュニティに他のモデルが存在しない場合は、基本モデルと微調整モデルを直接統合して、一般的な機能を低下させることなく下流タスクのパフォーマンスを向上させることもできます。
実際のアプリケーション シナリオでは、データとリソースの制限により、ユーザーは下流のタスクを微調整できない場合があります。つまり、微調整されたモデルがありません。対象のタスク。この場合、ユーザーは非常に少量のデータ サンプルを構築し、コミュニティ内の既存の大規模な言語モデルを統合して、新しいタスク用のモデルを生成し、モデルをトレーニングすることなくターゲット タスクの精度を向上させることができます。
実験結果
上の図からわかるように、特定のターゲット タスクを微調整した後、微調整されたモデルによってそのタスクの精度は大幅に向上しますが、他の精度は向上しません。一般的なタスクでは減少します。たとえば、AG News トレーニング セットで微調整を行った後、AG News テスト セットでの Llama の精度は 40.80% から 94.42% に増加しましたが、他のタスクでの精度は 46.80% から 38.58% に低下しました。 ただし、微調整モデルと元のモデルのパラメータを単純に融合するだけで、ターゲット タスクに関して 94.46% の競合パフォーマンスが達成され、これは微調整モデルと同等です。調整されたモデルは、他のタスクでは 94.46% の競争力のあるパフォーマンスを達成し、精度は 47.73% で、元のモデルのパフォーマンスよりわずかに優れています。 Helleswag などの特定のタスクの下では、融合モデルは、この微調整タスクでは微調整モデルを超え、他のタスクでは元の一般モデルを超えることさえあります。オリジナルモデルを超えています。 LM-Cocktail を通じて融合率を計算し、他の微調整されたモデルをさらに統合すると、ターゲット タスクの精度を確保しながら、他のタスクの全体的なパフォーマンスをさらに向上させることができることがわかります。 2. 既存のモデルを組み合わせて新しいタスクを処理する リライト以下の内容: グラフは言語モデル MMLU のターゲット タスクを示しています。書き換えられた内容: 画像: ベクトル モデルのターゲット タスクは次のとおりです。 retrieve (情報取得) モデルの微調整には、大量のデータと大量のコンピューティング リソースが必要です。特に大規模な言語モデルの微調整には、これは不可能な場合があります。実際の状況。ターゲット タスクを微調整できない場合、LM-Cocktail は既存のモデル (オープンソース コミュニティまたは独自の過去のトレーニングの蓄積から) を混合することで新しい機能を実現できます。 LM-Cocktail は、わずか 5 個のサンプル データを与えるだけで、大量のデータを使用することなく自動的に融合重みを計算し、既存のモデルをフィルタリングして融合して新しいモデルを取得します。トレーニングを実施します。実験の結果、生成された新しいモデルは新しいタスクでより高い精度を達成できることがわかりました。たとえば、Llama の場合、LM-Cocktail を使用して 10 個の既存のモデル (そのトレーニング タスクは MMLU リストに関連しない) を融合することで大幅な改善を達成でき、5 つのサンプル データを使用する Llama モデルよりも優れています。コンテキスト学習。 LM-Cocktail をお試しください。GitHub の問題を介してフィードバックや提案を歓迎します: https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail
以上がZhiyuanとその他の機関は、LM-Cocktailモデルのマルチスキル大規模モデルガバナンス戦略を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。