ホームページ >テクノロジー周辺機器 >AI >レビュー!深いモデルの融合 (LLM/基本モデル/フェデレーテッド ラーニング/ファインチューニングなど)
9 月 23 日、論文「Deep Model Fusion: A Survey」が国立国防技術大学、JD.com、および北京工業大学によって発表されました。
ディープ モデルの融合/マージは、複数のディープ ラーニング モデルのパラメーターまたは予測を 1 つのモデルに結合する新しいテクノロジーです。さまざまなモデルの機能を組み合わせて、個々のモデルのバイアスとエラーを補償し、パフォーマンスを向上させます。大規模な深層学習モデル (LLM や基本モデルなど) での深層モデルの融合は、高い計算コスト、高次元のパラメーター空間、異なる異種モデル間の干渉など、いくつかの課題に直面しています。この論文では、既存のディープ モデル フュージョン手法を 4 つのカテゴリに分類します。(1) 損失低減パスを介して重み空間内のソリューションを接続する「パターン接続」、(2) モデル間のユニットを一致させる「アライメント」。 (3) 「重み平均」は、より最適な解とより正確な結果を得るために複数のモデルの重みを平均する古典的なモデル融合手法です。 (4) 「アンサンブル学習」は出力を結合します。これは、最終モデルの精度と堅牢性を向上させるための基本技術です。さらに、ディープモデル融合が直面する課題が分析され、将来のモデル融合に向けて考えられる研究の方向性が提案されます。
データプライバシーと実際のデータ保存の問題により、ディープモデルフュージョンへの関心が高まっています。ディープ モデル フュージョンの開発は多くの技術的ブレークスルーをもたらしましたが、高い計算負荷、モデルの異質性、組み合わせ最適化の調整の遅さなど、一連の課題も生み出しました。これに触発されて、科学者たちはさまざまな状況におけるモデル融合の原理を研究するようになりました。
一部の作品は、パラメータ融合ではなく、単一の視点からのモデル融合 (特徴融合など) [45,195] や特定のシーン [213] のみに焦点を当てています。本稿では、フェデレーテッド ラーニング (FL) [160] やファインチューニング [29] などの最近の進歩と代表的なアプリケーションとともに、それらを内部メカニズムと目的に基づいて 4 つのカテゴリに分類します。この図は、モデル融合プロセス全体の概略図と、さまざまな手法の分類と接続を示しています。
独立してトレーニングされ、互いに隣接していないモデルの場合、「モード結合」と「位置合わせ」によりソリューションが近づき、平均的な生の状態が向上します。重み空間に特定の違いがある同様のモデルの場合、「重み平均 (WA)」はモデルを直接平均して、より低い損失関数値を持つパラメーター空間領域の最適点に近い解を取得する傾向があります。さらに、既存のモデルからの予測については、「アンサンブル学習」によりさまざまな形式のモデルからの予測が統合され、より良い結果が得られます。
「モデル融合は、ディープモデルの精度と堅牢性を向上させる手法として、多くのアプリケーション分野での改善を促進してきました。「フェデレーテッド ラーニング [160]」はアプリケーションです。中央サーバー上でモデルの精度とクライアント モデルの堅牢性を集約し、関係者がプライバシー漏洩を引き起こすことなく関数 (たとえば、さまざまな統計、分類器 [177]) の計算にデータを提供できるようにします。事前にトレーニングされたモデルを作成し、それをモデル融合と組み合わせてトレーニング コストを削減し、特定のタスクまたはドメインのニーズに適応します。また、モデル融合には「蒸留」、つまり複数の複雑なソフト ターゲット ナレッジ (教師) のトレーニングも含まれます。特定のニーズに適応するための小規模なモデル (スチューデント) 「ベース/LLM 上のモデル融合」には、Transformer (ViT) [79]、GPT [17] などの大規模な基本モデルまたは大規模な言語モデル (LLM) での作業が含まれます。 . モデル融合の適用は、開発者がさまざまなタスクや分野のニーズに適応するのに役立ち、ディープラーニングの開発を促進します。」 文字数がいっぱいです。
トレーニングされたネットワークの結果が SGD ノイズに対して安定しているかどうかを判断するには、損失バリア (誤差バリア) を 2 点損失線形補間と2 点線形接続損失 [50]。損失バリアは、W1 と W2 の間のパス最適化グラフ [56、61] に沿って誤差が一定であるか増加しているかを指定します。 2 つのネットワーク間にバリアがほぼ 0 に等しいトンネルがある場合、それはモード接続と同等です [46、59、60]。つまり、SGD で求めた極小値を最大損失を最小にする経路 φ で結ぶことができます。
勾配ベースの最適化によって得られた解は、重み空間内で障壁のないパス (コネクタ) を介して接続できます。これを パターン接続 [46, 50] と呼びます。モデル融合により適した他のモデルは、低損失パスに沿って取得できます。パスとコネクタが配置される空間の数学的形式に従って、「線形モード接続 (LMC) [66]」、「非線形モード接続」、および「部分空間のパターン接続」の 3 つの部分に分かれます。 ##
パターン接続により、トレーニング プロセス中に局所最適化問題を解決できます。パターン接続パスの幾何学的関係 [61、162] を使用して、確率的勾配降下法 (SGD) などの最適化プロセスの収束、安定性、精度を加速することもできます。要約すると、パターン接続は、モデル融合の動作を解釈および理解するための新しい視点を提供します [66]。ただし、特に大規模なデータセットでモデルをトレーニングする場合は、計算の複雑さとパラメーター調整の困難に対処する必要があります。次の表は、線形モード接続 (LMC) と非線形モード接続の標準トレーニング手順をまとめたものです。
#画像は、2 次元損失マップと他の次元部分空間におけるパターン接続の概略図を示しています。左: 2 つの盆地最小値の線形補間により、高い損失障壁が生じます [46]。下の 2 つの最適値は、ほぼ一定の低損失パス (ベジェ曲線、ポリボックス チェーンなど) に従います [66]。 π(W2) は、W1 と同じ盆地に位置する W2 の配置対称性の等価モデルです。 Re-Basin は、個々の流域にソリューションを提供することでモデルを統合します [3]。右: 低損失パスは、部分空間内の複数の最小値を接続します (たとえば、d 次元ウェッジ [56] などで構成される低損失多様体)。 次の表は、異なる極小値間のトンネルを見つける方法を示しています。 # つまり、パターン接続は、深いモデル融合のための、より新しく、より柔軟な視点を提供します。ニューラル ネットワークのトレーニングは局所最適化に陥りやすく、パフォーマンスの低下につながります。モデルの接続に基づいて、より優れたパフォーマンスを持つ他のモデルを見つけて、さらなる最適化と融合の開始点として使用できます。すでにトレーニングされたモデルを使用して、パラメーター空間内を移動して新しいターゲット モデルに到達できます。これにより、時間と計算オーバーヘッドを節約でき、データが限られている状況に適しています。ただし、異なるモデルを接続すると、さらなる複雑さと柔軟性が導入され、オーバーフィッティングのリスクが増加する可能性があります。したがって、関連するハイパーパラメータと変動の程度は慎重に制御する必要があります。さらに、パターンの連結には微調整やパラメーターの変更が必要となり、トレーニング時間とリソースの消費が増加する可能性があります。要約すると、モデルの接続性には、局所最適問題の克服を支援したり、ネットワークの動作を説明するための新しい視点を提供したりするなど、モデル融合において多くの利点があります。将来的には、パターン接続はニューラル ネットワークの内部メカニズムを理解するのに役立ち、将来的にはより効率的なディープ モデル融合設計の指針を提供すると期待されています。 異なるネットワークからのチャネルとコンポーネントのランダム性により、ネットワークのアクティブなコンポーネントは相互に干渉します [204]。したがって、重み付け平均がずれていると、異なるモデルの単位間の対応関係が無視され、有用な情報が破損する可能性があります。たとえば、異なるモデル内の 2 つのニューロン間には、完全に異なるものの機能的には類似している関係があります。アライメントとは、異なるモデルのユニットを一致させて、深いモデル融合のためのより良い初期条件を取得することです。複数のモデル間の差異を小さくし、深層モデル融合効果を高めることを目的としています。さらに、位置合わせは本質的に組み合わせ最適化問題とみなすことができます。個々の盆地に応じたソリューションを提供し、より良い元の条件のモデルを統合する代表的なメカニズム「Re-basin」。アライメント対象がデータドリブンであるか否かに応じて、アライメントは表に示すように「アクティベーションマッチング」と「重み付けマッチング」の2種類に分けられます。 一般的に、浅いニューラル ネットワークであっても、鞍点と局所最適値の数はパラメーターの数に応じて指数関数的に増加します [10, 66]。トレーニングには不変性があり、その結果、これらの局所最適化のいくつかの点が同じ表現を持つことが判明しています [22、81、140]。具体的には、隠れ層のユニットが順列によって交換されても、ネットワークの機能は変化しません。これは、順列対称性[43, 50]と呼ばれます。
これらの不変条件によってもたらされる置換対称性は、損失グラフの構造をよりよく理解するのに役立ちます [22、66]。不変性は、損失グラフの鞍点のソースとして見ることもできます [14]。 [68] ニューラルネットワークにおける対称性の代数構造と、この構造が損失グラフ幾何学でどのように現れるかを研究しています。 [14] は、損失やパラメータのジャンプを増やすことなくニューロンを交換できる高次元プラットフォームに順列ポイントを導入しました。損失に対して勾配降下法を実行し、ベクトルがアライメント ポイントに到達するまでニューロン m および n のパラメーター ベクトル θm および θn を調整します。順列対称性に基づいて、重み空間内の異なる領域の解は等価な解を生成できます。同等のソリューションは、「Re-basin」[3] と呼ばれる低損失バリア (盆地) を備えた、元のソリューションと同じ領域に配置されます。パターン接続と比較して、再盆地は、低損失トンネリングではなく、位置合わせを介してポイントを盆地に輸送する傾向があります。現在、Re-basin の代表的な手法はアライメント法である [3, 178]。ただし、すべての解が同じ盆地を指すように、順列対称のすべての可能性を効率的に探索する方法が現在の課題です。
写真は配置点交換ニューロンを導入した[14]の模式図です。左: 一般的な位置合わせプロセス。モデル A はモデル B を参照してモデル Ap に変換され、Ap と B の線形結合により C が生成されます。右: アライメント ポイントに近い異なる隠れ層の 2 つのニューロンのパラメーター ベクトル θm と θn を調整します。アライメント ポイント [14] θ'm = θ'n では、2 つのニューロンは同じ関数を計算します。ニューロンは交換可能です。
アライメントでは、モデルのパラメーターを調整してモデルをより類似させることで、モデル間の情報共有を向上させることができ、それによって融合モデルの汎化能力が向上します。さらに、位置合わせは、複雑なタスクにおけるモデルのパフォーマンスと堅牢性の向上に役立ちます。ただし、位置合わせ方法は、組み合わせの最適化が遅いという問題に直面しています。アライメントには、モデルのパラメータを調整するための追加の計算オーバーヘッドが必要であり、特に深度の大きなモデルでは、より複雑で時間のかかるトレーニング プロセスにつながる可能性があります [142、204]。
要約すると、調整により、異なるモデル間の一貫性と全体的な効果が向上します。 DL アプリケーション シナリオの多様化に伴い、アライメントは、深いモデルの融合を最適化し、汎化機能を向上させるための重要な方法の 1 つになります。将来的には、アライメントは転移学習、ドメイン適応 [63]、知識蒸留、その他の分野で役割を果たす可能性があります。たとえば、調整により、転移学習におけるソース ドメインとターゲット ドメインの差を減らし、新しいドメインの学習を向上させることができます。
ニューラル ネットワーク パラメーターの冗長性が高いため、通常、異なるニューラル ネットワークの重み間に 1 対 1 の対応関係はありません。したがって、加重平均 (WA) は通常、デフォルトでは良好なパフォーマンスを保証しません。通常の平均化は、重みの差が大きいトレーニング済みネットワークではあまり効果がありません [204]。統計的な観点から見ると、WA はモデル内の個々のモデル パラメーターを制御できるため、最終モデルの分散が減少し、正則化プロパティと出力結果に確実な影響を与えます [77、166]。
次の表は、WA の代表的な方法です。
高速ジオメトリ統合の対象 ( FGE) [66] とチェックポイント平均化 [149]、[99] に触発され、一定または周期的な学習率を利用して SGD 軌道の複数の点を平均化し、これは確率的重み平均化 (SWA) と見なされます。 SWA は、さまざまな重要なベースラインでのトレーニングを改善し、時間的なスケーラビリティを向上させます。 SWA は、モデルのコレクション (通常の融合など) をトレーニングする代わりに、単一のモデルをトレーニングして、SGD よりもスムーズなソリューションを見つけます。 SWA 関連のメソッドを次の表に示します。さらに、SWA はあらゆるアーキテクチャやデータセットに適用でき、スナップショット統合 (SSE) [91] や FGE よりも優れたパフォーマンスを示します。各期間の終了時に、新しく取得した重みと既存の重みを平均することによって SWA モデルが更新されます。
ただし、SWA は局所最適点付近の点を平均することしかできず、最終的に相対最小値を取得しますが、最適値を正確に近似することはできません。さらに、特定の要因 (早期収束の低下、高い学習率、速い重み変化率など) により、最終的な入力サンプルの偏差が大きいか不十分となり、全体的な結果が不十分になる場合があります。広範な作業により、SWA のサンプリング方法が変更される傾向があります。
図に示すように、さまざまな SWA 関連手法のサンプリング レートと学習レートの配置が比較されています。 (a) SWA: 一定学習率。 (b)SWA: 周期学習率。 (c)SWAD: 高密度サンプリング。 (d) HWA: オンラインおよびオフライン WA を使用し、異なる同期期間でサンプリングし、スライディング ウィンドウの長さは h です。
モデル スープ [239] は、さまざまなハイパーパラメーターで微調整されたモデルを平均する方法を指します。シンプルですが効果的であり、ImageNet-1K で 90.94% の精度を達成し、CoAtNet-7 (90.88%) [38] や ViT-G (90.45%) [255] での以前の研究を上回っています。この表は、さまざまなモデル スープの方法をまとめたものです。
マルチタスク学習 (MTL) では、事前トレーニングされたモデルとタスク ベクトル (つまり、τi = Wft − Wpre、事前トレーニングされたモデルと微調整されたモデルの差) が組み合わされて、より良いパフォーマンスが得られます。すべてのタスク。この観察に基づいて、Task Arithmetic[94] は、加算と線形結合を通じてタスク ベクトルを微調整することにより、タスク上のモデルのパフォーマンスを向上させます。これは、事前トレーニングされたデータを直接編集するための柔軟で効率的な方法となっています。図の表示: タスク算術と LoraHub (低ランク適応ハブ) の使用に示すように、モデル。
さらに、部分空間でのモデル融合により、トレーニング軌道が低次元部分空間に制限されるため、負荷と難易度が軽減されます。
WA は、追加の計算の複雑さやトレーニング プロセスを必要とせずに、さまざまな深度モデルの重みを平均することによって最終モデルを取得します [109、159]。一般に、ランダム モデルの表現能力、構造、トレーニング データが大きく異なる場合、融合の結果は期待されるパフォーマンスを達成できない可能性があります。同じハイパーパラメータ設定を使用して、データ順序が異なるモデルを最初から線形補間することは、確率的モデルよりもさらに効果的ではありません [59]。したがって、提案されている多数の方法は、他の数学的方法で WA プロセスを最適化することを目的としています。
さらに、モデルが最適化軌道の一部を共有している場合 (例: チェックポイント平均、テール平均、SWA [99, 149] など)、または同じ事前トレーニング済みモデルで微調整されている場合 (例:モデル スープ [239] など)、補間モデルの精度はより優れています [167]。さらに、Model Soup [239] は、さまざまなハイパーパラメーター構成を持つモデルを平均して、最終結果を取得します。さらに、モデルの平均化で適切な重みを選択することも困難になる可能性があり、これには主観が伴うことがよくあります。より複雑な重み選択メカニズムでは、大規模で複雑な実験と相互検証が必要になる場合があります。
WA は、将来的には、異なる反復間の重みの変動を軽減し、安定性と収束速度を向上させるモデル最適化テクノロジとして使用できる、ディープ ラーニングの有望なテクノロジです。 WA は、フェデレーテッド ラーニング (FL) の集約段階を改善して、プライバシーをより適切に保護し、将来の通信コストを削減できます。さらに、エンドデバイスにネットワーク圧縮を実装することで、リソースに制約のあるデバイス上のモデルのストレージスペースと計算オーバーヘッドが削減されることが期待されます[250]。つまり、WA は、パフォーマンスを向上させ、ストレージのオーバーヘッドを削減するために FL などの分野に適用できる、有望でコスト効率の高い DL テクノロジーです。
アンサンブル学習、または複数の分類器システムは、複数の単一モデルを統合して、投票や平均化などの最終予測を生成する手法です [195]。全体的なパフォーマンスが向上し、モデルの分散が減少し、過剰適合、不安定性、データ量の制限などの問題が解決されます。
既存の事前トレーニング済みソース モデルに基づいて、モデルの再利用[266] は、新しいモデルを最初から再トレーニングすることなく、新しいタスクに適用するために必要なモデルを提供します。時間とコンピューティング リソースを節約し、限られたリソース条件下でより優れたパフォーマンスを提供します [249]。さらに、転移学習の焦点はターゲット領域での予測タスクを解決することであるため、モデルの再利用は転移学習の一種とみなすことができます。ただし、転移学習ではソースドメインとターゲットドメインからのラベル付きデータが必要ですが、モデルの再利用ではラベルなしのデータのみを収集でき、ソースドメインからのデータは使用できません[153]。
複数分類子アンサンブル学習とは異なり、現在の手法のほとんどは既存の特徴、ラベル、またはモダリティを再利用して、大量のトレーニング データ [245] を保存せずに最終予測を取得します [176、266]。モデルの再利用におけるもう 1 つの重要な課題は、特定の学習タスクに対して事前トレーニングされたモデルのセットから有用なモデルを特定することです。
モデルの再利用に単一のモデルを使用すると、均質な情報が生成されすぎて (たとえば、あるドメインでトレーニングされたモデルが別のドメインのデータに適合しない可能性がある)、完全に適合する単一の予測子を見つけるのが困難になります。ターゲットドメインをトレーニングします。一般に、類似モデルのセットを使用して単一モデルよりも優れたパフォーマンスを生み出すことは、複数モデル再利用 (MMR)[153] と呼ばれます。
次の表は、さまざまな再利用方法の特性を比較したものです。つまり、モデルを再利用すると、事前トレーニングされたモデルの使用に必要なデータ量が大幅に削減され、データ送信時に大量の帯域幅を消費する問題が解決されます。異なる端の間の質問。マルチモデルの再利用には、音声認識、安全でプライベートな対話システム、デジタル網膜 [64] など、幅広い用途もあります。
モデル パラメーターとスケールに特定の要件があるフェデレーテッド ラーニング [88、89、160] などの関連モデル融合アルゴリズムと比較して、アンサンブル学習メソッドは複数の異種弱分類器を組み合わせた予測には、そのような制限はありません。さらに、統合方法のアーキテクチャが異なるネットワークには、WA よりも明らかな比較効果があります。ただし、アンサンブル アプローチでは、複数のトレーニング済みモデルを維持および実行し、テスト時にそれらを一緒に実行する必要があります。深層学習モデルのサイズと複雑さを考慮すると、このアプローチはコンピューティング リソースとコストが限られているアプリケーションには適していません [204]。
アンサンブル学習フレームワークの多様性により、モデルの多様性が実現され、汎化機能が強化されます。将来的には、これはデータ変更や敵対的攻撃に対処するために重要になります。深層学習におけるアンサンブル学習は、意思決定支援システム、自動運転 [74]、医療診断などの安全性と信頼性にとって重要なモデル予測の信頼性推定値と不確実性尺度を提供すると期待されています。
近年、ディープモデル融合の分野で多くの新しい研究が発表され、関連する応用分野の開発も促進されています。
データ ストレージのセキュリティと集中化の課題に対処するために、フェデレーテッド ラーニング (FL) [160, 170] により、多くの参加モデルが共有されたグローバル トレーニングを共同で行うことができます。データセットを中央サーバーに集中させることなく、データのプライバシーを維持しながらモデルを構築できます。これは、複数の当事者による学習問題とみなすこともできます [177]。特に、集約は FL の重要なプロセスであり、さまざまな関係者 (デバイス、組織、個人など) によってトレーニングされたモデルまたはパラメーターの更新が含まれます。この図は、集中型 FL と分散型 FL における 2 つの異なる集約方法を示しています。 , 左: 中央サーバーとクライアント端末間の集中型フェデレーテッド ラーニング。モデルまたは勾配を転送し、最後にサーバー上で集約します。右: 分散型フェデレーテッド ラーニングは、中央サーバーを必要とせずに、クライアント端末間でモデルを転送および集約します。
次の表は、フェデレーテッド ラーニングのさまざまな集計方法を示しています。
つまり、FL の集計ステップは次のとおりです。本質的にはモデル融合テクノロジーです。合理的なモデル融合方法を選択すると、特定の参加者または個々のデータが最終モデルに与える影響を軽減できるため、グローバルな範囲でのモデルの一般化能力と適応性が向上します。優れた集計方法は、将来的にフェデレーテッド ラーニングにおけるさまざまな課題に対処するのに役立つと期待されています。高品質でスケーラブルな集約手法は、クライアントの異種性、非 IID の異種データ、限られたコンピューティング リソース [141] など、FL の一連の課題に直面すると予想されます。 FL は、自然言語処理、推奨システム [146]、医療画像解析 [144] など、より多くの分野でその可能性を発揮すると期待されています。
微調整は基本パターン (事前トレーニングされたモデルなど) であり、ダウンストリーム タスクを実行するようにモデルを調整する効果的な方法です。 [23, 41] を使用できます。データのラベルが少ないほど、一般化が向上し、出力がより正確になります。事前トレーニングされたモデルは、比較的タスク固有のデータ セットを使用してトレーニングされます。これは、ランダムな初期化よりもトレーニング基準の開始点として常に適しています。これにもかかわらず。平均して、既存の微調整モデル [28、29] は、下流タスクを微調整するための通常の事前トレーニング済みモデルよりもさらに優れたベース モデルです。
また、最近ではモデルスープ[239]やDiWA[190]など、図のようにWAと微調整を組み合わせた作品も多くなってきています。微調整によりターゲット分布の精度は向上しますが、多くの場合、分布の変更に対する堅牢性が低下します。微調整モデルを平均化する戦略は単純かもしれませんが、各微調整モデル間のつながりを十分に活用することはできません。したがって、ターゲットタスクでトレーニングする前に中間タスクでトレーニングすると、基本モデルの機能を調べることができます[180、185、224]。相互トレーニング戦略 [185]、[188] に触発され、補助タスクのモデルを微調整して、さまざまな補助タスクを活用し、配布外 (OOD) 汎化機能を向上させます。
モデルの平均を微調整すると、目標 [28] を達成するために必要なトレーニング時間が短縮され、より正確でより優れた一般化されたモデルが生成されます。基本的に、さまざまな微調整方法 (たとえば、固化層微調整、トップレベル微調整など) も、最終的な精度と分布シフトに一定の影響を与えます [240]。ただし、WA と微調整の組み合わせにはコストがかかり、特定のアプリケーションには一定の制限があります。さらに、特に転移学習に適用した場合、保存されたチェックポイントの爆発や壊滅的な忘却の問題に直面する可能性があります [121]。
知識蒸留 (KD) [83] は、次の 2 種類のモデルを含む、複数のモデルを統合するための重要な方法です。 教師モデルは、大規模なデータでトレーニングされた、高い予測能力と表現力を備えた大規模で強力なモデルを指します。 スチューデント モデルは、パラメータと計算リソースが少ない比較的小規模なモデルです [18, 199]。教師の知識 (出力確率分布、隠れ層表現など) を使用してトレーニングをガイドすることで、学生はより少ないリソースとより高速な速度で大規模モデルに近い予測能力を達成できます [2、119、124、221]。複数の教師または生徒が単一のモデルよりも優れたパフォーマンスを期待できることを考慮して [6]、図に示すように、KD は集計目的に基づいて 2 つのカテゴリに分類されます。
最初のタイプの方法は、表に示すように、複数の教師モデルをマージし、生徒モデルを直接抽出するものです。現在、最近の研究では主に教師の成果物 (ロジット [6、49、252] や特徴ベースの知識 [143、241] など) が統合されています。
もう 1 つのアプローチは、教師モデルを使用して複数の生徒を抽出し、これらの生徒モデルを結合することです。ただし、複数のスチューデントのマージには、高い計算リソース要件、低い解釈性、元のモデルへの過度の依存など、いくつかの問題もあります。
基本モデルは、複雑なタスクを処理する際に強力なパフォーマンスと創発的な機能を発揮します。大規模基本モデルの特徴は、その巨大なスケールです。には数十億のパラメータが含まれており、データの複雑なパターンを学習するのに役立ちます。特に、GPT-3 [17、172]、T5 [187]、BERT [41]、Megatron-LM、WA アプリケーション [154、212、256] などの新しい LLM [200、264] の最近の出現により、 LLMはさらに注目を集めました。
さらに、最近の研究 [120、256] では、LLM の適用に適応する、より優れたフレームワークとモジュールを設計する傾向があります。高性能で計算リソースが少ないため、大規模な基本モデルを微調整することで、分布の変更に対する堅牢性を向上させることができます [240]。
以上がレビュー!深いモデルの融合 (LLM/基本モデル/フェデレーテッド ラーニング/ファインチューニングなど)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。