AIxiv コラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。
近年、大規模言語モデルやヴィンセントグラフモデルなどの大規模AIモデルが急速に発展しています。このような状況の下、急速に変化するニーズにどのように適応し、大規模なモデルをさまざまな下流タスクに迅速に適応させるかが重要な課題となっています。コンピューティング リソースの制限により、従来のフルパラメータ微調整方法では不十分な可能性があるため、より効率的な微調整戦略を検討する必要があります。上記の課題により、パラメータ効率的微調整 (PEFT) テクノロジが最近急速に開発されました。 PEFT 技術の開発の歴史を包括的に要約し、最新の研究の進歩を把握するために、最近、ノースイースタン大学、カリフォルニア大学、アリゾナ州リバーサイドの研究者が大学とニューヨーク大学 研究者らは、大規模モデルにおけるパラメータ効率的微調整(PEFT)技術の応用と開発の見通しを調査、整理、要約し、包括的かつ最先端のレビューにまとめました。
論文リンク: https://arxiv.org/pdf/2403.14608.pdfPEFT は効率的な事前トレーニングされたモデルにダウンストリーム タスクを適応させる手段。トレーニング前のパラメータの大部分を修正し、ごく少数のパラメータを微調整することで、大規模なモデルを簡単にデプロイし、さまざまなダウンストリーム タスクに迅速に適応させることができます。 「巨人」は圧政をしない。 全文は 24 ページで、約 250 の最新文書をカバーしており、公開されるとすぐにスタンフォード大学、北京大学、その他の機関によって引用されています。さまざまなプラットフォームで公開されています。
具体的には、このレビューは、PEFT アルゴリズムの分類、効率的な PEFT 設計、PEFT クロスドメイン アプリケーション、PEFT システムの設計と展開に焦点を当てています。 PEFT の開発の歴史と最新の進歩を 4 つのレベルに分けて包括的かつ丁寧に説明します。関連業界の実務者であっても、大規模モデルの微調整分野の初心者であっても、このレビューは包括的な学習ガイドとして役立ちます。
#この論文は、最初に最近人気のあるものから始まります。 LLaMA モデル 代表として、大規模言語モデル (LLM) およびその他の Transformer ベースのモデルのアーキテクチャと計算プロセスが分析および精緻化され、以下のさまざまな PEFT テクノロジの分析を容易にするために必要なシンボリック表現が定義されます。
さらに、PEFT アルゴリズムの分類方法についても概説します。著者は、PEFT アルゴリズムを、さまざまな操作に応じて、加算的微調整、選択的微調整、高パラメータ化微調整、およびハイブリッド微調整に分割します。図 3 に PEFT アルゴリズムの分類と、各カテゴリに含まれる具体的なアルゴリズム名を示します。各カテゴリの具体的な定義については、後で詳しく説明します。
背景セクションでは、著者は、PEFT メソッドのパフォーマンスを検証するために使用される一般的なダウンストリーム ベンチマークとデータ セットも紹介しており、読者が一般的なタスク設定に慣れることが容易になります。
著者は最初に、加算的微調整、選択的微調整、および重いパラメータ 微調整とハイブリッド微調整の定義:
- 追加微調整 学習可能なパラメータを追加することによって、事前トレーニング済みモデルの特定の位置 ダウンストリームのタスクに適応するときにモデルのトレーニング可能なパラメーターの数を最小限に抑えるためのモジュールまたはパラメーター。
- 選択的微調整微調整プロセス中にモデル内のパラメーターの一部のみを更新し、残りのパラメーターは固定したままにします。付加的微調整と比較して、選択的微調整では、事前トレーニングされたモデルのアーキテクチャを変更する必要がありません。
- 再パラメータ化された微調整は、事前トレーニングされたモデルのパラメータの(低ランク)表現を構築することによってトレーニングに使用されます。推論中に、追加の推論遅延が発生するのを避けるために、パラメータは事前トレーニングされたモデルのパラメータ構造に等価的に変換されます。
これら 3 つの違いを図 4 に示します。ハイブリッド微調整 は、さまざまな PEFT 手法の利点を組み合わせ、さまざまな手法の類似点を分析して、統合された PEFT アーキテクチャを構築したり、最適な PEFT ハイパーパラメータを見つけたりします。
次に、著者は各 PEFT カテゴリをさらに細分化します: A. 加算微調整:
1) アダプター
アダプターは、Transformer ブロック内に小さなアダプター層を追加することで、パラメーターの効率的な微調整を実現します。各アダプター層には、下方投影行列、活性化関数、および上方投影行列が含まれています。下方投影行列は入力フィーチャをボトルネック次元 r にマッピングし、上方投影行列はボトルネック フィーチャを元の次元 d にマッピングし直します。
#図 5 は、モデル内のアダプター層の 3 つの典型的な挿入戦略を示しています。シリアル アダプターはトランス モジュールの後に連続して挿入され、パラレル アダプターはトランス モジュールの隣に並列に挿入されます。 CoDA はスパース アダプター メソッドです。重要なトークンの場合、CoDA は推論に事前トレーニングされた Transformer モジュールとアダプター ブランチの両方を使用します。重要でないトークンの場合、CoDA は計算オーバーヘッドを節約するために推論にアダプター ブランチのみを使用します。 2) ソフト プロンプト
ソフト プロンプトは、学習可能なベクトルを入力シーケンスの先頭に追加して、効率的な処理を実現します。パラメータの微調整。代表的な手法としては、Prefix-tuning や Prompt Tuning などがあります。プレフィックス調整では、各 Transformer レイヤーのキー、値、クエリ行列の前に学習可能なベクトルを追加することで、モデル表現の微調整が可能になります。プロンプト チューニングでは、学習可能なベクトルのみを最初の単語ベクトル層に挿入して、トレーニング パラメーターをさらに削減します。
3) その他
上記の 2 つの分類に加えて、いくつかの PEFT 手法もあります。トレーニングプロセス中に新しいパラメータが導入されました。
#2 つの代表的な方法を図 6 に示します。 (IA) 3 では、フィードフォワード ネットワークのキー、値、およびアクティブ化を調整するための 3 つのスケーリング ベクトルが導入されています。 SSF は線形変換を通じてモデルの活性化値を調整します。各ステップの後に、SSF は SSF-ADA レイヤーを追加して、アクティベーション値のスケーリングと変換を可能にします。 B. 選択的な微調整:
このタイプのメソッドは、学習可能なバイナリ マスクをモデル パラメーターに追加することによって微調整できるパラメーターを決定します。 Diff プルーニング、FishMask、LT-SFT などの多くの作品は、マスクの位置の計算に焦点を当てています。
非構造化マスクにはマスクの形状に制限はありませんが、これにより次のような問題が発生します。その影響における非効率性。したがって、FAR、S-Bitfit、Xattn Tuning などの一部の作品では、マスクの形状に構造的な制限を課しています。 2 つの違いを以下の図に示します。
この種類この方法は、微調整用のパラメータ空間全体を表す、事前トレーニングされた重み行列のさまざまな低次元の再パラメータ化形式を見つけることによって達成されます。最も典型的な方法は LoRA です。これは、2 つの追加の上向き投影行列と下向き投影行列を追加することによって、トレーニング用の元のモデル パラメーターの低ランク表現を構築します。トレーニング後、追加のパラメーターを事前トレーニングされた重みにシームレスにマージして、追加の推論オーバーヘッドの導入を回避できます。 DoRA は、重みマトリックスをモジュールの長さと方向に分離し、LoRA を利用して方向マトリックスを微調整します。 著者は、LoRA 導出方法を LoRA のランクの動的選択に分割します。 LoRA のあらゆる面での改善。 LoRA 動的ランクの一般的な方法は DyLoRA です。これは、トレーニング プロセス中に同時にトレーニングするための一連のランクを構築するため、最適なランクを見つけるために費やされるリソースが削減されます。 LoRA の改善において、著者はさまざまな側面における従来の LoRA の欠点と、それに対応する解決策を列挙します。 このパートでは、さまざまな PEFT テクノロジーを統合モデルに統合する方法を検討します。最適な設計パターンを見つけます。さらに、ニューラル アーキテクチャ検索 (NAS) を使用して最適な PEFT トレーニング ハイパーパラメーターを取得するいくつかのソリューションも紹介されています。
このセクションでは、著者は、PEFT のトレーニングと推論のレイテンシとピーク メモリ オーバーヘッドに焦点を当て、PEFT の効率を向上させる研究について説明します。著者はPEFTの効率化を主に3つの観点から解説しています。 PEFT プルーニング戦略: ニューラル ネットワーク プルーニング テクノロジと PEFT テクノロジを組み合わせて、効率をさらに向上させます。代表的なタスクには、AdapterDrop、SparseAdapter などがあります。 PEFT 定量化戦略: つまり、モデルの精度を下げることでモデルのサイズを縮小し、それによって計算効率を向上させます。 PEFT と組み合わせる場合、主な問題は、新しい PEFT モジュールの事前トレーニングの重みと量子化処理をより適切に考慮する方法です。代表作にQLoRA、LoftQなど。 メモリ効率の高い PEFT 設計: PEFT は、勾配計算と逆伝播が必要なため、トレーニング中に少数のパラメーターしか更新できませんが、そのメモリ使用量は依然として大きいです。この課題に対処するために、サイドチューニングや LST などの一部のメソッドは、事前トレーニングされた重み内の勾配計算をバイパスすることでメモリのオーバーヘッドを削減しようとします。同時に、HyperTuning、MeZO などの他の方法は、LLM 内でのバックプロパゲーションを回避してこの問題を解決しようとします。 この章では、著者がさまざまな分野での PEFT の応用が検討され、特定のモデルまたはタスクのパフォーマンスを向上させるためのより優れた PEFT 手法を設計する方法が議論されます。このセクションでは主に、LLM、ビジュアル トランスフォーマー (ViT)、ビジュアル テキスト モデル、拡散モデルなどのさまざまな大規模な事前トレーニング済みモデルに焦点を当て、これらの事前トレーニング済みモデルの下流タスク適応における PEFT の役割について詳しく説明します。 LLM に関しては、著者は、LLaMA-Adapter などの代表的な作品である、視覚的な指示入力を受け入れるために PEFT を使用して LLM を微調整する方法を紹介します。さらに、著者は LLM の継続学習における PEFT の応用についても検討し、PEFT を使用して LLM を微調整してコンテキスト ウィンドウを拡大する方法についても言及しています。 ViT については、PEFT テクノロジを使用して下流の画像認識タスクに適応させる方法と、PEFT を使用して ViT ビデオ認識機能を提供する方法について説明します。 ビジュアル テキスト モデルに関して、著者は、オープンセット画像分類タスク用のビジュアル テキスト モデルを微調整するために PEFT を適用した多くの研究を紹介しました。 拡散モデルについて、著者らは 2 つの一般的なシナリオを特定しています。テキスト以外の入力を追加する方法と、パーソナライズされた生成を実現する方法です。それぞれのシナリオを PEFT で説明しています。 2種類のタスク。 この章では、まず著者が説明します。では、クラウド サービスに基づく PEFT システムが直面する課題について説明します。これには主に次の点が含まれます: 一元化された PEFT クエリ サービス: このモードでは、クラウド サーバーは単一の LLM モデルのコピーと複数の PEFT モジュールを保存します。 。さまざまな PEFT クエリのタスク要件に従って、クラウド サーバーは対応する PEFT モジュールを選択し、LLM モデルと統合します。 分散型 PEFT クエリ サービス: このモードでは、LLM モデルはクラウド サーバーに保存され、PEFT 重みとデータ セットはクラウド サーバーに保存されます。デバイス上のユーザー。ユーザー デバイスは、PEFT メソッドを使用して LLM モデルを微調整し、微調整された PEFT 重みとデータ セットをクラウド サーバーにアップロードします。 複数の PEFT トレーニング: 課題には、メモリ勾配とモデルの重みストレージを管理する方法、バッチで PEFT をトレーニングするための効率的なカーネルを設計する方法などが含まれます。
上記のシステム設計の課題を考慮して、著者は、これらの課題と実現可能な解決策のより詳細な分析を提供するために、3 つの詳細なシステム設計ケースをリストします。 オフサイト チューニング: 主に、LLM を微調整する際のデータ プライバシーのジレンマと大量のリソース消費の問題を解決します。 PetS: 統合サービス フレームワークを提供し、PEFT モジュールの統合管理およびスケジューリング メカニズムを提供します。
PEFT 並列トレーニング フレームワーク: S-LoRA と Punica を含む 2 つの並列 PEFT トレーニング フレームワークと、それらが PEFT のトレーニング効率をどのように向上させるかを紹介します。 著者は、PEFT テクノロジーはまだ進歩していないと考えています。下流ミッションは成功しましたが、今後の作業で対処する必要があるいくつかの欠点がまだあります。 統一評価ベンチマークを確立する: いくつかの PEFT ライブラリはすでに存在しますが、PEFT ライブラリの有効性と効率を公正に比較するための包括的なベンチマークが不足しています。異なるPEFTメソッド。認知されたベンチマークを確立すると、コミュニティ内のイノベーションとコラボレーションが促進されます。 トレーニング効率の向上: PEFT トレーニング中のトレーニング可能なパラメーターの量は、トレーニング中の計算量とメモリの節約量と必ずしも一致するとは限りません。 「効率的な PEFT 設計」セクションで説明したように、将来の研究では、メモリと計算効率を最適化する方法がさらに研究される可能性があります。 スケーリングの法則の探求: 多くの PEFT 手法は小規模な Transformer モデルに実装されており、その有効性は必ずしも今日の大規模なさまざまなモデルに適用できるわけではありません。パラメータの量。将来の研究では、PEFT 手法を大規模モデルに適用する方法を検討する可能性があります。 より多くのモデルとタスクを提供: Sora、Mamba などのより大規模なモデルの出現により、PEFT テクノロジーが可能性を解き放つことができます。新しいアプリケーションのシーン。将来の研究は、特定のモデルやタスク向けの PEFT 手法の設計に焦点を当てる可能性があります。 データ プライバシーの強化: 集中型システムは、パーソナライズされた PEFT モジュールを提供または微調整するときに、データ プライバシーの問題に直面する可能性があります。将来の研究では、個人データと中間トレーニング/推論結果を保護するための暗号化プロトコルが調査される可能性があります。 PEFT とモデル圧縮: プルーニングや量子化などのモデル圧縮技術が PEFT 手法に及ぼす影響は十分に研究されていません。今後の研究は、圧縮モデルが PEFT 法のパフォーマンスにどのように適応するかに焦点を当てる可能性があります。 以上が大きなモデルを「ビッグ Mac」から解放する これは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。