大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。-AI-php.cn

ホームページ

テクノロジー周辺機器

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

王林

Apr 28, 2024 pm 04:04 PM

理論圧縮技術メモリ使用量パラメータの効率的な微調整

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

AIxiv コラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。

近年、大規模言語モデルやヴィンセントグラフモデルなどの大規模AIモデルが急速に発展しています。このような状況の下、急速に変化するニーズにどのように適応し、大規模なモデルをさまざまな下流タスクに迅速に適応させるかが重要な課題となっています。コンピューティングリソースの制限により、従来のフルパラメータ微調整方法では不十分な可能性があるため、より効率的な微調整戦略を検討する必要があります。上記の課題により、パラメータ効率的微調整 (PEFT) テクノロジが最近急速に開発されました。

PEFT 技術の開発の歴史を包括的に要約し、最新の研究の進歩を把握するために、最近、ノースイースタン大学、カリフォルニア大学、アリゾナ州リバーサイドの研究者が大学とニューヨーク大学研究者らは、大規模モデルにおけるパラメータ効率的微調整（PEFT）技術の応用と開発の見通しを調査、整理、要約し、包括的かつ最先端のレビューにまとめました。

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

論文リンク: https://arxiv.org/pdf/2403.14608.pdf

PEFT は効率的な事前トレーニングされたモデルにダウンストリームタスクを適応させる手段。トレーニング前のパラメータの大部分を修正し、ごく少数のパラメータを微調整することで、大規模なモデルを簡単にデプロイし、さまざまなダウンストリームタスクに迅速に適応させることができます。「巨人」は圧政をしない。

全文は 24 ページで、約 250 の最新文書をカバーしており、公開されるとすぐにスタンフォード大学、北京大学、その他の機関によって引用されています。さまざまなプラットフォームで公開されています。

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

具体的には、このレビューは、PEFT アルゴリズムの分類、効率的な PEFT 設計、PEFT クロスドメインアプリケーション、PEFT システムの設計と展開に焦点を当てています。 PEFT の開発の歴史と最新の進歩を 4 つのレベルに分けて包括的かつ丁寧に説明します。関連業界の実務者であっても、大規模モデルの微調整分野の初心者であっても、このレビューは包括的な学習ガイドとして役立ちます。

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

#1. PEFT の背景の紹介

#この論文は、最初に最近人気のあるものから始まります。 LLaMA モデル代表として、大規模言語モデル (LLM) およびその他の Transformer ベースのモデルのアーキテクチャと計算プロセスが分析および精緻化され、以下のさまざまな PEFT テクノロジの分析を容易にするために必要なシンボリック表現が定義されます。

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

さらに、PEFT アルゴリズムの分類方法についても概説します。著者は、PEFT アルゴリズムを、さまざまな操作に応じて、加算的微調整、選択的微調整、高パラメータ化微調整、およびハイブリッド微調整に分割します。図 3 に PEFT アルゴリズムの分類と、各カテゴリに含まれる具体的なアルゴリズム名を示します。各カテゴリの具体的な定義については、後で詳しく説明します。

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

背景セクションでは、著者は、PEFT メソッドのパフォーマンスを検証するために使用される一般的なダウンストリームベンチマークとデータセットも紹介しており、読者が一般的なタスク設定に慣れることが容易になります。

2. PEFT メソッドの分類

著者は最初に、加算的微調整、選択的微調整、および重いパラメータ微調整とハイブリッド微調整の定義:

追加微調整 学習可能なパラメータを追加することによって、事前トレーニング済みモデルの特定の位置ダウンストリームのタスクに適応するときにモデルのトレーニング可能なパラメーターの数を最小限に抑えるためのモジュールまたはパラメーター。
選択的微調整微調整プロセス中にモデル内のパラメーターの一部のみを更新し、残りのパラメーターは固定したままにします。付加的微調整と比較して、選択的微調整では、事前トレーニングされたモデルのアーキテクチャを変更する必要がありません。
再パラメータ化された微調整は、事前トレーニングされたモデルのパラメータの(低ランク)表現を構築することによってトレーニングに使用されます。推論中に、追加の推論遅延が発生するのを避けるために、パラメータは事前トレーニングされたモデルのパラメータ構造に等価的に変換されます。

これら 3 つの違いを図 4 に示します。ハイブリッド微調整

は、さまざまな PEFT 手法の利点を組み合わせ、さまざまな手法の類似点を分析して、統合された PEFT アーキテクチャを構築したり、最適な PEFT ハイパーパラメータを見つけたりします。

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

次に、著者は各 PEFT カテゴリをさらに細分化します:

A. 加算微調整:

1) アダプター

アダプターは、Transformer ブロック内に小さなアダプター層を追加することで、パラメーターの効率的な微調整を実現します。各アダプター層には、下方投影行列、活性化関数、および上方投影行列が含まれています。下方投影行列は入力フィーチャをボトルネック次元 r にマッピングし、上方投影行列はボトルネックフィーチャを元の次元 d にマッピングし直します。

#図 5 は、モデル内のアダプター層の 3 つの典型的な挿入戦略を示しています。シリアルアダプターはトランスモジュールの後に連続して挿入され、パラレルアダプターはトランスモジュールの隣に並列に挿入されます。 CoDA はスパースアダプターメソッドです。重要なトークンの場合、CoDA は推論に事前トレーニングされた Transformer モジュールとアダプターブランチの両方を使用します。重要でないトークンの場合、CoDA は計算オーバーヘッドを節約するために推論にアダプターブランチのみを使用します。

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

2) ソフトプロンプト

ソフトプロンプトは、学習可能なベクトルを入力シーケンスの先頭に追加して、効率的な処理を実現します。パラメータの微調整。代表的な手法としては、Prefix-tuning や Prompt Tuning などがあります。プレフィックス調整では、各 Transformer レイヤーのキー、値、クエリ行列の前に学習可能なベクトルを追加することで、モデル表現の微調整が可能になります。プロンプトチューニングでは、学習可能なベクトルのみを最初の単語ベクトル層に挿入して、トレーニングパラメーターをさらに削減します。

3) その他

上記の 2 つの分類に加えて、いくつかの PEFT 手法もあります。トレーニングプロセス中に新しいパラメータが導入されました。

#2 つの代表的な方法を図 6 に示します。 (IA) 3 では、フィードフォワードネットワークのキー、値、およびアクティブ化を調整するための 3 つのスケーリングベクトルが導入されています。 SSF は線形変換を通じてモデルの活性化値を調整します。各ステップの後に、SSF は SSF-ADA レイヤーを追加して、アクティベーション値のスケーリングと変換を可能にします。

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。 B. 選択的な微調整:

1) 非構造化マスク

このタイプのメソッドは、学習可能なバイナリマスクをモデルパラメーターに追加することによって微調整できるパラメーターを決定します。 Diff プルーニング、FishMask、LT-SFT などの多くの作品は、マスクの位置の計算に焦点を当てています。

2) 構造化マスク

非構造化マスクにはマスクの形状に制限はありませんが、これにより次のような問題が発生します。その影響における非効率性。したがって、FAR、S-Bitfit、Xattn Tuning などの一部の作品では、マスクの形状に構造的な制限を課しています。 2 つの違いを以下の図に示します。

C. 再パラメータ化された微調整:

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

1) 低ランク分解

この種類この方法は、微調整用のパラメータ空間全体を表す、事前トレーニングされた重み行列のさまざまな低次元の再パラメータ化形式を見つけることによって達成されます。最も典型的な方法は LoRA です。これは、2 つの追加の上向き投影行列と下向き投影行列を追加することによって、トレーニング用の元のモデルパラメーターの低ランク表現を構築します。トレーニング後、追加のパラメーターを事前トレーニングされた重みにシームレスにマージして、追加の推論オーバーヘッドの導入を回避できます。 DoRA は、重みマトリックスをモジュールの長さと方向に分離し、LoRA を利用して方向マトリックスを微調整します。

2) LoRA 導出方法

著者は、LoRA 導出方法を LoRA のランクの動的選択に分割します。 LoRA のあらゆる面での改善。

LoRA 動的ランクの一般的な方法は DyLoRA です。これは、トレーニングプロセス中に同時にトレーニングするための一連のランクを構築するため、最適なランクを見つけるために費やされるリソースが削減されます。

LoRA の改善において、著者はさまざまな側面における従来の LoRA の欠点と、それに対応する解決策を列挙します。

D. ハイブリッド微調整:

このパートでは、さまざまな PEFT テクノロジーを統合モデルに統合する方法を検討します。最適な設計パターンを見つけます。さらに、ニューラルアーキテクチャ検索 (NAS) を使用して最適な PEFT トレーニングハイパーパラメーターを取得するいくつかのソリューションも紹介されています。

3. 効率的な PEFT 設計

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

このセクションでは、著者は、PEFT のトレーニングと推論のレイテンシとピークメモリオーバーヘッドに焦点を当て、PEFT の効率を向上させる研究について説明します。著者はPEFTの効率化を主に3つの観点から解説しています。

PEFT プルーニング戦略: ニューラルネットワークプルーニングテクノロジと PEFT テクノロジを組み合わせて、効率をさらに向上させます。代表的なタスクには、AdapterDrop、SparseAdapter などがあります。

PEFT 定量化戦略: つまり、モデルの精度を下げることでモデルのサイズを縮小し、それによって計算効率を向上させます。 PEFT と組み合わせる場合、主な問題は、新しい PEFT モジュールの事前トレーニングの重みと量子化処理をより適切に考慮する方法です。代表作にQLoRA、LoftQなど。

メモリ効率の高い PEFT 設計: PEFT は、勾配計算と逆伝播が必要なため、トレーニング中に少数のパラメーターしか更新できませんが、そのメモリ使用量は依然として大きいです。この課題に対処するために、サイドチューニングや LST などの一部のメソッドは、事前トレーニングされた重み内の勾配計算をバイパスすることでメモリのオーバーヘッドを削減しようとします。同時に、HyperTuning、MeZO などの他の方法は、LLM 内でのバックプロパゲーションを回避してこの問題を解決しようとします。

4. PEFT の分野を超えた応用

この章では、著者がさまざまな分野での PEFT の応用が検討され、特定のモデルまたはタスクのパフォーマンスを向上させるためのより優れた PEFT 手法を設計する方法が議論されます。このセクションでは主に、LLM、ビジュアルトランスフォーマー (ViT)、ビジュアルテキストモデル、拡散モデルなどのさまざまな大規模な事前トレーニング済みモデルに焦点を当て、これらの事前トレーニング済みモデルの下流タスク適応における PEFT の役割について詳しく説明します。

LLM に関しては、著者は、LLaMA-Adapter などの代表的な作品である、視覚的な指示入力を受け入れるために PEFT を使用して LLM を微調整する方法を紹介します。さらに、著者は LLM の継続学習における PEFT の応用についても検討し、PEFT を使用して LLM を微調整してコンテキストウィンドウを拡大する方法についても言及しています。

ViT については、PEFT テクノロジを使用して下流の画像認識タスクに適応させる方法と、PEFT を使用して ViT ビデオ認識機能を提供する方法について説明します。

ビジュアルテキストモデルに関して、著者は、オープンセット画像分類タスク用のビジュアルテキストモデルを微調整するために PEFT を適用した多くの研究を紹介しました。

拡散モデルについて、著者らは 2 つの一般的なシナリオを特定しています。テキスト以外の入力を追加する方法と、パーソナライズされた生成を実現する方法です。それぞれのシナリオを PEFT で説明しています。 2種類のタスク。

5. PEFT のシステム設計の課題

この章では、まず著者が説明します。では、クラウドサービスに基づく PEFT システムが直面する課題について説明します。これには主に次の点が含まれます:

一元化された PEFT クエリサービス: このモードでは、クラウドサーバーは単一の LLM モデルのコピーと複数の PEFT モジュールを保存します。。さまざまな PEFT クエリのタスク要件に従って、クラウドサーバーは対応する PEFT モジュールを選択し、LLM モデルと統合します。

分散型 PEFT クエリサービス: このモードでは、LLM モデルはクラウドサーバーに保存され、PEFT 重みとデータセットはクラウドサーバーに保存されます。デバイス上のユーザー。ユーザーデバイスは、PEFT メソッドを使用して LLM モデルを微調整し、微調整された PEFT 重みとデータセットをクラウドサーバーにアップロードします。

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。 複数の PEFT トレーニング: 課題には、メモリ勾配とモデルの重みストレージを管理する方法、バッチで PEFT をトレーニングするための効率的なカーネルを設計する方法などが含まれます。

上記のシステム設計の課題を考慮して、著者は、これらの課題と実現可能な解決策のより詳細な分析を提供するために、3 つの詳細なシステム設計ケースをリストします。

オフサイトチューニング: 主に、LLM を微調整する際のデータプライバシーのジレンマと大量のリソース消費の問題を解決します。

PetS: 統合サービスフレームワークを提供し、PEFT モジュールの統合管理およびスケジューリングメカニズムを提供します。

大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。

PEFT 並列トレーニングフレームワーク: S-LoRA と Punica を含む 2 つの並列 PEFT トレーニングフレームワークと、それらが PEFT のトレーニング効率をどのように向上させるかを紹介します。

6. 今後の研究の方向性

著者は、PEFT テクノロジーはまだ進歩していないと考えています。下流ミッションは成功しましたが、今後の作業で対処する必要があるいくつかの欠点がまだあります。

統一評価ベンチマークを確立する: いくつかの PEFT ライブラリはすでに存在しますが、PEFT ライブラリの有効性と効率を公正に比較するための包括的なベンチマークが不足しています。異なるPEFTメソッド。認知されたベンチマークを確立すると、コミュニティ内のイノベーションとコラボレーションが促進されます。

トレーニング効率の向上: PEFT トレーニング中のトレーニング可能なパラメーターの量は、トレーニング中の計算量とメモリの節約量と必ずしも一致するとは限りません。「効率的な PEFT 設計」セクションで説明したように、将来の研究では、メモリと計算効率を最適化する方法がさらに研究される可能性があります。

スケーリングの法則の探求: 多くの PEFT 手法は小規模な Transformer モデルに実装されており、その有効性は必ずしも今日の大規模なさまざまなモデルに適用できるわけではありません。パラメータの量。将来の研究では、PEFT 手法を大規模モデルに適用する方法を検討する可能性があります。

より多くのモデルとタスクを提供: Sora、Mamba などのより大規模なモデルの出現により、PEFT テクノロジーが可能性を解き放つことができます。新しいアプリケーションのシーン。将来の研究は、特定のモデルやタスク向けの PEFT 手法の設計に焦点を当てる可能性があります。

データプライバシーの強化: 集中型システムは、パーソナライズされた PEFT モジュールを提供または微調整するときに、データプライバシーの問題に直面する可能性があります。将来の研究では、個人データと中間トレーニング/推論結果を保護するための暗号化プロトコルが調査される可能性があります。

PEFT とモデル圧縮: プルーニングや量子化などのモデル圧縮技術が PEFT 手法に及ぼす影響は十分に研究されていません。今後の研究は、圧縮モデルが PEFT 法のパフォーマンスにどのように適応するかに焦点を当てる可能性があります。

以上が大きなモデルを「ビッグ Mac」から解放するこれは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AI内部展開の隠された危険：ガバナンスのギャップと壊滅的なリスクApr 28, 2025 am 11:12 AM

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

AIポリグラフの構築Apr 28, 2025 am 11:11 AM

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

AIは航空宇宙産業の離陸のためにクリアされていますか？Apr 28, 2025 am 11:10 AM

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

北京の春のロボットレースを見ていますApr 28, 2025 am 11:09 AM

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。データ解釈ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

ミラートラップ：AI倫理と人間の想像力の崩壊Apr 28, 2025 am 11:08 AM

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにしますApr 28, 2025 am 11:07 AM

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。今のところ

補強能力のガイド - 分析VidhyaApr 28, 2025 am 09:30 AM

補強能力は、人間のフィードバックに基づいて調整するためにモデルを教えることにより、AI開発を揺さぶりました。それは、監督された学習基盤と報酬ベースの更新をブレンドして、より安全で、より正確に、そして本当に助けます

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Dreamweaver Mac版

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。