大きなモデルを「ビッグ Mac」から解放する これは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。
AIxiv コラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。
著者は最初に、加算的微調整、選択的微調整、および重いパラメータ 微調整とハイブリッド微調整の定義:
追加微調整 学習可能なパラメータを追加することによって、事前トレーニング済みモデルの特定の位置 ダウンストリームのタスクに適応するときにモデルのトレーニング可能なパラメーターの数を最小限に抑えるためのモジュールまたはパラメーター。 選択的微調整微調整プロセス中にモデル内のパラメーターの一部のみを更新し、残りのパラメーターは固定したままにします。付加的微調整と比較して、選択的微調整では、事前トレーニングされたモデルのアーキテクチャを変更する必要がありません。 再パラメータ化された微調整は、事前トレーニングされたモデルのパラメータの(低ランク)表現を構築することによってトレーニングに使用されます。推論中に、追加の推論遅延が発生するのを避けるために、パラメータは事前トレーニングされたモデルのパラメータ構造に等価的に変換されます。
#図 5 は、モデル内のアダプター層の 3 つの典型的な挿入戦略を示しています。シリアル アダプターはトランス モジュールの後に連続して挿入され、パラレル アダプターはトランス モジュールの隣に並列に挿入されます。 CoDA はスパース アダプター メソッドです。重要なトークンの場合、CoDA は推論に事前トレーニングされた Transformer モジュールとアダプター ブランチの両方を使用します。重要でないトークンの場合、CoDA は計算オーバーヘッドを節約するために推論にアダプター ブランチのみを使用します。
#2 つの代表的な方法を図 6 に示します。 (IA) 3 では、フィードフォワード ネットワークのキー、値、およびアクティブ化を調整するための 3 つのスケーリング ベクトルが導入されています。 SSF は線形変換を通じてモデルの活性化値を調整します。各ステップの後に、SSF は SSF-ADA レイヤーを追加して、アクティベーション値のスケーリングと変換を可能にします。
B. 選択的な微調整:
1) 非構造化マスク
このタイプのメソッドは、学習可能なバイナリ マスクをモデル パラメーターに追加することによって微調整できるパラメーターを決定します。 Diff プルーニング、FishMask、LT-SFT などの多くの作品は、マスクの位置の計算に焦点を当てています。
2) 構造化マスク
非構造化マスクにはマスクの形状に制限はありませんが、これにより次のような問題が発生します。その影響における非効率性。したがって、FAR、S-Bitfit、Xattn Tuning などの一部の作品では、マスクの形状に構造的な制限を課しています。 2 つの違いを以下の図に示します。
複数の PEFT トレーニング: 課題には、メモリ勾配とモデルの重みストレージを管理する方法、バッチで PEFT をトレーニングするための効率的なカーネルを設計する方法などが含まれます。
以上が大きなモデルを「ビッグ Mac」から解放する これは、大きなモデルのパラメータの効率的な微調整に関する最新のレビューです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。
