2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラルネットワークに関する新しい研究を刺激する

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラルネットワークに関する新しい研究を刺激する

王林

Apr 09, 2023 pm 03:41 PM

aiモデル

深層学習は、大規模な非凸最適化問題を比較的簡単に解決できる能力のおかげで、このような成果を達成することができました。非凸最適化は NP 困難ですが、いくつかの単純なアルゴリズム (通常は確率的勾配降下 (SGD) の変形) は、実際に大規模なニューラルネットワークをフィッティングする際に驚くべき有効性を示しています。

この記事では、ワシントン大学の数人の学者が「Git Re-Basin: 置換対称を法とするモデルの結合」を執筆し、高次元の非凸最適化における SGD アルゴリズムを研究しました。深層学習における問題に対する不合理な効果。

1. SGD は、他の非凸最適化設定ではなぜ高次元の非凸深層学習損失ランドスケープの最適化で優れたパフォーマンスを発揮するのですか?ポリシー学習などの軌道最適化および推奨システムの堅牢性は大幅に低下しました?

2. 極小値はどこですか?初期化重みと最終トレーニング重みの間を線形補間すると、損失が滑らかかつ単調に減少するのはなぜですか?

3. ランダムな初期化とデータのバッチ処理順序が異なる 2 つの独立してトレーニングされたモデルが、ほぼ同じパフォーマンスを達成できるのはなぜですか?さらに、トレーニング損失曲線が同じに見えるのはなぜですか

論文アドレス: https://arxiv.org/pdf/2209.04836。 pdf

この記事では、モデルのトレーニングにはある程度の不変性があるため、異なるトレーニングでもほぼ同じパフォーマンスが示されると考えています。

なぜそうなるのでしょうか? 2019年、Breaらは、ニューラルネットワークの隠れユニットが配置の対称性を持っていることに気づきました。簡単に言うと、ネットワークの隠れ層にある任意の 2 つのユニットを交換でき、ネットワーク機能は同じままになります。 Entezari et al. 2021 は、これらの順列対称性により、損失を犠牲にすることなく重み空間内の点を線形に接続できる可能性があると推測しました。

以下では、誰もがより明確に理解できるように、この論文の著者の 1 人による例を使用してこの記事の主な目的を説明します。

あなたが A モデルをトレーニングし、友人が B モデルをトレーニングしたと仮定すると、2 つのモデルのトレーニングデータは異なる可能性があります。それは問題ではありません。この記事で提案されている Git Re-Basin を使用すると、損失を損なうことなく、重み空間で 2 つのモデル A B をマージできます。

論文の著者は、Git Re-Basin はあらゆるニューラルネットワーク (NN) に適用できると述べています。そして彼らはそれを初めて実証しました。 2 つの独立してトレーニングされた (事前トレーニングなし) モデル (ResNets) 間でゼロバリア線形接続が可能です。

彼らは、マージ能力が SGD トレーニングの特性であることを発見しました。マージは初期化時には機能しませんが、位相変化が発生するため、時間の経過とともにマージが可能になるでしょう。

# 彼らは、モデルの幅がマージ可能性と密接に関係していること、つまり、幅が広いほど優れていることも発見しました。

また、すべてのアーキテクチャをマージできるわけではありません。VGG は ResNets よりもマージが難しいようです。

この結合方法には他にも利点があり、素で偏ったデータセットでモデルをトレーニングし、それらを重み空間で結合できます。たとえば、米国にあるデータと EU にあるデータがあるとします。何らかの理由でデータを混合できません。最初に別々のモデルをトレーニングし、次に重みをマージし、最後にマージされたデータセットに一般化することができます。

###

因此，在不需要預訓練或微調的情況下可以混合訓練過的模型。作者表示自己很想知道線性模式連結和模型修補的未來發展方向，可能會應用在聯邦學習、分散式訓練以及深度學習最佳化等領域。

最後也提到，章節 3.2 中的權重匹配演算法只需 10 秒左右即可運行，所以節省了大量時間。論文第 3 章也介紹了 A 模型與 B 模型單元相符的三種方法，對配對演算法還不清楚的小夥伴，可以查看原始論文。

網友評論及作者解疑

這篇論文在推特上引發了熱議，PyTorch 聯合創始人Soumith Chintala 表示如果這項研究可以遷移到更大的設置，則它可以實現的方向會更棒。合併兩個模型（包括權重）可以擴展 ML 模型開發，並可能在開源的共同開發模型中發揮巨大作用。

另有人認為如果排列不變性能夠這樣高效地捕捉大部分等價性，它將為神經網路的理論研究提供啟發。

論文一作、華盛頓大學博士 Samuel Ainsworth 也解答了網友提出的一些問題。

首先有人問，「論文中是否有關於在訓練中針對獨特basin 的任何提示？如果有一種方法可以做到對排列進行抽象，那麼訓練速度可能會更快。」

Ainsworth 回覆稱，這點自己沒有想到。他真的希望能夠以某種方式實現更快地訓練，但目前為止已被證明非常困難。問題在於 SGD 本質上是一種局部搜索，因此利用高階幾何並不是那麼容易。也許分散式訓練是一種可行的方法。

還有人問是否適用於 RNN 和 Transformers？ Ainsworth 表示原則上適用，但他還沒有對此進行實驗。時間會證明一切。

最後有人提出，「這看起來對分散式訓練『成真』非常重要？難道DDPM（去噪擴散機率模型）不使用ResNet 殘差區塊嗎？」

Ainsworth 回覆稱，雖然他自己對DDPM 不是很熟悉，但直言不諱表示將它用於分散式訓練將非常令人興奮。

以上が2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラルネットワークに関する新しい研究を刺激するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

Dreamweaver Mac版

ビジュアル Web 開発ツール

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。