ホームページ >テクノロジー周辺機器 >AI >2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

王林
王林転載
2023-04-09 15:41:031625ブラウズ

深層学習は、大規模な非凸最適化問題を比較的簡単に解決できる能力のおかげで、このような成果を達成することができました。非凸最適化は NP 困難ですが、いくつかの単純なアルゴリズム (通常は確率的勾配降下 (SGD) の変形) は、実際に大規模なニューラル ネットワークをフィッティングする際に驚くべき有効性を示しています。

この記事では、ワシントン大学の数人の学者が「Git Re-Basin: 置換対称を法とするモデルの結合」を執筆し、高次元の非凸最適化における SGD アルゴリズムを研究しました。深層学習における問題に対する不合理な効果。

1. SGD は、他の非凸最適化設定ではなぜ高次元の非凸深層学習損失ランドスケープの最適化で優れたパフォーマンスを発揮するのですか?ポリシー学習などの軌道最適化および推奨システムの堅牢性は大幅に低下しました?

2. 極小値はどこですか?初期化重みと最終トレーニング重みの間を線形補間すると、損失が滑らかかつ単調に減少するのはなぜですか?

3. ランダムな初期化とデータのバッチ処理順序が異なる 2 つの独立してトレーニングされたモデルが、ほぼ同じパフォーマンスを達成できるのはなぜですか?さらに、トレーニング損失曲線が同じに見えるのはなぜですか

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

論文アドレス: https://arxiv.org/pdf/2209.04836。 pdf

この記事では、モデルのトレーニングにはある程度の不変性があるため、異なるトレーニングでもほぼ同じパフォーマンスが示されると考えています。

なぜそうなるのでしょうか? 2019年、Breaらは、ニューラルネットワークの隠れユニットが配置の対称性を持っていることに気づきました。簡単に言うと、ネットワークの隠れ層にある任意の 2 つのユニットを交換でき、ネットワーク機能は同じままになります。 Entezari et al. 2021 は、これらの順列対称性により、損失を犠牲にすることなく重み空間内の点を線形に接続できる可能性があると推測しました。

以下では、誰もがより明確に理解できるように、この論文の著者の 1 人による例を使用してこの記事の主な目的を説明します。

あなたが A モデルをトレーニングし、友人が B モデルをトレーニングしたと仮定すると、2 つのモデルのトレーニング データは異なる可能性があります。それは問題ではありません。この記事で提案されている Git Re-Basin を使用すると、損失を損なうことなく、重み空間で 2 つのモデル A B をマージできます。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

論文の著者は、Git Re-Basin はあらゆるニューラル ネットワーク (NN) に適用できると述べています。そして彼らはそれを初めて実証しました。 2 つの独立してトレーニングされた (事前トレーニングなし) モデル (ResNets) 間でゼロバリア線形接続が可能です。

彼らは、マージ能力が SGD トレーニングの特性であることを発見しました。マージは初期化時には機能しませんが、位相変化が発生するため、時間の経過とともにマージが可能になるでしょう。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

# 彼らは、モデルの幅がマージ可能性と密接に関係していること、つまり、幅が広いほど優れていることも発見しました。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

また、すべてのアーキテクチャをマージできるわけではありません。VGG は ResNets よりもマージが難しいようです。

この結合方法には他にも利点があり、素で偏ったデータセットでモデルをトレーニングし、それらを重み空間で結合できます。たとえば、米国にあるデータと EU にあるデータがあるとします。何らかの理由でデータを混合できません。最初に別々のモデルをトレーニングし、次に重みをマージし、最後にマージされたデータセットに一般化することができます。

###

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

因此,在不需要預訓練或微調的情況下可以混合訓練過的模型。作者表示自己很想知道線性模式連結和模型修補的未來發展方向,可能會應用在聯邦學習、分散式訓練以及深度學習最佳化等領域。

最後也提到,章節 3.2 中的權重匹配演算法只需 10 秒左右即可運行,所以節省了大量時間。論文第 3 章也介紹了 A 模型與 B 模型單元相符的三種方法,對配對演算法還不清楚的小夥伴,可以查看原始論文。

網友評論及作者解疑

這篇論文在推特上引發了熱議,PyTorch 聯合創始人Soumith Chintala 表示如果這項研究可以遷移到更大的設置,則它可以實現的方向會更棒。合併兩個模型(包括權重)可以擴展 ML 模型開發,並可能在開源的共同開發模型中發揮巨大作用。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

另有人認為如果排列不變性能夠這樣高效地捕捉大部分等價性,它將為神經網路的理論研究提供啟發。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

論文一作、華盛頓大學博士 Samuel Ainsworth 也解答了網友提出的一些問題。

首先有人問,「論文中是否有關於在訓練中針對獨特basin 的任何提示?如果有一種方法可以做到對排列進行抽象,那麼訓練速度可能會更快。」

Ainsworth 回覆稱,這點自己沒有想到。他真的希望能夠以某種方式實現更快地訓練,但目前為止已被證明非常困難。問題在於 SGD 本質上是一種局部搜索,因此利用高階幾何並不是那麼容易。也許分散式訓練是一種可行的方法。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

還有人問是否適用於 RNN 和 Transformers? Ainsworth 表示原則上適用,但他還沒有對此進行實驗。時間會證明一切。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

最後有人提出,「這看起來對分散式訓練『成真』非常重要?難道DDPM(去噪擴散機率模型)不使用ResNet 殘差區塊嗎?」

Ainsworth 回覆稱,雖然他自己對DDPM 不是很熟悉,但直言不諱表示將它用於分散式訓練將非常令人興奮。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

以上が2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。