ホームページ >テクノロジー周辺機器 >AI >ニューラルネットワークには活性化関数はもう必要ないのでは？レイヤー正規化には非線形表現も！

ニューラルネットワークには活性化関数はもう必要ないのでは？レイヤー正規化には非線形表現も！

王林オリジナル: 2024-07-03 14:11:331257ブラウズ

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の著者は全員、北京大学人工知能学部および国家主要複雑重要ソフトウェア研究所の黄磊准教授のチームのメンバーです。環境。最初の著者である Ni Yunhao は大学院 1 年生、2 番目の著者 Guo Yuxin は大学院 3 年生、3 番目の著者 Jia Junlong は大学院 2 年生です。 Huang Lei 准教授 (ホームページ: https://huangleibuaa.github.io/)

ニューラルネットワークは通常、線形層、非線形層(活性化関数)、正規化層の3つの部分から構成されます。線形層はネットワークパラメーターが存在する主な場所であり、非線形層はニューラルネットワークの表現能力を向上させますが、正規化層 (正規化) は主にニューラルネットワークのトレーニングを安定化および高速化するために使用されます。たとえば、バッチ正規化は予測段階での線形変換と見なすことができ、式に非線形性は導入されません。したがって、研究者は一般に、正規化によってモデルの表現能力を向上させることはできないと考えています。

しかし、北杭大学人工知能学部のファン・レイ教授のチームがICML2024で最近発表した論文「レイヤー正規化の非線形性について」では、レイヤー正規化（Layer Normlization、LN）とその計算的に劣化したバージョンが指摘されています。 RMSNorm は非線形表現能力であり、LN の普遍的な近似分類能力について詳しく説明します。

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

論文アドレス: https://arxiv.org/abs/2406.01255

この論文は、LN の非線形性を数学的に証明します。そして、線形層と LN のみを含む単純なニューラルネットワーク LN-Net が提案されます。十分な深さがある場合、理論上、与えられたサンプルとサンプルカテゴリを任意に分類できます。この発見は、さまざまな正規化をフィッティング機能のない線形変換とみなす人々の慣性を打ち破り、非線形層と正規化層はもはや分離したニューラルネットワークモジュールではなくなりました。

現在、トランスの普及により、固定コンポーネントとしての LN が一般的に使用される技術になりました。この研究は、将来、この方向のニューラルネットワークアーキテクチャに新しい理論的基盤を提供する可能性があります。画期的な意義がある。

LN 非線形性の数学的発見

非線形研究については、この記事では LN 自体の解析特性について直接議論するのではなく、より実践的な方法で LN とデータの関係を調査します。交流。

著者は、2 つのカテゴリーに基づくサンプルの線形分離性を記述するために統計的 SSR (Sum of Squares Ratio) を最初に提案しました。サンプルを線形変換すると、SSR も変化します。したがって、すべての線形変換の下でサンプルに対応する最小の SSR が LSSR として定義されます。この記事では、LSSR が小さいほど、サンプル間の線形分離性がより強いと指摘しています。

しかし、サンプルに課せられた線形変化を「線形変換-LN-線形変換」の構造に置き換えると、得られた新たなSSRはLSSRよりも低い可能性があることがわかり、非線形であることが検証されます。 LN の式— —LN が線形の場合、「線形変換 - LN - 線形変換」も線形であり、結果として得られる新しい SSR が LSSR より低くなることはありません。

分類問題におけるLNの任意の分離可能性

さらなる研究のために、著者はLNをセンタリングとスケーリングの2つのステップに分割します。集中化は数学的には線形変換であるため、LN の非線形性は主にスケールスケーリング操作 (記事内では球面投影とも呼ばれ、RMSNorm によって実行される操作) に存在します。著者は、最も単純な線形不可分 XOR データを例として、線形変換と球面射影によってこれら 4 つの点を正しく分類しました。

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

より一般的には、著者は、LN と線形層を使用して任意の数のサンプルを正しく分類するアルゴリズムを提案し、LN-Net の汎用近似機能を調査します。

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

アルゴリズムステップを構築することにより、ニューラルネットワークの層ごとの変換は同様のサンプルマージ問題に変換され、普遍的近似分類問題はサンプルマージ問題に変換され、次のことを指摘しました- 任意のラベルを持つ m 個のサンプルについて、O(m) 層の LN-Net を構築して、これらの m 個のサンプルを正しく分類できます。この構築方法は、ニューラルネットワークの VC 次元を計算するための新しいアイデアも提供します。著者は、これに基づいて、L 個の正規化層を持つ LN-Net の VC 次元は少なくとも L+2 であると推測できると指摘しました。

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

LNの非線形性強化と実用化

著者は、LNの非線形性の証明に基づいて、実用化のためにLNの非線形性をさらに強化するためのグループ化層標準化技術を提案しました。 G)。著者は、ヘッセ行列の観点から、グループ化によって LN の非線形性が強化される可能性があることを数学的に予測し、LN-G の表現能力を実験的に探索しています。

CIFAR-10 ランダムラベルデータセットでは、通常の線形層モデルの場合、線形層と LN-G で構成されるニューラルネットワークを使用している間、精度は 20% を超えないことを著者は指摘しました。従来のアクティベーション関数を非線形ユニットとして導入すると、55.85% の精度を達成できます。

著者は、活性化関数のない畳み込みニューラルネットワークにおける LN-G の分類効果をさらに調査し、この活性化関数のないニューラルネットワークが強力なフィッティング能力を持っていることを実験的に証明しました。さらに、著者は、GN がサンプル全体に作用する (単一のサンプルを 1 次元ベクトルに引き伸ばしてから GN を実行する) MLP との類推により、LN-G-Position を提案しました。非線形層を使用せずに ResNet ネットワークで LN-G-Position メソッドを使用すると、CIFAR-10 データセットで 86.66% の精度を達成できます。これは、LN-G-Position の強力な表現能力を反映しています。

その後、著者は、元の LN を LN-G に置き換えて、Transformer に関する実験研究を実施しました。実験結果によると、グループ層の標準化により、Transformer ネットワークのパフォーマンスが効果的に向上することがわかりました。実際のネットワーク、この理論の実現可能性。

結論と展望

論文「層正規化の非線形性について」の中で、著者は、線形層とLNのみを含み、与えられたモデルの普遍的な分類能力を初めて理論的に証明しました。特定の深さモデルの VC 次元の下限ここで最も重要な意義は、従来のディープニューラルネットワークの表現能力の分析が、広く使用されている現代のリアルネットワークに向けて大きな一歩を踏み出したことです。これは、将来に向けた新しいアイデアを提供する可能性があります。ニューラルネットワーク構造の設計のアイデア。

以上がニューラルネットワークには活性化関数はもう必要ないのでは？レイヤー正規化には非線形表現も！の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

batch 架构 position github 算法人工智能 transformer https

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：ハルビン工業大学が革新的な反復推論フレームワーク DPE-MNER を提案: マルチモーダル表現の可能性を最大限に活用次の記事：ハルビン工業大学が革新的な反復推論フレームワーク DPE-MNER を提案: マルチモーダル表現の可能性を最大限に活用

続きを見る