ホームページ >テクノロジー周辺機器 >AI >MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました
今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。
KAN は、精度と解釈可能性の点で MLP を上回ります。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。
KAN は普遍近似定理に基づく MLP と同じ強力な数学的基盤を持っていますが、KAN はコルモゴロフ-アーノルド表現定理に基づいています。
以下の図に示すように、KAN はエッジに活性化関数を持ちますが、MLP はノードに活性化関数を持ちます。 KAN は MLP よりもパラメータ効率が高いように見えますが、各 KAN 層には MLP 層よりも多くのパラメータがあります。 写真: 【図1:模式図】 簡単な説明: KAN はエッジベースのニューラル ネットワーク構造であり、各ノードにはエッジの重みと活性化関数があります。エッジ伝播による情報の送信と更新を実現します。 MLP はノードベースのニューラル ネットワーク構造であり、各ノードには入力
最近、一部の研究者は、KAN の革新的なフレームワークの概念を畳み込みニューラル ネットワークに拡張し、畳み込みの古典的な線形変換を変換しました。各ピクセルの学習可能な非線形活性化関数である KAN 畳み込み (CKAN) が提案され、オープンソース化されています。
プロジェクトアドレス: https://github.com/AntonioTepsich/Convolutional-KANs
KAN+畳み込みは畳み込みと非常によく似ていますが、カーネルとイメージでは異なります。対応するピクセル間のドット積を適用すると、学習可能な非線形活性化関数が各要素に適用されて合計されます。 KAN+畳み込みのカーネルは、4 つの入力ニューロンと 1 つの出力ニューロンを備えた KAN+ 線形層と同等です。各入力 i に対して、学習可能な関数 ϕ_i を適用すると、この畳み込みステップの結果のピクセルは ϕ_i (x_i) の合計になります。
KAN 畳み込みにおけるパラメータ
KxK カーネルがあると仮定すると、この行列の各要素に対して、パラメータ数が Gridsize + 1 である ϕ があり、ϕ は次のように定義されます。
これにより、活性化関数 b の表現性が向上し、線形層のパラメーター数は Gridsize + 2 になります。したがって、KAN 畳み込みには合計 K^2(グリッドサイズ + 2) のパラメーターがありますが、通常の畳み込みには K^2 しかありません。
著者がテストしたさまざまなアーキテクチャは次のとおりです:
KAN 畳み込みの実装について述べていますまだ初期段階ではありますが、有望なアイデアです。彼らは、KAN 畳み込みのパフォーマンスを評価するためにいくつかの予備実験を実施しました。
これらの「暫定」結果を公開する理由は、このアイデアをできるだけ早く外の世界に紹介し、コミュニティでのより広範な研究を促進したいと考えているためであることは注目に値します。
畳み込み層のリストの各要素には、畳み込み数と対応するカーネル サイズが含まれています。
28x28 MNIST データセットに基づくと、KANConv および MLP モデルが ConvNet (大規模) と比較して許容可能な精度を達成していることがわかります。ただし、KANConv と MLP では標準の ConvNet の 7 倍のパラメータが必要になるという違いがあります。さらに、KKAN の精度は ConvNet Medium より 0.04 低く、パラメータ数 (94k 対 157k) は ConvNet Medium のほぼ半分であり、このアーキテクチャの可能性を示しています。これについて結論を出すには、より多くのデータセットで実験を行う必要もあります。
今後数日から数週間で、著者らは、比較に使用されるモデルとモデルのハイパーパラメータも徹底的に調整します。いくつかのハイパーパラメータとアーキテクチャのバリエーションが試みられていますが、これは単なるヒューリスティックであり、正確なアプローチには従っていません。彼らは、計算能力と時間の制約のため、大規模またはより複雑なデータセットをまだ扱っておらず、この問題の解決に取り組んでいます。
今後、著者はより複雑なデータセットで実験を行う予定です。これは、より多くの KAN 畳み込み層を実装する必要があるため、KANS のパラメータ量が増加することを意味します。
現時点では、従来の畳み込みネットワークと比較して、著者は KAN 畳み込みネットワークのパフォーマンスの大幅な向上は見られないと述べました。彼らの分析では、これは、試した最良のアーキテクチャ (ConvNet Big、この比較はスケール係数に基づいて不公平です) を使用しているためであると考えられており、このアーキテクチャの利点は、優れた制御が可能であることです。要件ははるかに少なくなります。
2 つの同一の畳み込み層と、同じ MLP が最後に接続された KAN 畳み込み層を比較すると、古典的な手法の方が精度が 0.06 増加してわずかに優れているのに対し、KAN 畳み込み層と KAN 線形のパラメータの数は、レイヤーは従来の方法のほぼ半分ですが、精度は 0.04 低下します。
著者は、モデルとデータセットの複雑さが増すにつれて、KAN 畳み込みネットワークのパフォーマンスが向上するはずだと述べています。同時に、入力次元が増加するにつれて、モデルのパラメーターの数もより速く増加します。
以上がMLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。