検索
ホームページテクノロジー周辺機器AI爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

完全接続フィードフォワード ニューラル ネットワークとしても知られる多層パーセプトロン (MLP) は、今日の深層学習モデルの基本的な構成要素です。 MLP は非線形関数を近似する機械学習のデフォルトの方法であるため、MLP の重要性はいくら強調してもしすぎることはありません。

しかし最近、MIT やその他の機関の研究者が、非常に有望な代替方法である KAN を提案しました。この方法は、精度と解釈可能性の点で MLP よりも優れています。さらに、非常に少数のパラメータで、はるかに多くのパラメータを使用して実行される MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用してノット理論の数学的法則を再発見し、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 のパラメーターがありますが、KAN には約 200 のパラメーターしかありません。

微調整の内容は次のとおりです。 これらの驚くべき研究結果により、KAN は急速に人気を博し、多くの人々が KAN を研究するようになりました。すぐに、一部の人々がいくつかの疑問を提起しました。その中で、「KAN is just MLP」と題されたColabの文書が議論の焦点となった。

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

KANはただの普通のMLPですか?

上記のドキュメントの著者は、ReLU の前にいくつかの繰り返しとシフトを追加することで KAN を MLP として記述できると述べています。

短い例で、著者は KAN ネットワークを、同じ数のパラメータとわずかに非線形な構造を持つ通常の MLP に書き直す方法を示します。

覚えておく必要があるのは、KAN にはエッジに活性化関数があるということです。 B スプラインを使用します。示されている例では、簡単にするために、著者は区分線形関数のみを使用します。これによってネットワークのモデリング機能が変更されることはありません。

次は区分線形関数の例です:

def f(x):if x 

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

著者は、複数の ReLU と線形関数を使用してこの関数を簡単に書き直すことができると述べています。 ReLU の入力を移動する必要がある場合があることに注意してください。

plt.plot(X, -2*X + torch.relu(X)*1.5 + torch.relu(X-1)*2.5)plt.grid()

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

#本当の問題は、KAN 層を一般的な MLP 層に書き直す方法です。 n 個の入力ニューロン、m 個の出力ニューロンがあり、区分関数には k 個の部分があるとします。これには、n*m*k 個のパラメータが必要です (エッジごとに k 個のパラメータがあり、n*m 個のエッジがあります)。

次に、KAN エッジについて考えてみましょう。これを行うには、入力を k 回コピーし、各コピーを定数ずつシフトしてから、ReLU 層と線形層 (最初の層を除く) を実行する必要があります。グラフ的には次のようになります (C は定数、W は重みです):

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

さて、各エッジに対してこのプロセスを繰り返すことができます。ただし、注意すべき点が 1 つあります。区分的線形関数グリッドがどこでも同じである場合、中間の ReLU 出力を共有し、その上で重みをブレンドするだけでよいということです。次のようになります:

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

## Pytorch では、これは次のように変換されます:

k = 3 # Grid sizeinp_size = 5out_size = 7batch_size = 10X = torch.randn(batch_size, inp_size) # Our inputlinear = nn.Linear(inp_size*k, out_size)# Weightsrepeated = X.unsqueeze(1).repeat(1,k,1)shifts = torch.linspace(-1, 1, k).reshape(1,k,1)shifted = repeated + shiftsintermediate = torch.cat([shifted[:,:1,:], torch.relu(shifted[:,1:,:])], dim=1).flatten(1)outputs = linear(intermediate)

これで、レイヤーは次のようになります:

  • Expand shift ReLU
  • Linear

3 つの層を順番に検討します。

  • シフト ReLU を展開します (ここから層 1 が始まります)
  • Linear
  • シフト ReLU の展開 (レイヤー 2 はここから始まります)
  • Linear
  • Expand shift ReLU (レイヤ 3 はここから始まります)
  • Linear

入力拡張を無視し、再配置できます:

  • リニア (レイヤー 1 はここから始まります)
  • シフト ReLU の展開
  • リニア (レイヤー 2 はここから始まります) )
  • Expand shift ReLU

以下の層は基本的に MLP と呼ぶことができます。また、線形レイヤーを大きくし、拡張とシフトを削除して、(パラメーター コストは高くなりますが) モデリング機能を向上させることもできます。

  • #リニア (レイヤー 2 はここから始まります)
  • シフト展開 ReLU

##この例を通じて、著者は KAN が一種の MLP であることを示しています。この発言をきっかけに、誰もが 2 種類の方法について再考するようになりました。

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

KAN のアイデア、方法、結果の再検討

実際には、無視するだけでなく、 MLP KAN は清朝との関係をめぐって他の多くの政党からも疑問を呈されている。

要約すると、研究者らの議論は主に次の点に焦点を当てていました。

まず、KAN の主な貢献は、拡張速度や精度などではなく、解釈可能性にあります。

この論文の著者はかつて次のように述べました:

  1. KAN は MLP よりも速く拡張します。 KAN は、パラメータが少なくても MLP よりも精度が高くなります。
  2. KAN は直感的に視覚化できます。 KAN は、MLP では実現できない解釈可能性と対話性を提供します。 KAN を使用すると、新しい科学法則を発見できる可能性があります。

#その中でも、現実の問題を解決するためのモデルのネットワーク解釈可能性の重要性は自明です:

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

しかし、問題は次のとおりです。「彼らの主張は、学習が速く、解釈可能であるということだけであり、それ以外は何もありません。KAN のパラメーターが同等の NN よりもはるかに少ない場合、前者の方が意味があります。私はまだそう思っています。」 KAN のトレーニングは非常に不安定だと感じています。「

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

#では、KAN は同等の NN よりもはるかに少ないパラメータを持つことができますか? ?

この声明にはまだ疑問があります。論文の中で、KAN の著者らは、KAN のわずか 200 パラメータを使用して、300,000 パラメータの MLP を使用した数学定理に関する DeepMind の研究を再現できたと述べています。この結果を見た後、ジョージア工科大学准教授ハンフリー・シーの学生 2 人が DeepMind の実験を再検査し、わずか 122 個のパラメータで DeepMind の MLP が KAN の 81.6% の精度に匹敵できることを発見しました。さらに、彼らは DeepMind コードに大きな変更を加えていません。この結果を達成するために、ネットワーク サイズを縮小し、ランダム シードを使用し、トレーニング時間を増やしただけです。

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

これに対して、論文の著者も肯定的な反応を示しました:

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

第二に、KAN と MLP はアプローチにおいて根本的には異なりません。

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

「はい、これは明らかに同じことです。KAN では最初にアクティベーションを行ってから線形結合を行いますが、MLP では最初に線形結合を行ってからアクティベーションを行います。私の知る限り、KAN を使用する主な理由は、この方法に疑問を投げかけることに加えて、合理性への回帰も求めています。この論文の評価:

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです「人々は KAN 論文を深さとして扱うのをやめるべきだと思います。基本単位を学習し、単に解釈可能性に関する優れた論文として扱うという大きな変化です。」

##第三に、一部の研究者は、KAN のアイデアは新しいものではないと述べています。

「これは 1980 年代に研究されたものです。ハッカー ニュースのディスカッションで、この問題について議論しているイタリアの新聞が言及されていました。つまり、まったく新しいことではありません。40 年後になって、それは戻ってきたか、拒否されて再検討されているだけだ。」どちらかを発行します。

「これらのアイデアは新しいものではありませんが、作者がそれを忌避しているとは思えません。彼はすべてをうまくパッケージ化し、おもちゃデータの実験にいくつかの素晴らしい作業を加えただけです。しかし、これは貢献でもあります。」爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

##同時に、Ian Goodfellow と Yoshua Bengio の論文 MaxOut (https://arxiv.org/pdf/ 1302.4389) についても言及されています。研究者の中には、この 2 つは「わずかに異なるものの、考え方はいくぶん似ている」と考えている人もいます。

著者: 当初の研究目標は確かに解釈可能性でした

白熱した議論の結果、著者の一人、サチン・ヴァイディア氏が来ました。フォワード。

この論文の執筆者の一人として、一言申し上げたいと思います。 KAN が受けている注目は驚くべきものであり、この議論はまさに新しいテクノロジーを限界まで押し上げ、何が機能し何が機能しないのかを明らかにするために必要なものです。

モチベーションに関する背景を共有したいと思いました。 KAN を実装するための私たちの主なアイデアは、物理学者が自然法則について発見した洞察を「学習」できる、解釈可能な AI モデルの探索から生まれました。したがって、他の人も気づいているように、従来のブラックボックスモデルでは科学の基礎的な発見に重要な洞察を提供できないため、私たちはこの目標に完全に焦点を当てています。次に、物理学と数学に関連する例を通じて、KAN が解釈可能性の点で従来の方法よりも大幅に優れていることを示します。私たちは、KAN の有用性が当初の動機をはるかに超えて広がることを期待しています。

GitHub ホームページでは、論文著者の 1 人である Liu Ziming もこの研究の評価に回答しています:

爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPです

I最近よく聞かれる質問は、KAN が次世代 LLM になるかどうかというものです。これについては明確な判断ができません。

KAN は、高精度と解釈可能性を重視するアプリケーション向けに設計されています。私たちは LLM の解釈可能性を重視しますが、LLM と科学にとって解釈可能性は非常に異なる意味を持ちます。 LLM の高精度は重要ですか?スケーリングの法則はそのことを暗示しているように見えますが、おそらくあまり正確ではありません。さらに、精度は、LLM と科学にとって異なる意味を持つ場合もあります。

人々が KAN を批判することを歓迎します。実践こそが真実をテストする唯一の基準です。実際に試してみて、成功か失敗かが証明されるまでは分からないこともたくさんあります。私は KAN の成功を見たいと思っていますが、KAN の失敗にも同じくらい興味があります。

KAN と MLP は相互に代替できるものではありません。それぞれ、状況によっては利点があり、状況によっては制限があります。私は両方を包含する理論的枠組みに興味があり、もしかしたら新しい代替案を思いつくかもしれません(物理学者は統一理論が大好きです、申し訳ありません)。

KAN この論文の筆頭著者はLiu Ziming氏です。彼は物理学者および機械学習の研究者であり、現在は MIT と IAIFI で Max Tegmark のもとで博士課程の 3 年生です。彼の研究関心は、人工知能と物理学の交差点に焦点を当てています。

以上が爆発後の逆転? 「MLPを一夜で倒した」KAN:実は私もMLPですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
10生成AIコーディング拡張機能とコードのコードを探る必要があります10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。