検索
ホームページテクノロジー周辺機器AIなぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

2023 年、AI 大型モデルの分野で有力なプレーヤーである Transformer の地位が挑戦され始めます。 「Mamba」と呼ばれる新しいアーキテクチャが登場しました。これは、言語モデリングの点で Transformer に匹敵し、さらにはそれを超える可能性がある選択的状態空間モデルです。同時に、Mamba はコンテキストの長さが増加するにつれて線形スケーリングを実現できるため、100 万ワード長のシーケンスを処理でき、実際のデータを処理する際の推論スループットが 5 倍向上します。この画期的な性能向上は目を引くものであり、AI分野の発展に新たな可能性をもたらします。

リリースから 1 か月以上経ち、Mamba は徐々にその影響力を発揮し始め、MoE-Mamba、Vision Mamba、VMamba、U-Mamba、MambaByte などの多くのプロジェクトを生み出しました。 . . Mamba は、Transformer の欠点を継続的に克服する大きな可能性を示しています。これらの開発は、Mamba の継続的な開発と進歩を示しており、人工知能の分野に新たな可能性をもたらしています。

しかし、この新進気鋭の「スター」は、2024 年の ICLR 会議で挫折に遭遇しました。最新の公開結果によると、マンバの論文はまだ保留中であるが、決定待ちの欄にその名前が表示されるだけで、延期されたのか却下されたのかは判断できない。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

全体的に、Mamba は 4 人のレビュアーからそれぞれ 8/8/6/3 の評価を受けました。これほどの評価を受けたにもかかわらず拒否されるのは本当に不可解だという人もいた。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

その理由を理解するには、低いスコアを付けた査読者のコメントを確認する必要があります。

論文レビュー ページ: https://openreview.net/forum?id=AL1fq05o7H

なぜ「十分ではない」のか?

レビューのフィードバックで、「3: 拒否、十分ではない」というスコアを付けたレビューアーは、Mamba に関するいくつかの意見を説明しました:

モデル設計についての考え:

  • Mamba の動機は、注意ベースのモデルの効率を向上させながら、再帰的モデルの欠点に対処することです。この方向に沿った多くの研究があります: S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4]、および多くの効率的な Transformer モデル (例: [5])。これらすべてのモデルはほぼ線形の複雑さを達成しており、著者はモデルのパフォーマンスと効率の点で Mamba をこれらの作品と比較する必要があります。モデルのパフォーマンスに関しては、いくつかの簡単な実験 (Wikitext-103 の言語モデリングなど) で十分です。
  • アテンションベースの Transformer モデルの多くは長さの汎化能力を示します。つまり、モデルは短いシーケンス長でトレーニングし、より長いシーケンス長でテストできます。例としては、相対位置エンコーディング (T5) や Alibi [6] などがあります。 SSM は一般に連続的であるため、Mamba にはこの長さの汎化能力があるのでしょうか?

実験に関する考察:

  • 著者は、より強力なベースラインと比較する必要があります。著者らは、モデル アーキテクチャの動機として H3 が使用されたと述べていますが、実験では H3 と比較しませんでした。 [7] の表 4 によると、Pile データセットでは、H3 の ppl はそれぞれ 8.8 (1.25 M)、7.1 (3.55 M)、および 6.0 (1.3B) であり、Mamba よりも大幅に優れています。著者らはH3との比較を示す必要がある。
  • 事前トレーニング済みモデルについては、著者はゼロサンプル推論の結果のみを示しています。この設定はかなり制限されており、結果は Mamba の有効性を十分に裏付けていません。著者らには、入力シーケンスが自然に非常に長い (たとえば、arXiv データセットの平均シーケンス長が 8k を超える) 文書の要約など、長いシーケンスを使った実験をさらに行うことをお勧めします。
  • 著者は、主な貢献の 1 つは長いシーケンスのモデリングであると主張しています。著者らは、基本的に長い配列を理解するための標準ベンチマークである LRA (Long Range Arena) 上のより多くのベースラインと比較する必要があります。
  • #メモリ ベンチマークがありません。セクション 4.5 は「速度とメモリのベンチマーク」というタイトルですが、速度の比較のみが示されています。さらに、作成者は、図 8 の左側で、モデル層、モデル サイズ、畳み込みの詳細など、より詳細な設定を提供する必要があります。著者らは、シーケンス長が非常に長い場合 (図 8 左)、FlashAttention が最も遅くなる理由について、何らかの直観を提供できますか?

さらに、別のレビュー担当者も Mamba の欠点を指摘しました。モデルには、Transformers と同様に、トレーニング中に依然として二次メモリが必要です。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

著者: 改訂しました、レビューしてください

すべての査読者の意見を要約した後、著者チームも論文の内容を改訂および改善し、新しい実験結果と追加を追加しました。分析:

  • H3 モデルの評価結果を追加

著者はサイズを 125M-2.7 Pretrained にダウンロードしましたB パラメータを使用して H3 モデルを作成し、一連の評価を実行しました。 Mamba はすべての言語評価において大幅に優れており、これらの H3 モデルは二次注意を使用したハイブリッド モデルであるのに対し、線形時間 Mamba 層のみを使用した著者の純粋なモデルはすべての指標において大幅に優れていることに注目する価値があります。

事前学習済み H3 モデルとの評価比較は次のとおりです:

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした


  • ##完全にトレーニングされたモデルをより大きなモデル サイズに拡張します

下の図に示すように、同じ数値に基づいてトレーニングされた 3B オープンソースを使用します。トークン数(300B) モデルと比較して、すべての評価結果において Mamba が優れています。これは 7B スケール モデルにも匹敵します。Mamba (2.8B) を OPT、Pythia、および RWKV (7B) と比較すると、Mamba がすべてのベンチマーク スコアで最高の平均スコアと最高/2 位を達成しています。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした


    #トレーニング長を超える長さの外挿結果を示します
  • #著者は、事前トレーニングされた 3B パラメーター言語モデルの長さの外挿を評価するための画像を添付しました:

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした画像位置ごとの平均損失 (対数の可読性) が にプロットされています。最初のトークンにはコンテキストがないため、混乱度は高くなりますが、Mamba とベースライン Transformer (Pythia) の両方の混乱度は、コンテキストの長さ (2048) でトレーニングする前に増加します。興味深いことに、Mamba の可解決性は、トレーニング コンテキストを超えて、最大約 3000 の長さまで大幅に向上します。

著者は、長さの外挿がこの記事のモデルの直接的な動機ではなく、追加の機能として扱っていることを強調しています。

ここでのベースライン モデル (Pythia) は長さの外挿を念頭に置いてトレーニングされていないため、より一般的な他の Transformer バリアント (T5 や Alibi 相対位置エンコーディングなど) が存在する可能性があります。

相対位置エンコーディングを使用して Pile でトレーニングされたオープン ソース 3B モデルが見つからないため、この比較はできません。
  1. Mamba は、Pythia と同様、トレーニング時に長さの外挿を考慮しないため、比較できません。 Transformer には、長さ一般化アイソメトリックの能力を向上させるための多くのテクニック (さまざまな位置埋め込みなど) があるのと同じように、将来の研究では、同様の機能のための SSM 固有のテクニックを導き出すことが興味深いかもしれません。
  2. WikiText-103 から新しい結果を追加
    著者は複数の論文の結果を分析しました。 Mamba が WikiText-103 上で、他の 20 以上の最先端の二次二次シーケンス モデルよりも大幅に優れたパフォーマンスを発揮することを示しています。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

# それにもかかわらず、2 か月が経過し、この記事がこの論文です。まだ「決定保留中」のプロセスにあり、「承認」または「拒否」の明確な結果はありません。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

トップカンファレンスで拒否された論文

主要な AI トップカンファレンスでは、「投稿数の爆発的増加」が頭の痛い問題であるため、査読者のエネルギーは必然的に限られます。間違い。これにより、YOLO、transformer XL、Dropout、サポート ベクター マシン (SVM)、知識蒸留、SIFT、Google 検索エンジンの Web ページ ランキング アルゴリズム PageRank など、歴史上の多くの有名な論文が拒否されることになりました (「有名な YOLO と PageRank」を参照)影響力のある研究が最高の CS 会議によって拒否されました。」)

ディープラーニングの三大巨頭の一人であるヤン・ルカン氏ですら、断られることの多い大手製紙メーカーでもあります。たった今、同氏は、1887回引用されている論文「グラフ構造データに関する深層畳み込みネットワーク」もトップカンファレンスで拒否されたとツイートした。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

ICML 2022 の期間中、彼は「3 つの論文を投稿し、3 つが拒否された」ことさえありました。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

したがって、論文がトップカンファレンスで拒否されたからといって、その論文に価値がないというわけではありません。上記で拒否された論文の中には、他の学会への移籍を選択した論文も多く、最終的には採択されました。そのため、ネチズンはマンバに対し、陳丹祁などの若い学者が設立したCOLMに切り替えるよう提案した。 COLM は言語モデリング研究に特化した学術会場であり、言語モデル テクノロジの開発の理解、改善、コメントに重点を置いており、Mamba のような論文にはより良い選択となる可能性があります。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

しかし、Mamba が最終的に ICLR に受け入れられるかどうかに関係なく、Mamba は影響力のある作品となり、コミュニティに突破口を見せることができました。のトランスフォーマー シャックルは、従来のトランスフォーマー モデルを超えた探求に新たな活力を注入しました。

以上がなぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こしたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
LM Studioを使用してLLMをローカルに実行する方法は? - 分析VidhyaLM Studioを使用してLLMをローカルに実行する方法は? - 分析VidhyaApr 19, 2025 am 11:38 AM

自宅で大規模な言語モデルを簡単に実行する:LM Studioユーザーガイド 近年、ソフトウェアとハ​​ードウェアの進歩により、パーソナルコンピューターで大きな言語モデル(LLM)を実行することが可能になりました。 LM Studioは、このプロセスを簡単かつ便利にするための優れたツールです。この記事では、LM Studioを使用してLLMをローカルに実行する方法に飛び込み、重要なステップ、潜在的な課題、LLMをローカルに配置することの利点をカバーします。あなたが技術愛好家であろうと、最新のAIテクノロジーに興味があるかどうかにかかわらず、このガイドは貴重な洞察と実用的なヒントを提供します。始めましょう! 概要 LLMをローカルに実行するための基本的な要件を理解してください。 コンピューターにLM Studiをセットアップします

Guy Periは、データ変換を通じてMcCormickの未来のフレーバーを支援しますGuy Periは、データ変換を通じてMcCormickの未来のフレーバーを支援しますApr 19, 2025 am 11:35 AM

Guy Periは、McCormickの最高情報およびデジタルオフィサーです。彼の役割からわずか7か月後ですが、ペリは同社のデジタル能力の包括的な変革を急速に進めています。データと分析に焦点を当てている彼のキャリアに焦点が当てられています

迅速なエンジニアリングの感情の連鎖は何ですか? - 分析Vidhya迅速なエンジニアリングの感情の連鎖は何ですか? - 分析VidhyaApr 19, 2025 am 11:33 AM

導入 人工知能(AI)は、言葉だけでなく感情も理解し、人間のタッチで反応するように進化しています。 この洗練された相互作用は、AIおよび自然言語処理の急速に進む分野で重要です。 th

データサイエンスワークフローのための12のベストAIツール-AnalyticsVidhyaデータサイエンスワークフローのための12のベストAIツール-AnalyticsVidhyaApr 19, 2025 am 11:31 AM

導入 今日のデータ中心の世界では、競争力と効率の向上を求める企業にとって、高度なAIテクノロジーを活用することが重要です。 さまざまな強力なツールにより、データサイエンティスト、アナリスト、開発者が構築、Deplを作成することができます。

AV BYTE:OpenAIのGPT-4O MINIおよびその他のAIイノベーションAV BYTE:OpenAIのGPT-4O MINIおよびその他のAIイノベーションApr 19, 2025 am 11:30 AM

今週のAIの風景は、Openai、Mistral AI、Nvidia、Deepseek、Hugging Faceなどの業界の巨人からの画期的なリリースで爆発しました。 これらの新しいモデルは、TRの進歩によって促進された電力、手頃な価格、アクセシビリティの向上を約束します

PerplexityのAndroidアプリにはセキュリティの欠陥が感染しているとレポートPerplexityのAndroidアプリにはセキュリティの欠陥が感染しているとレポートApr 19, 2025 am 11:24 AM

しかし、検索機能を提供するだけでなくAIアシスタントとしても機能する同社のAndroidアプリは、ユーザーをデータの盗難、アカウントの買収、および悪意のある攻撃にさらす可能性のある多くのセキュリティ問題に悩まされています。

誰もがAIの使用が上手になっています:バイブコーディングに関する考え誰もがAIの使用が上手になっています:バイブコーディングに関する考えApr 19, 2025 am 11:17 AM

会議や展示会で何が起こっているのかを見ることができます。エンジニアに何をしているのか尋ねたり、CEOに相談したりできます。 あなたが見ているところはどこでも、物事は猛烈な速度で変化しています。 エンジニア、および非エンジニア 違いは何ですか

Rocketpyを使用したロケットの起動シミュレーションと分析-AnalyticsVidhyaRocketpyを使用したロケットの起動シミュレーションと分析-AnalyticsVidhyaApr 19, 2025 am 11:12 AM

Rocketpy:A包括的なガイドでロケット発売をシミュレートします この記事では、強力なPythonライブラリであるRocketpyを使用して、高出力ロケット発売をシミュレートすることをガイドします。 ロケットコンポーネントの定義からシミュラの分析まで、すべてをカバーします

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境