搜尋
首頁科技週邊人工智慧ICLR為什麼不接受Mamba論文? AI社群掀起了大討論

2023年,AI大模型領域的統治者Transformer的地位開始受到挑戰。一種新的架構名為「Mamba」嶄露頭角,它是一種選擇性狀態空間模型,在語言建模方面與Transformer不相上下,甚至有可能超越它。同時,Mamba能夠根據上下文長度的增加實現線性擴展,這使得它在處理實際資料時能夠處理百萬詞彙長度的序列,並提升了5倍的推理吞吐量。這項突破性的性能提升令人矚目,為AI領域的發展帶來了新的可能性。

發布後的一個多月裡,Mamba開始逐漸展現其影響力,並衍生出了MoE-Mamba、Vision Mamba、VMamba、U-Mamba、MambaByte等多個項目。在不斷克服Transformer的短板方面,Mamba顯示出了極大的潛力。這些發展顯示出Mamba不斷發展和進步,為人工智慧領域帶來了新的可能性。

然而,這顆冉冉升起的"新星"在2024年的ICLR會議上遇到了挫折。最新的公開結果顯示,Mamba的論文目前仍處於待定狀態,我們只能在待定決定一欄中看到它的名字,無法確定是被延遲決定還是被拒絕。

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論

整體來看,Mamba收到了四位審查者的評分,分別為8/8/6/3。有人表示,如果遭到這樣的評分仍然被拒絕,確實令人感到不解。

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論

要弄清楚其中的緣由,我們還得看一下打出低分的審查者是怎麼說的。

論文審查頁面:https://openreview.net/forum?id=AL1fq05o7H

為什麼「not good enough」?

在評審回饋中,給予「3: reject, not good enough」評分的審稿人解釋了自己對於Mamba 的幾點意見:

#對模型設計的想法:

  • Mamba 的動機是解決遞歸模型的缺點,同時提高基於注意力模型的效率。有許多研究都是沿著這個方向進行的:S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4],以及許多高效的 Transformer 模型(如 [5])。所有這些模型都達到了接近線性的複雜度,作者需要在模型性能和效率方面將 Mamba 與這些作品進行比較。關於模型效能,一些簡單的實驗(如 Wikitext-103 的語言建模)就足夠了。
  • 許多基於注意力的 Transformer 模型顯示出長度泛化能力,即模型可以在較短的序列長度上進行訓練,並在較長的序列長度上進行測試。這方面的例子包括相對位置編碼(T5)和 Alibi [6]。由於 SSM 一般都是連續的,那麼 Mamba 是否具有這種長度泛化能力呢?

對實驗的想法:

  • #作者需要與更強的基準進行比較。作者表示 H3 被用作模型架構的動機,然而他們並沒有在實驗中與 H3 進行比較。根據 [7] 中的表 4,在 Pile 資料集上,H3 的 ppl 分別為 8.8(1.25 M)、7.1(3.55 M)和 6.0(1.3B),大大優於 Mamba。作者需要展示與 H3 的比較。
  • 對於預訓練模型,作者只展示了零樣本推理的結果。這種設定相當有限,結果無法很好地支持 Mamba 的有效性。我建議作者進行更多的長序列實驗,例如文件摘要,輸入序列自然會很長(例如,arXiv 資料集的平均序列長度大於 8k)。
  • 作者聲稱其主要貢獻之一是長序列建模。作者應該在 LRA(Long Range Arena)上與更多基準進行比較,這基本上是長序列理解的標準基準。
  • 缺少記憶體基準。儘管第 4.5 節的標題是“速度和內存基準”,但只介紹了速度比較。此外,作者應提供圖 8 左側更詳細的設置,如模型層、模型大小、卷積細節等。作者能否提供一些直覺訊息,說明為什麼當序列長度非常大時,FlashAttention 的速度最慢(圖 8 左)?

此外,另一位審查者也指出 Mamba 存在的不足:該模型在訓練過程中仍然像 Transformers 一樣具有二次記憶體需求。

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論

#

作者:已修改,求審閱

匯總所有審稿人的意見之後,作者團隊也對論文內容進行了修改和完善,補充了新的實驗結果與分析:

  • 增加了H3 模型的評估結果

##作者下載了大小為125M-2.7 B 參數的預訓練H3 模型,並進行了一系列評估。 Mamba 在所有語言評估中都明顯更勝一籌,值得注意的是,這些H3 模型是使用二次注意力的混合模型,而作者僅使用線性時間Mamba 層的純模型在各項指標上都明顯更優。

與預訓練H3 模型的評估比較如下:

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論


    ##將完全訓練過的模型擴展到更大的模型規模
如下圖所示,與根據相同token 數(300B)訓練的3B 開源模型相比,Mamba 在每個評估結果上都更勝一籌。它甚至可以與7B 規模的模型相媲美:當將Mamba(2.8B)與OPT、Pythia 和RWKV(7B)進行比較時,Mamba 在每個基準上都獲得了最佳平均分和最佳/ 次佳得分。

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論


    #展示了超出訓練長度的長度外推結果
#作者附上了一張評估預訓練3B 參數語言模型長度外推的附圖:

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論

圖中繪出了每個位置的平均損失(對數可讀性)。第一個 token 的困惑度很高,因為它沒有上下文,而 Mamba 和基線 Transformer(Pythia)的困惑度在訓練上下文長度(2048)之前都有所提高。有趣的是,Mamba 的可解性在超過其訓練情境後有了顯著提高,最高可達 3000 左右的長度。

作者強調,長度外推並不是本文模型的直接動機,而是將其視為額外功能:

##這裡的基線模型(Pythia)在訓練時並沒有考慮長度外推法,或許還有其他Transformer 變體更具通用性(例如T5 或Alibi 相對位置編碼)。
  1. 沒有發現任何使用相對位置編碼在 Pile 上訓練的開源 3B 模型,因此無法進行這種比較。
  2. Mamba 和 Pythia 一樣,在訓練時沒有考慮長度外推法,因此不具有可比性。正如 Transformer 有許多技術(如不同的位置嵌入)來提高它們在長度概括等軸上的能力一樣,在未來的工作中,為類似的能力推導出 SSM 特有的技術可能會很有趣。
補充了WikiText-103 的新結果
  • 作者分析了多篇論文的結果,顯示Mamba 在WikiText-103 上的表現明顯優於其他20 多個最新的次二次序列模型。

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論#儘管如此,兩個月過去了,這篇論文也處於「Decision Pending」流程中,沒有得到「接收」或「拒絕」的明確結果。

被頂會拒絕的那些論文

在各大AI 頂會中,「投稿數量爆炸」都是一個令人頭痛的問題,所以精力有限的審稿人難免有看走眼的時候。這就導致歷史上出現了許多著名論文被頂會拒絕的情況,包括YOLO、transformer XL、Dropout、支援向量機(SVM)、知識蒸餾、SIFT,還有Google 搜尋引擎的網頁排名演算法PageRank(參見: 《大名鼎鼎的YOLO、PageRank 影響力爆棚的研究,曾被CS 頂會拒稿》)。

甚至,身為深度學習三巨頭之一的 Yann LeCun 也是經常被拒的論文大戶。剛剛,他發推文說,他被引 1887 次的論文「Deep Convolutional Networks on Graph-Structured Data」也被頂會拒絕了。

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論

在 ICML 2022 期間,他甚至「投了三篇,被拒絕三篇」。

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論

所以,論文被某個頂會拒絕不代表沒有價值。在上述被拒絕的論文中,許多論文選擇了轉投其他會議,最後被接收。因此,網友建議 Mamba 轉投陳丹琦等青年學者組成的 COLM。 COLM 是一個專注於語言建模研究的學術場所,專注於理解、改進和評論語言模型技術的發展,或許對 Mamba 這類論文來說是更好的選擇。

ICLR為什麼不接受Mamba論文? AI社群掀起了大討論

不過,無論Mamba 最終能否被ICLR 接收,它都已經成為一份頗具影響力的工作,也讓社區看到了衝破Transformer 桎梏的希望,為超越傳統Transformer 模型的探索注入了新的活力。

以上是ICLR為什麼不接受Mamba論文? AI社群掀起了大討論的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
ai合并图层的快捷键是什么ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai顶部属性栏不见了怎么办ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

ai移动不了东西了怎么办ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程Mar 31, 2023 pm 10:38 PM

引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
1 個月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版