首頁 >科技週邊 >人工智慧 >Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

PHPz
PHPz轉載
2024-01-26 14:57:381186瀏覽

去年12月,CMU和普林斯頓的2位研究者發布了Mamba架構,瞬間引起AI社群震動!

結果,這篇被眾人看好有望「顛覆Transformer霸權」的論文,今天竟曝出疑似被頂會拒收? !

今早,康乃爾大學副教授Sasha Rush先發現,這篇有望成為奠基之作的論文似乎要被ICLR 2024拒之門外。

並表示,「說實話,我不理解。如果它被拒絕了,我們還有什麼機會」。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

在OpenReview上可以看到,四位審查者給的分數是3、6、8、8。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

雖然這個分數可能不會讓論文被拒收,但是3分這樣的低分,也是很離譜了。

牛文得3分,LeCun都出來喊冤

這篇由CMU、普林斯頓大學的2位研究人員發表的論文,提出了一種全新的架構Mamba。

這種SSM架構在語言建模上與Transformers不相上下,而且還能線性擴展,同時具有5倍的推理吞吐量!

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

論文網址:https://arxiv.org/pdf/2312.00752.pdf

當時論文一出,直接炸翻了AI社區,許多人紛紛表示推翻Transformer的架構終於誕生了。

而現在,Mamba論文有被拒絕可能性,讓許多人無法理解。

就連圖靈巨頭LeCun也下場參與了這波討論,表示遭遇過類似的「冤屈」。

「想當年,我被引數最多,僅在Arxiv提交的論文被引超過了1880次的論文,從未被接收」。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

LeCun正是以使用卷積神經網路(CNN)在光學字元辨識和電腦視覺方面的工作而聞名的,也因此在2019年獲得了圖靈獎。

不過他的這篇發表於2015年的《基於圖結構資料的深度卷積網路》的論文,卻從未被頂會接收。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

論文網址:https://arxiv.org/pdf/1506.05163.pdf

深度學習AI研究員Sebastian Raschka稱,儘管如此,Mamba在AI社群中帶來了深刻的影響。

最近一大波研究,都是基於Mamba架構衍生出來的,像是MoE-Mamba、Vision Mamba。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

有趣的是,爆料Mamba被打低分的Sasha Rush,也在今天發表了一篇基於這樣研究的新論文— MambaByte。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

#事實上,Mamba架構已經有了「星星之火可以燎原」的架勢,在學術圈的影響力越來越廣。

有網友表示,Mamba論文將開始佔領arXiv。

「舉個例子,我剛剛看到這篇論文提出了MambaByte,一種無token的選擇性狀態空間模型。基本上,它調整了Mamba SSM,直接從原始token中學習。」

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

Mamba論文的Tri Dao今天也轉發了這篇研究。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

如此大火的論文卻被打出低分,有人表示,看來同儕審查是真不關注行銷的聲音有多大啊。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

Mamba論文被打3分的理由

給Mamba論文低分的原因究竟是什麼呢?

可以看到給打3分的審稿人,置信度還是5,表示自己對這個評分也是非常肯定。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

在review中,他提出的問題分為兩個部分:一是對模型設計的質疑,另一個是對實驗提出疑問。

模型設計

#- Mamba的設計動機是解決循環模型的缺點,同時提高基於Transformer模型的效率。有許多研究都是沿著這個方向進行的:S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4],以及許多高效率的Transformer 模型(如[5])。這些模型都達到了接近線性的複雜度,作者需要在模型性能和效率方面將Mamba與這些作品進行比較。關於模型效能,一些簡單的實驗(如在Wikitext-103上進行語言建模)就足夠了。

- 許多基於注意力的Transformer模型都展現出長度泛化的能力,即模型可以在較短的序列長度上進行訓練,然後在較長的序列長度上進行測試。一些例子包括相對位置編碼(T5)和 Alibi [6]。由於SSM一般都是連續的,那麼Mamba是否具有這種長度泛化能力呢?

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

#實驗

#- 筆者需要與更強的基準進行比較。作者承認H3被用來作為模型架構的動機。然而,他們並沒有在實驗中與H3進行比較。從 [7] 的表4可以看出,在Pile資料集上,H3的ppl分別為8.8(125M)、7.1(355M)和 6.0(1.3B),大大優於 Mamba。作者需要展示與H3的比較。

- 對於預訓練模型,作者只展示了零樣本推理的結果。這種設定相當有限,結果無法很好地證明Mamba的有效性。我建議作者進行更多的長序列實驗,例如文件摘要,在這種情況下,輸入序列自然會很長(例如,arXiv資料集的平均序列長度大於8k)。

- 作者聲稱其主要貢獻之一是長序列建模。作者應該在LRA(Long Range Arena)上與更多基準進行比較,這基本上是長序列理解的標準基準。

- 缺少記憶體基準。儘管第4.5節的標題是“速度和內存基準”,但只介紹了速度比較。此外,作者應提供圖8左側更詳細的設置,如模型層、模型大小、卷積細節等。作者能否提供一些直覺的解釋,說明為什麼當序列長度非常大時FlashAttention的速度最慢(圖8左)?

對於審查者的質疑,作者也是回去做了功課,拿出了一些實驗數據去rebuttal。

例如,針對模型設計第一點疑問,作者表示團隊有意將重點放在大規模預訓練的複雜性上,而不是小規模基準上。

儘管如此,Mamba在WikiText-103上的表現還是大大優於所有建議的模型和更多模型,這也是我們在語言方面的一般結果所能預料到的。

首先,我們在與Hyena論文 [Poli, 表 4.3] 完全相同的環境下對Mamba進行了比較。除了他們報告的數據外,我們還調整了自己的強Transformer基線。

然後,我們將模型換成Mamba,它比我們的Transformer提高了1.7 ppl,比原始基線Transformer提高了2.3 ppl。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

針對「缺少記憶體基準」這一點,作者表示:

與大多數深度序列模型(包括FlashAttention)一樣,記憶體使用量只是啟動張量的大小。事實上,Mamba的記憶體效率非常高;我們還額外測量了125M模型在一張A100 80GB GPU上的訓練記憶體需求。每個批次由長度為2048的序列組成。我們將其與我們所知的記憶體效率最高的Transformer實作(使用torch.compile的核心融合和FlashAttention-2)進行了比較。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

更多rebuttal細節,請查看https://openreview.net/forum?id=AL1fq05o7H

#總的看下來,審稿人的意見,作者都已解決,然而這些rebuttal卻被審稿人全部忽略了。

有人從這位審查者的意見中找出了「華點」:或許他根本不懂什麼是rnn?

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

全程圍觀網友表示,整個過程讀起來太令人痛心了,論文作者給出瞭如此徹底的回應,但審稿人絲毫沒有動搖,不再重新評估。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

打出一個置信度為5的3分,還不理會作者有理有據的rebuttal,這種審查者也太煩人了吧。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

而其他三位審稿人,則給了6、8、8這樣的高分。

打出6分的審查員指出,weakness是「該模型在訓練期間仍然像Transformer一樣需要二次記憶體」。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

打出8分的審查者表示,文章的weakness只是「缺乏對一些相關著作的引用」。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

另一位給8分的審查者對論文大加讚賞,並表示「實證部分非常透徹,結果很強」。

甚至沒有發現任何Weakness。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

分歧如此大的分型,應該有一個解釋的。但目前還未有meta-reviewer評論。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

網友大呼:學術界也衰退了!

在留言區,有人發出了靈魂拷問,究竟是誰打出了3這樣的低分? ?

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

顯然,這篇論文用很低的參數獲得了更好的結果,GitHub程式碼也很清晰,每個人都可以測試,因此已經贏得了坊間公認的讚譽,所以大家才覺得離譜。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

有人乾脆大呼WTF,即使Mamba架構不能改變LLM的格局,它也是一個在長序列上有多種用途的可靠模型。竟然得到這個分數,是不是代表如今的學術界已經衰退了?

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

大家紛紛感慨道,好在這只是四條評論中的一個,其他審稿人給出的都是高分,目前最終決定尚未做出。

有人猜測,可能是審查者太累了,失去了判斷力。

另外還有一種原因,就是State Space模型這樣的全新研究方向,或許會威脅到某些在Transformer領域很有建樹的審稿人專家,情況很複雜。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

有人說,Mamba論文獲得3分,簡直就是業界的笑話。

他們如此專注於瘋狂比較細顆粒度基準,但其實論文真正有趣的部分,是工程和效率。研究正在消亡,因為我們只關心SOTA,儘管它是在該領域極其狹窄子集的過時基準上。

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

「理論不夠,工程太多。」

Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷

##################################################### #目前,這樁「謎」還未水落石出,全體AI社群都在等一個結果。 ######

以上是Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除