首頁  >  文章  >  科技週邊  >  研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

WBOY
WBOY轉載
2023-04-08 16:21:151260瀏覽

昨日,整個社區最熱門的話題無非是 reddit 上一名機器學習研究者對谷歌 AI 負責人 Jeff Dean 參與論文的質疑。這篇論文是《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》,於週四被提交到預印版論文平台 arXiv 上。 研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

在論文中,Jeff Dean 等人提出了一種演化演算法,可以產生大規模的多任務模型,同時也支援新任務的動態和連續添加,產生的多任務模型是稀疏激活的,並整合了基於任務的路由。新方法在 69 個影像分類任務上取得有競爭力的結果,例如僅在公共資料上訓練的模型,在 CIFAR-10 上實現了新的業界最高識別準確度 99.43%。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

正是這個在 CIFAR-10 上實現的新 SOTA 遭到了質疑,先前的 SOTA 為 99.40。她表示,「產生這一結果需要總計17,810 小時的TPU 核心小時數,如果你不在谷歌工作,這意味著必須使用3.22 美元/ 小時的按需付款,訓練好的模型成本需57,348 美元。」

因此,她發出靈魂一問,「Jeff Dean 花了足夠養活一個四口之家五年的錢,獲得了在CIFAR-10 上0.03% 的改進,創建了新的SOTA,這一切值得嗎?」

這項質疑得到了許多領域人士的附和。有研究人員甚至悲觀地表示,「我幾乎對深度學習失去了興趣,作為小型實驗室的從業者,在計算預算方面基本上不可能比得過科技巨頭。即使你有一個很好的理論想法,主流環境可能也存在偏見,讓它難以看到曙光。這釀成了一個不公平的競爭環境。」

#隨著該主題的繼續發酵,Jeff Dean 親自在reddit 上進行了回應。他表示,「我們這項研究的目標不是為了得到一個更高品質的cifar10 模型,而且原帖作者成本計算的方式也有問題。」

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

##Jeff Dean回應全文

這篇論文是我和Andrea Gesmundo 兩人一起完成的,其中Andrea Gesmundo 做了論文大部分工作。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

論文地址:https://arxiv.org/pdf/2205.12755.pdf

我想說的是,這項研究的目標不是得到一個高品質的cifar10 模型。相反,這項研究是探索一種設置,可以動態地將新任務引入正在運行的系統中,並成功地為新任務獲得一個高品質的模型,該模型將重複使用現有模型中的表示並稀疏地引入新參數,同時避免了災難性遺忘或負遷移等多任務系統問題。

該研究的實驗表明,我們可以從幾個獨立的視覺化任務基準中動態地引入69 個不同任務流,最終得到一個多任務系統,它可以為所有這些任務聯合產生高品質的解決方案。所得到的模型對任何給定的任務都是稀疏激活的,系統為新任務引入的新參數越來越少(參見下圖 2)。多任務系統在這個任務流程的末端只為增量任務引入了 1.4% 的新參數,每個任務平均激活模型總參數的 2.3%。任務之間有相當多的表示共享,演化過程有助於確定何時有意義以及何時應該為新任務引入新的可訓練參數。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

我還認為原貼作者對成本的計算是錯誤的,實驗是訓練一個多任務模型來共同解決 69 個任務,而不是訓練一個 cifar10 模型。從下表 7 可以看出,所使用的計算是 TPUv3 核和 TPUv4 核的混合,因此不能簡單地計算核小時數,因為它們的價格不同。

除非你有特別緊急的任務,需要快速訓練cifar10 68 個任務,其實這類研究可以很容易地使用可搶佔價格的資源,即0.97 美元/ 小時TPUv4、0.60 美元/ 小時TPUv3(不是他們所說的你必須按需定價3.22 美元/ 小時)。在這些假設下,表 7 中描述的計算公有雲成本大約是 13960 美元(使用 12861 TPUv4 晶片小時和 2474.5 TPUv3 晶片小時的可搶佔價格),或者說是大約 202 美元 / 任務。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

我認為擁有稀疏激活的模型很重要,並且能夠動態地將新任務引入到現有系統中,該系統可以共享表示(在適當的情況下)並避免災難性遺忘,這些研究至少值得探索。該系統還有一個優點,即新任務可以自動被納入系統,而無需為此進行專門製定(這就是進化搜尋過程所做的),這似乎是一個持續學習系統的有用屬性。

這篇論文的程式碼是開源的,大家可以自行查看。

程式碼位址:https://github.com/google-research/google-research/tree/master/muNet

原貼作者回覆Jeff Dean

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

在看到Jeff Dean 的回覆後,原貼作者表示:澄清一下,我認為Jeff Dean 的這篇論文(在每個任務中用來產生模型擴充的演化模式)真的很有趣,這讓我想起了另一篇論文,但我不記得標題了,論文大概是講對於每個新任務,向整個體系架構添加新的模組,將其他模組的隱藏狀態作為每層輸入的一部分,但不更新現有組件的權重。

我還有一個想法,在每個任務的模型中建立模組。你知道小鹿是如何在出生後幾分鐘內就能走路的嗎?相較之下,在那個時候,剛出生的小鹿基本上沒有「訓練資料」來學習感知運動或對世界進行建模,而是必須利用大腦中的特殊結構,而這些結構必須能夠繼承以讓小鹿擁有基本技能。這些結構將是非常有用的,所以在某種意義上,它將迅速推廣到一個新的但相關的控制任務。

因此,這篇論文讓我想到了那些已經存在的可繼承結構的發展,這些結構可以用來更有效地學習新任務。

另一家實驗室的研究人員可能有相同的 idea,但得到的結果要差得多,因為他們負擔不起從現有設置轉移到大型雲端平台的費用。並且,由於現在社群過度關注 SOTA 結果,他們的研究也無法發表。即使費用「僅為」202 美元 / 每任務,但必須經過多次迭代才能將事情做好。

因此,對於我們這些無法獲得足夠計算預算的人來說,我們的選擇基本上只有兩種。一是祈禱並希望谷歌能夠公開分發現有的模型,然後我們根據自身需求進行微調。但結果是,模型可能已經學習到我們無法消除的偏見或對抗性弱點。二是啥都不做,躺平。

所以,我的問題不只在於這項研究。如果 OpenAI 想在 GPT-4 上花費上百萬億美元(打個比方),那就賦予它更多的權力。這是一種過度獎勵浮華、大數目和奢侈的科學和出版文化,而無益於幫助人們更好地完成實際的工作。我最喜歡的論文是van der Oord 在2019 年發表的《Representation Learning with Contrastive Predictive Coding》,它使用無監督預訓練任務,然後對一個小的標籤子集進行監督訓練,以實現複製標記所有資料的準確率結果,並從數據效率的角度討論這種提升。我在工作中復現並使用了這些結果,節省了自己的時間和金錢。就憑這篇論文,我就願意成為他的博士生。

但是,OpenAI 在論文《Language Models are Few-Shot Learners》中提出了更大的transformer 模型GPT-3,獲得了近四千次引用以及NeurIPS 2020 最佳論文獎,也獲得整個媒體的關注。

以上是研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除