首頁  >  文章  >  科技週邊  >  Jeff Dean大規模多工學習SOTA遭吐槽,復現一遍要6萬美元

Jeff Dean大規模多工學習SOTA遭吐槽,復現一遍要6萬美元

WBOY
WBOY轉載
2023-04-09 10:31:08839瀏覽

2021年10月,Jeff Dean親自撰文介紹了一個全新的機器學習架構-Pathways。

目的很簡單,就是讓一個AI能夠跨越數以萬計的任務,理解不同類型的數據,並同時以極高的效率實現:

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

在大半年之後的2022年3月,Jeff Dean終於發布了Pathways的論文。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

論文連結:https://arxiv.org/abs/2203.12533

其中,補充了不少技術上的細節,例如最基本的系統架構等等。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

2022年4月,Google用Pathways的PaLM語言模型橫空出世,接連打破多項自然語言處理任務的SOTA,這個擁有5400億參數的Transformer語言模型再次證明了「大力出奇蹟」。

除了用到強大的Pathways系統外,論文中介紹PaLM的訓練用到了6144個TPU v4,使用了7800億token的高品質資料集,並且其中有一定比例的非英文多語種語料。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

論文網址:https://arxiv.org/abs/2204.02311

最近,Jeff Dean一篇新作又引發了大家對Pathways的猜測。

Pathways的拼圖又合上一塊了?

這篇論文的作者只有兩位:大名鼎鼎的Jeff Dean和來自義大利的工程師Andrea Gesmundo。

有趣的是,不僅Gesmundo很低調,而且前兩天剛吹完自家Imagen的Jeff Dean也完全沒有在推特上提及此事。

而有網友拜讀之後推測,這可能是下一代AI架構Pathways的組成部分。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

論文網址:https://arxiv.org/abs/2205.12755

本文的想法是這樣的:

透過動態地將新任務納入一個大型運行系統,可以利用稀疏多任務機器學習模型的碎片,來實現新任務品質的提升,並且可以在相關任務之間自動分享模型的碎片。

這種方法可以提高每個任務的質量,並在收斂時間、訓練實例數量、能源消耗等方面提高模型效率。本文所提出的機器學習問題框架,可視為標準多任務和持續學習形式化的概括與綜合。

在這個框架下,再大的任務集都可以被聯合解決。

而且,隨著時間的推移,任務集中可以加入連續的新任務流程來實現擴展。預訓練任務和下游任務之間的差異也不存在了。

因為,隨著新任務的加入,系統會尋找如何將現有的知識和表徵與新的模型能力相結合,以實現每個新任務的高品質水平。在解決新任務時所獲得的知識和學習的表徵,也可用於任何未來的任務,或繼續學習現有任務。

這個方法名為「突變多任務網路」或µ2Net。 (μ=Mutation)

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

用於大規模持續學習實驗的兩類突變模型

簡單說,就是產生一個大規模的多任務網絡,去聯合解決多個任務。不僅每個任務的品質和效率都獲得了提升,還可以透過動態增加新的任務來實現模型的擴展。

透過對先前任務的學習,嵌入到系統中的知識累積越多,後續任務的解決方案的品質就越高。

此外,在減少每個任務新加入的參數方面,新任務的解決效率可以不斷提高。產生的多任務模型是稀疏激活的,模型整合了基於任務的路由機制,隨著模型的擴展,確保每個任務的計算成本的上升是有界限的。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

每個任務啟動的和增加的參數佔多任務系統參數總數的百分比

從每個任務學到的知識被分割成可以被多個任務重複使用的部分。實驗證明,這種分塊技術避免了多任務和持續學習模型的常見問題,例如災難性遺忘、梯度幹擾和負遷移。

對任務路線空間的探索和對每個任務最相關的先驗知識子集的識別是由一個進化演算法引導的,該演算法旨在動態地調整探索/利用的平衡,而不需要手動調整元參數。同樣的演化邏輯被用來動態調整超參數多工模型元件。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

既然叫「突變網路」,這個突變是怎麼解釋的?

深度神經網路通常由架構和超參數來定義。本文中的架構是由一連串的神經網路層所組成的。每個層將輸入向量映射到一個可變維度的輸出向量,網路實例化的細節,例如優化器或資料預處理的配置,則由超參數決定。

所以這裡講的突變也分為兩類,層克隆突變和超參數突變。

層克隆突變創建了一個可以被子模型訓練的任何父模型圖層的副本。如果父模型的某一層沒有被選中進行克隆,會凍結當前狀態並與子模型共享,以確保預先存在的模型的不變性。

超參數突變則用來修改子層從父層繼承的配置。每個超參數的新值可以從一組有效值中抽取。對於數字超參數,有效值集被排序為一個列表,採樣時僅限於相鄰值,以應用一個增量變化限制。

來看看實際效果如何:

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

#在ImageNet 2012、cifar100、cifar10三個資料集上,µ2Net在5任務迭代、10任務迭代後的表現都超過了目前最通用、表現最佳的ViT預訓練微調模型。

在任務擴展方面,在加入VTAB-full和VDD持續學習任務後,µ2Net效能表現獲得進一步提升,在cifar10資料集上的VDD持續學習任務表現達到了99.43 %的最佳成績。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

在多任務字元分類基準任務上,在兩次任務迭代後,µ2Net在大部分資料集上刷新了SOTA水平,資料集規模由2.5k到240k樣本容量不等。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

簡單來說,在這個架構之下,模型學習的任務越多,系統學到的知識就越多,就越容易解決新的任務。

#

例如,一個ViT-L架構(3.07億個參數)可以演變成一個具有1308.7億個參數的多任務系統,並解決69個任務。

此外,隨著系統的成長,參數活化的稀疏性使每個任務的計算量和記憶體用量保持不變。實驗表面,每個任務平均增加的參數減少了38%,而多任務系統只啟動了每個任務總參數的2.3%。

當然,在這一點上,它只是一個架構和初步實驗。

網友:論文很好,但…

#雖然論文很棒棒,但好像有人不買帳。

有些熱愛戳穿皇帝新衣的網友,在reddit上發帖,稱他再也不相信愛情……哦不,“頂級實驗室/研究機構”出品的AI論文了。

這位ID為「Acurite先生」的網友稱,他自然相信這些論文裡的數據與模型運行結果。

但,就拿Jeff Dean老師的這篇論文來說吧,18頁的論文說了特別複雜的進化卷積與多任務學習演算法,厲害,亮眼,好頂讚。

不過,有兩點不得不提出:

#第一,Jeff Dean們在論文中提出的證明自己勝過競賽的跑分結果,是CIFAR-10基準測試準確度99.43,勝過了目前SOTA的99.40…

也不能說這是忽悠,但真的很讓人難以措詞形容。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

第二,論文最後有用TPU跑演算法得出最終結果的時間耗費表,總計17810小時。

假設有人不在谷歌幹、又想復現論文結果,按照每小時3.22美元的市價租TPU來再跑一次,那花費就是57348美元。

有啥意思呢?連日常論文都要設鈔能力門檻了嗎?

當然,這種做派現在是業界風氣,包括但不限於Google、OpenAI這些大玩家。大家都往模型裡灌少少改進現況的創意、和多多的預處理資料與基準。

然後,只要運行結果在數值上比對家高出哪怕百分點後的小數點後二位,研究者也可以理直氣壯地在簡歷上新增一行論文題目啦!

這麼搞,對學界和業界有啥真的推動?一般研究生又花不起錢來驗證你的結論,普通企業又沒辦法在專案裡使用這麼無聊的跑分。

還是那句話,有啥意思呢?

這難道就是AI界的可接受舒適區麼?一小撥大企業、和偶爾的頂尖學校,天天炫耀我有錢可以為所欲為、你沒錢只好跟後面吃灰?

這麼玩下去,乾脆另開個電腦學期刊,專收那些結果可以在消費級單機顯卡上八小時跑出復現的論文算了。

跟帖裡,有論文任務的研究生紛紛訴苦。

有位ID是「支援向量機」的網友說,自己是小型實驗室裡的從業者,因為這個勢頭,已經快完全喪失繼續搞深度學習的動力了。

因為靠自己實驗室的預算,根本沒辦法和這些巨無霸比,出不了鈔能力打底的跑分結果。

即使你有個理論上的新點子,要寫成能過評議的論文也難。因為現在論文評議人裡,被大廠的鈔能力養出了「美圖偏見」,論文裡用來測試的圖像不好看,一切白搭。

不是說巨無霸大廠一無是處啊,GPT和DALL-E這些專案真的是開天闢地。但如果我自己的機器跑不動,我激動個啥呢。

另有一位博士生網友現身說法,跟帖佐證「支持向量機」。

博士生前兩年遞交了一份關於流模型的論文,主要著重於發現可取樣的資料潛在空間,對模型的圖片產生品質沒影響。

結果論文打分人給的批評意見是:「生成的圖像看起來不如用GAN生成的好」。

另一個ID叫「烏代」的研究生也說,2021年他提交的參加會議論文,打分人給的批評意見是:「數據不夠花俏。」

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

看來人力不敵鈔能力,真是東西心理攸同、中外道術未裂的世界性趨勢。

不過三十年河東、三十年河西,說不定演算法草根化、全民大寫碼,會帶來第二次車庫創業公司打敗IBM的奇蹟呢。

以上是Jeff Dean大規模多工學習SOTA遭吐槽,復現一遍要6萬美元的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除