昨日,整個社區最熱門的話題無非是 reddit 上一名機器學習研究者對谷歌 AI 負責人 Jeff Dean 參與論文的質疑。這篇論文是《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》,於週四被提交到預印版論文平台 arXiv 上。
在論文中,Jeff Dean 等人提出了一種演化演算法,可以產生大規模的多任務模型,同時也支援新任務的動態和連續添加,產生的多任務模型是稀疏激活的,並整合了基於任務的路由。新方法在 69 個影像分類任務上取得有競爭力的結果,例如僅在公共資料上訓練的模型,在 CIFAR-10 上實現了新的業界最高識別準確度 99.43%。
正是這個在 CIFAR-10 上實現的新 SOTA 遭到了質疑,先前的 SOTA 為 99.40。她表示,「產生這一結果需要總計17,810 小時的TPU 核心小時數,如果你不在谷歌工作,這意味著必須使用3.22 美元/ 小時的按需付款,訓練好的模型成本需57,348 美元。」
因此,她發出靈魂一問,「Jeff Dean 花了足夠養活一個四口之家五年的錢,獲得了在CIFAR-10 上0.03% 的改進,創建了新的SOTA,這一切值得嗎?」
這項質疑得到了許多領域人士的附和。有研究人員甚至悲觀地表示,「我幾乎對深度學習失去了興趣,作為小型實驗室的從業者,在計算預算方面基本上不可能比得過科技巨頭。即使你有一個很好的理論想法,主流環境可能也存在偏見,讓它難以看到曙光。這釀成了一個不公平的競爭環境。」
#隨著該主題的繼續發酵,Jeff Dean 親自在reddit 上進行了回應。他表示,「我們這項研究的目標不是為了得到一個更高品質的cifar10 模型,而且原帖作者成本計算的方式也有問題。」
除非你有特別緊急的任務,需要快速訓練cifar10 68 個任務,其實這類研究可以很容易地使用可搶佔價格的資源,即0.97 美元/ 小時TPUv4、0.60 美元/ 小時TPUv3(不是他們所說的你必須按需定價3.22 美元/ 小時)。在這些假設下,表 7 中描述的計算公有雲成本大約是 13960 美元(使用 12861 TPUv4 晶片小時和 2474.5 TPUv3 晶片小時的可搶佔價格),或者說是大約 202 美元 / 任務。
我認為擁有稀疏激活的模型很重要,並且能夠動態地將新任務引入到現有系統中,該系統可以共享表示(在適當的情況下)並避免災難性遺忘,這些研究至少值得探索。該系統還有一個優點,即新任務可以自動被納入系統,而無需為此進行專門製定(這就是進化搜尋過程所做的),這似乎是一個持續學習系統的有用屬性。
這篇論文的程式碼是開源的,大家可以自行查看。
程式碼位址:https://github.com/google-research/google-research/tree/master/muNet
原貼作者回覆Jeff Dean
在看到Jeff Dean 的回覆後,原貼作者表示:澄清一下,我認為Jeff Dean 的這篇論文(在每個任務中用來產生模型擴充的演化模式)真的很有趣,這讓我想起了另一篇論文,但我不記得標題了,論文大概是講對於每個新任務,向整個體系架構添加新的模組,將其他模組的隱藏狀態作為每層輸入的一部分,但不更新現有組件的權重。
我還有一個想法,在每個任務的模型中建立模組。你知道小鹿是如何在出生後幾分鐘內就能走路的嗎?相較之下,在那個時候,剛出生的小鹿基本上沒有「訓練資料」來學習感知運動或對世界進行建模,而是必須利用大腦中的特殊結構,而這些結構必須能夠繼承以讓小鹿擁有基本技能。這些結構將是非常有用的,所以在某種意義上,它將迅速推廣到一個新的但相關的控制任務。
因此,這篇論文讓我想到了那些已經存在的可繼承結構的發展,這些結構可以用來更有效地學習新任務。
另一家實驗室的研究人員可能有相同的 idea,但得到的結果要差得多,因為他們負擔不起從現有設置轉移到大型雲端平台的費用。並且,由於現在社群過度關注 SOTA 結果,他們的研究也無法發表。即使費用「僅為」202 美元 / 每任務,但必須經過多次迭代才能將事情做好。
因此,對於我們這些無法獲得足夠計算預算的人來說,我們的選擇基本上只有兩種。一是祈禱並希望谷歌能夠公開分發現有的模型,然後我們根據自身需求進行微調。但結果是,模型可能已經學習到我們無法消除的偏見或對抗性弱點。二是啥都不做,躺平。
所以,我的問題不只在於這項研究。如果 OpenAI 想在 GPT-4 上花費上百萬億美元(打個比方),那就賦予它更多的權力。這是一種過度獎勵浮華、大數目和奢侈的科學和出版文化,而無益於幫助人們更好地完成實際的工作。我最喜歡的論文是van der Oord 在2019 年發表的《Representation Learning with Contrastive Predictive Coding》,它使用無監督預訓練任務,然後對一個小的標籤子集進行監督訓練,以實現複製標記所有資料的準確率結果,並從數據效率的角度討論這種提升。我在工作中復現並使用了這些結果,節省了自己的時間和金錢。就憑這篇論文,我就願意成為他的博士生。
但是,OpenAI 在論文《Language Models are Few-Shot Learners》中提出了更大的transformer 模型GPT-3,獲得了近四千次引用以及NeurIPS 2020 最佳論文獎,也獲得整個媒體的關注。
以上是研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver CS6
視覺化網頁開發工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),