搜尋
首頁科技週邊人工智慧研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

昨日,整個社區最熱門的話題無非是 reddit 上一名機器學習研究者對谷歌 AI 負責人 Jeff Dean 參與論文的質疑。這篇論文是《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》,於週四被提交到預印版論文平台 arXiv 上。 研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

在論文中,Jeff Dean 等人提出了一種演化演算法,可以產生大規模的多任務模型,同時也支援新任務的動態和連續添加,產生的多任務模型是稀疏激活的,並整合了基於任務的路由。新方法在 69 個影像分類任務上取得有競爭力的結果,例如僅在公共資料上訓練的模型,在 CIFAR-10 上實現了新的業界最高識別準確度 99.43%。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

正是這個在 CIFAR-10 上實現的新 SOTA 遭到了質疑,先前的 SOTA 為 99.40。她表示,「產生這一結果需要總計17,810 小時的TPU 核心小時數,如果你不在谷歌工作,這意味著必須使用3.22 美元/ 小時的按需付款,訓練好的模型成本需57,348 美元。」

因此,她發出靈魂一問,「Jeff Dean 花了足夠養活一個四口之家五年的錢,獲得了在CIFAR-10 上0.03% 的改進,創建了新的SOTA,這一切值得嗎?」

這項質疑得到了許多領域人士的附和。有研究人員甚至悲觀地表示,「我幾乎對深度學習失去了興趣,作為小型實驗室的從業者,在計算預算方面基本上不可能比得過科技巨頭。即使你有一個很好的理論想法,主流環境可能也存在偏見,讓它難以看到曙光。這釀成了一個不公平的競爭環境。」

#隨著該主題的繼續發酵,Jeff Dean 親自在reddit 上進行了回應。他表示,「我們這項研究的目標不是為了得到一個更高品質的cifar10 模型,而且原帖作者成本計算的方式也有問題。」

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

##Jeff Dean回應全文

這篇論文是我和Andrea Gesmundo 兩人一起完成的,其中Andrea Gesmundo 做了論文大部分工作。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

論文地址:https://arxiv.org/pdf/2205.12755.pdf

我想說的是,這項研究的目標不是得到一個高品質的cifar10 模型。相反,這項研究是探索一種設置,可以動態地將新任務引入正在運行的系統中,並成功地為新任務獲得一個高品質的模型,該模型將重複使用現有模型中的表示並稀疏地引入新參數,同時避免了災難性遺忘或負遷移等多任務系統問題。

該研究的實驗表明,我們可以從幾個獨立的視覺化任務基準中動態地引入69 個不同任務流,最終得到一個多任務系統,它可以為所有這些任務聯合產生高品質的解決方案。所得到的模型對任何給定的任務都是稀疏激活的,系統為新任務引入的新參數越來越少(參見下圖 2)。多任務系統在這個任務流程的末端只為增量任務引入了 1.4% 的新參數,每個任務平均激活模型總參數的 2.3%。任務之間有相當多的表示共享,演化過程有助於確定何時有意義以及何時應該為新任務引入新的可訓練參數。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

我還認為原貼作者對成本的計算是錯誤的,實驗是訓練一個多任務模型來共同解決 69 個任務,而不是訓練一個 cifar10 模型。從下表 7 可以看出,所使用的計算是 TPUv3 核和 TPUv4 核的混合,因此不能簡單地計算核小時數,因為它們的價格不同。

除非你有特別緊急的任務,需要快速訓練cifar10 68 個任務,其實這類研究可以很容易地使用可搶佔價格的資源,即0.97 美元/ 小時TPUv4、0.60 美元/ 小時TPUv3(不是他們所說的你必須按需定價3.22 美元/ 小時)。在這些假設下,表 7 中描述的計算公有雲成本大約是 13960 美元(使用 12861 TPUv4 晶片小時和 2474.5 TPUv3 晶片小時的可搶佔價格),或者說是大約 202 美元 / 任務。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

我認為擁有稀疏激活的模型很重要,並且能夠動態地將新任務引入到現有系統中,該系統可以共享表示(在適當的情況下)並避免災難性遺忘,這些研究至少值得探索。該系統還有一個優點,即新任務可以自動被納入系統,而無需為此進行專門製定(這就是進化搜尋過程所做的),這似乎是一個持續學習系統的有用屬性。

這篇論文的程式碼是開源的,大家可以自行查看。

程式碼位址:https://github.com/google-research/google-research/tree/master/muNet

原貼作者回覆Jeff Dean

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

在看到Jeff Dean 的回覆後,原貼作者表示:澄清一下,我認為Jeff Dean 的這篇論文(在每個任務中用來產生模型擴充的演化模式)真的很有趣,這讓我想起了另一篇論文,但我不記得標題了,論文大概是講對於每個新任務,向整個體系架構添加新的模組,將其他模組的隱藏狀態作為每層輸入的一部分,但不更新現有組件的權重。

我還有一個想法,在每個任務的模型中建立模組。你知道小鹿是如何在出生後幾分鐘內就能走路的嗎?相較之下,在那個時候,剛出生的小鹿基本上沒有「訓練資料」來學習感知運動或對世界進行建模,而是必須利用大腦中的特殊結構,而這些結構必須能夠繼承以讓小鹿擁有基本技能。這些結構將是非常有用的,所以在某種意義上,它將迅速推廣到一個新的但相關的控制任務。

因此,這篇論文讓我想到了那些已經存在的可繼承結構的發展,這些結構可以用來更有效地學習新任務。

另一家實驗室的研究人員可能有相同的 idea,但得到的結果要差得多,因為他們負擔不起從現有設置轉移到大型雲端平台的費用。並且,由於現在社群過度關注 SOTA 結果,他們的研究也無法發表。即使費用「僅為」202 美元 / 每任務,但必須經過多次迭代才能將事情做好。

因此,對於我們這些無法獲得足夠計算預算的人來說,我們的選擇基本上只有兩種。一是祈禱並希望谷歌能夠公開分發現有的模型,然後我們根據自身需求進行微調。但結果是,模型可能已經學習到我們無法消除的偏見或對抗性弱點。二是啥都不做,躺平。

所以,我的問題不只在於這項研究。如果 OpenAI 想在 GPT-4 上花費上百萬億美元(打個比方),那就賦予它更多的權力。這是一種過度獎勵浮華、大數目和奢侈的科學和出版文化,而無益於幫助人們更好地完成實際的工作。我最喜歡的論文是van der Oord 在2019 年發表的《Representation Learning with Contrastive Predictive Coding》,它使用無監督預訓練任務,然後對一個小的標籤子集進行監督訓練,以實現複製標記所有資料的準確率結果,並從數據效率的角度討論這種提升。我在工作中復現並使用了這些結果,節省了自己的時間和金錢。就憑這篇論文,我就願意成為他的博士生。

但是,OpenAI 在論文《Language Models are Few-Shot Learners》中提出了更大的transformer 模型GPT-3,獲得了近四千次引用以及NeurIPS 2020 最佳論文獎,也獲得整個媒體的關注。

以上是研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),