首頁  >  文章  >  科技週邊  >  Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

WBOY
WBOY轉載
2023-04-12 18:52:131375瀏覽

日前,學術圈圖靈獎得主Yann LeCun對Google的一項研究發起了質疑。

前段時間,GoogleAI在其新研究《LocoProp: Enhancing BackProp via Local Loss Optimization》中提出了一種用於多層神經網路的通用層級損失構造框架LocoProp,該框架在僅使用一階優化器的同時實現了接近二階方法的性能。

更具體來講,該框架將一個神經網路重新構想為多層的模組化組合,其中每個層都使用自己的權重正則化器、目標輸出和損失函數,最終同時實現了性能和效率。

Google在基準模型和資料集上實驗驗證了其方法的有效性,縮小了一階和二階優化器之間的差距。此外,Google研究者表示他們的局部損失構造方法是首次將平方損失用作局部損失。

Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

圖源:@Google AI

對於Google的這項研究,有些人的評價是棒極了、有趣。不過,也有一些人表達出了不同的看法,其中包括圖靈獎得主Yann LeCun。

他認為,我們現在稱為目標傳播(target prop)的版本有很多,有些可以追溯至1986年。所以,Google的這個LocoProp與它們有什麼差別呢?

Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

圖源:@Yann LeCun

對於LeCun的這種疑問,即將成為UIUC助理教授的Haohan Wang表示贊同。他表示,有時真的很驚訝為什麼有些作者認為這麼簡單的想法是歷史首創。或許他們做了一些與眾不同的事情,但宣傳團隊迫不及待地出來宣稱一切…

Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

圖源:@HaohanWang

#不過,有人對LeCun「不感冒」,認為他是出於競爭的考慮提出疑問,甚至「引戰」。 LeCun 對此進行了回复,聲稱自已的疑問無關競爭,並舉例自己實驗室的前成員Marc'Aurelio Ranzato、Karol Gregor、koray kavukcuoglu等都曾使用過一些版本的目標傳播,如今他們都在谷歌DeepMind工作。

Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

圖源:@Gabriel Jimenez@Yann LeCun

更有人調侃起了Yann LeCun,「當無法擊敗Jürgen Schmidhuber,就成為他吧。 」

Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

Yann LeCun到底說的對不對呢?我們先來看Google這項研究到底講了啥,有沒有突顯創新呢?

GoogleLocoProp:以局部損失優化增強反向傳播

這項研究由來自Google的 Ehsan Amid 、 Rohan Anil、 Manfred K. Warmuth 三位研究者合作完成。

Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

論文網址:https://proceedings.mlr.press/v151/amid22a/amid22a.pdf

本文認為,深度神經網路(DNN)成功的關鍵因素有兩個:模型設計和訓練數據,但很少有研究者討論更新模型參數的最佳化方法。我們在訓練訓練DNN時涉及最小化損失函數,該函數用來預測真實值和模型預測值之間的差異,並以反向傳播進行參數更新。

最簡單的權值更新方法是隨機梯度下降,即在每一個step中,權值相對於梯度負方向移動。此外,還有進階的最佳化方法,如動量優化器、AdaGrad等。這些優化器通常被稱為一階方法,因為它們通常只使用一階導數的資訊來修改更新方向。

還有更進階的最佳化方法如Shampoo 、K-FAC等已被證明可以提高收斂性,減少迭代次數,這些方法能夠捕捉梯度的變化。利用這些額外的信息,高階優化器可以透過考慮不同參數組之間的相關性來發現訓練模型更有效的更新方向。缺點是,計算高階更新方向比一階更新在計算上更昂貴。

Google在論文中引入了一個訓練DNN模型的框架:LocoProp,其將神經網路構想為層的模組化組合。一般來說,神經網路的每一層都會對輸入進行線性變換,然後是非線性的激活函數。在該研究中,網路每一層都被分配了自己的權重正則化器、輸出目標和損失函數。每一層的損失函數被設計成與該層的激活函數相符。使用這種形式,訓練給定的小batch局部損失可以降到最低,在各層之間迭代並行地進行。

Google使用這種一階優化器進行參數更新,從而避免了高階優化器所需的計算成本。

研究表明 LocoProp 在深度自動編碼器基準測試中優於一階方法,並且在沒有高內存和計算要求的情況下與高階優化器(如 Shampoo 和 K-FAC)性能相當。

Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

 LocoProp:透過局部損失最佳化增強反向傳播

通常神經網路被視為複合函數,將每一層的輸入轉換為輸出表示。 LocoProp 在將網路分解為層時採用了這種觀點。特別是,LocoProp 不是更新層的權重以最小化輸出的損失函數,而是應用特定於每一層的預定義局部損失函數。對於給定的層,選擇損失函數以匹配激活函數,例如,將為具有 tanh 激活的層選擇 tanh 損失。此外,正則化項確保更新後的權重不會偏離目前值太遠。

Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

與反向傳播類似,LocoProp應用前向傳遞來計算激活。在反向傳遞中,LocoProp為每一層的的神經元設定目標。最後,LocoProp將模型訓練分解為跨層的獨立問題,其中多個局部更新可以並行應用於每層的權值。

Google在深度自動編碼器模型中進行了實驗,這是評估最佳化演算法效能的常用基準。他們對多個常用的一階優化器進行廣泛的優化,包括 SGD、具有動量的SGD 、AdaGrad、RMSProp、Adam,以及高階優化器,包括Shampoo 、K-FAC,並將結果與LocoProp進行比較。研究結果表明,LocoProp方法的性能明顯優於一階優化器,與高階優化器相當,同時在單一GPU上運行時速度明顯更快。

Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?

以上是Yann LeCun開懟谷歌研究:目標傳播早就有了,你們創新在哪裡?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除