Google、DeepMind新研究：歸納偏壓如何影響模型縮放？-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Google、DeepMind新研究：歸納偏壓如何影響模型縮放？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 08:21 PM

Google模型

Transformer 模型的縮放近年來引發了眾多學者的研究興趣。然而，對於模型架構所施加的不同歸納偏壓的縮放性質，人們了解得不多。通常假設，在特定標度（計算、大小等）的改進可以遷移到不同的規模和計算區域。

不過，理解架構和標度律之間的相互作用至關重要，設計在不同標度上表現良好的模型具有重要的研究意義。有幾個問題還需要搞清楚：模型體系架構之間的縮放性不同嗎？如果是這樣，歸納偏壓如何影響縮放表現？又如何影響上游（預訓練）與下游（遷移）任務？

在最近的一篇論文中，Google的研究者試圖了解歸納偏移（體系架構）對語言模型標度律的影響 。為此，研究者在多個運算區域和範圍內（從 1500 萬到 400 億參數）預先訓練和微調了十種不同的模型架構。總體來說，他們預先訓練和微調了 100 多種不同體系架構和大小的模型，並提出了在縮放這十種不同體系架構方面的見解和挑戰。

Google、DeepMind新研究：歸納偏壓如何影響模型縮放？

論文連結：https://arxiv.org/pdf/2207.10551.pdf

#他們也注意到，縮放這些模型並不像看起來那麼簡單，也就是說，縮放的複雜細節與本文中詳細研究的體系架構選擇交織在一起。例如，Universal Transformers (和 ALBERT) 的一個特性是參數共用。與標準的 Transformer 相比，這種體系架構的選擇不僅在效能方面，而且在計算指標如 FLOPs、速度和參數量方面顯著 warp 了縮放行為。相反，像 Switch Transformers 這樣的模型則截然不同，它的 FLOPs 和參數量之間的關係是不尋常的。

具體來說，本文的主要貢獻如下：

#首次推導出不同歸納偏移和模型架構的標度律。研究者發現這個標度係數在不同的模型中有很大的不同，並指出這是模型開發的重要考慮因素。事實證明，在他們考慮的所有十種體系架構中，普通的 Transformer 擁有最佳的縮放效能，即使它在每個運算區域的絕對效能不是最好的。
研究者觀察到，在一個計算標度區域中運行良好的模型不一定是另一個計算標度區域中的最佳模型。此外，他們發現，某些模型儘管在低計算區域表現良好，但是難以進行縮放。這意味著很難透過在某個計算區域進行逐點對比來獲得模型縮放性的全貌。
研究者發現，當涉及縮放不同的模型架構時，上游預訓練的困惑度可能與下游遷移不太相關。因此，底層架構和歸納偏壓對於下游遷移也是至關重要的。
研究者強調了在某些架構下進行縮放的困難，並展示了一些模型沒有進行縮放（或以負面趨勢進行縮放）。他們也發現線性時間注意力模型（如 Performer）難以進行擴展的趨勢。

方法與實驗

在論文的第三章，研究者概述了整體的實驗設置，並介紹了實驗中評估的模型。

下表1 展示了本文的主要結果，包括可訓練參數量、FLOPs（單次正向傳遞）和速度（每秒步數）等，此外還包括了驗證困惑度（上游預訓練）和17 個下游任務的結果。

Google、DeepMind新研究：歸納偏壓如何影響模型縮放？

所有模型的縮放方式是否相同？

下圖 2 展示了增加 FLOPs 數量時所有模型的縮放行為。可以觀察到，所有模型的縮放行為是相當獨特且不同的，即其中大多數不同於標準 Transformer。也許這裡最大的發現是，大多數模型（例如 LConv、Evolution）似乎都與標準 Transformer 表現相當或更好，但無法以更高的計算預算去縮放。

另一個有趣的趨勢是，「線性」Transformer，如 Performer，不能按比例縮放。如圖 2i 所示，從 base 到 large scale 相比，預訓練的困惑度只下降了 2.7% 。而對 vanilla Transformer 來說這數字是 8.4%。

Google、DeepMind新研究：歸納偏壓如何影響模型縮放？

下圖3 展示了下游遷移任務上所有模型的縮放曲線，可以發現，和Transformer 相比，大多數模型有著不同的縮放曲線，在下游任務中變化明顯。值得注意的是，大多數模型都有不同的上游或下游縮放曲線。

研究者發現，有些模型如 Funnel Transformer 和 LConv，似乎在上游表現相當不錯，但在下游受到很大影響。至於 Performer，上游和下游的效能差距似乎更大。值得注意的是，SuperGLUE 的下游任務通常需要編碼器上的偽交叉注意力，而卷積這樣的模型是無法處理的（Tay et al., 2021a）。

因此，研究者發現儘管某些模型擁有良好的上游效能，但可能還是難以學習下游任務。

Google、DeepMind新研究：歸納偏壓如何影響模型縮放？

每一標度的最佳模型是否有所不同？

下圖 1 展示了根據上游或下游性能進行計算時的帕累托邊界。圖的顏色代表不同的模型，可以觀察到，每個標度和計算區域的最佳模型可能是不同的。此外，從上圖 3 也可以看到這一點。例如，Evolved Transformer 似乎在微小（tiny）到小（small）的區域（下游）和標準 Transformer 一樣表現得很好，但是當放大模型時，這種情況迅速改變。研究者在 MoS-Transformer 也觀察到了這一點，它在某些區域的表現明顯優於普通的 Transformer ，但在其他區域則不然。

Google、DeepMind新研究：歸納偏壓如何影響模型縮放？

每個模型的標度律

#下表2 給出了多種情況下每個模型的擬合線性直線α 的斜率。研究者透過繪製 F（FLOPs）、U （上游困惑度）、D （下游準確率）和 P（參數量）得到了α。一般來說，α 描述了模型的縮放性，例如 α_F,U 根據上游性能繪製 FLOPs。唯一的例外是α_U,D，它是衡量上游和下游表現的度量，高的 α_U,D 值意味著向下游任務遷移的模型縮放更佳。整體來說，α 值是一個測量，表示一個模型在縮放上的相對表現。

Google、DeepMind新研究：歸納偏壓如何影響模型縮放？

Scaling Protocols 是否以同樣的方式影響模型體系架構？

下圖 4 展示了四個模型體系架構（MoS-Transformer、Transformer、Evolved Transformer、LConv）中縮放深度的影響。

Google、DeepMind新研究：歸納偏壓如何影響模型縮放？

下圖 5 展示了在相同的四個體系架構中縮放寬度的影響。首先，在上游（負對數困惑）曲線上可以注意到，雖然不同的架構在絕對效能上有明顯的差異，但縮放趨勢仍然非常相似。在下游，除了 LConv 之外，深度縮放（上圖 4）在大多數體系架構上的作用似乎是一樣的。同時，相對於寬度縮放，似乎 Evolved Transformer 在應用寬度縮放時會稍微好一點。 值得注意的是，與寬度縮放相比，深度縮放對下游縮放的影響要大得多。

Google、DeepMind新研究：歸納偏壓如何影響模型縮放？

更多研究細節，可參考原論文。

以上是Google、DeepMind新研究：歸納偏壓如何影響模型縮放？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例