搜尋
首頁科技週邊人工智慧DeepMind升級Transformer,前向通過FLOPs最多可降一半

引入混合深度,DeepMind 新設計可大幅提升 Transformer 效率。


Transformer 的重要性不需要多言,目前也有很多研究團隊致力於改進這種變革性技術,其中一個重要的改進方向是提升Transformer 的效率,例如讓其具備自適應運算能力,從而可以節省下不必要的計算。

正如不久前Transformer 架構的提出之一、NEAR Protocol 聯合創始人Illiya Polosukhin 在與黃仁勳的對話中說到的那樣:「自適應計算是接下來必須出現的。 我們要關注,在特定問題上具體要花費多少計算資源。各種不同的問題時,會自然分配不同的時間和精力。 DeepMind升級Transformer,前向通過FLOPs最多可降一半
語言建模也應如此,為了得到準確的預測結果,並不需要為所有 token 和序列都投入相同的時間或資源。但是,Transformer 模型在一次前向傳播中卻會為每個 token 花費同等的計算量。這不禁讓人哀嘆:大部分計算都浪費了!

理想情況下,如果可以不執行非必要的計算,就可以降低 Transformer 的計算預算。
DeepMind升級Transformer,前向通過FLOPs最多可降一半
條件式計算此技術可在需要執行計算時才執行計算,由此可減少總計算量。先前許多研究者已經提出了多種可以評估何時執行計算以及使用多少計算量的演算法。

但是,對於這個頗具挑戰性的問題,普遍使用的解決形式可能無法很好地應對現有的硬體限制,因為它們往往會引入動態計算圖。最有潛力的條件式計算方法反而可能是那些能協調使用當前硬體棧的方法,其會優先使用靜態計算圖和已知的張量大小(基於對硬體的最大利用而選取這個張量大小)。

最近,Google DeepMind 研究了這個問題,他們希望使用更低的運算預算來縮減 Transformer 所使用的運算量。

論文標題:Mixture-of-Depths: Dynamically allocating compute in transformer-based language modelsDeepMind升級Transformer,前向通過FLOPs最多可降一半
  • #論文網址:https://arxiv.org/pdf/2404.02258.pdf
  • 他們設想:在每一層中,網路必須學會為每個token 做決策,從而動態地分配可用計算預算。在他們的具體實現中,總計算量由使用者在訓練之前設定並且不再更改,而非網路工作時執行決策的函數。這樣一來,便可以提前預知並利用硬體效率收益(例如記憶體足跡減少量或每次前向傳播的 FLOPs 減少量)。該團隊的實驗顯示:可以在不損害網路整體效能的前提下獲得這些效益。

DeepMind 的這個團隊採用了類似於混合專家(MoE) Transformer 的方法,其中會在整個網路深度上執行動態 token 層面的路由決策。

而與MoE 不同的是,這裡他們的選擇是:要嘛是將計算套用在token(和標準Transformer 一樣),要嘛就是透過一個殘差連接繞過它(保持不變,節省計算)。另一個與 MoE 的不同之處是:這裡是將這個路由機制同時用在 MLP 和多頭注意力上。因此,這也會影響網路處理的鍵值和查詢,因此該路由不僅要決定更新哪些 token,還要決定哪些 token 可供關注。

DeepMind 將此策略命名為Mixture-of-Depths(MoD),以突顯這一事實:各個token 在Transformer 深度上通過不同數量的層或模組。我們這裡將其翻譯成「混合深度」,見圖 1。

MoD 支援使用者權衡考慮效能與速度。一方面,使用者可以使用與常規 Transformer 同等的訓練 FLOPs 來訓練 MoD Transformer,這為最終的對數機率訓練目標帶來多達 1.5% 的提升。另一方面,MoD Transformer 使用更少的計算量就能達到與常規 Transformer 同樣的訓練損失 —— 每一次前向傳播的 FLOPs 可少最多 50%。

這些結果表明,MoD Transformer 可以學習智慧地路由(即跳過不必要的計算)。

實作混合深度(MoD)Transformer 

概況來說,其策略如下:

  • 設定一個靜態的計算預算,該預算低於等價的常規Transformer 所需的計算量;做法是限制序列中可參與模組計算(即自註意力模組和後續的MLP)的token 數量。舉個例子,常規 Transformer 可能允許序列中的所有 token 都參與自註意力計算,但 MoD Transformer 可限定僅使用序列中 50% 的 token。
  • 針對每個token,每個模組中都有一個路由演算法給予一個標量權重;該權重表示路由對各個token 的偏好- 是參與模組的計算還是繞過去。 
  • 在每個模組中,找出最大的前 k 個標量權重,它們對應的 token 會參與到這個模組的計算中。由於必定只有 k 個 token 參與到該模組的計算中,因此其計算圖和張量大小在訓練過程中是靜態的;這些 token 都是路由演算法認定的動態且與上下文有關的 token。

#路由方案

該團隊考慮了兩種學習到的路由方案(見圖2):token 選擇型與專家選擇型。
DeepMind升級Transformer,前向通過FLOPs最多可降一半
在 token 選擇型路由方案中,路由演算法會跨運算路徑(例如跨 MoE Transformer 中的專家身分)產生針對每個 token 的機率分佈。然後 token 會被傳送到它們偏好的路徑(即機率最高的路徑),而輔助損失可以確保所有 token 不會收斂到同一路徑。 token 選擇型路由可能會有負載平衡問題,因為無法確保 token 在可能的路徑之間劃分適當。

專家選擇型路由則是將上述方案反過來:不是讓token 選擇它們偏好的路徑,而是讓每條路徑基於token 偏好選擇前k 個token (top-k)。這能確保負載完美平衡,因為每條路徑總是保證 k 個 token。但是,這也可能導致某些 token 被處理或欠處理,因為某些 token 可能是多條路徑的前 k 名,而另一些 token 則可能沒有相應路徑。

DeepMind 的選擇是使用專家選擇型路由,原因有三。

第一,它不需要輔助性的平衡損失。

第二,由於選取前k 名此操作取決於路由權重的幅度,因此此路由方案允許使用相對路由權重,這有助於確定目前模組計算最需要哪些token;路由演算法可以透過適當地設定權重來盡力確保最關鍵的token 是在前k 名之中—— 這是token 選擇型路由方案無法做到的。在具體的用例中,有一條計算路徑本質上是 null 操作,因此應該避免將重要 token 路由到 null。

第三,由於路由只會經由兩條路徑,因此單次top-k 操作就能有效率地將token 分成兩個互斥的集合(每條計算路徑一個集合),這能應對上述的過處理或欠處理問題。

此路由方案的具體實作請參考原論文。
 
取樣

#儘管專家選擇型路由有很多優點,但它也有一個很明顯的問題:top-k 運算是非因果式的。也就是說,一個給定 token 的路由權重是否在前 k 名取決於其之後的路由權重的值,但在執行自回歸採樣時,我們無法獲得這些權重。

為了解決這個問題,團隊測試了兩種方法。

第一種是引入一個簡單的輔助損失;實踐證明,其對語言建模主目標的影響程度為0.2%− 0.3%,但卻能夠讓模型自回歸地採樣。他們使用了一個二元交叉熵損失,其中路由演算法的輸出提供logit,透過選取這些logit 中的top-k,就能提供目標(即,如果一個token 在top-k 中,就為1,否則為0)。

第二种方法是引入一个小的辅助 MLP 预测器(就像是又一个路由算法),其输入与路由算法的一样(具有 stop gradient),但其输出是一个预测结果:token 是否在序列的 top-k 中。该方法不会影响语言建模目标,实验表明也不会显著影响该步骤的速度。

有了这些新方法,就可以通过选择路由到的 token 来执行自回归采样,也可以根据路由算法的输出绕过一个模块,这无需依赖任何未来 token 的信息。实验结果表明,这是一种相对简单辅助任务,可以很快实现 99% 的准确度。
 
结果

训练,isoFLOP 比较

首先,该团队训练了一些 FLOP 预算相对较小(6e18)的模型,以确定最优的超参数(见下图 3)。
DeepMind升級Transformer,前向通過FLOPs最多可降一半
总体而言,可以看到 MoD Transformer 会将基准 isoFLOP 曲线向右下方拖动。也就是说,最优的 MoD Transformer 的损失比最优的基准模型更低,同时参数也更多。这种效应带来了一个幸运的结果:存在一些和最优基准模型表现一样好甚至更好的 MoD 模型(同时步骤速度更快),尽管它们本身在其超参数设置下并不是 isoFLOP 最优的。举个例子,一个 220M 参数量的 MoD 变体(图 3 中的 3 号模型)稍优于 isoFLOP 最优基准模型(参数量也是 220M,图 3 中的 1 号模型),但这个 MoD 变体在训练期间的步骤速度快了 60% 以上。

下图 4 给出了总 FLOPs 为 6e18、2e19 和 1e20 时的 isoFLOP 分析。可以看到,当 FLOP 预算更大时,趋势依然继续。
DeepMind升級Transformer,前向通過FLOPs最多可降一半
下图 5 给出了一个使用交织的路由模块训练的 MoD Transformer 的路由决策。尽管其中存在大量绕过模块的情况,但这个 MoD Transformer 依然能实现优于常规 Transformer 的性能。
DeepMind升級Transformer,前向通過FLOPs最多可降一半
自回归评估

他们也评估了 MoD 变体的自回归采样表现,结果见下图 6。这些结果表明 MoD Transformer 所带来的计算节省不仅仅局限于训练设置。
DeepMind升級Transformer,前向通過FLOPs最多可降一半
混合深度与专家(MoDE)

MoD 技术可以自然地与 MoE 模型整合起来,组成所谓的 MoDE 模型。下图 7 展示了 MoDE 及其带来的提升。
DeepMind升級Transformer,前向通過FLOPs最多可降一半
MoDE 有两种变体:分阶段 MoDE 和集成式 MoDE。

其中分阶段 MoDE 是在自注意力步骤之前进行路由绕过或到达 token 的操作;而集成式 MoDE 则是通过在常规 MLP 专家之间集成「无操作」专家来实现 MoD 路由。前者的优势是允许 token 跳过自注意力步骤,而后者的好处在于其路由机制很简单。

该团队注意到,以集成方式实现 MoDE 明显优于直接降低专家的能力、依靠丢弃 token 来实现残差路由的设计。

以上是DeepMind升級Transformer,前向通過FLOPs最多可降一半的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT無法訪問?本文提供多種實用解決方案!許多用戶在日常使用ChatGPT時,可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況,逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查 首先,我們需要確定問題是出在OpenAI服務器端,還是用戶自身網絡或設備問題。 請按照以下步驟進行排查: 步驟1:檢查OpenAI官方狀態 訪問OpenAI Status頁面 (status.openai.com),查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報,則表示Open

計算ASI的風險始於人類的思想計算ASI的風險始於人類的思想May 14, 2025 am 05:02 AM

2025年5月10日,麻省理工學院物理學家Max Tegmark告訴《衛報》,AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數',這是一場比賽的可能性

易於理解的解釋如何編寫和撰寫歌詞和推薦工具易於理解的解釋如何編寫和撰寫歌詞和推薦工具May 14, 2025 am 05:01 AM

AI音樂創作技術日新月異,本文將以ChatGPT等AI模型為例,詳細講解如何利用AI輔助音樂創作,並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。 通過這些技術,每個人都能輕鬆創作原創音樂。但需注意,AI生成內容的版權問題不容忽視,使用時務必謹慎。 讓我們一起探索AI在音樂領域的無限可能! OpenAI最新AI代理“OpenAI Deep Research”介紹: [ChatGPT]Ope

什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!May 14, 2025 am 05:00 AM

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显著提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

解釋如何使用chatgpt應用程序!日本支持和語音對話功能解釋如何使用chatgpt應用程序!日本支持和語音對話功能May 14, 2025 am 04:59 AM

CHATGPT應用程序:與AI助手釋放您的創造力!初學者指南 ChatGpt應用程序是一位創新的AI助手,可處理各種任務,包括寫作,翻譯和答案。它是一種具有無限可能性的工具,可用於創意活動和信息收集。 在本文中,我們將以一種易於理解的方式解釋初學者,從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能,以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

如何使用中文版Chatgpt?註冊程序和費用的說明如何使用中文版Chatgpt?註冊程序和費用的說明May 14, 2025 am 04:56 AM

ChatGPT中文版:解鎖中文AI對話新體驗 ChatGPT風靡全球,您知道它也提供中文版本嗎?這款強大的AI工具不僅支持日常對話,還能處理專業內容,並兼容簡體中文和繁體中文。無論是中國地區的使用者,還是正在學習中文的朋友,都能從中受益。 本文將詳細介紹ChatGPT中文版的使用方法,包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇,並分析潛在風險及應對策略。此外,我們還將對比ChatGPT中文版和其他中文AI工具,幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

5 AI代理神話,您需要停止相信5 AI代理神話,您需要停止相信May 14, 2025 am 04:54 AM

這些可以將其視為生成AI領域的下一個飛躍,這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動,而不是簡單地回答問題或產生信息

易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋May 14, 2025 am 04:50 AM

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋! Chatgpt在各種情況下都使用,但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶,使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點,例如業務和私人使用差異,並遵守OpenAI的使用條款,並提供指南,以幫助您安全地利用多個帳戶。 Openai

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)