為什麼 transformer 效能這麼好?它為眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來?在人工智慧領域裡,transformer 已成為深度學習中的主導模型,但人們對於它卓越性能的理論基礎卻一直研究不足。
最近,GoogleAI、蘇黎世聯邦理工學院和GoogleDeepMind的研究人員進行了一項新研究,試圖揭開GoogleAI中的一些最佳化演算法的秘密。在這項研究中,他們對transformer進行了逆向工程,並找到了一些最佳化方法。這篇論文名為《揭示transformer中的Mesa最佳化演算法》
#論文連結:https://arxiv.org/abs/2309.05858
作者證明,最小化通用自回歸損失會產生在Transformer 的前向傳遞中運行的基於輔助梯度的最佳化演算法。這種現象最近被稱為「mesa 優化(mesa-optimization)」。此外,研究人員發現所得的 mesa 最佳化演算法表現出上下文中的小樣本學習能力,與模型規模無關。因此,新的結果對先前大語言模型中出現的小樣本學習的原理進行了補充。
研究人員認為,Transformers 的成功是基於其在前向傳遞中實現的Mesa最佳化演算法的架構偏差:(i) 定義內部學習目標,以及(ii) 對其進行最佳化
圖1:新假設的說明:最佳化自回歸Transformer fθ 的權重θ 會產生在模型前向傳播中實現的mesa優化演算法。作為輸入序列 s_1, . 。 。 , s_t 被處理到時間步t,Transformer (i) 建立一個由輸入- 目標關聯對組成的內部訓練集,(ii) 透過結果資料集定義內部目標函數,用於衡量內部模型的效能使用權重W, (iii) 優化該目標並使用學習的模型產生未來的預測。
該研究的貢獻包括以下幾點:
- #概括了von Oswald 等人的理論,並展示了從理論上,Transformers 是如何透過使用基於梯度的方法優化內部建構的目標來自回歸預測序列下一個元素的。
- 透過實驗對在簡單序列建模任務上訓練的Transformer 進行了逆向工程,並發現強有力的證據表明它們的前向傳遞實現了兩步演算法:(i ) 早期自註意力層透過分組和複製標記來建立內部訓練資料集,因此隱式地建立內部訓練資料集。定義內部目標函數,(ii) 更深層最佳化這些目標以產生預測。
- 與LLM 類似,實驗表明簡單的自回歸訓練模型也可以成為上下文學習者,而即時調整對於改善LLM 的上下文學習至關重要,也可以提高特定環境中的表現。
- 受發現注意力層試圖隱式優化內部目標函數的啟發,作者引入了mesa 層,這是一種新型注意力層,可以有效地解決最小二乘優化問題,而不是只採取單一梯度步驟來實現最優。實驗證明單一 mesa 層在簡單的順序任務上優於深度線性和 softmax 自註意力 Transformer,同時提供更多的可解釋性。
- #在初步的語言建模實驗後發現,用mesa 層替換標準的自註意力層獲得了有希望的結果,證明了該層具有強大的上下文學習能力。
基於最近人們的工作表明,經過明確訓練來解決上下文中的小樣本任務的 transformer 可以實現梯度下降(GD)演算法。在這裡,作者展示了這些結果可以推廣到自回歸序列建模 —— 這是訓練 LLM 的典型方法。
首先,對於在簡單線性動力學上進行訓練的Transformer進行分析。在這種情況下,每個序列都由不同的W*生成,以防止跨序列記憶。在這個簡單的設定中,研究人員展示了Transformer如何建立mesa資料集,並使用預處理的GD來優化mesa目標
進行重寫的內容是:我們可以透過訓練深度 transformer 來聚合相鄰序列元素的 token 結構。有趣的是,這種簡單的預處理方法會導致權重矩陣非常稀疏(只有不到1% 的權重非零),從而產生逆向工程演算法
對於單層線性自註意力,權重對應一個梯度下降步驟。對於深度Transformer,解釋性變得困難。該研究依賴線性探測並檢查隱藏激活是否能夠預測自回歸目標或預處理輸入
有趣的是,兩種探測方法的可預測性都會隨著網路深度的增加而逐漸提高。這項發現顯示模型中隱藏著預處理的 GD。
圖 2:對經過訓練的線性自註意力層進行逆向工程。
研究發現,在建構中使用所有自由度時,可以完美地擬合訓練層,不僅包括學習的學習率η,還包括一組學習的初始權重W_0 。重要的是,如圖 2 所示,學得的 one-step 演算法的性能仍然遠遠優於單一 mesa 層。
在簡單的權重設定下,我們可以注意到,透過基礎最佳化很容易發現,該層可以最優地解決此研究任務。這個結果證明了硬編碼歸納偏差對於mesa優化是有利的
憑藉對多層案例的理論見解,先分析深度線性和 softmax 只注意 Transformer。作者根據 4 通道結構設定輸入格式,,這對應於選擇 W_0 = 0。
與單層模型一樣,作者在訓練模型的權重中看到了清晰的結構。作為第一個逆向工程分析,該研究利用這個結構並建立一個演算法(RevAlg-d,其中 d 表示層數),每個層頭包含 16 個參數(而不是 3200 個)。作者發現這種壓縮但複雜的表達式可以描述經過訓練的模型。特別是,它允許以幾乎無損的方式在實際Transformer 和RevAlg-d 權重之間進行插值
雖然RevAlg-d 表達式解釋了具有少量自由參數的經過訓練的多層Transformer,但很難將其解釋為mesa 最佳化演算法。因此,作者採用線性迴歸探測分析(Alain & Bengio,2017;Akyürek et al.,2023)來尋找假設的 mesa 最佳化演算法的特性。
在圖3中展示的深度線性自註意力Transformer上,我們可以觀察到兩個探針都能夠進行線性解碼,並且隨著序列長度和網路深度的增加,解碼性能也增加。因此,我們發現了一種基礎最佳化演算法,該演算法在原始的mesa-objective Lt (W)的基礎上逐層下降,同時改善了mesa優化問題的條件數。這導致mesa-objective Lt (W)快速下降。此外,我們還可以觀察到隨著深度增加,性能顯著提高
透過對資料進行更好的預處理,可以逐步(跨層)優化自回歸目標函數Lt ( W),因此可以認為快速下降是透過這種最佳化實現的
圖3:對建構的token 輸入進行逆向工程的多層Transformer 訓練。
這表明,如果 transformer 在建置的 token 上進行訓練,它就會透過 mesa 最佳化進行預測。有趣的是,當直接給出序列元素時,transformer 會自行透過將元素分組來建構 token,研究團隊稱之為「建立 mesa 資料集」。
結論
這項研究的發現是,當使用Transformer模型在標準自回歸目標下進行序列預測任務的訓練時,可以開發出基於梯度的推理演算法。因此,最新的多任務和元學習結果也可以應用到傳統的自監督LLM訓練設定中
#此外,研究也發現,學習得到的自回歸推理演算法可以在不需要重新訓練的情況下重新調整使用,以解決有監督的上下文學習任務,從而在一個統一的框架內解釋結果
那麼,這些與情境學習有什麼關係呢?根據該研究,訓練transformer模型後,在自回歸序列任務上,它實現了適當的mesa優化,因此可以進行少樣本上下文學習,而無需進行任何微調
該研究假設LLM 也存在mesa 最佳化,從而提高了其上下文學習能力。有趣的是,研究還觀察到,為 LLM 有效調整 prompt 也可以帶來上下文學習能力的實質改進。
#有興趣的讀者可以閱讀論文原文,了解更多研究內容。
以上是Transformer的上下文學習能力的來源是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Meta攜手Nvidia、IBM和Dell等合作夥伴,拓展了Llama Stack的企業級部署整合。在安全方面,Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具,並啟動了Llama Defenders計劃,以增強AI安全性。此外,Meta還向10個全球機構(包括致力於改善公共服務、醫療保健和教育的初創企業)發放了總額150萬美元的Llama Impact Grants。 由Llama 4驅動的全新Meta AI應用,被設想為Meta AI

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說,這並不是要取代人類C

在線欺詐和機器人攻擊對企業構成了重大挑戰。 零售商與機器人ho積產品,銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題,Rende

AI代理人有望徹底改變營銷,並可能超過以前技術轉變的影響。 這些代理代表了生成AI的重大進步,不僅是處理諸如chatgpt之類的處理信息,而且還採取了Actio

人工智能對關鍵NBA遊戲4決策的影響 兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。 首先,丹佛的尼古拉·喬基奇(Nikola Jokic)錯過了三分球,導致亞倫·戈登(Aaron Gordon)的最後一秒鐘。 索尼的鷹

傳統上,擴大重生醫學專業知識在全球範圍內要求廣泛的旅行,動手培訓和多年指導。 現在,AI正在改變這一景觀,克服地理局限性並通過EN加速進步

英特爾正努力使其製造工藝重回領先地位,同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此,英特爾必須在業界建立更多信任,不僅要證明其工藝的競爭力,還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。 新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰,以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程,以更以客

全球專業再保險公司Chaucer Group和Armilla AI解決了圍繞AI風險的日益嚴重的問題,已聯手引入了新型的第三方責任(TPL)保險產品。 該政策保護業務不利


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver CS6
視覺化網頁開發工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具