搜尋
首頁科技週邊人工智慧有理論基礎,我們就可以進行深度最佳化了。

為什麼 transformer 效能這麼好?它為眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來?在人工智慧領域裡,transformer 已成為深度學習中的主導模型,但人們對於它卓越性能的理論基礎卻一直研究不足。

最近,來自 Google AI、蘇黎世聯邦理工學院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。在新研究中,他們對 transformer 進行了逆向工程,尋找到了一些最佳化方法。論文《Uncovering mesa-optimization algorithms in Transformers》:有理論基礎,我們就可以進行深度最佳化了。
                    論文鏈接:https://arxiv.org/abs/2309.05858

作者證明,最小化通用自回歸損失會產生在Transformer 的前向傳遞中運行的基於輔助梯度的最佳化演算法。這種現象最近被稱為「mesa 優化(mesa-optimization)」。此外,研究人員發現所得的 mesa 最佳化演算法表現出上下文中的小樣本學習能力,與模型規模無關。因此,新的結果對先前大語言模型中出現的小樣本學習的原理進行了補充。

研究人員認為:Transformers 的成功是基於其在前向傳遞中實現mesa 最佳化演算法的架構偏差:(i) 定義內部學習目標,以及(ii) 對其進行優化。

有理論基礎,我們就可以進行深度最佳化了。

                  圖1:新假設的說明:最佳化自回歸Transformer fθ 的權重θ 會產生在模型前向傳播演算法。作為輸入序列 s_1, . 。 。 , s_t 被處理到時間步t,Transformer (i) 建立一個由輸入- 目標關聯對組成的內部訓練集,(ii) 透過結果資料集定義內部目標函數,用於衡量內部模型的效能使用權重W, (iii) 最佳化該目標並使用學習的模型產生未來的預測有理論基礎,我們就可以進行深度最佳化了。

該研究的貢獻包括:

  • 概括了von Oswald 等人的理論,並展示了從理論上,Transformers 是如何透過使用基於梯度的方法優化內部構建的目標來自回歸預測序列下一個元素的。
  • 透過實驗對在簡單序列建模任務上訓練的Transformer 進行了逆向工程,並發現強有力的證據表明它們的前向傳遞實現了兩步演算法:(i ) 早期自註意力層透過分組和複製標記來建立內部訓練資料集,因此隱式地建立內部訓練資料集。定義內部目標函數,(ii) 更深層最佳化這些目標以產生預測。
  • 與LLM 類似,實驗表明簡單的自回歸訓練模型也可以成為上下文學習者,而即時調整對於改善LLM 的上下文學習至關重要,也可以提高特定環境中的表現。
  • 受發現注意力層試圖隱式優化內部目標函數的啟發,作者引入了mesa 層,這是一種新型注意力層,可以有效地解決最小二乘優化問題,而不是只採取單一梯度步驟來實現最優。實驗證明單一 mesa 層在簡單的順序任務上優於深度線性和 softmax 自註意力 Transformer,同時提供更多的可解釋性。

有理論基礎,我們就可以進行深度最佳化了。

  • 在初步的語言建模實驗後發現,用mesa 層替換標準的自註意力層獲得了有希望的結果,證明了該層具有強大的上下文學習能力。

基於最近人們的工作表明,經過明確訓練來解決上下文中的小樣本任務的 transformer 可以實現梯度下降(GD)演算法。在這裡,作者展示了這些結果可以推廣到自回歸序列建模 —— 這是訓練 LLM 的典型方法。

首先分析在簡單線性動力學上訓練的 transformer,其中每個序列由不同的 W* 產生 - 以防止跨序列記憶。在這個簡單的設定中,作者展示了 transformer 建立 mesa 資料集,然後使用預處理的 GD 優化 mesa 目標。

有理論基礎,我們就可以進行深度最佳化了。

該研究在聚合相鄰序列元素的 token 結構上訓練深度 transformer。有趣的是,這種簡單的預處理會產生極其稀疏的權重矩陣(只有不到 1% 的權重非零),從而產生逆向工程演算法。

有理論基礎,我們就可以進行深度最佳化了。

對於單層線性自註意力,權重對應一個 GD 步驟。對於深度 transformer,可解釋性就變得困難。該研究依靠線性探測並檢查隱藏激活是否可以預測自回歸目標或預處理輸入。

有趣的是,兩種探測方法的可預測性都會隨著網路深度的增加而逐漸提高。這項發現顯示模型中隱藏著預處理的 GD。

有理論基礎,我們就可以進行深度最佳化了。

                            圖 2中經過訓練期間使用期間的線性自​​我注意力層。

該研究發現,在建構中使用所有自由度時,可以完美地擬合訓練層,不僅包括學習的學習率η,也包括一組學習的初始權重W_0。重要的是,如圖 2 所示,學得的 one-step 演算法的性能仍然遠遠優於單一 mesa 層。

我們可以注意到,在簡單的權重設定下,很容易透過基礎最佳化發現,該層可以最優地解決此處研究的任務。此結果證明了硬編碼歸納偏差有利於 mesa 最佳化的優勢。

憑藉著多層案例的理論見解,先分析深度線性和 softmax 只注意 Transformer。作者根據 4 通道結構設定輸入格式,有理論基礎,我們就可以進行深度最佳化了。,這對應於選擇 W_0 = 0。

與單層模型一樣,作者在訓練模型的權重中看到了清晰的結構。作為第一個逆向工程分析,該研究利用這個結構並建立一個演算法(RevAlg-d,其中 d 表示層數),每個層頭包含 16 個參數(而不是 3200 個)。作者發現這種壓縮但複雜的表達式可以描述經過訓練的模型。特別是,它允許以幾乎無損的方式在實際 Transformer 和 RevAlg-d 權重之間進行插值。

雖然 RevAlg-d 表達式解釋了具有少量自由參數的經過訓練的多層 Transformer,但很難將其解釋為 mesa 最佳化演算法。因此,作者採用線性迴歸探測分析(Alain & Bengio,2017;Akyürek et al.,2023)來尋找假設的 mesa 最佳化演算法的特性。

在圖3 所示的深度線性自註意力Transformer 上,我們可以看到兩個探針都可以線性解碼,解碼性能隨著序列長度和網絡深度的增加而增加。因此,基礎最佳化發現了一種混合演算法,該演算法在原始 mesa-objective Lt (W) 的基礎上逐層下降,同時改進 mesa 最佳化問題的條件數。這導致  mesa-objective Lt (W) 快速下降。此外可以看到性能隨著深度的增加而顯著提高。

因此可以認為自回歸mesa-objective Lt (W) 的快速下降是透過對更好的預處理資料進行逐步(跨層)mesa 優化來實現的。

有理論基礎,我們就可以進行深度最佳化了。                           圖 3:建構中的 token 輸入進行反向工程的多層 Transformer 訓練。

這表明,如果 transformer 在建置的 token 上進行訓練,它就會透過 mesa 最佳化進行預測。有趣的是,當直接給出序列元素時,transformer 會自行透過將元素分組來建構 token,研究團隊稱之為「建立 mesa 資料集」。

有理論基礎,我們就可以進行深度最佳化了。結論

該研究表明,當在標準自回歸目標下針對序列預測任務進行訓練時,Transformer 模型能夠開發基於梯度的推理演算法。因此,在多任務、元學習設定下獲得的最新結果也可以轉換到傳統的自監督 LLM 訓練設定中。

此外,研究還發現學得的自回歸推理演算法可以在無需重新訓練的情況下重新調整用途,以解決有監督的上下文學習任務,從而在單一統一框架內解釋結果。

有理論基礎,我們就可以進行深度最佳化了。

那麼,這些與上下文學習(in-context learning)有什麼關係呢?研究認為:在自回歸序列任務上訓練 transformer 後,它實現了適當的 mesa 優化,因此可以進行少樣本(few-shot)上下文學習,而無需任何微調。

有理論基礎,我們就可以進行深度最佳化了。

該研究假設 LLM 也存在 mesa 最佳化,從而提高了其上下文學習能力。有趣的是,研究還觀察到,為 LLM 有效調整 prompt 也可以帶來上下文學習能力的實質改進。

有理論基礎,我們就可以進行深度最佳化了。

有理論基礎,我們就可以進行深度最佳化了。

有興趣的讀者可以閱讀論文原文,了解更多研究內容。

參考內容:
https://www.reddit. com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/
https://twitter.com/oswaldjoh/status/170187302910024124
#####################124124###################################################################################124124## ##

以上是有理論基礎,我們就可以進行深度最佳化了。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
五个时间序列预测的深度学习模型对比总结五个时间序列预测的深度学习模型对比总结May 05, 2023 pm 05:16 PM

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶Oct 27, 2023 pm 03:13 PM

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子Jan 04, 2024 pm 05:38 PM

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Aug 26, 2023 pm 09:01 PM

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊Apr 17, 2024 am 08:40 AM

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊Mar 27, 2024 pm 02:16 PM

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

手机摄影技术让以假乱真的好莱坞级电影特效视频走红手机摄影技术让以假乱真的好莱坞级电影特效视频走红Sep 07, 2023 am 09:41 AM

一个普通人用一台手机就能制作电影特效的时代已经来了。最近,一个名叫Simulon的3D技术公司发布了一系列特效视频,视频中的3D机器人与环境无缝融合,而且光影效果非常自然。呈现这些效果的APP也叫Simulon,它能让使用者通过手机摄像头的实时拍摄,直接渲染出CGI(计算机生成图像)特效,就跟打开美颜相机拍摄一样。在具体操作中,你要先上传一个3D模型(比如图中的机器人)。Simulon会将这个模型放置到你拍摄的现实世界中,并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR

谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐Jan 16, 2024 am 11:24 AM

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
1 個月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)