搜尋
首頁科技週邊人工智慧此「錯」並非真的錯:從四篇經典論文入手,理解Transformer架構圖「錯」在何處

前段時間,一則指出Google大腦團隊論文《Attention Is All You Need》中 Transformer 架構圖與程式碼不一致的推文引發了大量的討論。

對於 Sebastian 的這項發現,有人認為屬於無心之過,但同時也會令人感到奇怪。畢竟,考慮到 Transformer 論文的流行程度,這個不一致問題早就應該被提及 1000 次。

Sebastian Raschka 在回答網友評論時說,「最最原始」的程式碼確實與架構圖一致,但2017 年提交的程式碼版本進行了修改,但同時沒有更新架構圖。這也是造成「不一致」討論的根本原因。

隨後,Sebastian 在 Ahead of AI 發布文章專門講述了為什麼最初的 Transformer 架構圖與程式碼不一致,並引用了多篇論文簡要說明了 Transformer 的發展變化。

此「錯」並非真的錯:從四篇經典論文入手,理解Transformer架構圖「錯」在何處

以下為文章原文,讓我們一起看看文章到底講述了什麼:

幾個月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,正面的回饋非常鼓舞人心!因此,我添加了一些論文,以保持清單的新鮮感和相關性。

同時,保持清單簡潔扼要是至關重要的,這樣大家就可以用合理的時間就跟上進度。還有一些論文,資訊量很大,想來也應該包括在內。

我想分享四篇有用的論文,從歷史的角度來理解 Transformer。雖然我只是直接將它們添加到理解大型語言模型的文章中,但我也在這篇文章中單獨來分享它們,以便那些之前已經閱讀過理解大型語言模型的人更容易找到它們。

On Layer Normalization in the Transformer Architecture (2020)

雖然下圖(左)的Transformer 原始圖(https://arxiv.org/abs/1706.03762)是對原始編碼器- 解碼器架構的有用總結,但該圖有一個小小的差異。例如,它在殘差區塊之間進行了層歸一化,這與原始 Transformer 論文附帶的官方 (更新後的) 程式碼實作不符。下圖(中)所示的變體稱為 Post-LN Transformer。

Transformer 架構論文中的層歸一化表明,Pre-LN 工作得更好,可以解決梯度問題,如下所示。許多體系架構在實踐中採用了這種方法,但它可能導致表徵的崩潰。

因此,雖然仍然有關於使用Post-LN 或前Pre-LN 的討論,也有一篇新論文提出了將兩個一起應用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在實踐中是否有用還有待觀察。


此「錯」並非真的錯:從四篇經典論文入手,理解Transformer架構圖「錯」在何處

#圖示:圖源https://arxiv.org/abs/1706.03762 (左& 中) and https://arxiv.org/abs/2002.04745 (右) 

##Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks (1991)

這篇文章推薦給那些對歷史花絮和早期方法感興趣的人,這些方法基本上類似於現代Transformer。

例如,在比Transformer 論文早25 年的1991 年,Juergen Schmidhuber 提出了一種遞歸神經網路的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control- Fast-Weight-Memories:-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),稱為Fast Weight Programmers (FWP)。另一個實現快速權值變化的神經網路是透過使用梯度下降演算法緩慢學習的 FWP 方法中所涉及的前饋神經網路。

這篇部落格(https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2) 將其與現代Transformer 進行類比,如下所示:

在今天的Transformer 術語中,FROM 和TO 分別稱為鍵(key) 和值(value)。應用快速網路的輸入稱為查詢。本質上,查詢由快速權重矩陣 (fast weight matrix) 處理,它是鍵和值的外積總和 (忽略歸一化和投影)。我們可以使用加法外積或二階張量積來實現端對端可微的主動控制權值快速變化,因為兩個網路的所有操作都支援微分。在序列處理期間,梯度下降可以用於快速調整快速網絡,從而應對慢速網絡的問題。這在數學上等同於 (除了歸一化之外) 後來被稱為具有線性化自註意的 Transformer (或線性 Transformer)。

如上文摘錄所提到的,這種方法現在被稱為線性 Transformer 或具有線性化自註意的 Transformer。它們來自於2020 年出現在arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv. org/abs/2009.14794)。

2021 年,論文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明確表明了線性化自註意力和20 世紀90年代的快速權重編程器之間的等價性。


此「錯」並非真的錯:從四篇經典論文入手,理解Transformer架構圖「錯」在何處

#圖表來源:https://people.idsia.ch// ~juergen/fast-weight-programmer-1991-transformer.html#sec2

##Universal Language Model Fine-tuning for Text Classification (2018)

這是另一篇從歷史角度來看非常有趣的論文。它是在原版《Attention Is All You Need》發布一年後寫的,並沒有涉及 transformer,而是專注於循環神經網絡,但它仍然值得關注。因為它有效地提出了預訓練語言模型和遷移學習的下游任務。雖然遷移學習已經在電腦視覺中確立,但在自然語言處理 (NLP) 領域還沒有普及。 ULMFit(https://arxiv.org/abs/1801.06146)是第一批表明預訓練語言模型在特定任務上微調後,可以在許多 NLP 任務中產生 SOTA 結果的論文之一。

ULMFit 建議的語言模型微調過程分為三個階段:

  • 1. 在大量的文字語料庫上訓練語言模型;
  • 2. 根據任務特定的資料對預訓練的語言模型進行微調,使其能夠適應文本的特定風格和詞彙;
  • 3. 微調特定任務資料上的分類器,透過逐步解凍各層來避免災難性遺忘。

在大型語料庫上訓練語言模型,然後在下游任務上對其進行微調的這種方法,是基於Transformer 的模型和基礎模型(如BERT、GPT -2/3/4、RoBERTa 等) 所使用的核心方法。

然而,作為 ULMFiT 的關鍵部分,逐步解凍通常在實踐中不進行,因為 Transformer 架構通常一次對所有層進行微調。


此「錯」並非真的錯:從四篇經典論文入手,理解Transformer架構圖「錯」在何處#

Gopher 是一篇特別好的論文(https://arxiv.org/abs/2112.11446),包括大量的分析來理解 LLM 訓練。研究人員在 3000 億個 token 上訓練了一個 80 層的 2800 億個參數模型。其中包括一些有趣的架構修改,例如使用 RMSNorm (均方根歸一化) 而不是 LayerNorm (層歸一化)。 LayerNorm 和 RMSNorm 都優於 BatchNorm,因為它們不局限於批次大小,也不需要同步,這在批次大小較小的分散式設定中是一個優勢。 RMSNorm 通常被認為在更深的體系架構中會穩定訓練。

除了上述這些有趣的花絮之外,本文的主要重點是分析不同規模下的任務效能分析。對 152 個不同任務的評估顯示,增加模型大小對理解、事實查核和識別有毒語言等任務最有利,而架構擴展對與邏輯和數學推理相關的任務從益處不大。

此「錯」並非真的錯:從四篇經典論文入手,理解Transformer架構圖「錯」在何處

圖註:圖源 https://arxiv.org/abs/2112.11446

#

以上是此「錯」並非真的錯:從四篇經典論文入手,理解Transformer架構圖「錯」在何處的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用LM Studio在本地運行LLM? - 分析Vidhya如何使用LM Studio在本地運行LLM? - 分析VidhyaApr 19, 2025 am 11:38 AM

輕鬆在家運行大型語言模型:LM Studio 使用指南 近年來,軟件和硬件的進步使得在個人電腦上運行大型語言模型 (LLM) 成為可能。 LM Studio 就是一個讓這一過程變得輕鬆便捷的優秀工具。本文將深入探討如何使用 LM Studio 在本地運行 LLM,涵蓋關鍵步驟、潛在挑戰以及在本地擁有 LLM 的優勢。無論您是技術愛好者還是對最新 AI 技術感到好奇,本指南都將提供寶貴的見解和實用技巧。讓我們開始吧! 概述 了解在本地運行 LLM 的基本要求。 在您的電腦上設置 LM Studi

蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來Apr 19, 2025 am 11:35 AM

蓋伊·佩里(Guy Peri)是麥考密克(McCormick)的首席信息和數字官。儘管他的角色僅七個月,但Peri正在迅速促進公司數字能力的全面轉變。他的職業生涯專注於數據和分析信息

迅速工程中的情感鍊是什麼? - 分析Vidhya迅速工程中的情感鍊是什麼? - 分析VidhyaApr 19, 2025 am 11:33 AM

介紹 人工智能(AI)不僅要理解單詞,而且要理解情感,從而以人的觸感做出反應。 這種複雜的互動對於AI和自然語言處理的快速前進的領域至關重要。 Th

12個最佳數據科學工作流程的AI工具-Analytics Vidhya12個最佳數據科學工作流程的AI工具-Analytics VidhyaApr 19, 2025 am 11:31 AM

介紹 在當今以數據為中心的世界中,利用先進的AI技術對於尋求競爭優勢和提高效率的企業至關重要。 一系列強大的工具使數據科學家,分析師和開發人員都能構建,Depl

AV字節:OpenAI的GPT-4O Mini和其他AI創新AV字節:OpenAI的GPT-4O Mini和其他AI創新Apr 19, 2025 am 11:30 AM

本週的AI景觀爆炸了,來自Openai,Mistral AI,Nvidia,Deepseek和Hugging Face等行業巨頭的開創性發行。 這些新型號有望提高功率,負擔能力和可訪問性,這在TR的進步中推動了

報告發現,困惑的Android應用程序有安全缺陷。報告發現,困惑的Android應用程序有安全缺陷。Apr 19, 2025 am 11:24 AM

但是,該公司的Android應用不僅提供搜索功能,而且還充當AI助手,並充滿了許多安全問題,可以將其用戶暴露於數據盜用,帳戶收購和惡意攻擊中

每個人都擅長使用AI:關於氛圍編碼的想法每個人都擅長使用AI:關於氛圍編碼的想法Apr 19, 2025 am 11:17 AM

您可以查看會議和貿易展覽中正在發生的事情。您可以詢問工程師在做什麼,或諮詢首席執行官。 您看的任何地方,事情都以驚人的速度發生變化。 工程師和非工程師 有什麼區別

火箭發射模擬和分析使用Rocketpy -Analytics Vidhya火箭發射模擬和分析使用Rocketpy -Analytics VidhyaApr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境