前段時間,一則指出Google大腦團隊論文《Attention Is All You Need》中 Transformer 架構圖與程式碼不一致的推文引發了大量的討論。
對於 Sebastian 的這項發現,有人認為屬於無心之過,但同時也會令人感到奇怪。畢竟,考慮到 Transformer 論文的流行程度,這個不一致問題早就應該被提及 1000 次。
Sebastian Raschka 在回答網友評論時說,「最最原始」的程式碼確實與架構圖一致,但2017 年提交的程式碼版本進行了修改,但同時沒有更新架構圖。這也是造成「不一致」討論的根本原因。
隨後,Sebastian 在 Ahead of AI 發布文章專門講述了為什麼最初的 Transformer 架構圖與程式碼不一致,並引用了多篇論文簡要說明了 Transformer 的發展變化。
以下為文章原文,讓我們一起看看文章到底講述了什麼:
幾個月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,正面的回饋非常鼓舞人心!因此,我添加了一些論文,以保持清單的新鮮感和相關性。
同時,保持清單簡潔扼要是至關重要的,這樣大家就可以用合理的時間就跟上進度。還有一些論文,資訊量很大,想來也應該包括在內。
我想分享四篇有用的論文,從歷史的角度來理解 Transformer。雖然我只是直接將它們添加到理解大型語言模型的文章中,但我也在這篇文章中單獨來分享它們,以便那些之前已經閱讀過理解大型語言模型的人更容易找到它們。
On Layer Normalization in the Transformer Architecture (2020)
雖然下圖(左)的Transformer 原始圖(https://arxiv.org/abs/1706.03762)是對原始編碼器- 解碼器架構的有用總結,但該圖有一個小小的差異。例如,它在殘差區塊之間進行了層歸一化,這與原始 Transformer 論文附帶的官方 (更新後的) 程式碼實作不符。下圖(中)所示的變體稱為 Post-LN Transformer。
Transformer 架構論文中的層歸一化表明,Pre-LN 工作得更好,可以解決梯度問題,如下所示。許多體系架構在實踐中採用了這種方法,但它可能導致表徵的崩潰。
因此,雖然仍然有關於使用Post-LN 或前Pre-LN 的討論,也有一篇新論文提出了將兩個一起應用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在實踐中是否有用還有待觀察。
#圖示:圖源https://arxiv.org/abs/1706.03762 (左& 中) and https://arxiv.org/abs/2002.04745 (右)
##Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks (1991)
這篇文章推薦給那些對歷史花絮和早期方法感興趣的人,這些方法基本上類似於現代Transformer。
例如,在比Transformer 論文早25 年的1991 年,Juergen Schmidhuber 提出了一種遞歸神經網路的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control- Fast-Weight-Memories:-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),稱為Fast Weight Programmers (FWP)。另一個實現快速權值變化的神經網路是透過使用梯度下降演算法緩慢學習的 FWP 方法中所涉及的前饋神經網路。
這篇部落格(https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2) 將其與現代Transformer 進行類比,如下所示:
在今天的Transformer 術語中,FROM 和TO 分別稱為鍵(key) 和值(value)。應用快速網路的輸入稱為查詢。本質上,查詢由快速權重矩陣 (fast weight matrix) 處理,它是鍵和值的外積總和 (忽略歸一化和投影)。我們可以使用加法外積或二階張量積來實現端對端可微的主動控制權值快速變化,因為兩個網路的所有操作都支援微分。在序列處理期間,梯度下降可以用於快速調整快速網絡,從而應對慢速網絡的問題。這在數學上等同於 (除了歸一化之外) 後來被稱為具有線性化自註意的 Transformer (或線性 Transformer)。
如上文摘錄所提到的,這種方法現在被稱為線性 Transformer 或具有線性化自註意的 Transformer。它們來自於2020 年出現在arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv. org/abs/2009.14794)。
2021 年,論文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明確表明了線性化自註意力和20 世紀90年代的快速權重編程器之間的等價性。
#圖表來源:https://people.idsia.ch// ~juergen/fast-weight-programmer-1991-transformer.html#sec2
##Universal Language Model Fine-tuning for Text Classification (2018)
這是另一篇從歷史角度來看非常有趣的論文。它是在原版《Attention Is All You Need》發布一年後寫的,並沒有涉及 transformer,而是專注於循環神經網絡,但它仍然值得關注。因為它有效地提出了預訓練語言模型和遷移學習的下游任務。雖然遷移學習已經在電腦視覺中確立,但在自然語言處理 (NLP) 領域還沒有普及。 ULMFit(https://arxiv.org/abs/1801.06146)是第一批表明預訓練語言模型在特定任務上微調後,可以在許多 NLP 任務中產生 SOTA 結果的論文之一。
ULMFit 建議的語言模型微調過程分為三個階段:
在大型語料庫上訓練語言模型,然後在下游任務上對其進行微調的這種方法,是基於Transformer 的模型和基礎模型(如BERT、GPT -2/3/4、RoBERTa 等) 所使用的核心方法。
然而,作為 ULMFiT 的關鍵部分,逐步解凍通常在實踐中不進行,因為 Transformer 架構通常一次對所有層進行微調。
#
Gopher 是一篇特別好的論文(https://arxiv.org/abs/2112.11446),包括大量的分析來理解 LLM 訓練。研究人員在 3000 億個 token 上訓練了一個 80 層的 2800 億個參數模型。其中包括一些有趣的架構修改,例如使用 RMSNorm (均方根歸一化) 而不是 LayerNorm (層歸一化)。 LayerNorm 和 RMSNorm 都優於 BatchNorm,因為它們不局限於批次大小,也不需要同步,這在批次大小較小的分散式設定中是一個優勢。 RMSNorm 通常被認為在更深的體系架構中會穩定訓練。
除了上述這些有趣的花絮之外,本文的主要重點是分析不同規模下的任務效能分析。對 152 個不同任務的評估顯示,增加模型大小對理解、事實查核和識別有毒語言等任務最有利,而架構擴展對與邏輯和數學推理相關的任務從益處不大。
圖註:圖源 https://arxiv.org/abs/2112.11446
#以上是此「錯」並非真的錯:從四篇經典論文入手,理解Transformer架構圖「錯」在何處的詳細內容。更多資訊請關注PHP中文網其他相關文章!