圖與程式碼不一致，Transformer論文被發現錯誤，網友：早該被指出1000次-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

圖與程式碼不一致，Transformer論文被發現錯誤，網友：早該被指出1000次

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 25, 2023 pm 03:01 PM

ai程式碼

2017 年，Google大腦團隊在其論文《Attention Is All You Need》中創造性的提出Transformer 這一架構，自此這一研究一路開掛，成為當今NLP 領域最受歡迎的模型之一，被廣泛應用於各種語言任務，並取得了許多SOTA 結果。

不僅如此，在NLP 領域一路領先的Transformer，迅速席捲電腦視覺（CV）、語音辨識等領域，在影像分類、目標偵測、語音辨識等任務上取得良好的效果。

圖與程式碼不一致，Transformer論文被發現錯誤，網友：早該被指出1000次

#論文網址：https://arxiv.org/pdf/1706.03762 .pdf

從推出至今，Transformer 已成為眾多模型的核心模組，例如大家熟悉的BERT、T5 等都有Transformer 的身影。就連近段時間爆紅的 ChatGPT 也依賴 Transformer，而後者早已被Google申請了專利。

圖與程式碼不一致，Transformer論文被發現錯誤，網友：早該被指出1000次

#圖表來源：https://patentimages.storage.googleapis.com /05/e8/f1/cd8eed389b7687/US10452978.pdf

此外OpenAI 發布的系列模型GPT（Generative Pre-trained Transformer），名字中帶有Transformer，可見Transformer是GPT 系列模型的核心。

與此同時，最近OpenAI 聯合創始人Ilya Stutskever 在談到Transformer 時表示，當Transformer 剛發布之初，實際上是論文放出來的第二天，他們就迫不及待的將先前的研究切換到Transformer ，後續有了GPT。可見 Transformer 的重要性不言而喻。

6 年時間，基於 Transformer 建構的模型不斷發展壯大。然而現在，有人發現了 Transformer 原始論文中的錯誤。

Transformer 架構圖與程式碼「不一致」

發現錯誤的是一位知名機器學習與AI 研究者、新創公司Lightning AI 的首席AI 教育家Sebastian Raschka。他指出，原始 Transformer 論文中的架構圖有誤，將層歸一化（LN）放置在了殘差塊之間，而這與程式碼不一致。

圖與程式碼不一致，Transformer論文被發現錯誤，網友：早該被指出1000次

#Transformer 架構圖如下左，圖右為Post-LN Transformer 層（出自論文《On Layer Normalization in the Transformer Architecture》［1］）。

不一致的程式碼部分如下，其中 82 行寫了執行順序「layer_postprocess_sequence＝"dan"」，表示後處理依序執行 dropout、residual_add 和 layer_norm。如果上圖左中的 add&norm 理解為：add 在 norm 上面，即先 norm 再 add，那確實代碼和圖不一致。

程式碼位址：

#https://github.com/tensorflow/tensor2tensor/commit/ f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c#8 ，論文《On Layer Normalization in the Transformer Architecture》認為Pre-LN 表現較好，能夠解決梯度問題。這是很多或大多數架構在實踐中所採用的，但它可能導致表示崩潰。

當層歸一化在註意力和全連接層之前被放置在殘差連接之中時，能夠實現更好的梯度。

圖與程式碼不一致，Transformer論文被發現錯誤，網友：早該被指出1000次

因此，雖然關於Post-LN 或Pre-LN 的爭論仍在繼續，但另一篇論文結合了這兩點，即《ResiDual: Transformer with Dual Residual Connections》［2］。

對於 Sebastian 的這項發現，有人認為，我們經常會遇到與程式碼或結果不一致的論文。大多數是無心之過，但有時令人感到奇怪。考慮到 Transformer 論文的流行程度，這個不一致問題早就該被提及 1000 次。

Sebastian 回答稱，公平地講，「最最原始」的程式碼確實與架構圖一致，但 2017 年提交的程式碼版本進行了修改，同時沒有更新架構圖。所以，這實在令人困惑。

圖與程式碼不一致，Transformer論文被發現錯誤，網友：早該被指出1000次

#正如一位網友所說，「讀程式碼最糟糕的是，你會經常發現這樣的小變化，而你不知道是有意還是無意。你甚至無法測試它，因為你沒有足夠的算力來訓練模型。」

##不知谷歌之後會更新程式碼還是架構圖，我們拭目以待！

以上是圖與程式碼不一致，Transformer論文被發現錯誤，網友：早該被指出1000次的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

Gemma範圍：Google＆＃039;用於凝視AI的顯微鏡Apr 17, 2025 am 11:55 AM

使用Gemma範圍探索語言模型的內部工作了解AI語言模型的複雜性是一個重大挑戰。 Google發布的Gemma Scope是一種綜合工具包，為研究人員提供了一種強大的探索方式

誰是商業智能分析師以及如何成為一位？Apr 17, 2025 am 11:44 AM

解鎖業務成功：成為商業智能分析師的指南想像一下，將原始數據轉換為驅動組織增長的可行見解。這是商業智能（BI）分析師的力量 - 在GU中的關鍵作用

如何在SQL中添加列？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表語句：動態地將列添加到數據庫在數據管理中，SQL的適應性至關重要。需要即時調整數據庫結構嗎？ Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

業務分析師與數據分析師Apr 17, 2025 am 11:38 AM

介紹想像一個繁華的辦公室，兩名專業人員在一個關鍵項目中合作。業務分析師專注於公司的目標，確定改進領域，並確保與市場趨勢保持戰略一致。 simu

什麼是Excel中的Count和Counta？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 數據計數與分析：COUNT 和 COUNTA 函數詳解精確的數據計數和分析在 Excel 中至關重要，尤其是在處理大型數據集時。 Excel 提供了多種函數來實現此目的，其中 COUNT 和 COUNTA 函數是用於在不同條件下統計單元格數量的關鍵工具。雖然這兩個函數都用於計數單元格，但它們的設計目標卻針對不同的數據類型。讓我們深入了解 COUNT 和 COUNTA 函數的具體細節，突出它們獨特的特性和區別，並學習如何在數據分析中應用它們。要點概述理解 COUNT 和 COU