2017 年 Transformer 橫空出世,由Google在論文《Attention is all you need》中引入。這篇論文拋棄了以往深度學習任務裡面所使用的 CNN 和 RNN。這項開創性的研究顛覆了以往序列建模和 RNN 劃等號的思路,如今被廣泛用於 NLP。大熱的 GPT、BERT 等都是基於 Transformer 建構的。
Transformer 自推出以來,研究者已經提出了許多變體。但大家對 Transformer 的描述似乎都是以口頭形式、圖形解釋等方式介紹架構。關於 Transformer 的偽代碼描述可參考的資料很少。
正如下面這段話所表達的:一位AI 領域非常出名的研究者,曾向一位著名的複雜性理論家發送了一篇自認為寫得非常好的論文。而理論家的回答是:我在論文中找不到任何定理,我不知道這篇論文是關於什麼的。
對於從業者來說,論文可能足夠詳細,但理論家所需的精確度通常更高。由於某些原因,DL 社群似乎不願意為他們的神經網路模型提供偽代碼。
目前看來,DL 社群有以下問題:
DL 出版缺乏科學的準確性和細節。深度學習在過去 5 到 10 年間取得了巨大的成功,每年發表的論文數以千計。許多研究者只是非正式地描述了他們如何改變先前的模型,大約 100 多頁的論文只包含幾行非正式地模型描述。充其量是一些高階圖表,沒有偽代碼,沒有方程式,沒有提到對模型的精確解釋。甚至沒有人為著名的 Transformer 及其編碼器 / 解碼器變體提供偽代碼。
原始碼與偽代碼。開源原始碼非常有用,但與數千行的真實原始碼相比,精心設計的偽代碼通常不到一頁,基本上仍然是完整的。這似乎是一項沒有人願意做的苦工。
解釋訓練過程同樣重要,但有時論文中甚至沒有提到模型的輸入和輸出以及潛在的副作用是什麼。論文中的實驗部分通常不會解釋輸入演算法的內容以及如何輸入。如果方法部分有一些解釋,通常與實驗部分中描述的內容脫節,可能是由於不同的作者編寫了不同的部分造成的。
有人會問:真的需要偽代碼嗎? 偽代碼有什麼用?
來自DeepMind 的研究者認為提供偽代碼有很多用途,與閱讀文章或滾動1000 行實際代碼相比,偽代碼將所有重要的內容濃縮在一頁紙上,更容易開發新的變體。為此,他們最近發表的一篇論文《 Formal Algorithms for Transformers 》,文章以完整的、數學精確的方式來描述 Transformer 架構。
論文簡介
本文涵蓋了什麼是 Transformer、Transformer 如何訓練、Transformer 被用來做什麼、Transformer 關鍵架構元件以及比較出名的模型預覽。
#論文網址:https://arxiv.org/pdf/2207.09238.pdf
不過,閱讀本文,讀者需熟悉基礎ML 術語和簡單的神經網路體系架構(如MLPs)。對於讀者而言,在理解了文中的內容後,將會紮實的掌握 Transformer,並可能使用偽代碼實現自己的 Transformer 變體。
這篇論文的主體部分是第 3-8 章,分別介紹了 Transformer 及其典型任務、tokenization、Transformer 的架構組成、Transformer 的訓練和推理、實際應用。
論文中基本完整的偽代碼大約有 50 行,而實際的真實原始碼則有數千行。論文中表述演算法的偽代碼適用於需要緊湊、完整和精確公式的理論研究者、從頭實現 Transformer 的實驗研究人員,同時對使用形式 Transformer 演算法擴充論文或教科書也大有裨益。
論文中偽代碼範例
#對於熟悉基本的ML 術語和簡單的神經網路架構(例如MLP)的初學者來說,這篇論文將幫助你掌握紮實的Transformer 基礎,並用偽代碼模板實現自己的Transformer 模型。
作者介紹
這篇論文的第一作者是今年 3 月正式入職 DeepMind 的研究員 Mary Phuong。她博士畢業於奧地利科學技術研究所,主要從事機器學習的理論研究。
#論文的另一位作者是DeepMind 的資深研究員Marcus Hutter,也是澳大利亞國立大學(ANU) 電腦科學研究院(RSCS) 的名譽教授。
#Marcus Hutter 多年來一直從事人工智慧數學理論的研究。這個研究領域是基於若干數學和計算科學概念,涉及強化學習、機率論、演算法資訊理論、最佳化、搜尋和計算理論等。他的著作《通用人工智慧:基於演算法機率的順序決策》於 2005 年出版,這是一本技術性和數學性都很強的書。
2002 年,Marcus Hutter 與 Jürgen Schmidhuber 和 Shane Legg 一起提出了基於理想化智能體和獎勵強化學習的人工智慧數學理論 AIXI。 2009 年,Marcus Hutter 又提出了特徵強化學習理論。
以上是從頭開始構建,DeepMind新論文用偽代碼詳解Transformer的詳細內容。更多資訊請關注PHP中文網其他相關文章!

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

記事本++7.3.1
好用且免費的程式碼編輯器