2017 年,Vaswani 等人發表的 《Attention is all you need》成為神經網路架構發展的一個重要里程碑。這篇論文的核心貢獻是自註意機制,這是 Transformers 區別於傳統架構的創新之處,在其卓越的實用性能中發揮了重要作用。 事實上,這項創新已成為電腦視覺和自然語言處理等領域人工智慧進步的關鍵催化劑,同時在大語言模型的出現中也起到了關鍵作用。因此,了解 Transformers,尤其是自註意處理資料的機制,是一個至關重要但在很大程度上尚未充分研究的領域。
論文網址:https://arxiv.org/pdf/2312.10794.pdf 深度神經網路( DNNs)有一個共同特徵:輸入資料依照順序,被逐層處理,形成一個時間離散的動態系統(具體內容可以參考MIT 出版的《深度學習》,國內也被稱為「花書」)。這種觀點已被成功地用於將殘差網路建模到時間連續的動態系統上,後者被稱為神經常微分方程(neural ODEs)。在神經常微分方程中,輸入影像 在時間間隔 (0,T) 上會依照給定的時變速度場 進行演化。因此,DNN 可以看成是從一個 到另一個的流映射(Flow Map)。即使在經典 DNN 架構限制下的速度場中,流映射之間也具有強烈的相似性。 研究者發現,Transformers 實際上是在上的流映射,即 d 維概率測度空間(the space of probability measures)間的映射。為了實現這種在度量空間間進行轉換的流映射,Transformers 需要建立了一個平均場相互作用的粒子系統(mean-field interacting particle system.)。 具體來說,每個粒子(在深度學習情境下可以理解為token)都遵循向量場的流動,流動取決於所有粒子的經驗測度( empirical measure)。反過來,方程式決定了粒子經驗測量的演變過程,這個過程可能會持續很長時間,需要持續關注。 對此,研究者的主要觀察結果是,粒子們往往最終會聚集在一起。這種現像在諸如單向推導(即預測序列中的下一個詞)的學習任務中會特別明顯。輸出量測對下一個 token 的機率分佈進行編碼,根據聚類結果就可以篩選出少量可能的結果。 本文的研究結果表明,極限分佈實際上是一個點質量,不存在多樣性或隨機性,但這與實際觀測結果不符。這明顯的悖論因粒子存在長時間的可變狀態而解決。從圖2 和圖4 可以看出,Transformers 具有兩種不同的時間尺度:在第一階段,所有token 迅速形成幾個簇,而在第二階段(較第一階段速度慢得多),透過簇的成對合併過程,所有token 最終坍縮為一個點。