Transformer 是一個支持向量機(SVM)一種新型理論在學界引發了人們的討論。
上週末,一篇來自賓州大學、加州大學河濱分校的論文試圖研究大模型基礎Transformer 結構的原理,其在註意力層的最佳化幾何與將最優輸入token 與非最優token 分開的硬邊界SVM 問題之間建立了形式等價。
在 hackernews 上作者表示,這種理論解決了 SVM 將每個輸入序列中的「好」標記與「壞」token 分開的問題。此 SVM 作為一個效能優異的 token 選擇器,與傳統為輸入分配 0-1 標籤的 SVM 本質上不同。
這個理論也解釋了注意力如何透過softmax 引起稀疏性:落在SVM 決策邊界錯誤一側的「壞」token 被softmax 函數抑制,而「好」token是那些最終具有非零softmax 機率的token。另外值得一提的是,這個 SVM 源自於 softmax 的指數性質。
論文上傳到 arXiv 上面之後,人們紛紛發表意見,有人表示:AI 研究的方向真是螺旋上升,難道又要繞回去了?
繞了一圈,支援向量機還是沒有過時。
自經典論文《Attention is All You Need》問世以來,Transformer 架構已為自然語言處理(NLP)領域帶來了革命性進展。 Transformer 中的注意力層接受一系列輸入token X,並透過計算 來評估token 之間的相關性,其中(K, Q) 是可訓練的key-query 參數,最終有效捕獲遠端依賴關係。
現在,一篇名為《Transformers as Support Vector Machines》的新論文在自註意力的優化幾何和hard-margin SVM 問題之間建立了一種形式等價,使用token 對的外積線性限制將最佳輸入token 與非最優token 分開。
論文連結:https://arxiv.org/pdf/2308.16898.pdf
這種形式等價建立在Davoud Ataee Tarzanagh 等人的論文《Max-Margin Token Selection in Attention Mechanism》的基礎上,它能夠描述透過梯度下降進行優化的1 層transformer 的隱式偏差(implicit bias):
(1) 最佳化由(K, Q) 參數化的注意力層,透過消失正則化(vanishing regularization),收斂到一種SVM 解,其中最小化組合參數 的核範數(nuclear norm)。相反,直接透過 W 進行參數化可以最小化 Frobenius 範數 SVM 目標。該論文描述了這種收斂,並強調它可以發生在局部最優方向而不是全域最優方向。
(2) 論文也證明了 W 參數化在適當的幾何條件下梯度下降的局部 / 全域方向收斂。重要的是,過度參數化透過確保 SVM 問題的可行性和保證沒有駐點(stationary points)的良性最佳化環境來催化全域收斂。
(3) 雖然該研究的理論主要適用於線性預測頭,但研究團隊提出了一種更通用的SVM 等價物,可以預測具有非線性頭/ MLP 的1層transformer 的隱性偏差。
總的來說,研究的結果適用於一般資料集,可以擴展到交叉注意力層,並且研究結論的實際有效性已經通過徹底的數值實驗得到了驗證。研究建立一種新的研究視角,將多層 transformer 看作分離並選擇最佳 token 的 SVM 層次結構。
具體來說,給定長度為T,嵌入維度為d 的輸入序列 ,研究分析核心交叉注意力和自註意力模型:
其中,K、Q、V 分別是可訓練的鍵、查詢、值矩陣,; S (・) 表示softmax 非線性,它逐行應用於
。研究假設將 Z 的第一個 token(以 z 表示)用於預測。具體來說,給定一個訓練資料集
,
#,
,該研究使用遞減損失函數
# 進行最小化:
#這裡,h (・) : 是包含值權重V 的預測頭。在這種表述中,模型 f (・) 精確地表示了一個單層 transformer,其中註意力層之後是一個 MLP。作者透過設定
來恢復 (2) 中的自註意力,其中 x_i 表示序列 X_i 的第一個 token。由於 softmax 運算的非線性性質,它給最佳化帶來了巨大挑戰。即使預測頭是固定和線性的,該問題也是非凸和非線性的。在本研究中,作者將重點放在優化注意力權重(K、Q 或 W)上,並克服這些挑戰,從而建立 SVM 的基本等價性。
論文結構如下:第2 章介紹了自註意力和最佳化的初步知識;第3 章分析了自註意力的最佳化幾何,顯示注意力參數RP 收斂到最大邊際解;第4 章和第5 章分別介紹了全局和局部梯度下降分析,顯示key-query 變數W 向(Att-SVM) 的解決方案收斂;第6 章提供了在非線性預測頭和廣義SVM等價性方面的結果;第7 章將理論擴展到順序預測和因果預測;第8 章討論了相關文獻。最後,第 9 章進行總結,提出開放性問題和未來研究方向。
論文的主要內容如下:
#注意力層的內隱偏差(第2-3 章)
正規化消失的情況下最佳化注意力參數(K, Q),會在方向上收斂到的最大邊際解,其核範數目標是組合參數
。在直接以組合參數 W 對交叉注意力進行參數化的情況下,正則化路徑 (RP) 定向收斂於以 Frobenius 範數為目標的(Att-SVM)解。
這是第一個正式區分 W 與(K,Q)參數化最佳化動態的結果,揭示了後者的低階偏差。研究的理論清楚地描述了所選 token 的最優性,並自然地擴展到了序列到序列或因果分類設定。
梯度下降的收斂(第4-5 章)
透過適當的初始化和線性頭h (・),組合key-query 變數W 的梯度下降(GD)迭代在方向上收斂到(Att-SVM)的局部最適解(第5 節)。要達到局部最優,所選 token 必須比相鄰 token 得分更高。
局部最優方向不一定是唯一的,可以根據問題的幾何特徵來決定 [TLZO23]。作為重要貢獻,作者確定了保證向全域最優方向收斂的幾何條件(第 4 章)。這些條件包括:
- 最佳 token 在分數上有明顯差異;
- 初始梯度方向與最佳 token 一致。
除此之外,論文還展示了過度參數化(即維度d 較大,以及同等條件)透過確保(1)(Att-SVM)的可行性,以及(2)良性最佳化landscape(即不存在靜止點和虛假的局部最優方向)來催化全域收斂(見第5.2 節)。
圖 1 和圖 2 對此進行了說明。
SVM 等價的通用性(第6 章)
當使用線性h (・) 進行最佳化時,注意力層會固有地偏向於從每個序列中選擇一個token(又稱硬注意力)。這反映在了 (Att-SVM) 中,表現為輸出 token 是輸入 token 的凸組合。與此相反,作者表明非線性頭必須由多個 token 組成,從而突出了它們在 transformer 動態過程中的重要性(第 6.1 節)。利用從理論中獲得的洞察力,作者提出了一種更通用的 SVM 等價方法。
值得注意的是,他們證明了在理論未涵蓋的普遍情況下(例如,h (・) 是一個MLP),本文的方法能準確預測透過梯度下降訓練的注意力的隱含偏差。具體來說,本文的通用公式將注意力權重解耦為兩個部分:一個是由SVM 控制的定向部分,它透過應用0-1 掩碼來選擇標記;另一個是有限部分,它透過調整softmax機率來決定所選token 的精確組成。
###這些發現的一個重要特點是,它們適用於任意資料集(只要 SVM 可行),並且可以用數字驗證。作者透過實驗廣泛驗證了 transformer 的最大邊際等價性和隱含偏差。作者認為,這些發現有助於理解作為分層最大邊際 token 選擇機制的 transformer,可為即將進行的有關其最佳化和泛化動態的研究奠定基礎。 ######以上是聽我說,Transformer它就是個支援向量機的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1
強大的PHP整合開發環境

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)