Transformer 是一個支持向量機(SVM)一種新型理論在學界引發了人們的討論。
上週末,一篇來自賓州大學、加州大學河濱分校的論文試圖研究大模型基礎Transformer 結構的原理,其在註意力層的最佳化幾何與將最優輸入token 與非最優token 分開的硬邊界SVM 問題之間建立了形式等價。
在 hackernews 上作者表示,這種理論解決了 SVM 將每個輸入序列中的「好」標記與「壞」token 分開的問題。此 SVM 作為一個效能優異的 token 選擇器,與傳統為輸入分配 0-1 標籤的 SVM 本質上不同。
這個理論也解釋了注意力如何透過softmax 引起稀疏性:落在SVM 決策邊界錯誤一側的「壞」token 被softmax 函數抑制,而「好」token是那些最終具有非零softmax 機率的token。另外值得一提的是,這個 SVM 源自於 softmax 的指數性質。
論文上傳到 arXiv 上面之後,人們紛紛發表意見,有人表示:AI 研究的方向真是螺旋上升,難道又要繞回去了?
繞了一圈,支援向量機還是沒有過時。
自經典論文《Attention is All You Need》問世以來,Transformer 架構已為自然語言處理(NLP)領域帶來了革命性進展。 Transformer 中的注意力層接受一系列輸入token X,並透過計算 來評估token 之間的相關性,其中(K, Q) 是可訓練的key-query 參數,最終有效捕獲遠端依賴關係。
現在,一篇名為《Transformers as Support Vector Machines》的新論文在自註意力的優化幾何和hard-margin SVM 問題之間建立了一種形式等價,使用token 對的外積線性限制將最佳輸入token 與非最優token 分開。
論文連結:https://arxiv.org/pdf/2308.16898.pdf
這種形式等價建立在Davoud Ataee Tarzanagh 等人的論文《Max-Margin Token Selection in Attention Mechanism》的基礎上,它能夠描述透過梯度下降進行優化的1 層transformer 的隱式偏差(implicit bias):
(1) 最佳化由(K, Q) 參數化的注意力層,透過消失正則化(vanishing regularization),收斂到一種SVM 解,其中最小化組合參數 的核範數(nuclear norm)。相反,直接透過 W 進行參數化可以最小化 Frobenius 範數 SVM 目標。該論文描述了這種收斂,並強調它可以發生在局部最優方向而不是全域最優方向。
(2) 論文也證明了 W 參數化在適當的幾何條件下梯度下降的局部 / 全域方向收斂。重要的是,過度參數化透過確保 SVM 問題的可行性和保證沒有駐點(stationary points)的良性最佳化環境來催化全域收斂。
(3) 雖然該研究的理論主要適用於線性預測頭,但研究團隊提出了一種更通用的SVM 等價物,可以預測具有非線性頭/ MLP 的1層transformer 的隱性偏差。
總的來說,研究的結果適用於一般資料集,可以擴展到交叉注意力層,並且研究結論的實際有效性已經通過徹底的數值實驗得到了驗證。研究建立一種新的研究視角,將多層 transformer 看作分離並選擇最佳 token 的 SVM 層次結構。
具體來說,給定長度為T,嵌入維度為d 的輸入序列 ,研究分析核心交叉注意力和自註意力模型:
其中,K、Q、V 分別是可訓練的鍵、查詢、值矩陣,; S (・) 表示softmax 非線性,它逐行應用於
。研究假設將 Z 的第一個 token(以 z 表示)用於預測。具體來說,給定一個訓練資料集
,
#,
,該研究使用遞減損失函數
# 進行最小化:
#這裡,h (・) : 是包含值權重V 的預測頭。在這種表述中,模型 f (・) 精確地表示了一個單層 transformer,其中註意力層之後是一個 MLP。作者透過設定
來恢復 (2) 中的自註意力,其中 x_i 表示序列 X_i 的第一個 token。由於 softmax 運算的非線性性質,它給最佳化帶來了巨大挑戰。即使預測頭是固定和線性的,該問題也是非凸和非線性的。在本研究中,作者將重點放在優化注意力權重(K、Q 或 W)上,並克服這些挑戰,從而建立 SVM 的基本等價性。
論文結構如下:第2 章介紹了自註意力和最佳化的初步知識;第3 章分析了自註意力的最佳化幾何,顯示注意力參數RP 收斂到最大邊際解;第4 章和第5 章分別介紹了全局和局部梯度下降分析,顯示key-query 變數W 向(Att-SVM) 的解決方案收斂;第6 章提供了在非線性預測頭和廣義SVM等價性方面的結果;第7 章將理論擴展到順序預測和因果預測;第8 章討論了相關文獻。最後,第 9 章進行總結,提出開放性問題和未來研究方向。
論文的主要內容如下:
#注意力層的內隱偏差(第2-3 章)
正規化消失的情況下最佳化注意力參數(K, Q),會在方向上收斂到的最大邊際解,其核範數目標是組合參數
。在直接以組合參數 W 對交叉注意力進行參數化的情況下,正則化路徑 (RP) 定向收斂於以 Frobenius 範數為目標的(Att-SVM)解。
這是第一個正式區分 W 與(K,Q)參數化最佳化動態的結果,揭示了後者的低階偏差。研究的理論清楚地描述了所選 token 的最優性,並自然地擴展到了序列到序列或因果分類設定。
梯度下降的收斂(第4-5 章)
透過適當的初始化和線性頭h (・),組合key-query 變數W 的梯度下降(GD)迭代在方向上收斂到(Att-SVM)的局部最適解(第5 節)。要達到局部最優,所選 token 必須比相鄰 token 得分更高。
局部最優方向不一定是唯一的,可以根據問題的幾何特徵來決定 [TLZO23]。作為重要貢獻,作者確定了保證向全域最優方向收斂的幾何條件(第 4 章)。這些條件包括:
- 最佳 token 在分數上有明顯差異;
- 初始梯度方向與最佳 token 一致。
除此之外,論文還展示了過度參數化(即維度d 較大,以及同等條件)透過確保(1)(Att-SVM)的可行性,以及(2)良性最佳化landscape(即不存在靜止點和虛假的局部最優方向)來催化全域收斂(見第5.2 節)。
圖 1 和圖 2 對此進行了說明。
SVM 等價的通用性(第6 章)
當使用線性h (・) 進行最佳化時,注意力層會固有地偏向於從每個序列中選擇一個token(又稱硬注意力)。這反映在了 (Att-SVM) 中,表現為輸出 token 是輸入 token 的凸組合。與此相反,作者表明非線性頭必須由多個 token 組成,從而突出了它們在 transformer 動態過程中的重要性(第 6.1 節)。利用從理論中獲得的洞察力,作者提出了一種更通用的 SVM 等價方法。
值得注意的是,他們證明了在理論未涵蓋的普遍情況下(例如,h (・) 是一個MLP),本文的方法能準確預測透過梯度下降訓練的注意力的隱含偏差。具體來說,本文的通用公式將注意力權重解耦為兩個部分:一個是由SVM 控制的定向部分,它透過應用0-1 掩碼來選擇標記;另一個是有限部分,它透過調整softmax機率來決定所選token 的精確組成。
###這些發現的一個重要特點是,它們適用於任意資料集(只要 SVM 可行),並且可以用數字驗證。作者透過實驗廣泛驗證了 transformer 的最大邊際等價性和隱含偏差。作者認為,這些發現有助於理解作為分層最大邊際 token 選擇機制的 transformer,可為即將進行的有關其最佳化和泛化動態的研究奠定基礎。 ######以上是聽我說,Transformer它就是個支援向量機的詳細內容。更多資訊請關注PHP中文網其他相關文章!

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能