Transformer 架構已經在現代機器學習領域中得到了廣泛的應用。重點是要集中註意力是 transformer 的一大核心元件,其中包含了一個 softmax,作用是產生 token 的一個機率分佈。 softmax 有較高的成本,因為其會執行指數計算和對序列長度求和,這會使得平行化難以執行。
Google DeepMind 想到了一個新思路:用某種不一定會輸出機率分佈的新方法來取代 softmax 運算。 他們也觀察到:在用於視覺 Transformer 時,使用 ReLU 除以序列長度的重點是要集中註意力可以接近或匹敵傳統的 softmax 重點是要集中註意力。
論文連結:https://arxiv.org/abs/2309.08586
此結果為並行化帶來了新方案,因為ReLU重點是要集中註意力可以在序列長度維度上並行化,而且所需的gather運算比傳統的重點是要集中註意力少
方法
重點是要集中註意力
#重點是要集中註意力的作用是透過一個兩步驟流程對d 維的查詢、鍵和值{q_i, k_i, v_i} 進行轉換
在第一步,透過下式得到重點是要集中註意力權重 :
其中ϕ 通常是softmax。
下一步,使用這個重點是要集中註意力權重來計算輸出 這篇論文探討了使用逐點式計算的方案來取代 ϕ。
ReLU 重點是要集中註意力
DeepMind 觀察到,對於1 式中的ϕ = softmax, 是一個較好的替代方案。他們將使用
的重點是要專心稱為 ReLU 重點是要集中註意力。
已擴展的逐點式重點是要集中註意力
研究者也透過實驗探索了更廣泛的 選擇,其中α ∈ [0, 1] 且h ∈ {relu,relu² , gelu,softplus, identity,relu6,sigmoid}。
需要進行重新編寫的內容是:序列長度的擴展
他們也發現,如果使用一個涉及序列長度L 的項目進行擴展,可提高準確度。先前試圖移除 softmax 的研究工作並沒有使用這種擴充方案
#在目前使用softmax 重點是要集中註意力設計的Transformer 中,有 ,這意味著
儘管這不太可能是一個必要條件,但
能確保初始化時
的複雜度是
,保留此條件可能會減少替換softmax 時對更改其它超參數的需求。
在初始化的時候,q 和 k 的元素為 O (1),因此 也將為 O (1)。 ReLU 這樣的活化函數維持在 O (1),因此需要因數
才能使
的複雜度為
。
實驗與結果
主要結果
圖1 說明在ImageNet-21k 訓練方面,ReLU 重點是要集中註意力與softmax 重點是要集中註意力的擴展趨勢相當。 X 軸展示了實驗所需的內核計算總時間(小時)。 ReLU 重點是要集中註意力的一大優勢是能在序列長度維度上實現並行化,其所需的 gather 操作比 softmax 重點是要集中註意力更少。
需要重新編寫的內容是:序列長度的擴展的效果
#圖2 比較了需要重新寫的內容是:序列長度的擴充方法與其它多種取代softmax 的逐點式方案的結果。具體來說,就是用 relu、relu²、gelu、softplus、identity 等方法取代 softmax。 X 軸是 α。 Y 軸則是 S/32、S/16 和 S/8 視覺 Transformer 模型的準確度。最佳結果通常是在 α 接近 1 時得到。由於沒有明確的最佳非線性,所以他們在主要實驗中使用了 ReLU,因為它速度更快。
#qk-layernorm 的效果可以重新表達如下:
主要實驗中使用了qk-layernorm,在這其中查詢和鍵會在計算重點是要集中註意力權重前被傳遞通過LayerNorm。 DeepMind 表示,預設使用 qk-layernorm 的原因是在擴展模型大小時有必要防止不穩定情況發生。圖 3 展示了移除 qk-layernorm 的影響。這結果顯示 qk-layernorm 對這些模型的影響不大,但當模型規模變大時,情況可能會有所不同。
#重新描述:閘的增添效果
#先前有移除 softmax 的研究採用了增加一個門控單元的做法,但這種方法無法隨序列長度而擴展。具體來說,在閘控重點是要集中註意力單元中,會有一個額外的投影產生輸出,該輸出是在輸出投影之前透過逐元素的乘法組合得到的。圖 4 探討了閘的存在是否可消除對需要進行重新編寫的內容是:序列長度的擴展的需求。整體而言,DeepMind 觀察到,不管有沒有門,透過需要重新編寫的內容是:序列長度的擴展都可以獲得最佳準確度。也要注意,對於使用 ReLU 的 S/8 模型,這種閘控機制會將實驗所需的核心時間增加約 9.3%。
以上是視覺Transformer中ReLU取代softmax,DeepMind新招讓成本速降的詳細內容。更多資訊請關注PHP中文網其他相關文章!

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Dreamweaver Mac版
視覺化網頁開發工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。