搜尋
首頁科技週邊人工智慧加速ViT模型新思路! Meta推出Token Merging,不靠剪枝靠合併

視覺變換器(ViT)在兩年前進入大眾視野,並成為電腦視覺研究的核心組成部分。

它成功將一個在自然語言處理領域的Transformer模型遷移到電腦視覺領域。從那時起,電腦視覺領域的進步已經加速。

儘管在成本與性能方面被超越,Vanilla ViT仍有許多優點。

它們是由簡單的矩陣乘法組成的,這使得它們的速度比它們的原始運算量所顯示的要快。

此外,它們支援強大的自監督預訓練技術,如MAE(掩碼自動編碼器),可以產生最先進的結果,同時可以進行快速訓練。

而且由於它們不會對資料進行假設,它們可以幾乎不加改變地應用在圖片、音訊、文字等諸多模式中。

當然,理想很豐滿,現實很骨感。 ViT模型的規模大,有較大延遲。在資源有限的設備上,運行這個複雜模型會產生很大問題。

Token剪枝:變好了,但沒完全好

針對運算慢的問題,研究人員給出了多個解決方案。其中一個常見的加速視覺 Transformer模型的方法是對進行token剪枝。

在運行時修剪標記,透過修剪不太重要的token產生高效的Transformer。如DynamicViT分層修剪冗餘token,從而在分類任務中實現FLOPs減少。

然而,token剪枝有幾個問題,其中最主要的,是由於修​​剪token會產生資訊損失,因此,人們對ViT模型token的剪枝數量是有限的,為了減少資訊損失,只能修剪不重要的token。

而且,為了讓修剪過的token有效,人們需要再次訓練模型。這就造成額外的資源消耗。

更重要的是,token剪枝是動態的過程,需要根據不同的圖像或句子確定token剪枝的不同數量。雖然這有利於提高準確性,但卻不夠實用實用性,因為這種情況下,資料就不能再進行批次處理。

為了解決這個問題,人們需要在剪枝過程中加入掩碼,而這會進一步影響效率的提升。

簡單來說,token剪枝確實讓ViT跑得更快,但這是在資訊損耗的代價上實現的。

#TokenMerging:換個想法

怎麼才能使ViT的速度類似剪枝,但保持比剪枝更高的準確度呢? Meta AI研究團隊給了新的解題想法:Token Merging(ToMe)。

加速ViT模型新思路! Meta推出Token Merging,不靠剪枝靠合併

論文連結:https://arxiv.org/pdf/2210.09461.pdf

#Token Merging選擇將token結合,而非進行剪枝。由於其定制的匹配演算法,它和剪枝一樣快,同時更準確。另外,它的工作不需要任何額外的訓練,所以你可以在巨大的模型上使用它來加快它們的速度,而不會犧牲很多準確性。

Meta的目標是在現有的ViT中插入一個Token Merging的模組,透過合併冗餘的token,在不需要額外訓練的前提下提高訓練和推理的吞吐量。

基本想法是:在Transformer模型中,透過合併,使每層減少r個token。假設一個Transformer模型有L層,那麼透過合併就可以減少rL個token。變數r的大小決定了速度和精確度的關係,因為更少的標記意味著更低的準確度但更高的吞吐量。

值得注意的是,在Token Merging中,無論圖片的內容為何,都會減少rL標記。這完美解決了token剪枝中無法進行批次處理的問題。

透過ToMe,類似的token批在每個Transformer區塊中合併:例如,狗的皮毛被合併成一個token。

加速ViT模型新思路! Meta推出Token Merging,不靠剪枝靠合併

Token Merging被插入每個attention區塊和每個Transformer區塊。這也與token剪枝的工作流程形成對比。後者傾向於將剪枝步驟放在每個Transformer區塊的開頭。

加速ViT模型新思路! Meta推出Token Merging,不靠剪枝靠合併

透過Token Merging,需要合併的token的資訊可以傳播,ViT也能夠藉助attention區塊中的特徵來決定需要合併哪些token。

具體做法

##合併的第一步是確定相似的token。在Transformer中的QKV(query, key, value)已被提取的條件下,透過消融實驗,研究團隊發現使用key可以最好衡量token之間的相似度(下圖紫色部分)。

加速ViT模型新思路! Meta推出Token Merging,不靠剪枝靠合併

因為key已經總結了每個token中包含的信息,以便用於Attention中的dot-product來衡量token間的相似度。

除了研究哪個指標比較好衡量token相似度外,還需要知道什麼距離衡量相似度。透過實驗研究團隊發現,使用使用餘弦距離來衡量toke之間的相似度可以獲得最佳的精確度和速度的關係。

加速ViT模型新思路! Meta推出Token Merging,不靠剪枝靠合併

確定了token的相似性,接下來需要一個快速的方法來確定哪些token需要匹配,以減少總數的r。

Meta團隊沒有使用kmeans聚類演算法或圖分割演算法,而是使用匹配演算法,因為後者不僅可以精確地匹配每一層token的數量,還能快速執行上千次匹配。這些都是迭代聚類演算法無法完成的。

因此,Meta團隊提出了一個更有效的解決方案。

設計目標如下。 1.)避免任何無法並行化的迭代,2.)希望合併的變化是漸進的,因為聚類對多少個標記可以合併到一個組中沒有限制(這可能會對網絡產生不利影響),而匹配則使大多數標記沒有被合併。 #

加速ViT模型新思路! Meta推出Token Merging,不靠剪枝靠合併

  1. 將所有token分成相同大小的2個集合A與B。
  2. 將從集合A中的每個token到B中與其最相似的token畫一條邊。
  3. 只留下最相似的r條邊, 其餘刪掉。
  4. 融合仍然相連的邊(特徵取平均值)。
  5. 把這兩個集合拼在一起, 得到最終的合併結果。

透過這項獨特的技術,可以提升ViT模型的吞吐量和實際訓練速度。使用Token Merging可以將訓練速度提高一倍。它可以用於圖像、視訊和音訊任務,並且仍然可以達到最先進的準確性。

#

以上是加速ViT模型新思路! Meta推出Token Merging,不靠剪枝靠合併的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器