搜尋
首頁科技週邊人工智慧令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

Transformer最初是為自然語言處理任務而設計的,但現在已經被廣泛應用於視覺任務。視覺Transformer在多個視覺識別任務中展現出了出色的準確性,並在圖像分類、視頻分類和目標檢測等任務中取得了當前最佳的表現

##視覺Transformer 的一大缺點是計算成本高。典型的捲積網路(CNN)處理每張圖像需要數十 GFlops,而視覺 Transformer 所需的往往會多上一個數量級,達到每張圖像數百 GFlops。在處理影片時,由於資料量龐大,這個問題更為嚴重。高昂的運算成本讓視覺 Transformer 難以被部署到資源有限或有嚴格延遲需求的裝置上,這就限制了這項技術的應用場景,否則我們已經有一些令人興奮的應用了。

在近期一篇論文中,威斯康辛大學麥迪遜分校的三位研究者Matthew Dutson、Yin Li 和Mohit Gupta 首先提出可以在後續輸入之間使用時間冗餘來降低視覺Transformer 在影片應用的成本。他們也發布了模型程式碼,其中包含用於建立 Eventful Transformer 的 PyTorch 模組。

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

  • 論文網址:https://arxiv.org/pdf/2308.13494.pdf
  • #專案網址:http://wisionlab.com/project/eventful-transformers

時間冗餘:首先假設有一個視覺Transformer,其可以逐幀或逐影片片段地處理影片序列。這個 Transformer 可能是簡單的逐幀處理的模型(如目標偵測器)或是某個時空模型的中間步驟(如 ViViT 的分解式模型的第一步)。不同於一個輸入就是一個完整序列的語言處理 Transformer,在這裡,研究者的做法是隨時間為 Transformer 提供多個不同的輸入(幀或視頻片段)。

自然影片包含顯著的時間冗餘,即後續影格之間的差異很小。儘管如此,包括 Transformer 在內的深度網路通常都會「從頭開始」計算每一幀。此方法會丟棄先前推理所獲得的潛在相關訊息,浪費極大。故而這三位研究者設想:是否可以重複使用先前計算步驟的中間計算結果來提升處理冗餘序列的效率?

自適應推理:對於視覺 Transformer 以及一般意義上的深度網路而言,推理成本通常由架構決定。然而在現實應用中,可用的資源可能會隨時間而變化,例如可能因為存在相競爭的進程或電源變化。如此一來,可能就存在運行時修改模型計算成本的需求。在這項新成果中,研究者設定的一大主要設計目標就是適應性 —— 其方法可實現對計算成本的即時控制。下圖 1(底部)給出了在視訊處理過程中修改計算預算的範例。

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

事件化Transformer:本文提出了一個事件化Transformer,該Transformer可以利用輸入之間的時間冗餘來實現高效且自適應的推理。事件化這個術語的靈感來自事件相機(event camera),這種感測器能夠在場景變化時離散地記錄影像。事件化Transformer會追蹤隨時間發生的令牌層面的變化情況,並在每個時間步驟選擇性地更新令牌表示和自註意力映射圖。事件化Transformer的模組中包含一種閘控模組,用於控制更新令牌的數量

該方法適用於現有的模型(通常無需重新訓練),並且適用於許多視訊處理任務。研究人員也進行了實驗證明,結果顯示Eventful Transformer 可以用於現有的最佳模型,同時大幅降低計算成本並維持原有的準確性

Eventful Transformer

重寫後的內容:這項研究的目標是加速用於影片辨識的視覺Transformer。在這個場景中,視覺Transformer需要反覆處理視訊畫面或影片片段,具體的任務包括影片目標偵測和影片動作辨識等。提出的關鍵思想是利用時間冗餘,即復用先前時間步驟的計算結果。以下將詳細描述如何透過修改Transformer模組來使其具備感知時間冗餘的能力

token 閘控:偵測冗餘

#本節將介紹研究者提出的兩種新模組: token 閘和token 緩衝器。這些模組使得模型能夠識別和更新自上次更新以來發生明顯變化的token

門模組:該閘門會從輸入token N 中選擇一部分M 傳送給下下層執行計算。其記憶中維護著一個參考 token 集,記為 u。這個參照向量包含每個 token 在其最近一次更新時的值。在每個時間步驟,比較各個 token 與其對應的參考值,其中與參考值相差較大的 token 獲得更新。

現在將該閘的目前輸入記為 c。在每個時間步驟,依照下列流程更新閘的狀態並決定其輸出(見下圖2):

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

1. 計算總誤差e = u − c。

2. 對誤差 e 使用一個選取策略。選擇策略傳回一個二元遮罩 m(相當於一個 token 索引清單),表示其中哪 M 個 token 應被更新。

3. 提取出上述策略選取的 token。圖 2 中將其描述為乘積 c×m;在實務上則是透過沿著 c 的第一個軸執行「gather」操作來實現。這裡將收集到的 token 記為令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑,這就是該閘的輸出。

4. 將參考 token 更新成所選 token。圖 2 將這個過程描述為令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑;實務上使用的操作則是「scatter」。在第一個時間步驟,門會更新所有 token(初始化 u ← c 並傳回 c˜ = c)。

緩衝器模組:緩衝模組維護一個狀態張量令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑#,其追蹤的是每個輸入token 

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑時,此緩衝器將來自f (c˜) 的token 分散到其在b 中對應位置。然後它會傳回更新後的 b 作為其輸出,請參閱下圖 3。

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

研究人員將每個閘與其後的緩衝器組成一對。以下是一個簡單的使用模式:閘的輸出

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑被傳遞給一系列針對各個token 的運算f (c˜);然後將得到的張量令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑傳遞給一個緩衝器,其將恢復完整的形狀。

重構可感知冗餘的Transformer

#為了利用上述時間冗餘,研究者提出了一種對Transformer 模組的修改方案。下圖 4 展示了 Eventful Transformer 模組的設計。此方法可以加速針對各個 token 的運算(如 MLP)以及查詢 - 鍵值和注意力 - 值乘法。

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

#

在針對各個 token 的運算 Transformer 模組中,許多運算都是針對各個 token 的,也就是說它們不涉及到 token 之間的資訊交換,其中包括 MLP 和 MSA 中的線性變換。為了節省計算成本,研究者表示可以跳過未被閘選取的 token 的面向 token 的運算。由於 token 之間的獨立性,這不會改變對所選 token 的運算結果。參見圖 3。

具體來說,研究者在處理每個token的運算時,包括W_qkv變換、W_p變換和MLP,使用了一對門-緩衝器的連續序列。需要注意的是,在進行skip連接之前,他們還添加了緩衝器,以確保兩個加法操作數的token能夠正確對齊

對於每個令牌的運算成本與令牌數量成正比。透過將數量從N減少到M,下游對每個令牌的運算成本將減少N/M倍

#現在讓我們來看看查詢-鍵值積B = q k ^T 的結果

下圖5 展示了稀疏地更新查詢- 鍵值積B 中一部分元素的方法。

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

這些更新的總體成本為2NMD,相較之下,從頭開始計算B的成本為N^2D。請注意,新方法的成本與M成正比,即所選的令牌數量。當M

注意力- 值的積:研究者為此提出了一種基於增量∆ 的更新策略。

圖6 展示了一個新提出的高效計算三個增量項目的方法

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

當M小於N的一半時,可以減少運算量

token 選取策略

Eventful Transformer 的一大重要設計是其token 選取策略。給定一個閘誤差張量 e,這樣一個策略的目標是產生一個遮罩 m,其中指示了應當被更新的 token。具體的策略包括:

Top-r 策略:此策略選取 r 個誤差 e 有最大範數的 token(這裡使用的是 L2 範數)。

閾值策略:此策略會選擇所有誤差e 的範數超過閾值h 的令牌

重寫後的內容:其他策略:採用更複雜精細的令牌選擇策略可以實現更好的準確度-成本權衡,例如可以使用一個輕量級的策略網路來學習策略。然而,訓練策略的決策機制可能會面臨困難,因為二元掩碼m通常是不可微分的。另一種想法是使用重要度分數作為選擇的參考資訊。但是,這些想法仍需進一步研究

實驗

#研究人員對新提出的方法進行了實驗評估,具體應用於視訊目標偵測與影片動作辨識任務

下圖7 展示了影片目標偵測的實驗結果。其中正軸是計算節省率,負軸是新方法的 mAP50 分數的相對減少量。可以看到,新方法用少量的準確度犧牲換來了顯著的計算量節省。

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

在下圖8中展示了針對視訊目標偵測任務的方法比較和消融實驗結果

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

下圖9 給出了影片動作辨識的實驗結果。

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

#

在下表2中,顯示了在一台CPU(Xeon Silver 4214, 2.2 GHz)和一台GPU(NVIDIA RTX3090)上運行的時間結果(以毫秒為單位)。可以觀察到,在GPU上的時間冗餘帶來了1.74倍的速度提升,而在CPU上的提升則達到了2.47倍

令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑

更多技術細節與實驗結果請參考原論文。

以上是令人驚訝的時間冗餘方法:降低視覺Transformer運算成本的新途徑的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。