令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 06, 2023 pm 02:45 PM

數據訓練

Transformer最初是為自然語言處理任務而設計的，但現在已經被廣泛應用於視覺任務。視覺Transformer在多個視覺識別任務中展現出了出色的準確性，並在圖像分類、視頻分類和目標檢測等任務中取得了當前最佳的表現

##視覺Transformer 的一大缺點是計算成本高。典型的捲積網路（CNN）處理每張圖像需要數十 GFlops，而視覺 Transformer 所需的往往會多上一個數量級，達到每張圖像數百 GFlops。在處理影片時，由於資料量龐大，這個問題更為嚴重。高昂的運算成本讓視覺 Transformer 難以被部署到資源有限或有嚴格延遲需求的裝置上，這就限制了這項技術的應用場景，否則我們已經有一些令人興奮的應用了。

在近期一篇論文中，威斯康辛大學麥迪遜分校的三位研究者Matthew Dutson、Yin Li 和Mohit Gupta 首先提出可以在後續輸入之間使用時間冗餘來降低視覺Transformer 在影片應用的成本。他們也發布了模型程式碼，其中包含用於建立 Eventful Transformer 的 PyTorch 模組。

令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑

論文網址：https://arxiv.org/pdf/2308.13494.pdf
#專案網址：http://wisionlab.com/project/eventful-transformers

時間冗餘：首先假設有一個視覺Transformer，其可以逐幀或逐影片片段地處理影片序列。這個 Transformer 可能是簡單的逐幀處理的模型（如目標偵測器）或是某個時空模型的中間步驟（如 ViViT 的分解式模型的第一步）。不同於一個輸入就是一個完整序列的語言處理 Transformer，在這裡，研究者的做法是隨時間為 Transformer 提供多個不同的輸入（幀或視頻片段）。

自然影片包含顯著的時間冗餘，即後續影格之間的差異很小。儘管如此，包括 Transformer 在內的深度網路通常都會「從頭開始」計算每一幀。此方法會丟棄先前推理所獲得的潛在相關訊息，浪費極大。故而這三位研究者設想：是否可以重複使用先前計算步驟的中間計算結果來提升處理冗餘序列的效率？

自適應推理：對於視覺 Transformer 以及一般意義上的深度網路而言，推理成本通常由架構決定。然而在現實應用中，可用的資源可能會隨時間而變化，例如可能因為存在相競爭的進程或電源變化。如此一來，可能就存在運行時修改模型計算成本的需求。在這項新成果中，研究者設定的一大主要設計目標就是適應性 —— 其方法可實現對計算成本的即時控制。下圖 1（底部）給出了在視訊處理過程中修改計算預算的範例。

令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑

事件化Transformer：本文提出了一個事件化Transformer，該Transformer可以利用輸入之間的時間冗餘來實現高效且自適應的推理。事件化這個術語的靈感來自事件相機（event camera），這種感測器能夠在場景變化時離散地記錄影像。事件化Transformer會追蹤隨時間發生的令牌層面的變化情況，並在每個時間步驟選擇性地更新令牌表示和自註意力映射圖。事件化Transformer的模組中包含一種閘控模組，用於控制更新令牌的數量

該方法適用於現有的模型（通常無需重新訓練），並且適用於許多視訊處理任務。研究人員也進行了實驗證明，結果顯示Eventful Transformer 可以用於現有的最佳模型，同時大幅降低計算成本並維持原有的準確性

Eventful Transformer

重寫後的內容：這項研究的目標是加速用於影片辨識的視覺Transformer。在這個場景中，視覺Transformer需要反覆處理視訊畫面或影片片段，具體的任務包括影片目標偵測和影片動作辨識等。提出的關鍵思想是利用時間冗餘，即復用先前時間步驟的計算結果。以下將詳細描述如何透過修改Transformer模組來使其具備感知時間冗餘的能力

token 閘控：偵測冗餘

#本節將介紹研究者提出的兩種新模組： token 閘和token 緩衝器。這些模組使得模型能夠識別和更新自上次更新以來發生明顯變化的token

門模組：該閘門會從輸入token N 中選擇一部分M 傳送給下下層執行計算。其記憶中維護著一個參考 token 集，記為 u。這個參照向量包含每個 token 在其最近一次更新時的值。在每個時間步驟，比較各個 token 與其對應的參考值，其中與參考值相差較大的 token 獲得更新。

現在將該閘的目前輸入記為 c。在每個時間步驟，依照下列流程更新閘的狀態並決定其輸出（見下圖2）：

令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑

1. 計算總誤差e = u − c。

2. 對誤差 e 使用一個選取策略。選擇策略傳回一個二元遮罩 m（相當於一個 token 索引清單），表示其中哪 M 個 token 應被更新。

3. 提取出上述策略選取的 token。圖 2 中將其描述為乘積 c×m；在實務上則是透過沿著 c 的第一個軸執行「gather」操作來實現。這裡將收集到的 token 記為令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑，這就是該閘的輸出。

4. 將參考 token 更新成所選 token。圖 2 將這個過程描述為令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑；實務上使用的操作則是「scatter」。在第一個時間步驟，門會更新所有 token（初始化 u ← c 並傳回 c˜ = c）。

緩衝器模組：緩衝模組維護一個狀態張量令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑 #，其追蹤的是每個輸入token

令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑時，此緩衝器將來自f (c˜) 的token 分散到其在b 中對應位置。然後它會傳回更新後的 b 作為其輸出，請參閱下圖 3。

令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑

研究人員將每個閘與其後的緩衝器組成一對。以下是一個簡單的使用模式：閘的輸出

令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑被傳遞給一系列針對各個token 的運算f (c˜)；然後將得到的張量傳遞給一個緩衝器，其將恢復完整的形狀。

重構可感知冗餘的Transformer

#為了利用上述時間冗餘，研究者提出了一種對Transformer 模組的修改方案。下圖 4 展示了 Eventful Transformer 模組的設計。此方法可以加速針對各個 token 的運算（如 MLP）以及查詢 - 鍵值和注意力 - 值乘法。

令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑

在針對各個 token 的運算 Transformer 模組中，許多運算都是針對各個 token 的，也就是說它們不涉及到 token 之間的資訊交換，其中包括 MLP 和 MSA 中的線性變換。為了節省計算成本，研究者表示可以跳過未被閘選取的 token 的面向 token 的運算。由於 token 之間的獨立性，這不會改變對所選 token 的運算結果。參見圖 3。

具體來說，研究者在處理每個token的運算時，包括W_qkv變換、W_p變換和MLP，使用了一對門-緩衝器的連續序列。需要注意的是，在進行skip連接之前，他們還添加了緩衝器，以確保兩個加法操作數的token能夠正確對齊

對於每個令牌的運算成本與令牌數量成正比。透過將數量從N減少到M，下游對每個令牌的運算成本將減少N/M倍

#現在讓我們來看看查詢-鍵值積B = q k ^T 的結果

下圖5 展示了稀疏地更新查詢- 鍵值積B 中一部分元素的方法。

令人驚訝的時間冗餘方法：降低視覺Transformer運算成本的新途徑