首頁  >  文章  >  科技週邊  >  重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

王林
王林轉載
2023-11-05 17:13:15541瀏覽

在時間序列預測中,Transformer已經展現了強大的能力,可以用來描述依賴關係和提取多層次表示。然而,一些研究人員對基於Transformer的預測器的有效性提出了質疑。這種預測器通常將相同時間戳記的多個變數嵌入到不可區分的通道中,並關注這些時間標記,以捕捉時間依賴性。研究人員發現,考慮數字關係而非語義關係的簡單線性層在性能和效率上都超過了複雜的Transformer。同時,確保變數的獨立性和利用互資訊的重要性越來越受到最新研究的關注。這些研究明確建立了多變量相關性模型,以實現精確的預測。然而,在不顛覆常見的Transformer架構的情況下,實現這一目標仍然具有一定的難度

在考慮到基於Transformer的預測器引起的爭議時,研究人員們正在思考為什麼Transformer在時間序列預測方面的表現甚至不如線性模型,而在許多其他領域卻佔據主導地位

近日,來自清華大學的一篇新論文提出了一個不同的視角-Transformer 的效能不是固有的,而是由於將架構不當地應用於時間序列資料所造成的。

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

論文的連結是:https://arxiv.org/pdf/2310.06625.pdf

基於Transformer的預測器的現有結構可能不適合多變量時間序列預測。圖2左側顯示,同一時間步長的點代表不同的物理意義,但測量結果不一致,這些點被嵌入到一個令牌中,多變量相關性被忽略。此外,在現實世界中,由於多變量時間點的局部感受野和時間戳不對齊,單一時間步鮮有有益資訊的標記。另外,儘管序列變化受到序列順序的重大影響,但時間維度上的變體注意力機制並未被充分採用。因此,Transformer在捕捉基本序列表示和描述多元相關性方面的能力受到削弱,限制了其在不同時間序列資料上的能力和泛化能力

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

關於將每個時間步的多變量點嵌入一個(時間)token 的不合理性,研究者從時間序列的反向視角出發,將每個變量的整個時間序列獨立嵌入一個(變量)token,這是擴大局部感受野的patching 的極端情況。透過倒置,嵌入的 token 聚集了序列的全局表徵,可以更加以變數為中心,更好地利用注意力機制進行多變量關聯。同時,前饋網路可以熟練地學習任意回溯序列編碼的不同變數的泛化表徵,並解碼以預測未來序列。

研究者指出,對於時間序列預測來說,Transformer並非無效,而是其使用方式不當。在這篇論文中,研究者對Transformer的結構進行了重新審視,並推崇將iTransformer作為時間序列預測的基礎支柱。他們將每個時間序列嵌入為變數token,並採用多變量相關性關注機制,利用前饋網路進行序列編碼。實驗結果表明,所提出的iTransformer在實際預測基準圖1中達到了最先進水平,並出人意料地解決了基於Transformer的預測器所面臨的問題

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

總結來說,本文的貢獻有以下三點:

  • 研究者對Transformer 的架構進行了反思,發現原生Transformer 元件在時間序列上的能力尚未充分開發。
  • 本文提出的iTransformer 將獨立時間序列視為token,透過自註意力捕捉多變量相關性,並利用層歸一化和前饋網路模組學習更好的序列全域表示法,用於時間序列預測。
  • 透過實驗,iTransformer 在真實世界的預測基準上達到了 SOTA。研究者分析了反轉模組和架構選​​擇,為未來改進基於 Transformer 的預測器指明了方向。

iTransformer

在多變量時間序列預測中,給定歷史觀測:


重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了


以T 個時間步長和N 個變量,研究者預測未來的S 個時間步長:重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了。為方便起見,表示為重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了為時間步 t 同時記錄的多元變量,重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了為每個變數由 n 索引的整個時間序列。值得注意的是,在現實世界中,由於監視器的系統延遲和鬆散組織的資料集,重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了可能不包含本質上相同時間戳記的時間點。

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了的元素可以在物理測量和統計分佈中彼此不同,變數重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了通常共享這些資料。


本文所提出架構配備的Transformer 變體,稱為iTransformer,基本上沒有對Transformer 變體提出更具體的要求,只是注意力機制應適用於多元相關性建模。因此,一組有效的注意力機制可以作為插件,降低變數數量增加時關聯的複雜性。

iTransformer 在第四張圖中展示,採用了更簡單的Transformer編碼器架構,其中包含嵌入、投影和Transformer區塊

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

實驗及結果

研究人員對iTransformer在各種時間序列預測應用中進行了全面評估,證實了該框架的通用性,並進一步研究了針對特定時間序列維度反轉Transformer組件職責的效果

研究者在實驗中廣泛納入了6個真實世界資料集,包括ETT、天氣、電力、交通數據集、太陽能數據集以及PEMS數據集。詳細的資料集資訊請參考原文

重寫的內容是:預測結果

如表1 所示,用紅色表示最優,底線表示最優。 MSE/MAE 越低,重寫的內容是:預測結果越準確。本文所提出的 iTransformer 實現了 SOTA 效能。原生 Transformer 元件可以勝任時間建模和多元關聯,所提出的倒排架構可以有效解決現實世界的時間序列預測場景。

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

需要改寫的內容為:iTransformer 的普適性

將此框架應用於Transformer及其變體來評估iTransformers的研究者發現,這些變體通常解決了self-attention機制的二次複雜性問題,包括Reformer、Informer、Flowformer和FlashAttention。研究者也發現,簡單的倒置視角可以提高基於Transformer的預測器的性能,提高效率、泛化未見變量,並更好地利用歷史觀測數據

##表2對Transformers 和相應的iTransformers 進行了評估。值得注意的是,該框架持續改進了各種 Transformer。整體而言,Transformer 平均提升了 38.9%,Reformer 平均提升了 36.1%,Informer 平均提升了 28.5%,Flowformer 平均提升了 16.8%,Flashformer 平均提升了 32.2%。

還有一個因素是,iTransformer 可以廣泛應用於基於Transformer 的預測器,因為它在變數維度上採用了注意力機制的倒置結構,引入了具有線性複雜性的高效注意力,從根本上解決了由於6 個變數而引起的效率問題。這個問題在現實世界的應用中很常見,但對於Channel Independent 來說可能會消耗資源

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

#為了驗證假設,研究者將iTransformer與另一種泛化策略進行了比較:Channel Independent 強制採用一個共享Transformer 來學習所有變體的模式。如圖 5 所示, Channel Independent(CI-Transformers)的泛化誤差可能會大幅增加,而 iTransformer 預測誤差的增幅則小得多。

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

由於注意力和前饋網路的職責是倒置的,圖6 中評估了隨著回視長度的增加,Transformers 和iTransformer的性能。它驗證了在時間維度上利用 MLP 的合理性,即 Transformers 可以從延長的回視視窗中獲益,從而獲得更精確的預測。

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

模型分析

#為了驗證Transformer 元件的合理性,研究者進行了詳細的消融實驗,包括替換組件(Replace)和移除組件(w/o)實驗。表 3 列出了實驗結果。

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

更多詳細內容,請參考原文。

以上是重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除