重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

王林

Nov 05, 2023 pm 05:13 PM

ai論文

在時間序列預測中，Transformer已經展現了強大的能力，可以用來描述依賴關係和提取多層次表示。然而，一些研究人員對基於Transformer的預測器的有效性提出了質疑。這種預測器通常將相同時間戳記的多個變數嵌入到不可區分的通道中，並關注這些時間標記，以捕捉時間依賴性。研究人員發現，考慮數字關係而非語義關係的簡單線性層在性能和效率上都超過了複雜的Transformer。同時，確保變數的獨立性和利用互資訊的重要性越來越受到最新研究的關注。這些研究明確建立了多變量相關性模型，以實現精確的預測。然而，在不顛覆常見的Transformer架構的情況下，實現這一目標仍然具有一定的難度

在考慮到基於Transformer的預測器引起的爭議時，研究人員們正在思考為什麼Transformer在時間序列預測方面的表現甚至不如線性模型，而在許多其他領域卻佔據主導地位

近日，來自清華大學的一篇新論文提出了一個不同的視角－Transformer 的效能不是固有的，而是由於將架構不當地應用於時間序列資料所造成的。

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

論文的連結是：https://arxiv.org/pdf/2310.06625.pdf

基於Transformer的預測器的現有結構可能不適合多變量時間序列預測。圖2左側顯示，同一時間步長的點代表不同的物理意義，但測量結果不一致，這些點被嵌入到一個令牌中，多變量相關性被忽略。此外，在現實世界中，由於多變量時間點的局部感受野和時間戳不對齊，單一時間步鮮有有益資訊的標記。另外，儘管序列變化受到序列順序的重大影響，但時間維度上的變體注意力機制並未被充分採用。因此，Transformer在捕捉基本序列表示和描述多元相關性方面的能力受到削弱，限制了其在不同時間序列資料上的能力和泛化能力

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

關於將每個時間步的多變量點嵌入一個（時間）token 的不合理性，研究者從時間序列的反向視角出發，將每個變量的整個時間序列獨立嵌入一個（變量）token，這是擴大局部感受野的patching 的極端情況。透過倒置，嵌入的 token 聚集了序列的全局表徵，可以更加以變數為中心，更好地利用注意力機制進行多變量關聯。同時，前饋網路可以熟練地學習任意回溯序列編碼的不同變數的泛化表徵，並解碼以預測未來序列。

研究者指出，對於時間序列預測來說，Transformer並非無效，而是其使用方式不當。在這篇論文中，研究者對Transformer的結構進行了重新審視，並推崇將iTransformer作為時間序列預測的基礎支柱。他們將每個時間序列嵌入為變數token，並採用多變量相關性關注機制，利用前饋網路進行序列編碼。實驗結果表明，所提出的iTransformer在實際預測基準圖1中達到了最先進水平，並出人意料地解決了基於Transformer的預測器所面臨的問題

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

總結來說，本文的貢獻有以下三點：

研究者對Transformer 的架構進行了反思，發現原生Transformer 元件在時間序列上的能力尚未充分開發。
本文提出的iTransformer 將獨立時間序列視為token，透過自註意力捕捉多變量相關性，並利用層歸一化和前饋網路模組學習更好的序列全域表示法，用於時間序列預測。
透過實驗，iTransformer 在真實世界的預測基準上達到了 SOTA。研究者分析了反轉模組和架構選擇，為未來改進基於 Transformer 的預測器指明了方向。

iTransformer

在多變量時間序列預測中，給定歷史觀測：

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

以T 個時間步長和N 個變量，研究者預測未來的S 個時間步長：重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了。為方便起見，表示為為時間步 t 同時記錄的多元變量，為每個變數由 n 索引的整個時間序列。值得注意的是，在現實世界中，由於監視器的系統延遲和鬆散組織的資料集，重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了可能不包含本質上相同時間戳記的時間點。

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了的元素可以在物理測量和統計分佈中彼此不同，變數通常共享這些資料。

本文所提出架構配備的Transformer 變體，稱為iTransformer，基本上沒有對Transformer 變體提出更具體的要求，只是注意力機制應適用於多元相關性建模。因此，一組有效的注意力機制可以作為插件，降低變數數量增加時關聯的複雜性。

iTransformer 在第四張圖中展示，採用了更簡單的Transformer編碼器架構，其中包含嵌入、投影和Transformer區塊

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

實驗及結果

研究人員對iTransformer在各種時間序列預測應用中進行了全面評估，證實了該框架的通用性，並進一步研究了針對特定時間序列維度反轉Transformer組件職責的效果

研究者在實驗中廣泛納入了6個真實世界資料集，包括ETT、天氣、電力、交通數據集、太陽能數據集以及PEMS數據集。詳細的資料集資訊請參考原文

重寫的內容是：預測結果

如表1 所示，用紅色表示最優，底線表示最優。 MSE/MAE 越低，重寫的內容是：預測結果越準確。本文所提出的 iTransformer 實現了 SOTA 效能。原生 Transformer 元件可以勝任時間建模和多元關聯，所提出的倒排架構可以有效解決現實世界的時間序列預測場景。

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

需要改寫的內容為：iTransformer 的普適性

將此框架應用於Transformer及其變體來評估iTransformers的研究者發現，這些變體通常解決了self-attention機制的二次複雜性問題，包括Reformer、Informer、Flowformer和FlashAttention。研究者也發現，簡單的倒置視角可以提高基於Transformer的預測器的性能，提高效率、泛化未見變量，並更好地利用歷史觀測數據

##表2對Transformers 和相應的iTransformers 進行了評估。值得注意的是，該框架持續改進了各種 Transformer。整體而言，Transformer 平均提升了 38.9%，Reformer 平均提升了 36.1%，Informer 平均提升了 28.5%，Flowformer 平均提升了 16.8%，Flashformer 平均提升了 32.2%。

還有一個因素是，iTransformer 可以廣泛應用於基於Transformer 的預測器，因為它在變數維度上採用了注意力機制的倒置結構，引入了具有線性複雜性的高效注意力，從根本上解決了由於6 個變數而引起的效率問題。這個問題在現實世界的應用中很常見，但對於Channel Independent 來說可能會消耗資源

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

#為了驗證假設，研究者將iTransformer與另一種泛化策略進行了比較：Channel Independent 強制採用一個共享Transformer 來學習所有變體的模式。如圖 5 所示， Channel Independent（CI-Transformers）的泛化誤差可能會大幅增加，而 iTransformer 預測誤差的增幅則小得多。

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

由於注意力和前饋網路的職責是倒置的，圖6 中評估了隨著回視長度的增加，Transformers 和iTransformer的性能。它驗證了在時間維度上利用 MLP 的合理性，即 Transformers 可以從延長的回視視窗中獲益，從而獲得更精確的預測。

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

模型分析

#為了驗證Transformer 元件的合理性，研究者進行了詳細的消融實驗，包括替換組件（Replace）和移除組件（w/o）實驗。表 3 列出了實驗結果。

重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了

更多詳細內容，請參考原文。

以上是重新審視Transformer：倒置更有效，真實世界預測的新SOTA出現了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35