首頁 >科技週邊 >人工智慧 >僅需200M參數,零樣本性能超越有監督!谷歌發佈時序預測基礎模型TimesFM

僅需200M參數,零樣本性能超越有監督!谷歌發佈時序預測基礎模型TimesFM

WBOY
WBOY轉載
2024-03-16 22:55:111125瀏覽

时间序列预测在各个领域中起着重要作用,例如零售、金融、制造业、医疗保健和自然科学等。在零售行业中,通过提高需求预测的准确性,可以有效降低库存成本并增加收入。这意味着企业能够更好地满足客户需求,减少库存积压和损失,同时提高销售额和利润。因此,时间序列预测在零售领域中具有重要的价值,能够为企业带来实质

深度学习(DL)模型在“多变量时间序列预测”任务中占据主导地位,在各种比赛和实际应用中展现出色的性能。

与此同时,自然语言处理(NLP)任务中的大型基础语言模型也取得了显著进展,有效提升了翻译、检索增强生成、代码补全等任务的性能。

NLP模型的训练依赖于海量文本数据,其中数据来源多种多样,包括爬虫、开源代码等,训练后的模型能够识别语言中的模式,并具备零样本学习的能力:比如说把大模型用在检索任务时,模型可以回答有关当前事件的问题并对其进行总结。

尽管基于深度学习的预测器在许多方面优于传统方法,包括降低训练和推理成本,但仍然存在一些挑战需要克服:

许多深度学习模型要经过长时间的训练和验证才能在新的时间序列上进行测试。相比之下,时间序列预测的基础模型具备"开箱即用预测"功能,无需额外训练即可应用于未知时间序列数据。这种特性让用户能够专注于改进零售需求规划等实际下游任务的预测工作。

Google Research的研究人员最近提出了一个名为TimesFM的时序预测基础模型,在1000亿个真实世界时间点上进行了预训练。与目前最新的大型语言模型(LLMs)相比,TimesFM的规模要小得多,仅包含200M参数。

僅需200M參數,零樣本性能超越有監督!谷歌發佈時序預測基礎模型TimesFM

论文链接:https://arxiv.org/pdf/2310.10688.pdf

实验结果表明,尽管规模较小,TimesFM在各个领域和时间尺度上的不同未经训练的数据集中展现出了令人惊讶的「零样本性能」,接近于明确经过训练、最先进的监督方法在这些数据集上的表现。

研究人员计划今年晚些时候在Google Cloud Vertex AI中为外部客户提供TimesFM模型。

基础模型TimesFM

LLMs通常以仅解码器(decoder-only)的方式进行训练,包括三个步骤:

1. 文本被分解为称为token的子词(subwords)

2. tokens被馈送到堆叠的causal Transformer层,并生成与每个输入token对应的输出,需要注意的是,该层无法处理没输入的token,即future tokens

3. 对应于第i个token的输出总结了来自先前token的所有信息,并预测第(i 1)个token

在推理期间,LLM每次生成一个token的输出。

例如,当输入提示「法国的首都是哪里?」(What is the capital of France?)时,模型可能会生成token为「The」,然后以该提示为条件生成下一个token「首都」(captial)等,直到模型生成完整的答案:「法国的首都是巴黎」(The capital of France is Paris)。

時間序列預測的基礎模型應該適應可變的上下文(模型觀察到的內容)和範圍(查詢模型預測的內容)長度,同時具有足夠的能力來編碼來自大型預訓練資料集的所有模式(patterns)。

僅需200M參數,零樣本性能超越有監督!谷歌發佈時序預測基礎模型TimesFM

與LLMs類似,研究人員使用堆疊的Transformer層(自註意力和前饋層)作為TimesFM模型的主要構建塊;在時間序列預測的背景下,把一個patch(一組連續的時間點)作為一個token,思路來自最近的long-horizo​​n forecasting工作:具體任務是預測在堆疊的Transformer層的末尾處,針對給定第i個輸出來預測第(i 1)個時間點patch

但TimesFM與語言模型有幾個關鍵的差異:

1. 模型需要一個具有殘差連接的多層感知器塊,將時間序列的patch轉換為token,其可以與位置編碼(PE)一起沿著輸入到Transformer層。為此,我們使用類似於我們以前在長期預測中的工作的殘差塊。

2. 來自堆疊的Transformer的輸出token可以用來預測比輸入patch長度更長的後續時間點的長度,即,輸出patch長度可以大於輸入patch長度。

假設,長度為512個時間點的時間序列被用來訓練具有「輸入patch長度32」和「輸出patch長度128」的TimesFM模型時:

在訓練期間,模型同時被訓練為使用前32個時間點來預測接下來的128個時間點,使用前64個時間點來預測時間點65至192,使用前96個時間點來預測時間點97至224等等。

假設輸入資料為長度為256的時間序列,且其任務是預測未來的接下來的256個時間點,模型首先產生時間點257至384的未來預測,然後以初始256長度輸入加上產生的輸出為條件來產生時間點385至512。

另一方面,如果在模型中,輸出patch長度等於輸入patch長度32,那麼對於相同的任務,模型經歷八次生成步驟而非2次,增加了錯誤累積的風險,因此在實驗結果中可以看到,更長的輸出patch長度會帶來更好的長期預測性能。

預先訓練資料

就像LLMs可以透過更多token變得更好一樣,TimesFM需要大量合法的時間序列資料來學習和改進;研究人員花了大量的時間來創建和評估訓練資料集,發現兩個比較好的方法:

#合成資料有助於基礎(Synthetic data helps with the basics)

可以使用統計模型或物理模擬產生有意義的合成時間序列數據,基本的時間模式可以引導模型學習時間序列預測的語法。

真實世界的資料增加了真實世界的感覺(Real-world data adds real-world flavor)

研究人員梳理了可用的公共時間序列資料集,並選擇性地將1000億個時間點的大型語料庫放在一起。

在資料集中,有Google趨勢和維基百科的頁面瀏覽量,追蹤使用者感興趣的內容,並且很好地反映了許多其他真實世界時間序列的趨勢和模式,有助於TimesFM理解更大的圖景,可以針對「訓練期間沒見過的、特定領域上下文」提升泛化表現。

零樣本評估結果

研究人員使用常用的時間序列基準,針對訓練期間未見過的資料對TimesFM進行零樣本評估,可以觀察到TimesFM的表現優於大多數統計方法,如ARIMA,ETS,並且可以匹配或優於強大的DL模型,如DeepAR,PatchTST,這些模型已經在目標時間序列上進行了明確的訓練。

研究人員使用Monash Forecasting Archive來評估TimesFM的開箱即用效能,該資料集包含來自各個領域的數萬個時間序列,如交通、天氣和需求預測,覆蓋頻率從幾分鐘到每年的數據。

根據現有文獻,研究人員檢查了適當縮放的平均絕對誤差(MAE),以便在資料集上取平均值。

可以看到,zero-shot(ZS)TimesFM比大多數監督方法都要好,包括最近的深度學習模型。也比較了TimesFM和GPT-3.5使用llmtime(ZS)提出的特定提示技術進行預測,結果證明了TimesFM的效能優於llmtime(ZS)

僅需200M參數,零樣本性能超越有監督!谷歌發佈時序預測基礎模型TimesFM

在Monash資料集上,TimesFM(ZS)與其他有監督和零樣本方法的比例MAE(越低越好)

大多數Monash資料集都是短期或中期的,也就是說預測長度不會太長;研究人員也測試了TimesFM對常用基準長期預測對最先進的基線PatchTST(和其他長期預測基線)。

研究人員繪製了ETT資料集上的MAE,用於預測未來96和192個時間點的任務,在每個資料集的最後一個測試視窗上計算指標。

僅需200M參數,零樣本性能超越有監督!谷歌發佈時序預測基礎模型TimesFM

TimesFM(ZS)的最後一個視窗MAE(越低越好)相對於ETT資料集上的llmtime(ZS)和長期預測基準

可以看到,TimesFM不僅超過了llmtime(ZS)的效能,而且與在對應資料集上明確訓練的監督PatchTST模型的效能相符。

結論

研究人員使用1000億真實的世界時間點的大型預訓練語料庫訓練了一個僅用於解碼器的基礎模型,其中大部分是來自Google趨勢的搜尋興趣時間序列資料和維基百科的頁面瀏覽量。

結果表明,即使是一個相對較小的200 M參數預訓練模型,使用TimesFM架構,在各種公共基準測試(不同的領域和粒度)中都展現出相當好的零樣本表現。

以上是僅需200M參數,零樣本性能超越有監督!谷歌發佈時序預測基礎模型TimesFM的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除