ホームページ  >  記事  >  テクノロジー周辺機器  >  LLM は時系列予測にはあまり適していません。推論機能も使用しません。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

WBOY
WBOYオリジナル
2024-07-15 15:59:411180ブラウズ

言語モデルは本当に時系列予測に使用できますか?ベタリッジの見出しの法則 (疑問符で終わるニュース見出しは「いいえ」と答えることができます) によれば、答えは「いいえ」であるはずです。これは事実のようです。このような強力な LLM は時系列データを適切に処理できません。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

時系列、つまり時系列とは、その名の通り、発生順に並べられたデータ点の並びの集合を指します。

時系列分析は、病気の蔓延予測、小売分析、ヘルスケア、金融など、多くの分野で重要です。時系列分析の分野では、多くの研究者が最近、大規模言語モデル (LLM) を使用して時系列の異常を分類、予測、検出する方法を研究しています。これらの論文では、テキスト内の逐次依存関係の処理に優れた言語モデルは、時系列データ内の逐次依存関係にも一般化できると想定しています。結局のところ、言語モデルは現在機械学習の分野で最も人気があるため、この仮定は驚くべきことではありません。

それでは、言語モデルは従来のタイミングタスクにどれだけの助けをもたらすのでしょうか?

最近、バージニア大学とワシントン大学のチームがこの質問に答えようと試み、最終的にシンプルだが重要な提案をしました。時系列予測タスクでは、言語モデルを使用した一般的な手法のパフォーマンスはそれに近いか、それよりも劣ります。基本的なアブレーション方法よりも優れていますが、前者は後者よりも桁違いに多くの計算を必要とします。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

  • 論文のタイトル: 言語モデルは時系列予測に実際に役立ちますか?

  • 論文のアドレス: https://arxiv.org/pdf/2406.16964

これらの発見は、チームによって次の方法で得られました。多数のアブレーション研究により、現在の時系列予測研究における「憂慮すべき傾向」が明らかになりました。

しかしチームはまた、「私たちの目標は、言語モデルが時系列に決して使用できないことを暗示することではありません。実際、いくつかの最近の研究は、時間を処理するために言語と時系列の間に十分な可能性があることを示しています。」一連の推論と社会理解などのタスク。

代わりに、彼らの目標は、この驚くべき発見を強調することです。既存の時系列タスクについて、既存のメソッドは、事前トレーニングされた言語モデルの生来の推論機能をほとんど利用していません。

実験セットアップ

チームは 3 つの最先端の時系列予測方法を使用し、LLM の 3 つのアブレーション方法 (LLM なし、LLM2Attn、LLM2Trsf) を提案しました。

時系列予測タスクにおける LLM の有効性を評価するために、8 つの標準データセットでこれらのメソッドをテストしました。

言語モデルと時系列の参照方法

彼らは、LLM を使用した時系列予測のための 3 つの最近の方法を実験しました。表 2 を参照してください。これらの方法で使用される基本モデルは GPT-2 または LLaMA であり、さまざまなアライメントおよび微調整戦略が使用されます。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

OneFitsAll: OneFitsAll (GPT4TS とも呼ばれる) メソッドは、入力時系列に対してインスタンスの正規化とパッチ技術を使用し、それを線形層に供給して、言語モデルの入力表現を取得します。トレーニング中、言語モデルのマルチヘッド アテンション層とフィードフォワード層はフリーズされますが、位置の埋め込みと層の正規化は最適化されます。最終層の役割は、言語モデルの最終的な隠れ状態を予測結果に変換することです。

Time-LLM: Time-LLM を使用する場合、入力時系列はパッチング手法によってトークン化され、マルチヘッド アテンションによって単語埋め込みの低次元表現と位置合わせされます。この調整プロセスの出力は、記述的な統計的特徴の埋め込みとともに、凍結された事前トレーニング済み言語モデルに供給されます。この言語モデルの出力表現は平坦化されて線形層を通過し、予測が行われます。

LLaTA: LLaTA が入力時系列を埋め込む方法は、各チャネルをトークンとして扱うことです。アーキテクチャの半分は「テキスト ブランチ」で、クロス アテンションを使用して時系列表現を言語モデルの単語埋め込みの低次元表現と位置合わせします。この表現はその後、凍結された事前トレーニング済み言語モデルに渡され、「テキスト予測」が生成されます。同時に、アーキテクチャの「時間的」ブランチは、入力時系列に基づいて事前トレーニングされた言語モデルの下位アダプターを学習し、それによって推論のための「時間的予測」を取得します。モデルには、これらの表現間の類似性を考慮した追加の損失項が含まれています。

チームが提案したアブレーション手法

LLM ベースの予測子について、LLM の影響を分離するために、チームは 3 つのアブレーション手法を提案しました。LLM コンポーネントを削除するか、単純なモジュールで置き換えます。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

具体的には、上記の 3 つのメソッドのそれぞれに対して、次の 3 つの変更が加えられました。

LLM なし、図 1b を参照。言語モデルを完全に削除し、入力トークンを参照メソッドの最終層に直接渡します。

LLM2Attn、図 1c を参照。言語モデルを、ランダムに初期化された単一のマルチヘッド アテンション レイヤーに置き換えます。

LLM2Trsf、図 1d を参照。言語モデルを、ランダムに初期化された単一の Transformer モジュールに置き換えます。

上記のアブレーション研究では、予測変数の残りの部分は変更されずに保たれます (訓練可能)。たとえば、図 1b に示すように、LLM を削除した後、入力エンコーディングは出力マッピングに直接渡されます。そして、図 1c と 1d に示すように、LLM を tention または Transformer に置き換えた後、元のメソッドの残りの構造と一緒にトレーニングされます。

データセットと評価指標

ベンチマーク データセット。評価では、ETT (ETTm1、ETTm2、ETTh1、ETTh2 の 4 つのサブセットを含む)、病気、​​天気、交通、電力といった実際のデータセットを使用します。表 1 に、これらのデータセットの統計を示します。為替レート、Covid 死亡者数、タクシー (30 分)、NN5 (毎日)、および FRED-MD も利用できます。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

評価指標。この研究で報告される評価指標は、予測時系列値と真の時系列値の間の平均絶対誤差 (MAE) と平均二乗誤差 (MSE) です。

結果

具体的に、チームは次の研究課題 (RQ) を調査しました:

  • (RQ1) 事前トレーニングされた言語モデルは予測パフォーマンスの向上に役立ちますか?

  • (RQ2) LLM ベースのメソッドは、消費する計算コストに見合う価値がありますか?

  • (RQ3) 言語モデルの事前トレーニングは予測タスクのパフォーマンスに役立ちますか?

  • (RQ4) LLM は時系列における逐次的な依存関係を特徴付けることができますか?

  • (RQ5) LLM は数回の学習に役立ちますか?

  • (RQ6) パフォーマンスはどこから来ますか?

言語モデルの事前トレーニングは予測パフォーマンスの向上に役立ちますか? (RQ1)

実験結果は、事前トレーニングされた LLM が時系列予測タスクにはまだあまり役に立たないことを示しています。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

全体として、表 3 に示すように、8 つのデータセットと 2 つの指標において、アブレーション法は 26/26 のケースで Time-LLM 法よりも優れており、22/26 のケースで Time-LLM 法を上回っています。 26 件で LLaTA よりも優れており、19/26 件で OneFitsAll よりも優れています。

結論として、LLMは時系列予測に有効に活用できるとは言い難いです。

LLM ベースのメソッドは、消費する計算コストに見合う価値がありますか? (RQ2)

ここで、これらのメソッドの計算強度は、公称パフォーマンスに基づいて評価されます。参照アプローチの言語モデルは、時系列予測を実行するために数億、さらには数十億のパラメーターを使用します。これらの言語モデルのパラメーターが固定されている場合でも、トレーニングと推論中にかなりの計算オーバーヘッドが発生します。

たとえば、Time-LLM には 6642 M のパラメータがあり、気象データセットのトレーニングを完了するのに 3003 分かかりますが、アブレーション手法には 0.245 M のパラメータしかなく、平均トレーニング時間はわずか 2.17 分です。表 4 に、ETTh1 および気象データセットに関する他のメソッドのトレーニングに関する情報を示します。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

推論時間に関しては、ここでのアプローチは最大バッチサイズで割って例ごとの推論時間を推定することです。平均して、Time-LLM、OneFitsAl、および LLaTA では、変更されたモデルと比較して 28.2 倍、2.3 倍、および 1.2 倍の推論時間がかかります。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

図 3 は、緑のマーカー (アブレーション法) が一般に赤のマーカー (LLM) よりも低く、左側に集中している例をいくつか示しています。これは、それらの方が計算コストが低く、予測パフォーマンスが優れていることを示しています。

つまり、時系列予測タスクでは、LLM の計算強度がそれに応じたパフォーマンスの向上をもたらすことはできません。

言語モデルの事前トレーニングは予測タスクのパフォーマンスに役立ちますか? (RQ3)

評価結果は、時系列予測タスクでは、大規模なデータセットを使用した事前トレーニングが実際には必要ないことを示しています。事前トレーニング中に学習した知識が予測パフォーマンスに有意義な改善をもたらすことができるかどうかをテストするために、チームは時系列データに対する LLaTA に対する事前トレーニングと微調整のさまざまな組み合わせの効果を実験しました。

  • 事前トレーニング + 微調整 (Pre+FT): これは、時系列データに対して事前トレーニングされた言語モデルを微調整するオリジナルの方法です。ここでの LLaTA のアプローチは、基本言語モデルを凍結し、低ランク アダプター (LoRA) を学習することです。

  • ランダム初期化 + 微調整 (woPre+FT): 事前トレーニングから得られたテキスト知識は時系列予測に役立ちますか?ここでは、言語モデルの重みがランダムに初期化され (これにより、事前トレーニングの効果が消去され)、LLM は微調整されたデータセットで最初からトレーニングされます。

  • 事前トレーニング + 微調整なし (Pre+woFT): 時系列データの微調整により、予測パフォーマンスはどの程度向上しますか?ここでは言語モデルを凍結し、LoRA の学習を放棄します。これは、時系列の処理における言語モデル自体のパフォーマンスを反映することができます。

  • ランダム初期化 + 微調整なし (woPre+woFT): 明らかに、これは入力時系列を予測結果にランダムに投影することです。結果は、他の方法と比較するためのベースラインとして使用されました。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

全体的な結果を表 5 に示します。 8 つのデータセットについて、MAE および MSE 指標によると、「事前トレーニング + 微調整」は 3 回最高のパフォーマンスを示し、「ランダム初期化 + 微調整」は 8 回最高のパフォーマンスを示しました。これは、言語知識が時系列予測にあまり役に立たないことを示しています。ただし、「事前トレーニング + 微調整なし」とベースラインの「ランダム初期化 + 微調整なし」の最良の結果はそれぞれ 5 と 0 であり、言語の知識が微調整プロセスではあまり役に立たないことがわかります。

つまり、事前トレーニングによって得られたテキストの知識は、時系列予測にはあまり役に立ちません。

LLM は時系列の連続した依存関係を特徴付けることができますか? (RQ4)

LLM を使用して位置エンコーディングを微調整するほとんどの時系列予測方法は、シーケンス内のタイム ステップの位置を理解するのに役立ちます。研究チームは、優れた位置表現を備えた時系列モデルの場合、入力位置がスクランブルされている場合、予測パフォーマンスが大幅に低下すると予測しています。彼らは、時系列データをスクランブルする 3 つの方法を実験しました。シーケンス全体をランダムにシャッフルする (sf-all)、シーケンスの前半のみをランダムにシャッフルする (sf-half)、シーケンスの前半と後半を交換する (ex-半分)。 。結果を表6に示す。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

LLM ベースのメソッドに対する入力シャッフルの影響は、アブレーション メソッドと同様です。これは、LLM には時系列での逐次的な依存関係を特徴付ける際に優れた能力がないことがわかります。

LLM は数回の学習に役立ちますか? (RQ5)

評価結果は、LLM が少数ショットの学習シナリオではほとんど意味を持たないことを示しています。

彼らの評価実験は、各データセットの 10% を取得し、モデルとそのア​​ブレーション方法を再トレーニングすることでした。具体的には、LLaMA (Time-LLM) がここで評価されます。結果を表7に示す。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

LLM を使用した場合と使用しない場合のパフォーマンスは類似していることがわかります。それぞれのケースでパフォーマンスが向上した 8 つのケースがあります。研究チームは、GPT-2ベースの手法LLaTAを使用して同様の実験も実施した。結果を表 8 に示します。ここで、サンプル数が少ないシナリオでは、アブレーション法の方が LLM よりも優れたパフォーマンスを発揮します。

パフォーマンスはどこから来ますか? (RQ6)

このセクションでは、LLM 時系列モデルで一般的に使用されるコーディング手法を評価します。パッチングと単層アテンションを組み合わせることが、シンプルかつ効果的なオプションであることがわかりました。

LLM ベースのメソッドの単純な除去ではパフォーマンスが低下しないことが以前に判明しました。この現象の原因を理解するために、チームはパッチ適用や分解など、LLM 時系列タスクで一般的に使用されるいくつかのエンコード手法を研究しました。エンコードを支援するために、基本的な Transformer モジュールも利用できます。

パッチとアテンションを組み合わせた構造は、小規模なデータセット (タイムスタンプが 100 万未満) では他のほとんどのエンコード方式よりも優れており、LLM 方式にさえ匹敵することがわかりました。

LLM は時系列予測にはあまり適していません。推論機能も使用しません。

詳細な構造を図 4 に示します。これには、時系列に「インスタンス正規化」を適用し、その後にパッチ適用と射影を行うことが含まれます。次に、特徴学習のためにパッチ間で注目の層が使用されます。交通量 (約 1,500 万) や電力 (約 800 万) などの大規模なデータセットの場合、基本的な Transformer を使用した単層線形モデルのエンコード パフォーマンスが優れています。これらの方法では、最終的に単一の線形レイヤーを使用して時系列埋め込みを投影し、予測結果を取得します。

要するに、パッチ適用はコーディングにとって非常に重要です。さらに、基本的な注意と Transformer モジュールもコーディングに効果的に役立ちます。

以上がLLM は時系列予測にはあまり適していません。推論機能も使用しません。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。