Heim >Technologie-Peripheriegeräte >KI >LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit.
Können Sprachmodelle wirklich zur Zeitreihenvorhersage verwendet werden? Gemäß Betteridges Gesetz der Schlagzeilen (jede Schlagzeile, die mit einem Fragezeichen endet, kann mit „Nein“ beantwortet werden) sollte die Antwort „Nein“ lauten. Dies scheint der Fall zu sein: Ein so leistungsstarkes LLM kann Zeitreihendaten nicht gut verarbeiten.
Zeitreihen, also Zeitreihen, beziehen sich, wie der Name schon sagt, auf eine Reihe von Datenpunktsequenzen, die in der Reihenfolge ihres Auftretens angeordnet sind.
Zeitreihenanalyse ist in vielen Bereichen von entscheidender Bedeutung, einschließlich der Vorhersage der Ausbreitung von Krankheiten, Einzelhandelsanalysen, Gesundheitswesen und Finanzen. Im Bereich der Zeitreihenanalyse haben viele Forscher in letzter Zeit untersucht, wie man mithilfe großer Sprachmodelle (LLM) Anomalien in Zeitreihen klassifizieren, vorhersagen und erkennen kann. In diesen Arbeiten wird davon ausgegangen, dass Sprachmodelle, die sequentielle Abhängigkeiten in Texten gut verarbeiten können, auch auf sequentielle Abhängigkeiten in Zeitreihendaten verallgemeinert werden können. Diese Annahme ist nicht überraschend, schließlich sind Sprachmodelle im Bereich des maschinellen Lernens mittlerweile am beliebtesten.
Wie viel Hilfe können Sprachmodelle also bei herkömmlichen Timing-Aufgaben leisten?
Kürzlich hat ein Team der University of Virginia und der University of Washington versucht, diese Frage zu beantworten und schließlich einen einfachen, aber wichtigen Vorschlag gemacht: Bei Zeitreihenvorhersageaufgaben ist die Leistung gängiger Methoden, die Sprachmodelle verwenden, nahe oder schlechter als die einfache Ablationsmethode, aber die erstere erfordert mehrere Größenordnungen mehr Berechnungen als die letztere.
Titel des Papiers: Sind Sprachmodelle tatsächlich nützlich für die Vorhersage von Zeitreihen? eine große Zahl von Ablationsforschungen, die einen „besorgniserregenden Trend“ in der aktuellen Zeitreihenprognoseforschung offenbaren.
Stattdessen besteht ihr Ziel darin, diese überraschende Erkenntnis hervorzuheben: Für bestehende Zeitreihenaufgaben nutzen bestehende Methoden kaum die angeborenen Argumentationsfähigkeiten vorab trainierter Sprachmodelle.
Das Team verwendete drei hochmoderne Zeitreihenvorhersagemethoden und schlug drei Ablationsmethoden für LLM vor: ohne LLM, LLM2Attn, LLM2Trsf.
Um die Wirksamkeit von LLM bei Zeitreihenprognoseaufgaben zu bewerten, testeten sie diese Methoden an 8 Standarddatensätzen.
Referenzmethoden für Sprachmodelle und Zeitreihen
Sie experimentierten mit drei aktuellen Methoden zur Zeitreihenvorhersage mithilfe von LLM. Siehe Tabelle 2. Das von diesen Methoden verwendete Basismodell ist GPT-2 oder LLaMA, und es werden verschiedene Ausrichtungs- und Feinabstimmungsstrategien verwendet.
OneFitsAll: Die OneFitsAll-Methode (manchmal auch GPT4TS genannt) verwendet zunächst Instanznormalisierungs- und Patching-Techniken für die Eingabezeitreihe und leitet sie dann an eine lineare Ebene weiter, um die Eingabedarstellung für das Sprachmodell zu erhalten. Während des Trainings werden die Multi-Head-Aufmerksamkeits- und Feed-Forward-Schichten des Sprachmodells eingefroren, während Positionseinbettungen und Schichtnormalisierung optimiert werden. Die Aufgabe der letzten Ebene besteht darin, den endgültigen verborgenen Zustand des Sprachmodells in Vorhersageergebnisse umzuwandeln.
Time-LLM: Bei Verwendung von Time-LLM wird die Eingabezeitreihe durch die Patching-Technik tokenisiert und durch Multi-Head-Aufmerksamkeit an der niedrigdimensionalen Darstellung der Worteinbettung ausgerichtet. Die Ausgabe dieses Ausrichtungsprozesses wird dann zusammen mit der Einbettung beschreibender statistischer Merkmale einem eingefrorenen, vorab trainierten Sprachmodell zugeführt. Die Ausgabedarstellung dieses Sprachmodells wird dann abgeflacht und durch eine lineare Ebene geleitet, was zu Vorhersagen führt. LLaTA: Die Art und Weise, wie LLaTA die Eingabezeitreihen einbettet, besteht darin, jeden Kanal als Token zu behandeln. Eine Hälfte der Architektur ist der „Textzweig“, der mithilfe von Kreuzaufmerksamkeit die Zeitreihendarstellung mit der niedrigdimensionalen Darstellung der Worteinbettungen des Sprachmodells in Einklang bringt. Diese Darstellung wird dann an ein eingefrorenes, vorab trainiertes Sprachmodell übergeben, was zu einer „Textvorhersage“ führt. Gleichzeitig lernt der „zeitliche“ Zweig der Architektur basierend auf der Eingabezeitreihe einen niedrigrangigen Adapter für das vorab trainierte Sprachmodell und erhält so eine „zeitliche Vorhersage“ für die Inferenz. Das Modell enthält einen zusätzlichen Verlustterm, der die Ähnlichkeit zwischen diesen Darstellungen berücksichtigt. Vom Team vorgeschlagene AblationsmethodenUm die Auswirkungen von LLM zu isolieren, schlug das Team für LLM-basierte Prädiktoren drei Ablationsmethoden vor: Entfernen der LLM-Komponente oder Ersetzen durch ein einfaches Modul.
Konkret wurden für jede der oben genannten drei Methoden die folgenden drei Änderungen vorgenommen:
ohne LLM, siehe Abbildung 1b. Entfernen Sie das Sprachmodell vollständig und übergeben Sie das Eingabetoken direkt an die letzte Ebene der Referenzmethode.
LLM2Attn, siehe Abbildung 1c. Ersetzen Sie das Sprachmodell durch eine einzelne, zufällig initialisierte Aufmerksamkeitsschicht mit mehreren Köpfen.
LLM2Trsf, siehe Abbildung 1d. Ersetzen Sie das Sprachmodell durch ein einzelnes zufällig initialisiertes Transformer-Modul.
In der obigen Ablationsstudie bleibt der Rest des Prädiktors unverändert (trainierbar). Wie beispielsweise in Abbildung 1b dargestellt, wird die Eingabekodierung nach dem Entfernen des LLM direkt an die Ausgabekarte übergeben. Und wie in Abbildung 1c und 1d dargestellt, werden sie nach dem Ersetzen des LLM durch Attention oder Transformer zusammen mit der verbleibenden Struktur der ursprünglichen Methode trainiert.
Datensätze und Bewertungsmetriken
Benchmark-Datensätze. Die Auswertung verwendet die folgenden realen Datensätze: ETT (enthält 4 Teilmengen: ETTm1, ETTm2, ETTh1, ETTh2), Krankheit, Wetter, Verkehr, Elektrizität. Tabelle 1 enthält die Statistiken dieser Datensätze. Ebenfalls verfügbar sind Wechselkurs, Covid-Todesfälle, Taxi (30 Min.), NN5 (Täglich) und FRED-MD.
Bewertungsindikatoren. Die in dieser Studie angegebenen Bewertungsmetriken sind der mittlere absolute Fehler (MAE) und der mittlere quadratische Fehler (MSE) zwischen vorhergesagten und wahren Zeitreihenwerten.
Ergebnisse
Konkret untersuchte das Team die folgenden Forschungsfragen (RQ):
(RQ1) Können vorab trainierte Sprachmodelle dazu beitragen, die Vorhersageleistung zu verbessern?
(RQ2) Sind LLM-basierte Methoden den Rechenaufwand wert, den sie verbrauchen?
(RQ3) Hilft das Vortraining des Sprachmodells bei der Durchführung von Vorhersageaufgaben?
(RQ4) Kann LLM sequentielle Abhängigkeiten in Zeitreihen charakterisieren?
(RQ5) Hilft LLM beim Lernen mit wenigen Schüssen?
(RQ6) Woher kommt die Leistung?
Hat das Vortraining von Sprachmodellen dazu beigetragen, die Vorhersageleistung zu verbessern? (RQ1)
Experimentelle Ergebnisse zeigen, dass vorab trainiertes LLM für Zeitreihenvorhersageaufgaben noch nicht sehr nützlich ist.
Insgesamt, wie in Tabelle 3 gezeigt, ist die Ablationsmethode bei 8 Datensätzen und 2 Indikatoren in 26/26 Fällen besser als die Time-LLM-Methode und übertrifft die Time-LLM-Methode in 22/ 26 Fälle besser als LLaTA und in 19/26 Fällen besser als OneFitsAll.
Zusammenfassend ist es schwierig zu sagen, dass LLM effektiv für die Zeitreihenprognose eingesetzt werden kann.
Sind LLM-basierte Methoden den Rechenaufwand wert, den sie verursachen? (RQ2)
Hier wird die Rechenintensität dieser Methoden anhand ihrer nominellen Leistung bewertet. Sprachmodelle im Referenzansatz nutzen Hunderte Millionen oder sogar Milliarden Parameter, um Zeitreihenvorhersagen durchzuführen. Selbst wenn die Parameter dieser Sprachmodelle eingefroren sind, verursachen sie während des Trainings und der Inferenz immer noch einen erheblichen Rechenaufwand.
Zum Beispiel hat Time-LLM 6642 M Parameter und benötigt 3003 Minuten, um das Training für den Wetterdatensatz abzuschließen, während die Ablationsmethode nur 0,245 M Parameter hat und die durchschnittliche Trainingszeit nur 2,17 Minuten beträgt. Tabelle 4 enthält Informationen zum Training anderer Methoden für die ETTh1- und Wetterdatensätze.
Was die Inferenzzeit betrifft, besteht der Ansatz hier darin, durch die maximale Batchgröße zu dividieren, um die Inferenzzeit pro Beispiel abzuschätzen. Im Durchschnitt benötigen Time-LLM, OneFitsAl und LLaTA im Vergleich zum modifizierten Modell 28,2-, 2,3- und 1,2-mal mehr Inferenzzeit.
Abbildung 3 zeigt einige Beispiele, bei denen die grünen Markierungen (Ablationsmethoden) im Allgemeinen niedriger sind als die roten Markierungen (LLM) und auf der linken Seite konzentriert sind, was zeigt, dass sie weniger rechenintensiv sind, aber eine bessere Vorhersageleistung haben.
Kurz gesagt, bei Zeitreihenvorhersageaufgaben kann die Rechenintensität von LLM keine entsprechenden Leistungsverbesserungen bringen.
Hilft das Vortraining des Sprachmodells bei der Durchführung von Vorhersageaufgaben? (RQ3)
Die Auswertungsergebnisse zeigen, dass für Zeitreihenvorhersageaufgaben ein Vortraining mit großen Datensätzen wirklich nicht notwendig ist. Um zu testen, ob das während des Vortrainings erlernte Wissen zu sinnvollen Verbesserungen der Vorhersageleistung führen kann, experimentierte das Team mit den Auswirkungen verschiedener Kombinationen aus Vortraining und Feinabstimmung von LLaTA auf Zeitreihendaten.
Vortraining + Feinabstimmung (Pre+FT): Dies ist die ursprüngliche Methode, die darin besteht, ein vorab trainiertes Sprachmodell anhand von Zeitreihendaten zu optimieren. Für LLaTA besteht der Ansatz hier darin, das Basissprachenmodell einzufrieren und einen Low-Rank-Adapter (LoRA) zu erlernen.
Zufällige Initialisierung + Feinabstimmung (woPre + FT): Hilft das aus dem Vortraining erhaltene Textwissen bei der Vorhersage von Zeitreihen? Hier werden die Gewichte des Sprachmodells zufällig initialisiert (wodurch die Auswirkungen des Vortrainings beseitigt werden) und das LLM anhand des fein abgestimmten Datensatzes von Grund auf trainiert.
Pre-Training + keine Feinabstimmung (Pre+woFT): Wie viel Verbesserung kann die Feinabstimmung von Zeitreihendaten zur Vorhersageleistung bringen? Hier frieren wir das Sprachmodell ein und geben das Erlernen von LoRA auf. Dies kann die Leistung des Sprachmodells selbst bei der Verarbeitung von Zeitreihen widerspiegeln.
Zufällige Initialisierung + keine Feinabstimmung (woPre+woFT): Dies dient offensichtlich dazu, die Eingabezeitreihe zufällig auf ein Prognoseergebnis zu projizieren. Die Ergebnisse dienten als Basis für den Vergleich mit anderen Methoden.
Die Gesamtergebnisse sind in Tabelle 5 aufgeführt. Laut MAE- und MSE-Indikatoren schnitt „Vortraining + Feinabstimmung“ bei 8 Datensätzen dreimal am besten ab, während „Zufällige Initialisierung + Feinabstimmung“ achtmal die beste Leistung erbrachte. Dies zeigt, dass Sprachkenntnisse für die Vorhersage von Zeitreihen nur begrenzt hilfreich sind. Allerdings haben „Vortraining + keine Feinabstimmung“ und die Basislinie „Zufällige Initialisierung + keine Feinabstimmung“ 5 bzw. 0 beste Ergebnisse, was zeigt, dass Sprachkenntnisse beim Feinabstimmungsprozess nicht viel helfen.
Kurz gesagt, das durch das Vortraining erworbene Textwissen ist für die Vorhersage von Zeitreihen nur begrenzt hilfreich.
Kann LLM sequentielle Abhängigkeiten in Zeitreihen charakterisieren? (RQ4)
Die meisten Zeitreihenvorhersagemethoden, die LLM zur Feinabstimmung der Positionskodierung verwenden, sind hilfreich, um die Position von Zeitschritten in der Sequenz zu verstehen. Das Team prognostiziert, dass die Vorhersageleistung eines Zeitreihenmodells mit hervorragender Standortdarstellung erheblich sinken wird, wenn die Eingabeorte verschlüsselt werden. Sie experimentierten mit drei Methoden zum Verschlüsseln von Zeitreihendaten: zufälliges Mischen der gesamten Sequenz (sf-all), zufälliges Mischen nur der ersten Hälfte der Sequenz (sf-half) und Austauschen der ersten und zweiten Hälfte der Sequenz (ex- Hälfte). . Die Ergebnisse sind in Tabelle 6 dargestellt.
Die Auswirkung des Input Shufflings auf LLM-basierte Methoden ist ähnlich wie bei der Ablationsmethode. Dies zeigt, dass LLM keine herausragende Fähigkeit besitzt, sequentielle Abhängigkeiten in Zeitreihen zu charakterisieren.
Hilft LLM beim Lernen mit wenigen Schüssen? (RQ5)
Die Evaluationsergebnisse zeigen, dass LLM für wenige Lernszenarien von geringer Bedeutung ist.
Ihr Bewertungsexperiment bestand darin, 10 % jedes Datensatzes zu nehmen und das Modell und seine Ablationsmethode neu zu trainieren. Konkret wird hier LLaMA (Time-LLM) ausgewertet. Die Ergebnisse sind in Tabelle 7 aufgeführt.
Man erkennt, dass die Leistung mit und ohne LLM ähnlich ist – es gibt jeweils 8 Fälle, die besser abschneiden. Das Team führte auch ähnliche Experimente mit der GPT-2-basierten Methode LLaTA durch. Die Ergebnisse sind in Tabelle 8 dargestellt, wobei die Ablationsmethode im Szenario mit wenigen Proben besser abschneidet als LLM.
Woher kommt die Leistung? (RQ6)
In diesem Abschnitt werden Codierungstechniken bewertet, die üblicherweise in LLM-Zeitreihenmodellen verwendet werden. Es stellt sich heraus, dass die Kombination von Patching und einschichtiger Aufmerksamkeit eine einfache, aber effektive Option ist.
Zuvor wurde festgestellt, dass eine einfache Ablation der LLM-basierten Methode ihre Leistung nicht beeinträchtigt. Um die Ursache dieses Phänomens zu verstehen, untersuchte das Team einige Codierungstechniken, die üblicherweise bei LLM-Zeitreihenaufgaben verwendet werden, wie etwa Patching und Dekomposition. Ein einfaches Transformer-Modul ist ebenfalls verfügbar, um die Codierung zu unterstützen.
Es wurde festgestellt, dass eine Struktur, die Patching und Aufmerksamkeit kombiniert, die meisten anderen Kodierungsmethoden bei kleinen Datensätzen (weniger als 1 Million Zeitstempel) übertrifft und sogar mit der LLM-Methode vergleichbar ist.
Die detaillierte Struktur ist in Abbildung 4 dargestellt. Dabei wird die „Instanznormalisierung“ auf Zeitreihen angewendet, gefolgt von Patching und Projektion. Anschließend wird zwischen den Patches eine Aufmerksamkeitsebene zum Lernen von Funktionen verwendet. Bei größeren Datensätzen wie Verkehr (~15 Millionen) und Elektrizität (~8 Millionen) ist die Codierungsleistung eines einschichtigen linearen Modells mit einem einfachen Transformer besser. Bei diesen Methoden wird schließlich eine einzelne lineare Schicht verwendet, um die Zeitreiheneinbettung zu projizieren und die Vorhersageergebnisse zu erhalten.
Kurz gesagt: Patchen ist für das Codieren sehr wichtig. Darüber hinaus können grundlegende Aufmerksamkeits- und Transformer-Module die Codierung effektiv unterstützen.
Das obige ist der detaillierte Inhalt vonLLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!