


Zeitreihenprognosen spielen in verschiedenen Bereichen wie Einzelhandel, Finanzen, Fertigung, Gesundheitswesen und Naturwissenschaften usw. eine wichtige Rolle. Im Einzelhandel können die Lagerkosten effektiv gesenkt und der Umsatz gesteigert werden, indem die Genauigkeit der Nachfrageprognosen verbessert wird. Dies bedeutet, dass Unternehmen die Kundennachfrage besser erfüllen, Lagerüberhänge und Verluste reduzieren und gleichzeitig Umsatz und Gewinn steigern können. Daher ist die Zeitreihenprognose im Einzelhandel von großem Wert und kann Unternehmen Substanz verleihen.
Deep-Learning-Modelle (DL) dominieren die Aufgabe der „multivariablen Zeitreihenprognose“ und werden in verschiedenen Wettbewerben und in der Praxis eingesetzt Anwendungen.
Gleichzeitig wurden erhebliche Fortschritte bei großen grundlegenden Sprachmodellen bei NLP-Aufgaben (Natural Language Processing) erzielt, wodurch die Leistung von Aufgaben wie Übersetzung, Generierung von Abrufverbesserungen und Code-Vervollständigung effektiv verbessert wurde.
Das Training von NLP-Modellen basiert auf umfangreichen Textdaten, die aus verschiedenen Quellen stammen, darunter Crawler, Open-Source-Code usw. Das trainierte Modell kann Muster in der Sprache erkennen und hat die Fähigkeit, aus Nullproben zu lernen : Beispielsweise werden große Modelle bei Abrufaufgaben verwendet, bei denen das Modell Fragen zu aktuellen Ereignissen beantworten und diese zusammenfassen kann.
Obwohl Deep-Learning-basierte Prädiktoren herkömmliche Methoden in vielerlei Hinsicht übertreffen, einschließlich der Reduzierung von Schulungs- und Inferenzkosten, müssen noch einige Herausforderungen bewältigt werden:
Viele Deep-Learning-Modelle durchlaufen langwieriges Training und Validierung. Nur dann kann es sein an einer neuen Zeitreihe getestet. Im Gegensatz dazu verfügt das zugrunde liegende Modell für die Zeitreihenprognose über „out-of-the-box-Prognose“-Funktionen und kann ohne zusätzliche Schulung auf unbekannte Zeitreihendaten angewendet werden. Mit dieser Funktion können sich Benutzer auf die Verbesserung der Prognosen für praktische nachgelagerte Aufgaben wie die Bedarfsplanung im Einzelhandel konzentrieren.
Forscher von Google Research haben kürzlich ein Basismodell für die Zeitreihenvorhersage namens TimesFM vorgeschlagen, das anhand von 100 Milliarden realen Zeitpunkten vorab trainiert wurde. Im Vergleich zu aktuellen, hochmodernen Large Language Models (LLMs) ist TimesFM viel kleiner und enthält nur 200 Millionen Parameter.
Link zum Papier: https://arxiv.org/pdf/2310.10688.pdf
Experimentelle Ergebnisse zeigen, dass TimesFM trotz des geringen Maßstabs über verschiedene Bereiche und Zeitskalen hinweg anders abschneidet als untrainierte. Der Datensatz zeigt überraschende „Zero-Shot-Leistung“, die der Leistung explizit trainierter, hochmoderner überwachter Methoden für diese Datensätze nahe kommt.
Die Forscher planen, das TimesFM-Modell noch in diesem Jahr externen Kunden in Google Cloud Vertex AI zur Verfügung zu stellen.
Basismodell TimesFM
LLMs werden in der Regel nur durch Decoder trainiert, einschließlich dreier Schritte:
1 Der Text wird in Unterwörter zerlegt, die als Token bezeichnet werden
2 Gestapelte kausale Transformer-Schicht und Generierung einer Ausgabe, die jedem Eingabe-Token entspricht. Es ist zu beachten, dass diese Schicht keine Token ohne Eingabe verarbeiten kann, d. h. zukünftige Token. Die Ausgabe des i-ten Tokens fasst alle zusammen Informationen aus den vorherigen Tokens und sagt das (i+1)-te Token voraus
Während der Inferenz generiert LLM jeweils die Ausgabe eines Tokens.
Wenn Sie beispielsweise die Eingabeaufforderung „Was ist die Hauptstadt von Frankreich?“ eingeben, generiert das Modell möglicherweise den Token „The“ und generiert dann den nächsten Token „Capital“. auf diese Eingabeaufforderung. “ (Großbuchstaben) und so weiter, bis das Modell eine vollständige Antwort generiert: „Die Hauptstadt Frankreichs ist Paris“ (Die Hauptstadt Frankreichs ist Paris).
Das zugrunde liegende Modell für die Zeitreihenvorhersage sollte sich an variable Kontexte (was das Modell beobachtet) und Bereichslängen (was das Abfragemodell vorhersagt) anpassen und gleichzeitig leistungsstark genug sein, um alle Muster aus großen vorab trainierten Datensätzen (Mustern) zu kodieren.
Ähnlich wie bei LLMs verwenden Forscher gestapelte Transformer-Schichten (Selbstaufmerksamkeits- und Feed-Forward-Schichten) als Hauptbausteine des TimesFM-Modells Kontinuierlicher Zeitpunkt) als Token verwendet wird, stammt die Idee aus neueren Langzeitprognosearbeiten: Die spezifische Aufgabe besteht darin, den (i+1)-ten Zeitpunkt für eine gegebene i-te Ausgabe am Ende des gestapelten Transformer-Layer-Patches vorherzusagen
Aber TimesFM weist mehrere wesentliche Unterschiede zu Sprachmodellen auf:
1 Das Modell erfordert einen mehrschichtigen Perzeptronblock mit Restverbindungen, um die Zeitreihen-Patches in Token umzuwandeln, die mit der Positionskodierung ( PE) zusammen mit der Eingabe in die Transformer-Schicht. Zu diesem Zweck verwenden wir Restblöcke, ähnlich wie bei unserer vorherigen Arbeit in der Langzeitvorhersage.
2. Das Ausgabe-Token des gestapelten Transformers kann verwendet werden, um die Länge nachfolgender Zeitpunkte vorherzusagen, die länger als die Eingabe-Patch-Länge ist, d. h. die Ausgabe-Patch-Länge kann größer als die Eingabe-Patch-Länge sein.
Angenommen, eine Zeitreihe mit einer Länge von 512 Zeitpunkten wird verwendet, um ein TimesFM-Modell mit „Eingabe-Patch-Länge 32“ und „Ausgabe-Patch-Länge 128“ zu trainieren:
Während des Trainings wird das Modell trainiert Zur gleichen Zeit: Um die nächsten 128 Zeitpunkte anhand der ersten 32 Zeitpunkte vorherzusagen, verwenden Sie die ersten 64 Zeitpunkte, um die Zeitpunkte 65 bis 192 vorherzusagen, verwenden Sie die ersten 96 Zeitpunkte, um die Zeitpunkte 97 bis 224 vorherzusagen, und so weiter.
Unter der Annahme, dass es sich bei den Eingabedaten um eine Zeitreihe der Länge 256 handelt und ihre Aufgabe darin besteht, die nächsten 256 Zeitpunkte in der Zukunft vorherzusagen, generiert das Modell zunächst Zukunftsvorhersagen für die Zeitpunkte 257 bis 384 und übernimmt dann die anfänglichen 256 Längeneingabe plus Die generierte Ausgabe ist an die Generierung der Zeitpunkte 385 bis 512 gebunden.
Wenn andererseits im Modell die Ausgabe-Patch-Länge gleich der Eingabe-Patch-Länge 32 ist, dann durchläuft das Modell für dieselbe Aufgabe acht Generierungsschritte statt zwei, was das Risiko einer Fehlerakkumulation erhöht und daher in den experimentellen Ergebnissen. Wie in zu sehen ist, führt eine längere Ausgabe-Patch-Länge zu einer besseren langfristigen Vorhersageleistung.
Daten vor dem Training
So wie LLMs mit mehr Token besser werden können, benötigt TimesFM große Mengen legitimer Zeitreihendaten, um zu lernen und sich zu verbessern; Forscher verbringen viel Zeit mit der Erstellung und Auswertung von Trainingsdatensätzen und haben zwei bessere Methoden gefunden :
Synthetische Daten helfen bei den Grundlagen
Sie können statistische Modelle oder physikalische Simulationen verwenden, um aussagekräftige synthetische Zeitreihendaten zu generieren. Grundsätzlich kann das zeitliche Muster das Modell beim Erlernen der Grammatik der Zeitreihenvorhersage unterstützen.
Daten aus der realen Welt verleihen dem Ganzen eine Atmosphäre aus der realen Welt
Forscher durchforsteten verfügbare öffentliche Zeitreihendatensätze und kombinierten selektiv 100 Milliarden Zeitpunkte. Es wurde ein großer Korpus von Zeitpunkten zusammengestellt.
Im Datensatz gibt es Seitenaufrufe von Google Trends und Wikipedia, die verfolgen, woran Benutzer interessiert sind, und die Trends und Muster vieler anderer realer Zeitreihen gut widerspiegeln, was TimesFM dabei hilft, das Gesamtbild zu verstehen kann die Generalisierungsleistung für „domänenspezifische Kontexte, die während des Trainings nicht gesehen wurden“ verbessern.
Ergebnisse der Nullstichprobenauswertung
Die Forscher führten eine Nullstichprobenauswertung von TimesFM anhand von Daten durch, die während des Trainings nicht sichtbar waren, und verwendeten dazu einen häufig verwendeten Zeitreihen-Benchmark. Dabei wurde beobachtet, dass TimesFM die meisten statistischen Methoden wie ARIMA, ETS, und kann mit leistungsstarken DL-Modellen wie DeepAR und PatchTST mithalten oder diese übertreffen, die explizit auf Zielzeitreihen trainiert wurden.
Die Forscher verwendeten das Monash Forecasting Archive, um die sofort einsatzbereite Leistung von TimesFM zu bewerten, einem Datensatz, der Zehntausende Zeitreihen aus verschiedenen Bereichen wie Verkehrs-, Wetter- und Nachfrageprognosen enthält und Frequenzen von Minuten abdeckt zu jährlichen Daten.
Basierend auf vorhandener Literatur untersuchten die Forscher den mittleren absoluten Fehler (MAE), der entsprechend skaliert wurde, um den Durchschnitt über den Datensatz zu ermitteln.
Wie man sehen kann, übertrifft Zero-Shot (ZS) TimesFM die meisten überwachten Methoden, einschließlich neuerer Deep-Learning-Modelle. TimesFM und GPT-3.5 wurden auch für die Vorhersage unter Verwendung der von llmtime (ZS) vorgeschlagenen spezifischen Hinweistechnologie verglichen, und die Ergebnisse zeigten, dass TimesFM eine bessere Leistung als llmtime (ZS) erbrachte ) Verhältnis MAE zu anderen überwachten und Zero-Shot-Methoden (niedriger ist besser)
Die meisten Monash-Datensätze sind kurz- oder mittelfristig, was bedeutet, dass die Vorhersagedauer nicht zu lang ist. TimesFM wurde auch anhand häufig verwendeter Benchmarks getestet Langzeitprognosen sind die hochmoderne Basislinie PatchTST (und andere Basislinien für Langzeitprognosen).
Die Forscher zeichneten die MAE auf dem ETT-Datensatz für die Aufgabe auf, 96 und 192 Zeitpunkte in der Zukunft vorherzusagen, und berechneten die Metrik im letzten Testfenster jedes Datensatzes. ( ZS) und entspricht dem eines überwachten PatchTST-Modells, das explizit auf den entsprechenden Datensatz trainiert wurde.
Fazit
Die Forscher trainierten ein reines Decoder-Basismodell unter Verwendung eines großen vorab trainierten Korpus von 100 Milliarden realen Zeitpunkten, bei denen es sich größtenteils um Suchinteressen-Zeitreihendaten aus Google Trends und Seiten aus Wikipedia-Ansichten handelte.
Die Ergebnisse zeigen, dass selbst ein relativ kleines vorab trainiertes Modell mit 200 M Parametern unter Verwendung der TimesFM-Architektur in verschiedenen öffentlichen Benchmarks (verschiedene Domänen und Granularitäten) eine recht gute Zero-Shot-Leistung aufweist.
Das obige ist der detaillierte Inhalt vonMit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Einführung Das Vektor-Streaming in Embodeything wird eingeführt, ein Merkmal, mit dem das Einbettung von Dokumenten in großem Maßstab optimiert werden soll. Das Aktivieren von asynchronem Knacken und Einbetten mit Rusts Parallelität verringert den Speicherverbrauch und reduziert

Einführung Stellen Sie sich vor, Sie entwickeln Apps mit der gleichen Leichtigkeit wie ein Gespräch. Es gibt keine komplizierten Entwicklungsumgebungen, die eingerichtet werden müssen und keine Konfigurationsdateien durchsehen müssen. Konvertieren Konzepte in wertvolle Apps

Vor kurzem haben wir mit dem Aufkommen großer Sprachmodelle und KI unzähliger Fortschritte bei der Verarbeitung natürlicher Sprache verzeichnet. Modelle in Domänen wie Text, Code und Bild-/Videogenerierung haben menschenähnliche Argumentation und p archiviert

Einführung Die Erkennung der Geschlechter aus Gesichtsbildern ist eine der vielen faszinierenden Anwendungen von Computer Vision. In diesem Projekt kombinieren wir OpenCV für den Standort und die Roboflow -API für die Klassifizierung der Geschlechter und machen a

Einführung Die Welt der Werbung wurde seit der Konzeption des Tauschhandels in Evolution in Evolution. Werbetreibende haben kreative Wege gefunden, um ihre Produkte aufmerksam zu machen. Im gegenwärtigen Alter erwarten die Verbraucher BR

Einführung Am 12. September veröffentlichte OpenAI ein Update mit dem Titel „Lernen zu Grund mit LLMs“. Sie stellten das O1 -Modell ein, das mit Verstärkungslernen geschult wird, um komplexe Argumentationsaufgaben anzugehen. Was setzt diesen Mod

Einführung Die OpenAI O1-Modellfamilie fördert die Argumentation von Macht und Wirtschaftsleistung erheblich, insbesondere in Wissenschaft, Kodierung und Problemlösung. Das Ziel von OpenAI ist es, immer wiederherstellte KI- und O1-Modelle zu erstellen

Einführung Heute bewegt sich die Welt des Kundenanfragungsmanagements in einem beispiellosen Tempo, wobei jeden Tag neue Tools Schlagzeilen machen. LLM -Agenten des großen Sprachmodells sind die neueste Innovation in diesem Zusammenhang und steigern Cu


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SublimeText3 Linux neue Version
SublimeText3 Linux neueste Version

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion