suchen
HeimTechnologie-PeripheriegeräteKIMit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM

Zeitreihenprognosen spielen in verschiedenen Bereichen wie Einzelhandel, Finanzen, Fertigung, Gesundheitswesen und Naturwissenschaften usw. eine wichtige Rolle. Im Einzelhandel können die Lagerkosten effektiv gesenkt und der Umsatz gesteigert werden, indem die Genauigkeit der Nachfrageprognosen verbessert wird. Dies bedeutet, dass Unternehmen die Kundennachfrage besser erfüllen, Lagerüberhänge und Verluste reduzieren und gleichzeitig Umsatz und Gewinn steigern können. Daher ist die Zeitreihenprognose im Einzelhandel von großem Wert und kann Unternehmen Substanz verleihen.

Deep-Learning-Modelle (DL) dominieren die Aufgabe der „multivariablen Zeitreihenprognose“ und werden in verschiedenen Wettbewerben und in der Praxis eingesetzt Anwendungen.

Gleichzeitig wurden erhebliche Fortschritte bei großen grundlegenden Sprachmodellen bei NLP-Aufgaben (Natural Language Processing) erzielt, wodurch die Leistung von Aufgaben wie Übersetzung, Generierung von Abrufverbesserungen und Code-Vervollständigung effektiv verbessert wurde.

Das Training von NLP-Modellen basiert auf umfangreichen Textdaten, die aus verschiedenen Quellen stammen, darunter Crawler, Open-Source-Code usw. Das trainierte Modell kann Muster in der Sprache erkennen und hat die Fähigkeit, aus Nullproben zu lernen : Beispielsweise werden große Modelle bei Abrufaufgaben verwendet, bei denen das Modell Fragen zu aktuellen Ereignissen beantworten und diese zusammenfassen kann.

Obwohl Deep-Learning-basierte Prädiktoren herkömmliche Methoden in vielerlei Hinsicht übertreffen, einschließlich der Reduzierung von Schulungs- und Inferenzkosten, müssen noch einige Herausforderungen bewältigt werden:

Viele Deep-Learning-Modelle durchlaufen langwieriges Training und Validierung. Nur dann kann es sein an einer neuen Zeitreihe getestet. Im Gegensatz dazu verfügt das zugrunde liegende Modell für die Zeitreihenprognose über „out-of-the-box-Prognose“-Funktionen und kann ohne zusätzliche Schulung auf unbekannte Zeitreihendaten angewendet werden. Mit dieser Funktion können sich Benutzer auf die Verbesserung der Prognosen für praktische nachgelagerte Aufgaben wie die Bedarfsplanung im Einzelhandel konzentrieren.

Forscher von Google Research haben kürzlich ein Basismodell für die Zeitreihenvorhersage namens TimesFM vorgeschlagen, das anhand von 100 Milliarden realen Zeitpunkten vorab trainiert wurde. Im Vergleich zu aktuellen, hochmodernen Large Language Models (LLMs) ist TimesFM viel kleiner und enthält nur 200 Millionen Parameter.

Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM

Link zum Papier: https://arxiv.org/pdf/2310.10688.pdf

Experimentelle Ergebnisse zeigen, dass TimesFM trotz des geringen Maßstabs über verschiedene Bereiche und Zeitskalen hinweg anders abschneidet als untrainierte. Der Datensatz zeigt überraschende „Zero-Shot-Leistung“, die der Leistung explizit trainierter, hochmoderner überwachter Methoden für diese Datensätze nahe kommt.

Die Forscher planen, das TimesFM-Modell noch in diesem Jahr externen Kunden in Google Cloud Vertex AI zur Verfügung zu stellen.

Basismodell TimesFM

LLMs werden in der Regel nur durch Decoder trainiert, einschließlich dreier Schritte:

1 Der Text wird in Unterwörter zerlegt, die als Token bezeichnet werden

2 Gestapelte kausale Transformer-Schicht und Generierung einer Ausgabe, die jedem Eingabe-Token entspricht. Es ist zu beachten, dass diese Schicht keine Token ohne Eingabe verarbeiten kann, d. h. zukünftige Token. Die Ausgabe des i-ten Tokens fasst alle zusammen Informationen aus den vorherigen Tokens und sagt das (i+1)-te Token voraus

Während der Inferenz generiert LLM jeweils die Ausgabe eines Tokens.

Wenn Sie beispielsweise die Eingabeaufforderung „Was ist die Hauptstadt von Frankreich?“ eingeben, generiert das Modell möglicherweise den Token „The“ und generiert dann den nächsten Token „Capital“. auf diese Eingabeaufforderung. “ (Großbuchstaben) und so weiter, bis das Modell eine vollständige Antwort generiert: „Die Hauptstadt Frankreichs ist Paris“ (Die Hauptstadt Frankreichs ist Paris).

Das zugrunde liegende Modell für die Zeitreihenvorhersage sollte sich an variable Kontexte (was das Modell beobachtet) und Bereichslängen (was das Abfragemodell vorhersagt) anpassen und gleichzeitig leistungsstark genug sein, um alle Muster aus großen vorab trainierten Datensätzen (Mustern) zu kodieren.

Ähnlich wie bei LLMs verwenden Forscher gestapelte Transformer-Schichten (Selbstaufmerksamkeits- und Feed-Forward-Schichten) als Hauptbausteine ​​des TimesFM-Modells Kontinuierlicher Zeitpunkt) als Token verwendet wird, stammt die Idee aus neueren Langzeitprognosearbeiten: Die spezifische Aufgabe besteht darin, den (i+1)-ten Zeitpunkt für eine gegebene i-te Ausgabe am Ende des gestapelten Transformer-Layer-Patches vorherzusagen

Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM

Aber TimesFM weist mehrere wesentliche Unterschiede zu Sprachmodellen auf:

1 Das Modell erfordert einen mehrschichtigen Perzeptronblock mit Restverbindungen, um die Zeitreihen-Patches in Token umzuwandeln, die mit der Positionskodierung ( PE) zusammen mit der Eingabe in die Transformer-Schicht. Zu diesem Zweck verwenden wir Restblöcke, ähnlich wie bei unserer vorherigen Arbeit in der Langzeitvorhersage.

2. Das Ausgabe-Token des gestapelten Transformers kann verwendet werden, um die Länge nachfolgender Zeitpunkte vorherzusagen, die länger als die Eingabe-Patch-Länge ist, d. h. die Ausgabe-Patch-Länge kann größer als die Eingabe-Patch-Länge sein.

Angenommen, eine Zeitreihe mit einer Länge von 512 Zeitpunkten wird verwendet, um ein TimesFM-Modell mit „Eingabe-Patch-Länge 32“ und „Ausgabe-Patch-Länge 128“ zu trainieren:

Während des Trainings wird das Modell trainiert Zur gleichen Zeit: Um die nächsten 128 Zeitpunkte anhand der ersten 32 Zeitpunkte vorherzusagen, verwenden Sie die ersten 64 Zeitpunkte, um die Zeitpunkte 65 bis 192 vorherzusagen, verwenden Sie die ersten 96 Zeitpunkte, um die Zeitpunkte 97 bis 224 vorherzusagen, und so weiter.

Unter der Annahme, dass es sich bei den Eingabedaten um eine Zeitreihe der Länge 256 handelt und ihre Aufgabe darin besteht, die nächsten 256 Zeitpunkte in der Zukunft vorherzusagen, generiert das Modell zunächst Zukunftsvorhersagen für die Zeitpunkte 257 bis 384 und übernimmt dann die anfänglichen 256 Längeneingabe plus Die generierte Ausgabe ist an die Generierung der Zeitpunkte 385 bis 512 gebunden.

Wenn andererseits im Modell die Ausgabe-Patch-Länge gleich der Eingabe-Patch-Länge 32 ist, dann durchläuft das Modell für dieselbe Aufgabe acht Generierungsschritte statt zwei, was das Risiko einer Fehlerakkumulation erhöht und daher in den experimentellen Ergebnissen. Wie in zu sehen ist, führt eine längere Ausgabe-Patch-Länge zu einer besseren langfristigen Vorhersageleistung.

Daten vor dem Training

So wie LLMs mit mehr Token besser werden können, benötigt TimesFM große Mengen legitimer Zeitreihendaten, um zu lernen und sich zu verbessern; Forscher verbringen viel Zeit mit der Erstellung und Auswertung von Trainingsdatensätzen und haben zwei bessere Methoden gefunden :

Synthetische Daten helfen bei den Grundlagen

Sie können statistische Modelle oder physikalische Simulationen verwenden, um aussagekräftige synthetische Zeitreihendaten zu generieren. Grundsätzlich kann das zeitliche Muster das Modell beim Erlernen der Grammatik der Zeitreihenvorhersage unterstützen.

Daten aus der realen Welt verleihen dem Ganzen eine Atmosphäre aus der realen Welt

Forscher durchforsteten verfügbare öffentliche Zeitreihendatensätze und kombinierten selektiv 100 Milliarden Zeitpunkte. Es wurde ein großer Korpus von Zeitpunkten zusammengestellt.

Im Datensatz gibt es Seitenaufrufe von Google Trends und Wikipedia, die verfolgen, woran Benutzer interessiert sind, und die Trends und Muster vieler anderer realer Zeitreihen gut widerspiegeln, was TimesFM dabei hilft, das Gesamtbild zu verstehen kann die Generalisierungsleistung für „domänenspezifische Kontexte, die während des Trainings nicht gesehen wurden“ verbessern.

Ergebnisse der Nullstichprobenauswertung

Die Forscher führten eine Nullstichprobenauswertung von TimesFM anhand von Daten durch, die während des Trainings nicht sichtbar waren, und verwendeten dazu einen häufig verwendeten Zeitreihen-Benchmark. Dabei wurde beobachtet, dass TimesFM die meisten statistischen Methoden wie ARIMA, ETS, und kann mit leistungsstarken DL-Modellen wie DeepAR und PatchTST mithalten oder diese übertreffen, die explizit auf Zielzeitreihen trainiert wurden.

Die Forscher verwendeten das Monash Forecasting Archive, um die sofort einsatzbereite Leistung von TimesFM zu bewerten, einem Datensatz, der Zehntausende Zeitreihen aus verschiedenen Bereichen wie Verkehrs-, Wetter- und Nachfrageprognosen enthält und Frequenzen von Minuten abdeckt zu jährlichen Daten.

Basierend auf vorhandener Literatur untersuchten die Forscher den mittleren absoluten Fehler (MAE), der entsprechend skaliert wurde, um den Durchschnitt über den Datensatz zu ermitteln.

Wie man sehen kann, übertrifft Zero-Shot (ZS) TimesFM die meisten überwachten Methoden, einschließlich neuerer Deep-Learning-Modelle. TimesFM und GPT-3.5 wurden auch für die Vorhersage unter Verwendung der von llmtime (ZS) vorgeschlagenen spezifischen Hinweistechnologie verglichen, und die Ergebnisse zeigten, dass TimesFM eine bessere Leistung als llmtime (ZS) erbrachte ) Verhältnis MAE zu anderen überwachten und Zero-Shot-Methoden (niedriger ist besser)

Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFMDie meisten Monash-Datensätze sind kurz- oder mittelfristig, was bedeutet, dass die Vorhersagedauer nicht zu lang ist. TimesFM wurde auch anhand häufig verwendeter Benchmarks getestet Langzeitprognosen sind die hochmoderne Basislinie PatchTST (und andere Basislinien für Langzeitprognosen).

Die Forscher zeichneten die MAE auf dem ETT-Datensatz für die Aufgabe auf, 96 und 192 Zeitpunkte in der Zukunft vorherzusagen, und berechneten die Metrik im letzten Testfenster jedes Datensatzes. ( ZS) und entspricht dem eines überwachten PatchTST-Modells, das explizit auf den entsprechenden Datensatz trainiert wurde.

Fazit

Die Forscher trainierten ein reines Decoder-Basismodell unter Verwendung eines großen vorab trainierten Korpus von 100 Milliarden realen Zeitpunkten, bei denen es sich größtenteils um Suchinteressen-Zeitreihendaten aus Google Trends und Seiten aus Wikipedia-Ansichten handelte.

Die Ergebnisse zeigen, dass selbst ein relativ kleines vorab trainiertes Modell mit 200 M Parametern unter Verwendung der TimesFM-Architektur in verschiedenen öffentlichen Benchmarks (verschiedene Domänen und Granularitäten) eine recht gute Zero-Shot-Leistung aufweist.

Das obige ist der detaillierte Inhalt vonMit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Vektor-Streaming: Speichereffiziente Indizierung mit RostVektor-Streaming: Speichereffiziente Indizierung mit RostApr 12, 2025 am 10:42 AM

Einführung Das Vektor-Streaming in Embodeything wird eingeführt, ein Merkmal, mit dem das Einbettung von Dokumenten in großem Maßstab optimiert werden soll. Das Aktivieren von asynchronem Knacken und Einbetten mit Rusts Parallelität verringert den Speicherverbrauch und reduziert

Was ist ein Replit Agent? | Ein Einführungshandbuch - Analytics VidhyaWas ist ein Replit Agent? | Ein Einführungshandbuch - Analytics VidhyaApr 12, 2025 am 10:40 AM

Einführung Stellen Sie sich vor, Sie entwickeln Apps mit der gleichen Leichtigkeit wie ein Gespräch. Es gibt keine komplizierten Entwicklungsumgebungen, die eingerichtet werden müssen und keine Konfigurationsdateien durchsehen müssen. Konvertieren Konzepte in wertvolle Apps

Fine-Tune Open-Source-LLMs unter Verwendung von Lamini-Analytics VidhyaFine-Tune Open-Source-LLMs unter Verwendung von Lamini-Analytics VidhyaApr 12, 2025 am 10:20 AM

Vor kurzem haben wir mit dem Aufkommen großer Sprachmodelle und KI unzähliger Fortschritte bei der Verarbeitung natürlicher Sprache verzeichnet. Modelle in Domänen wie Text, Code und Bild-/Videogenerierung haben menschenähnliche Argumentation und p archiviert

Geschlechtserkennung mit OpenCV und Roboflow in Python - Analytics VidhyaGeschlechtserkennung mit OpenCV und Roboflow in Python - Analytics VidhyaApr 12, 2025 am 10:19 AM

Einführung Die Erkennung der Geschlechter aus Gesichtsbildern ist eine der vielen faszinierenden Anwendungen von Computer Vision. In diesem Projekt kombinieren wir OpenCV für den Standort und die Roboflow -API für die Klassifizierung der Geschlechter und machen a

Welche Rolle spielt die generative KI bei der Personalisierung von Anzeigeninhalten?Welche Rolle spielt die generative KI bei der Personalisierung von Anzeigeninhalten?Apr 12, 2025 am 10:18 AM

Einführung Die Welt der Werbung wurde seit der Konzeption des Tauschhandels in Evolution in Evolution. Werbetreibende haben kreative Wege gefunden, um ihre Produkte aufmerksam zu machen. Im gegenwärtigen Alter erwarten die Verbraucher BR

OpenAI ' S O1-Präview gegen O1-Mini: Ein Schritt nach vorne auf AgiOpenAI ' S O1-Präview gegen O1-Mini: Ein Schritt nach vorne auf AgiApr 12, 2025 am 10:04 AM

Einführung Am 12. September veröffentlichte OpenAI ein Update mit dem Titel „Lernen zu Grund mit LLMs“. Sie stellten das O1 -Modell ein, das mit Verstärkungslernen geschult wird, um komplexe Argumentationsaufgaben anzugehen. Was setzt diesen Mod

Wie baue ich Spiele mit OpenAI O1? - Analytics VidhyaWie baue ich Spiele mit OpenAI O1? - Analytics VidhyaApr 12, 2025 am 10:03 AM

Einführung Die OpenAI O1-Modellfamilie fördert die Argumentation von Macht und Wirtschaftsleistung erheblich, insbesondere in Wissenschaft, Kodierung und Problemlösung. Das Ziel von OpenAI ist es, immer wiederherstellte KI- und O1-Modelle zu erstellen

Beliebte LLM -Agenten -Tools für das KundenabfragemanagementBeliebte LLM -Agenten -Tools für das KundenabfragemanagementApr 12, 2025 am 10:01 AM

Einführung Heute bewegt sich die Welt des Kundenanfragungsmanagements in einem beispiellosen Tempo, wobei jeden Tag neue Tools Schlagzeilen machen. LLM -Agenten des großen Sprachmodells sind die neueste Innovation in diesem Zusammenhang und steigern Cu

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion