suchen
HeimTechnologie-PeripheriegeräteKIMit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM

Zeitreihenprognosen spielen in verschiedenen Bereichen wie Einzelhandel, Finanzen, Fertigung, Gesundheitswesen und Naturwissenschaften usw. eine wichtige Rolle. Im Einzelhandel können die Lagerkosten effektiv gesenkt und der Umsatz gesteigert werden, indem die Genauigkeit der Nachfrageprognosen verbessert wird. Dies bedeutet, dass Unternehmen die Kundennachfrage besser erfüllen, Lagerüberhänge und Verluste reduzieren und gleichzeitig Umsatz und Gewinn steigern können. Daher ist die Zeitreihenprognose im Einzelhandel von großem Wert und kann Unternehmen Substanz verleihen.

Deep-Learning-Modelle (DL) dominieren die Aufgabe der „multivariablen Zeitreihenprognose“ und werden in verschiedenen Wettbewerben und in der Praxis eingesetzt Anwendungen.

Gleichzeitig wurden erhebliche Fortschritte bei großen grundlegenden Sprachmodellen bei NLP-Aufgaben (Natural Language Processing) erzielt, wodurch die Leistung von Aufgaben wie Übersetzung, Generierung von Abrufverbesserungen und Code-Vervollständigung effektiv verbessert wurde.

Das Training von NLP-Modellen basiert auf umfangreichen Textdaten, die aus verschiedenen Quellen stammen, darunter Crawler, Open-Source-Code usw. Das trainierte Modell kann Muster in der Sprache erkennen und hat die Fähigkeit, aus Nullproben zu lernen : Beispielsweise werden große Modelle bei Abrufaufgaben verwendet, bei denen das Modell Fragen zu aktuellen Ereignissen beantworten und diese zusammenfassen kann.

Obwohl Deep-Learning-basierte Prädiktoren herkömmliche Methoden in vielerlei Hinsicht übertreffen, einschließlich der Reduzierung von Schulungs- und Inferenzkosten, müssen noch einige Herausforderungen bewältigt werden:

Viele Deep-Learning-Modelle durchlaufen langwieriges Training und Validierung. Nur dann kann es sein an einer neuen Zeitreihe getestet. Im Gegensatz dazu verfügt das zugrunde liegende Modell für die Zeitreihenprognose über „out-of-the-box-Prognose“-Funktionen und kann ohne zusätzliche Schulung auf unbekannte Zeitreihendaten angewendet werden. Mit dieser Funktion können sich Benutzer auf die Verbesserung der Prognosen für praktische nachgelagerte Aufgaben wie die Bedarfsplanung im Einzelhandel konzentrieren.

Forscher von Google Research haben kürzlich ein Basismodell für die Zeitreihenvorhersage namens TimesFM vorgeschlagen, das anhand von 100 Milliarden realen Zeitpunkten vorab trainiert wurde. Im Vergleich zu aktuellen, hochmodernen Large Language Models (LLMs) ist TimesFM viel kleiner und enthält nur 200 Millionen Parameter.

Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM

Link zum Papier: https://arxiv.org/pdf/2310.10688.pdf

Experimentelle Ergebnisse zeigen, dass TimesFM trotz des geringen Maßstabs über verschiedene Bereiche und Zeitskalen hinweg anders abschneidet als untrainierte. Der Datensatz zeigt überraschende „Zero-Shot-Leistung“, die der Leistung explizit trainierter, hochmoderner überwachter Methoden für diese Datensätze nahe kommt.

Die Forscher planen, das TimesFM-Modell noch in diesem Jahr externen Kunden in Google Cloud Vertex AI zur Verfügung zu stellen.

Basismodell TimesFM

LLMs werden in der Regel nur durch Decoder trainiert, einschließlich dreier Schritte:

1 Der Text wird in Unterwörter zerlegt, die als Token bezeichnet werden

2 Gestapelte kausale Transformer-Schicht und Generierung einer Ausgabe, die jedem Eingabe-Token entspricht. Es ist zu beachten, dass diese Schicht keine Token ohne Eingabe verarbeiten kann, d. h. zukünftige Token. Die Ausgabe des i-ten Tokens fasst alle zusammen Informationen aus den vorherigen Tokens und sagt das (i+1)-te Token voraus

Während der Inferenz generiert LLM jeweils die Ausgabe eines Tokens.

Wenn Sie beispielsweise die Eingabeaufforderung „Was ist die Hauptstadt von Frankreich?“ eingeben, generiert das Modell möglicherweise den Token „The“ und generiert dann den nächsten Token „Capital“. auf diese Eingabeaufforderung. “ (Großbuchstaben) und so weiter, bis das Modell eine vollständige Antwort generiert: „Die Hauptstadt Frankreichs ist Paris“ (Die Hauptstadt Frankreichs ist Paris).

Das zugrunde liegende Modell für die Zeitreihenvorhersage sollte sich an variable Kontexte (was das Modell beobachtet) und Bereichslängen (was das Abfragemodell vorhersagt) anpassen und gleichzeitig leistungsstark genug sein, um alle Muster aus großen vorab trainierten Datensätzen (Mustern) zu kodieren.

Ähnlich wie bei LLMs verwenden Forscher gestapelte Transformer-Schichten (Selbstaufmerksamkeits- und Feed-Forward-Schichten) als Hauptbausteine ​​des TimesFM-Modells Kontinuierlicher Zeitpunkt) als Token verwendet wird, stammt die Idee aus neueren Langzeitprognosearbeiten: Die spezifische Aufgabe besteht darin, den (i+1)-ten Zeitpunkt für eine gegebene i-te Ausgabe am Ende des gestapelten Transformer-Layer-Patches vorherzusagen

Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM

Aber TimesFM weist mehrere wesentliche Unterschiede zu Sprachmodellen auf:

1 Das Modell erfordert einen mehrschichtigen Perzeptronblock mit Restverbindungen, um die Zeitreihen-Patches in Token umzuwandeln, die mit der Positionskodierung ( PE) zusammen mit der Eingabe in die Transformer-Schicht. Zu diesem Zweck verwenden wir Restblöcke, ähnlich wie bei unserer vorherigen Arbeit in der Langzeitvorhersage.

2. Das Ausgabe-Token des gestapelten Transformers kann verwendet werden, um die Länge nachfolgender Zeitpunkte vorherzusagen, die länger als die Eingabe-Patch-Länge ist, d. h. die Ausgabe-Patch-Länge kann größer als die Eingabe-Patch-Länge sein.

Angenommen, eine Zeitreihe mit einer Länge von 512 Zeitpunkten wird verwendet, um ein TimesFM-Modell mit „Eingabe-Patch-Länge 32“ und „Ausgabe-Patch-Länge 128“ zu trainieren:

Während des Trainings wird das Modell trainiert Zur gleichen Zeit: Um die nächsten 128 Zeitpunkte anhand der ersten 32 Zeitpunkte vorherzusagen, verwenden Sie die ersten 64 Zeitpunkte, um die Zeitpunkte 65 bis 192 vorherzusagen, verwenden Sie die ersten 96 Zeitpunkte, um die Zeitpunkte 97 bis 224 vorherzusagen, und so weiter.

Unter der Annahme, dass es sich bei den Eingabedaten um eine Zeitreihe der Länge 256 handelt und ihre Aufgabe darin besteht, die nächsten 256 Zeitpunkte in der Zukunft vorherzusagen, generiert das Modell zunächst Zukunftsvorhersagen für die Zeitpunkte 257 bis 384 und übernimmt dann die anfänglichen 256 Längeneingabe plus Die generierte Ausgabe ist an die Generierung der Zeitpunkte 385 bis 512 gebunden.

Wenn andererseits im Modell die Ausgabe-Patch-Länge gleich der Eingabe-Patch-Länge 32 ist, dann durchläuft das Modell für dieselbe Aufgabe acht Generierungsschritte statt zwei, was das Risiko einer Fehlerakkumulation erhöht und daher in den experimentellen Ergebnissen. Wie in zu sehen ist, führt eine längere Ausgabe-Patch-Länge zu einer besseren langfristigen Vorhersageleistung.

Daten vor dem Training

So wie LLMs mit mehr Token besser werden können, benötigt TimesFM große Mengen legitimer Zeitreihendaten, um zu lernen und sich zu verbessern; Forscher verbringen viel Zeit mit der Erstellung und Auswertung von Trainingsdatensätzen und haben zwei bessere Methoden gefunden :

Synthetische Daten helfen bei den Grundlagen

Sie können statistische Modelle oder physikalische Simulationen verwenden, um aussagekräftige synthetische Zeitreihendaten zu generieren. Grundsätzlich kann das zeitliche Muster das Modell beim Erlernen der Grammatik der Zeitreihenvorhersage unterstützen.

Daten aus der realen Welt verleihen dem Ganzen eine Atmosphäre aus der realen Welt

Forscher durchforsteten verfügbare öffentliche Zeitreihendatensätze und kombinierten selektiv 100 Milliarden Zeitpunkte. Es wurde ein großer Korpus von Zeitpunkten zusammengestellt.

Im Datensatz gibt es Seitenaufrufe von Google Trends und Wikipedia, die verfolgen, woran Benutzer interessiert sind, und die Trends und Muster vieler anderer realer Zeitreihen gut widerspiegeln, was TimesFM dabei hilft, das Gesamtbild zu verstehen kann die Generalisierungsleistung für „domänenspezifische Kontexte, die während des Trainings nicht gesehen wurden“ verbessern.

Ergebnisse der Nullstichprobenauswertung

Die Forscher führten eine Nullstichprobenauswertung von TimesFM anhand von Daten durch, die während des Trainings nicht sichtbar waren, und verwendeten dazu einen häufig verwendeten Zeitreihen-Benchmark. Dabei wurde beobachtet, dass TimesFM die meisten statistischen Methoden wie ARIMA, ETS, und kann mit leistungsstarken DL-Modellen wie DeepAR und PatchTST mithalten oder diese übertreffen, die explizit auf Zielzeitreihen trainiert wurden.

Die Forscher verwendeten das Monash Forecasting Archive, um die sofort einsatzbereite Leistung von TimesFM zu bewerten, einem Datensatz, der Zehntausende Zeitreihen aus verschiedenen Bereichen wie Verkehrs-, Wetter- und Nachfrageprognosen enthält und Frequenzen von Minuten abdeckt zu jährlichen Daten.

Basierend auf vorhandener Literatur untersuchten die Forscher den mittleren absoluten Fehler (MAE), der entsprechend skaliert wurde, um den Durchschnitt über den Datensatz zu ermitteln.

Wie man sehen kann, übertrifft Zero-Shot (ZS) TimesFM die meisten überwachten Methoden, einschließlich neuerer Deep-Learning-Modelle. TimesFM und GPT-3.5 wurden auch für die Vorhersage unter Verwendung der von llmtime (ZS) vorgeschlagenen spezifischen Hinweistechnologie verglichen, und die Ergebnisse zeigten, dass TimesFM eine bessere Leistung als llmtime (ZS) erbrachte ) Verhältnis MAE zu anderen überwachten und Zero-Shot-Methoden (niedriger ist besser)

Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFMDie meisten Monash-Datensätze sind kurz- oder mittelfristig, was bedeutet, dass die Vorhersagedauer nicht zu lang ist. TimesFM wurde auch anhand häufig verwendeter Benchmarks getestet Langzeitprognosen sind die hochmoderne Basislinie PatchTST (und andere Basislinien für Langzeitprognosen).

Die Forscher zeichneten die MAE auf dem ETT-Datensatz für die Aufgabe auf, 96 und 192 Zeitpunkte in der Zukunft vorherzusagen, und berechneten die Metrik im letzten Testfenster jedes Datensatzes. ( ZS) und entspricht dem eines überwachten PatchTST-Modells, das explizit auf den entsprechenden Datensatz trainiert wurde.

Fazit

Die Forscher trainierten ein reines Decoder-Basismodell unter Verwendung eines großen vorab trainierten Korpus von 100 Milliarden realen Zeitpunkten, bei denen es sich größtenteils um Suchinteressen-Zeitreihendaten aus Google Trends und Seiten aus Wikipedia-Ansichten handelte.

Die Ergebnisse zeigen, dass selbst ein relativ kleines vorab trainiertes Modell mit 200 M Parametern unter Verwendung der TimesFM-Architektur in verschiedenen öffentlichen Benchmarks (verschiedene Domänen und Granularitäten) eine recht gute Zero-Shot-Leistung aufweist.

Das obige ist der detaillierte Inhalt vonMit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Apr 11, 2025 pm 12:13 PM

Der Bericht des Stanford University Institute for Human-orientierte künstliche Intelligenz bietet einen guten Überblick über die laufende Revolution der künstlichen Intelligenz. Interpretieren wir es in vier einfachen Konzepten: Erkenntnis (verstehen, was geschieht), Wertschätzung (Sehenswürdigkeiten), Akzeptanz (Gesichtsherausforderungen) und Verantwortung (finden Sie unsere Verantwortlichkeiten). Kognition: Künstliche Intelligenz ist überall und entwickelt sich schnell Wir müssen uns sehr bewusst sein, wie schnell künstliche Intelligenz entwickelt und ausbreitet. Künstliche Intelligenzsysteme verbessern sich ständig und erzielen hervorragende Ergebnisse bei mathematischen und komplexen Denktests, und erst vor einem Jahr haben sie in diesen Tests kläglich gescheitert. Stellen Sie sich vor, KI zu lösen komplexe Codierungsprobleme oder wissenschaftliche Probleme auf Graduiertenebene-seit 2023-

Erste Schritte mit Meta Lama 3.2 - Analytics VidhyaErste Schritte mit Meta Lama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrAV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrApr 11, 2025 pm 12:01 PM

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Apr 11, 2025 pm 12:00 PM

Die beruhigende Illusion der Verbindung: Blühen wir in unseren Beziehungen zur KI wirklich auf? Diese Frage stellte den optimistischen Ton des "Fortschritts -Menschen mit AI) des MIT Media Lab in Frage. Während die Veranstaltung moderne EDG präsentierte

Verständnis der Scipy Library in PythonVerständnis der Scipy Library in PythonApr 11, 2025 am 11:57 AM

Einführung Stellen Sie sich vor, Sie sind ein Wissenschaftler oder Ingenieur, der sich mit komplexen Problemen befasst - Differentialgleichungen, Optimierungsherausforderungen oder Fourier -Analysen. Pythons Benutzerfreundlichkeit und Grafikfunktionen sind ansprechend, aber diese Aufgaben erfordern leistungsstarke Tools

3 Methoden zum Ausführen von LLAMA 3.2 - Analytics Vidhya3 Methoden zum Ausführen von LLAMA 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

METAs Lama 3.2: Ein multimodales KI -Kraftpaket Das neueste multimodale Modell von META, Lama 3.2, stellt einen erheblichen Fortschritt in der KI dar, das ein verbessertes Sprachverständnis, eine verbesserte Genauigkeit und die überlegenen Funktionen der Textgenerierung bietet. Seine Fähigkeit t

Automatisierung von Datenqualitätsprüfungen mit DagsterAutomatisierung von Datenqualitätsprüfungen mit DagsterApr 11, 2025 am 11:44 AM

Datenqualitätssicherung: Automatisieren von Schecks mit Dagster und großen Erwartungen Die Aufrechterhaltung einer hohen Datenqualität ist für datengesteuerte Unternehmen von entscheidender Bedeutung. Wenn Datenvolumina und Quellen zunehmen, wird die manuelle Qualitätskontrolle ineffizient und anfällig für Fehler.

Haben Mainframes eine Rolle in der KI -Ära?Haben Mainframes eine Rolle in der KI -Ära?Apr 11, 2025 am 11:42 AM

Mainframes: Die unbesungenen Helden der KI -Revolution Während die Server bei allgemeinen Anwendungen und mehreren Kunden übernommen werden, werden Mainframes für hochvolumige, missionskritische Aufgaben erstellt. Diese leistungsstarken Systeme sind häufig in Heavil gefunden

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

mPDF

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

MantisBT

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor