Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM-KI-php.cn

Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 16, 2024 pm 10:55 PM

模型训练

Zeitreihenprognosen spielen in verschiedenen Bereichen wie Einzelhandel, Finanzen, Fertigung, Gesundheitswesen und Naturwissenschaften usw. eine wichtige Rolle. Im Einzelhandel können die Lagerkosten effektiv gesenkt und der Umsatz gesteigert werden, indem die Genauigkeit der Nachfrageprognosen verbessert wird. Dies bedeutet, dass Unternehmen die Kundennachfrage besser erfüllen, Lagerüberhänge und Verluste reduzieren und gleichzeitig Umsatz und Gewinn steigern können. Daher ist die Zeitreihenprognose im Einzelhandel von großem Wert und kann Unternehmen Substanz verleihen.

Deep-Learning-Modelle (DL) dominieren die Aufgabe der „multivariablen Zeitreihenprognose“ und werden in verschiedenen Wettbewerben und in der Praxis eingesetzt Anwendungen.

Gleichzeitig wurden erhebliche Fortschritte bei großen grundlegenden Sprachmodellen bei NLP-Aufgaben (Natural Language Processing) erzielt, wodurch die Leistung von Aufgaben wie Übersetzung, Generierung von Abrufverbesserungen und Code-Vervollständigung effektiv verbessert wurde.

Das Training von NLP-Modellen basiert auf umfangreichen Textdaten, die aus verschiedenen Quellen stammen, darunter Crawler, Open-Source-Code usw. Das trainierte Modell kann Muster in der Sprache erkennen und hat die Fähigkeit, aus Nullproben zu lernen : Beispielsweise werden große Modelle bei Abrufaufgaben verwendet, bei denen das Modell Fragen zu aktuellen Ereignissen beantworten und diese zusammenfassen kann.

Obwohl Deep-Learning-basierte Prädiktoren herkömmliche Methoden in vielerlei Hinsicht übertreffen, einschließlich der Reduzierung von Schulungs- und Inferenzkosten, müssen noch einige Herausforderungen bewältigt werden:

Viele Deep-Learning-Modelle durchlaufen langwieriges Training und Validierung. Nur dann kann es sein an einer neuen Zeitreihe getestet. Im Gegensatz dazu verfügt das zugrunde liegende Modell für die Zeitreihenprognose über „out-of-the-box-Prognose“-Funktionen und kann ohne zusätzliche Schulung auf unbekannte Zeitreihendaten angewendet werden. Mit dieser Funktion können sich Benutzer auf die Verbesserung der Prognosen für praktische nachgelagerte Aufgaben wie die Bedarfsplanung im Einzelhandel konzentrieren.

Forscher von Google Research haben kürzlich ein Basismodell für die Zeitreihenvorhersage namens TimesFM vorgeschlagen, das anhand von 100 Milliarden realen Zeitpunkten vorab trainiert wurde. Im Vergleich zu aktuellen, hochmodernen Large Language Models (LLMs) ist TimesFM viel kleiner und enthält nur 200 Millionen Parameter.

Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM

Link zum Papier: https://arxiv.org/pdf/2310.10688.pdf

Experimentelle Ergebnisse zeigen, dass TimesFM trotz des geringen Maßstabs über verschiedene Bereiche und Zeitskalen hinweg anders abschneidet als untrainierte. Der Datensatz zeigt überraschende „Zero-Shot-Leistung“, die der Leistung explizit trainierter, hochmoderner überwachter Methoden für diese Datensätze nahe kommt.

Die Forscher planen, das TimesFM-Modell noch in diesem Jahr externen Kunden in Google Cloud Vertex AI zur Verfügung zu stellen.

Basismodell TimesFM

LLMs werden in der Regel nur durch Decoder trainiert, einschließlich dreier Schritte:

1 Der Text wird in Unterwörter zerlegt, die als Token bezeichnet werden

2 Gestapelte kausale Transformer-Schicht und Generierung einer Ausgabe, die jedem Eingabe-Token entspricht. Es ist zu beachten, dass diese Schicht keine Token ohne Eingabe verarbeiten kann, d. h. zukünftige Token. Die Ausgabe des i-ten Tokens fasst alle zusammen Informationen aus den vorherigen Tokens und sagt das (i+1)-te Token voraus

Während der Inferenz generiert LLM jeweils die Ausgabe eines Tokens.

Wenn Sie beispielsweise die Eingabeaufforderung „Was ist die Hauptstadt von Frankreich?“ eingeben, generiert das Modell möglicherweise den Token „The“ und generiert dann den nächsten Token „Capital“. auf diese Eingabeaufforderung. “ (Großbuchstaben) und so weiter, bis das Modell eine vollständige Antwort generiert: „Die Hauptstadt Frankreichs ist Paris“ (Die Hauptstadt Frankreichs ist Paris).

Das zugrunde liegende Modell für die Zeitreihenvorhersage sollte sich an variable Kontexte (was das Modell beobachtet) und Bereichslängen (was das Abfragemodell vorhersagt) anpassen und gleichzeitig leistungsstark genug sein, um alle Muster aus großen vorab trainierten Datensätzen (Mustern) zu kodieren.

Ähnlich wie bei LLMs verwenden Forscher gestapelte Transformer-Schichten (Selbstaufmerksamkeits- und Feed-Forward-Schichten) als Hauptbausteine des TimesFM-Modells Kontinuierlicher Zeitpunkt) als Token verwendet wird, stammt die Idee aus neueren Langzeitprognosearbeiten: Die spezifische Aufgabe besteht darin, den (i+1)-ten Zeitpunkt für eine gegebene i-te Ausgabe am Ende des gestapelten Transformer-Layer-Patches vorherzusagen

Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM

Aber TimesFM weist mehrere wesentliche Unterschiede zu Sprachmodellen auf:

1 Das Modell erfordert einen mehrschichtigen Perzeptronblock mit Restverbindungen, um die Zeitreihen-Patches in Token umzuwandeln, die mit der Positionskodierung ( PE) zusammen mit der Eingabe in die Transformer-Schicht. Zu diesem Zweck verwenden wir Restblöcke, ähnlich wie bei unserer vorherigen Arbeit in der Langzeitvorhersage.

2. Das Ausgabe-Token des gestapelten Transformers kann verwendet werden, um die Länge nachfolgender Zeitpunkte vorherzusagen, die länger als die Eingabe-Patch-Länge ist, d. h. die Ausgabe-Patch-Länge kann größer als die Eingabe-Patch-Länge sein.

Angenommen, eine Zeitreihe mit einer Länge von 512 Zeitpunkten wird verwendet, um ein TimesFM-Modell mit „Eingabe-Patch-Länge 32“ und „Ausgabe-Patch-Länge 128“ zu trainieren:

Während des Trainings wird das Modell trainiert Zur gleichen Zeit: Um die nächsten 128 Zeitpunkte anhand der ersten 32 Zeitpunkte vorherzusagen, verwenden Sie die ersten 64 Zeitpunkte, um die Zeitpunkte 65 bis 192 vorherzusagen, verwenden Sie die ersten 96 Zeitpunkte, um die Zeitpunkte 97 bis 224 vorherzusagen, und so weiter.

Unter der Annahme, dass es sich bei den Eingabedaten um eine Zeitreihe der Länge 256 handelt und ihre Aufgabe darin besteht, die nächsten 256 Zeitpunkte in der Zukunft vorherzusagen, generiert das Modell zunächst Zukunftsvorhersagen für die Zeitpunkte 257 bis 384 und übernimmt dann die anfänglichen 256 Längeneingabe plus Die generierte Ausgabe ist an die Generierung der Zeitpunkte 385 bis 512 gebunden.

Wenn andererseits im Modell die Ausgabe-Patch-Länge gleich der Eingabe-Patch-Länge 32 ist, dann durchläuft das Modell für dieselbe Aufgabe acht Generierungsschritte statt zwei, was das Risiko einer Fehlerakkumulation erhöht und daher in den experimentellen Ergebnissen. Wie in zu sehen ist, führt eine längere Ausgabe-Patch-Länge zu einer besseren langfristigen Vorhersageleistung.

Daten vor dem Training

So wie LLMs mit mehr Token besser werden können, benötigt TimesFM große Mengen legitimer Zeitreihendaten, um zu lernen und sich zu verbessern; Forscher verbringen viel Zeit mit der Erstellung und Auswertung von Trainingsdatensätzen und haben zwei bessere Methoden gefunden :

Synthetische Daten helfen bei den Grundlagen

Sie können statistische Modelle oder physikalische Simulationen verwenden, um aussagekräftige synthetische Zeitreihendaten zu generieren. Grundsätzlich kann das zeitliche Muster das Modell beim Erlernen der Grammatik der Zeitreihenvorhersage unterstützen.

Daten aus der realen Welt verleihen dem Ganzen eine Atmosphäre aus der realen Welt

Forscher durchforsteten verfügbare öffentliche Zeitreihendatensätze und kombinierten selektiv 100 Milliarden Zeitpunkte. Es wurde ein großer Korpus von Zeitpunkten zusammengestellt.

Im Datensatz gibt es Seitenaufrufe von Google Trends und Wikipedia, die verfolgen, woran Benutzer interessiert sind, und die Trends und Muster vieler anderer realer Zeitreihen gut widerspiegeln, was TimesFM dabei hilft, das Gesamtbild zu verstehen kann die Generalisierungsleistung für „domänenspezifische Kontexte, die während des Trainings nicht gesehen wurden“ verbessern.

Ergebnisse der Nullstichprobenauswertung

Die Forscher führten eine Nullstichprobenauswertung von TimesFM anhand von Daten durch, die während des Trainings nicht sichtbar waren, und verwendeten dazu einen häufig verwendeten Zeitreihen-Benchmark. Dabei wurde beobachtet, dass TimesFM die meisten statistischen Methoden wie ARIMA, ETS, und kann mit leistungsstarken DL-Modellen wie DeepAR und PatchTST mithalten oder diese übertreffen, die explizit auf Zielzeitreihen trainiert wurden.

Die Forscher verwendeten das Monash Forecasting Archive, um die sofort einsatzbereite Leistung von TimesFM zu bewerten, einem Datensatz, der Zehntausende Zeitreihen aus verschiedenen Bereichen wie Verkehrs-, Wetter- und Nachfrageprognosen enthält und Frequenzen von Minuten abdeckt zu jährlichen Daten.

Basierend auf vorhandener Literatur untersuchten die Forscher den mittleren absoluten Fehler (MAE), der entsprechend skaliert wurde, um den Durchschnitt über den Datensatz zu ermitteln.

Wie man sehen kann, übertrifft Zero-Shot (ZS) TimesFM die meisten überwachten Methoden, einschließlich neuerer Deep-Learning-Modelle. TimesFM und GPT-3.5 wurden auch für die Vorhersage unter Verwendung der von llmtime (ZS) vorgeschlagenen spezifischen Hinweistechnologie verglichen, und die Ergebnisse zeigten, dass TimesFM eine bessere Leistung als llmtime (ZS) erbrachte ) Verhältnis MAE zu anderen überwachten und Zero-Shot-Methoden (niedriger ist besser)

Mit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM Die meisten Monash-Datensätze sind kurz- oder mittelfristig, was bedeutet, dass die Vorhersagedauer nicht zu lang ist. TimesFM wurde auch anhand häufig verwendeter Benchmarks getestet Langzeitprognosen sind die hochmoderne Basislinie PatchTST (und andere Basislinien für Langzeitprognosen).

Die Forscher zeichneten die MAE auf dem ETT-Datensatz für die Aufgabe auf, 96 und 192 Zeitpunkte in der Zukunft vorherzusagen, und berechneten die Metrik im letzten Testfenster jedes Datensatzes. ( ZS) und entspricht dem eines überwachten PatchTST-Modells, das explizit auf den entsprechenden Datensatz trainiert wurde.

Fazit

Die Forscher trainierten ein reines Decoder-Basismodell unter Verwendung eines großen vorab trainierten Korpus von 100 Milliarden realen Zeitpunkten, bei denen es sich größtenteils um Suchinteressen-Zeitreihendaten aus Google Trends und Seiten aus Wikipedia-Ansichten handelte.

Die Ergebnisse zeigen, dass selbst ein relativ kleines vorab trainiertes Modell mit 200 M Parametern unter Verwendung der TimesFM-Architektur in verschiedenen öffentlichen Benchmarks (verschiedene Domänen und Granularitäten) eine recht gute Zero-Shot-Leistung aufweist.

Das obige ist der detaillierte Inhalt vonMit nur 200 Millionen Parametern übertrifft die Leistung bei Nullabtastungen die überwachter Leistung! Google veröffentlicht das grundlegende Zeitreihenvorhersagemodell TimesFM. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die KI -Kompetenzlücke verlangsamt die VersorgungskettenApr 26, 2025 am 11:13 AM

Der Begriff "AI-fähige Belegschaft" wird häufig verwendet, aber was bedeutet das in der Lieferkettenindustrie wirklich? Nach Abe Eshkenazi, CEO des Association for Supply Chain Management (ASCM), bedeutet dies Fachkräfte, die kritisch sind

Wie ein Unternehmen leise daran arbeitet, die KI für immer zu verwandelnApr 26, 2025 am 11:12 AM

Die dezentrale KI -Revolution gewinnt leise an Dynamik. An diesem Freitag in Austin, Texas, markiert der Bittensor Endgame Summit einen entscheidenden Moment, in dem die dezentrale KI (DEAI) von Theorie zu praktischer Anwendung übergeht. Im Gegensatz zum glitzernden Werbespot

Nvidia veröffentlicht Nemo Microservices, um die Entwicklung der AI -Agenten zu optimierenApr 26, 2025 am 11:11 AM

Enterprise KI steht vor der Datenintegrationsprobleme Die Anwendung von Enterprise KI steht vor einer großen Herausforderung: Aufbau von Systemen, die die Genauigkeit und Praktikabilität durch kontinuierlich lernende Geschäftsdaten aufrechterhalten können. NEMO Microservices lösen dieses Problem, indem er das erstellt, was NVIDIA als "Datenschwungrad" beschreibt und KI -Systemen durch kontinuierliche Exposition gegenüber Unternehmensinformationen und Benutzerinteraktion relevant bleibt. Dieses neu gestartete Toolkit enthält fünf wichtige Microservices: Nemo Customizer behandelt die Feinabstimmung großer Sprachmodelle mit höherem Trainingsdurchsatz. NEMO Evaluator bietet eine vereinfachte Bewertung von KI -Modellen für benutzerdefinierte Benchmarks. NEMO -Leitplanken implementiert Sicherheitskontrollen, um die Einhaltung und Angemessenheit aufrechtzuerhalten

KI malt ein neues Bild für die Zukunft von Kunst und DesignApr 26, 2025 am 11:10 AM

AI: Die Zukunft von Kunst und Design Künstliche Intelligenz (KI) verändert das Kunst- und Designgebiet auf beispiellose Weise, und seine Auswirkungen beschränken sich nicht mehr auf Amateure, sondern beeinflussen jedoch die Fachkräfte. Kunstwerke und Designschemata, die von KI erzeugt wurden, ersetzen traditionelle materielle Bilder und Designer in vielen Transaktionsdesignaktivitäten wie Werbung, Social -Media -Bildgenerierung und Webdesign schnell. Professionelle Künstler und Designer finden jedoch auch den praktischen Wert von KI. Sie verwenden AI als Hilfsmittel, um neue ästhetische Möglichkeiten zu erforschen, verschiedene Stile zu mischen und neuartige visuelle Effekte zu erzeugen. KI hilft Künstlern und Designer, sich wiederholende Aufgaben zu automatisieren, verschiedene Designelemente vorzuschlagen und kreative Eingaben zu leisten. AI unterstützt den Stiltransfer, der einen Bildstil anwenden soll

Wie Zoom die Arbeit mit Agentic AI: Von Meetings bis Meilensteinen revolutioniertApr 26, 2025 am 11:09 AM

Zoom, ursprünglich für seine Video -Konferenz -Plattform bekannt, führt eine Revolution am Arbeitsplatz mit der innovativen Nutzung der Agenten -KI. Ein aktuelles Gespräch mit Zooms CTO, XD Huang, enthüllte die ehrgeizige Vision des Unternehmens. Definieren von Agenten AI Huang d

Die existenzielle Bedrohung für UniversitätenApr 26, 2025 am 11:08 AM

Wird AI die Bildung revolutionieren? Diese Frage führt zu ernsthafter Reflexion unter Pädagogen und Stakeholdern. Die Integration von KI in Bildung bietet sowohl Chancen als auch Herausforderungen. Wie Matthew Lynch von The Tech Edvocate bemerkt, Universität

Der Prototyp: Amerikanische Wissenschaftler suchen nach Jobs im AuslandApr 26, 2025 am 11:07 AM

Die Entwicklung wissenschaftlicher Forschung und Technologie in den Vereinigten Staaten kann vor Herausforderungen stehen, möglicherweise aufgrund von Budgetkürzungen. Nach der Natur stieg die Zahl der amerikanischen Wissenschaftler, die sich für Arbeitsplätze in Übersee bewerben, von Januar bis März 2025 im Vergleich zum gleichen Zeitraum von 2024 um 32%. Eine frühere Umfrage ergab, dass 75% der untersuchten Forscher über die Suche nach Arbeitsplätzen in Europa und Kanada in Betracht gezogen wurden. In den letzten Monaten wurden Hunderte von NIH- und NSF-Zuschüssen beendet, wobei die neuen Zuschüsse von NIH in diesem Jahr um etwa 2,3 Milliarden US-Dollar gesunken sind, ein Rückgang von fast einem Drittel. Der durchgesickerte Haushaltsvorschlag zeigt, dass die Trump -Administration mit einer möglichen Reduzierung von um bis zu 50%ein starkes Budget für wissenschaftliche Institutionen in Betracht zieht. Die Turbulenzen auf dem Gebiet der Grundlagenforschung haben sich auch auf einen der Hauptvorteile der Vereinigten Staaten ausgewirkt: die Gewinnung von Talenten in Übersee. 35

Alles über Open AIs neueste GPT 4.1 -Familie - Analytics VidhyaApr 26, 2025 am 10:19 AM

OpenAI enthüllt die leistungsstarke GPT-4.1-Serie: eine Familie von drei fortschrittlichen Sprachmodellen für reale Anwendungen. Dieser signifikante Sprung nach vorne bietet schnellere Reaktionszeiten, verbessertes Verständnis und drastisch reduzierte Kosten im Vergleich t t

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Monate vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vorByDDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

1 Monate vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

2 Wochen vorByDDD

Inzoi: Wie man sich für Schule und Universität bewerbt

3 Wochen vorByDDD

Heiße Werkzeuge

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7750

1643

1397

1293

1234