Maison  >  Article  >  Périphériques technologiques  >  Avec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

Avec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

WBOY
WBOYavant
2024-03-16 22:55:11969parcourir

La prévision des séries chronologiques joue un rôle important dans divers domaines, tels que la vente au détail, la finance, la fabrication, la santé et les sciences naturelles, etc. Dans le secteur de la vente au détail, les coûts de stocks peuvent être efficacement réduits et les revenus augmentés en améliorant la précision des prévisions de la demande. Cela signifie que les entreprises peuvent mieux répondre à la demande des clients, réduire les stocks excédentaires et les pertes, tout en augmentant leurs ventes et leurs bénéfices. Par conséquent, la prévision de séries chronologiques est d'une grande valeur dans le domaine de la vente au détail et peut apporter de la substance aux entreprises

Les modèles d'apprentissage en profondeur (DL) dominent la tâche de « prévision de séries chronologiques multivariables » et sont utilisés dans diverses compétitions et d'excellentes performances réelles dans applications.

Dans le même temps, des progrès significatifs ont été réalisés dans les modèles linguistiques de base à grande échelle dans les tâches de traitement du langage naturel (NLP), améliorant efficacement les performances de tâches telles que la traduction, la génération d'améliorations de récupération et la complétion de code.

La formation des modèles NLP repose sur des données textuelles massives, provenant de diverses sources, notamment des robots d'exploration, du code open source, etc. Le modèle formé peut reconnaître des modèles dans le langage et a la capacité d'apprendre à partir de zéro échantillon. : par exemple, les grands modèles sont utilisés dans des tâches de récupération où le modèle peut répondre à des questions sur les événements actuels et les résumer.

Bien que les prédicteurs basés sur le deep learning surpassent les méthodes traditionnelles à bien des égards, notamment en réduisant les coûts de formation et d'inférence, il reste encore certains défis à surmonter :

De nombreux modèles de deep learning subissent une longue formation et validation. Ce n'est qu'alors que cela pourra être testé sur une nouvelle série temporelle. En revanche, le modèle sous-jacent pour la prévision de séries chronologiques possède des capacités de « prévision prêtes à l'emploi » et peut être appliqué à des données de séries chronologiques inconnues sans formation supplémentaire. Cette fonctionnalité permet aux utilisateurs de se concentrer sur l'amélioration des prévisions pour des tâches pratiques en aval telles que la planification de la demande au détail.

Des chercheurs de Google Research ont récemment proposé un modèle de base pour la prévision de séries chronologiques appelé TimesFM, qui a été pré-entraîné sur 100 milliards de points temporels réels. Comparé aux grands modèles de langage (LLM) de pointe actuels, TimesFM est beaucoup plus petit, ne contenant que 200 millions de paramètres.

Avec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

Lien papier : https://arxiv.org/pdf/2310.10688.pdf

Les résultats expérimentaux montrent que malgré sa petite échelle, TimesFM fonctionne différemment dans divers domaines et échelles de temps que sans formation. des « performances zéro tir » surprenantes, proches des performances de méthodes supervisées de pointe et explicitement entraînées sur ces ensembles de données.

Les chercheurs prévoient de mettre le modèle TimesFM à la disposition des clients externes dans Google Cloud Vertex AI plus tard cette année.

Modèle de base TimesFM

Les LLM sont généralement formés de manière uniquement par décodeur, en trois étapes :

1 Le texte est décomposé en sous-mots appelés jetons

2. Couche de transformateur causale empilée et génère une sortie correspondant à chaque jeton d'entrée. Il convient de noter que cette couche ne peut pas gérer les jetons sans entrée, c'est-à-dire les futurs jetons

3. informations des jetons précédents et prédit le (i+1)-ième jeton

Pendant l'inférence, LLM génère la sortie d'un jeton à la fois.

Par exemple, lors de la saisie de la question « Quelle est la capitale de la France ? » (Quelle est la capitale de la France ?), le modèle peut générer le jeton « Le », puis générer le jeton suivant « Capital » basé sur à cette invite. "(majuscule) et ainsi de suite jusqu'à ce que le modèle génère une réponse complète : "La capitale de la France est Paris" (La capitale de la France est Paris).

Le modèle sous-jacent pour la prévision des séries chronologiques doit s'adapter à des longueurs de contexte (ce que le modèle observe) et de plage (ce que le modèle de requête prédit) variables tout en étant suffisamment puissant pour coder tous les modèles à partir de grands ensembles de données pré-entraînés (modèles).

Avec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

Semblable aux LLM, les chercheurs utilisent des couches Transformer empilées (couches d'auto-attention et de rétroaction) comme principaux éléments constitutifs du modèle TimesFM dans le contexte de la prévision de séries chronologiques, un patch (un ensemble de point temporel continu) à titre symbolique, l'idée vient de récents travaux de prévision à long horizon : la tâche spécifique est de prédire le (i+1)ème point temporel pour la i-ème sortie donnée à la fin du patch de couche Transformer empilé

Mais TimesFM présente plusieurs différences clés par rapport aux modèles de langage :

1 Le modèle nécessite un bloc perceptron multicouche avec des connexions résiduelles pour convertir les correctifs de séries temporelles en jetons, qui peuvent être comparés à la position Encoding (. PE) ainsi que l'entrée de la couche Transformer. Pour ce faire, nous utilisons des blocs résiduels similaires à nos travaux précédents en prédiction à long terme.

2. Le jeton de sortie du transformateur empilé peut être utilisé pour prédire la longueur des points temporels suivants qui est plus longue que la longueur du patch d'entrée, c'est-à-dire que la longueur du patch de sortie peut être supérieure à la longueur du patch d'entrée.

Supposons qu'une série temporelle d'une longueur de 512 points temporels soit utilisée pour entraîner un modèle TimesFM avec une « longueur de patch d'entrée 32 » et une « longueur de patch de sortie 128 » :

Pendant la formation, le modèle est formé à en même temps Pour prédire les 128 points temporels suivants en utilisant les 32 premiers points temporels, utilisez les 64 premiers points temporels pour prédire les points temporels 65 à 192, utilisez les 96 premiers points temporels pour prédire les points temporels 97 à 224, et ainsi de suite.

En supposant que les données d'entrée sont une série temporelle de longueur 256 et que sa tâche est de prédire les 256 prochains points temporels dans le futur, le modèle génère d'abord des prédictions futures pour les points temporels 257 à 384, puis prend le premier Entrée de longueur 256 plus La sortie générée est conditionnelle à la génération des points temporels 385 à 512.

En revanche, si dans le modèle, la longueur du patch de sortie est égale à la longueur du patch d'entrée 32, alors pour la même tâche, le modèle passe par huit étapes de génération au lieu de 2, augmentant le risque d'accumulation d'erreurs et donc dans les résultats expérimentaux, comme on peut le voir dans , une longueur de patch de sortie plus longue entraînera de meilleures performances de prédiction à long terme.

Données de pré-formation

Tout comme les LLM peuvent s'améliorer avec plus de jetons, TimesFM nécessite de grandes quantités de données de séries chronologiques légitimes pour apprendre et s'améliorer ; les chercheurs passent beaucoup de temps à créer et à évaluer des ensembles de données de formation et ont trouvé deux meilleures méthodes ; :

Les données synthétiques aident avec les bases

Vous pouvez utiliser des modèles statistiques ou des simulations physiques pour générer des données de séries chronologiques synthétiques significatives, essentiellement. Le modèle temporel peut guider le modèle pour apprendre la grammaire de la prédiction des séries chronologiques.

Les données du monde réel ajoutent une saveur du monde réel

Les chercheurs ont passé au peigne fin les ensembles de données de séries chronologiques publiques disponibles et ont combiné sélectivement 100 milliards Un vaste corpus de points temporels est constitué.

Dans l'ensemble de données, il y a des pages vues de Google Trends et Wikipedia, qui suivent ce qui intéresse les utilisateurs et reflètent bien les tendances et les modèles de nombreuses autres séries chronologiques du monde réel, aidant TimesFM à comprendre la situation dans son ensemble. peut améliorer les performances de généralisation pour les « contextes spécifiques à un domaine non vus pendant la formation ».

Résultats de l'évaluation sur échantillon zéro

Les chercheurs ont mené une évaluation sur échantillon zéro de TimesFM sur des données invisibles pendant la formation en utilisant une référence de série chronologique couramment utilisée, et il a été observé que TimesFM surpassait la plupart des méthodes statistiques telles que ARIMA, ETS, et peut égaler ou surpasser de puissants modèles DL tels que DeepAR, PatchTST, qui ont été explicitement formés sur des séries chronologiques cibles.

Les chercheurs ont utilisé Monash Forecasting Archive pour évaluer les performances prêtes à l'emploi de TimesFM, un ensemble de données contenant des dizaines de milliers de séries chronologiques provenant de divers domaines tels que les prévisions de trafic, de météo et de demande, couvrant des fréquences allant de quelques minutes. aux données annuelles.

Sur la base de la littérature existante, les chercheurs ont examiné l'erreur absolue moyenne (MAE) correctement mise à l'échelle pour obtenir la moyenne sur l'ensemble de données.

Comme on peut le constater, Zero-shot (ZS) TimesFM surpasse la plupart des méthodes supervisées, y compris les récents modèles d'apprentissage en profondeur. TimesFM et GPT-3.5 ont également été comparés pour la prédiction à l'aide de la technologie d'indication spécifique proposée par llmtime (ZS), et les résultats ont prouvé que TimesFM fonctionnait mieux que llmtime (ZS)

Avec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

Sur l'ensemble de données Monash, TimesFM (ZS ) Rapport MAE par rapport à d'autres méthodes supervisées et sans tir (plus le niveau est faible, mieux c'est)

La plupart des ensembles de données Monash sont à court ou à moyen terme, ce qui signifie que la longueur de prédiction n'est pas trop longue. les prévisions à long terme sont le PatchTST de référence de pointe (et d’autres références de prévision à long terme).

Les chercheurs ont tracé le MAE sur l'ensemble de données ETT pour la tâche de prévoir 96 et 192 points temporels dans le futur, en calculant la métrique sur la dernière fenêtre de test de chaque ensemble de données.

Avec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

Dernière fenêtre MAE (le plus bas est le meilleur) de TimesFM (ZS) par rapport à llmtime (ZS) et la référence de prévision à long terme sur l'ensemble de données ETT

Comme on peut le voir, TimesFM ne dépasse pas seulement llmtime ( ZS) et correspond à celui d'un modèle PatchTST supervisé explicitement formé sur l'ensemble de données correspondant.

Conclusion

Les chercheurs ont formé un modèle de base uniquement décodeur en utilisant un vaste corpus de pré-formation de 100 milliards de points temporels réels, dont la plupart étaient des données de séries chronologiques d'intérêt de recherche de Google Trends et des pages de Wikipedia Views.

Les résultats montrent que même un modèle pré-entraîné relativement petit de 200 M de paramètres, utilisant l'architecture TimesFM, présente d'assez bonnes performances zéro-shot dans divers benchmarks publics (différents domaines et granularités).

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer