recherche
MaisonPériphériques technologiquesIAAvec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

La prévision des séries chronologiques joue un rôle important dans divers domaines, tels que la vente au détail, la finance, la fabrication, la santé et les sciences naturelles, etc. Dans le secteur de la vente au détail, les coûts de stocks peuvent être efficacement réduits et les revenus augmentés en améliorant la précision des prévisions de la demande. Cela signifie que les entreprises peuvent mieux répondre à la demande des clients, réduire les stocks excédentaires et les pertes, tout en augmentant leurs ventes et leurs bénéfices. Par conséquent, la prévision de séries chronologiques est d'une grande valeur dans le domaine de la vente au détail et peut apporter de la substance aux entreprises

Les modèles d'apprentissage en profondeur (DL) dominent la tâche de « prévision de séries chronologiques multivariables » et sont utilisés dans diverses compétitions et d'excellentes performances réelles dans applications.

Dans le même temps, des progrès significatifs ont été réalisés dans les modèles linguistiques de base à grande échelle dans les tâches de traitement du langage naturel (NLP), améliorant efficacement les performances de tâches telles que la traduction, la génération d'améliorations de récupération et la complétion de code.

La formation des modèles NLP repose sur des données textuelles massives, provenant de diverses sources, notamment des robots d'exploration, du code open source, etc. Le modèle formé peut reconnaître des modèles dans le langage et a la capacité d'apprendre à partir de zéro échantillon. : par exemple, les grands modèles sont utilisés dans des tâches de récupération où le modèle peut répondre à des questions sur les événements actuels et les résumer.

Bien que les prédicteurs basés sur le deep learning surpassent les méthodes traditionnelles à bien des égards, notamment en réduisant les coûts de formation et d'inférence, il reste encore certains défis à surmonter :

De nombreux modèles de deep learning subissent une longue formation et validation. Ce n'est qu'alors que cela pourra être testé sur une nouvelle série temporelle. En revanche, le modèle sous-jacent pour la prévision de séries chronologiques possède des capacités de « prévision prêtes à l'emploi » et peut être appliqué à des données de séries chronologiques inconnues sans formation supplémentaire. Cette fonctionnalité permet aux utilisateurs de se concentrer sur l'amélioration des prévisions pour des tâches pratiques en aval telles que la planification de la demande au détail.

Des chercheurs de Google Research ont récemment proposé un modèle de base pour la prévision de séries chronologiques appelé TimesFM, qui a été pré-entraîné sur 100 milliards de points temporels réels. Comparé aux grands modèles de langage (LLM) de pointe actuels, TimesFM est beaucoup plus petit, ne contenant que 200 millions de paramètres.

Avec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

Lien papier : https://arxiv.org/pdf/2310.10688.pdf

Les résultats expérimentaux montrent que malgré sa petite échelle, TimesFM fonctionne différemment dans divers domaines et échelles de temps que sans formation. des « performances zéro tir » surprenantes, proches des performances de méthodes supervisées de pointe et explicitement entraînées sur ces ensembles de données.

Les chercheurs prévoient de mettre le modèle TimesFM à la disposition des clients externes dans Google Cloud Vertex AI plus tard cette année.

Modèle de base TimesFM

Les LLM sont généralement formés de manière uniquement par décodeur, en trois étapes :

1 Le texte est décomposé en sous-mots appelés jetons

2. Couche de transformateur causale empilée et génère une sortie correspondant à chaque jeton d'entrée. Il convient de noter que cette couche ne peut pas gérer les jetons sans entrée, c'est-à-dire les futurs jetons

3. informations des jetons précédents et prédit le (i+1)-ième jeton

Pendant l'inférence, LLM génère la sortie d'un jeton à la fois.

Par exemple, lors de la saisie de la question « Quelle est la capitale de la France ? » (Quelle est la capitale de la France ?), le modèle peut générer le jeton « Le », puis générer le jeton suivant « Capital » basé sur à cette invite. "(majuscule) et ainsi de suite jusqu'à ce que le modèle génère une réponse complète : "La capitale de la France est Paris" (La capitale de la France est Paris).

Le modèle sous-jacent pour la prévision des séries chronologiques doit s'adapter à des longueurs de contexte (ce que le modèle observe) et de plage (ce que le modèle de requête prédit) variables tout en étant suffisamment puissant pour coder tous les modèles à partir de grands ensembles de données pré-entraînés (modèles).

Avec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

Semblable aux LLM, les chercheurs utilisent des couches Transformer empilées (couches d'auto-attention et de rétroaction) comme principaux éléments constitutifs du modèle TimesFM dans le contexte de la prévision de séries chronologiques, un patch (un ensemble de point temporel continu) à titre symbolique, l'idée vient de récents travaux de prévision à long horizon : la tâche spécifique est de prédire le (i+1)ème point temporel pour la i-ème sortie donnée à la fin du patch de couche Transformer empilé

Mais TimesFM présente plusieurs différences clés par rapport aux modèles de langage :

1 Le modèle nécessite un bloc perceptron multicouche avec des connexions résiduelles pour convertir les correctifs de séries temporelles en jetons, qui peuvent être comparés à la position Encoding (. PE) ainsi que l'entrée de la couche Transformer. Pour ce faire, nous utilisons des blocs résiduels similaires à nos travaux précédents en prédiction à long terme.

2. Le jeton de sortie du transformateur empilé peut être utilisé pour prédire la longueur des points temporels suivants qui est plus longue que la longueur du patch d'entrée, c'est-à-dire que la longueur du patch de sortie peut être supérieure à la longueur du patch d'entrée.

Supposons qu'une série temporelle d'une longueur de 512 points temporels soit utilisée pour entraîner un modèle TimesFM avec une « longueur de patch d'entrée 32 » et une « longueur de patch de sortie 128 » :

Pendant la formation, le modèle est formé à en même temps Pour prédire les 128 points temporels suivants en utilisant les 32 premiers points temporels, utilisez les 64 premiers points temporels pour prédire les points temporels 65 à 192, utilisez les 96 premiers points temporels pour prédire les points temporels 97 à 224, et ainsi de suite.

En supposant que les données d'entrée sont une série temporelle de longueur 256 et que sa tâche est de prédire les 256 prochains points temporels dans le futur, le modèle génère d'abord des prédictions futures pour les points temporels 257 à 384, puis prend le premier Entrée de longueur 256 plus La sortie générée est conditionnelle à la génération des points temporels 385 à 512.

En revanche, si dans le modèle, la longueur du patch de sortie est égale à la longueur du patch d'entrée 32, alors pour la même tâche, le modèle passe par huit étapes de génération au lieu de 2, augmentant le risque d'accumulation d'erreurs et donc dans les résultats expérimentaux, comme on peut le voir dans , une longueur de patch de sortie plus longue entraînera de meilleures performances de prédiction à long terme.

Données de pré-formation

Tout comme les LLM peuvent s'améliorer avec plus de jetons, TimesFM nécessite de grandes quantités de données de séries chronologiques légitimes pour apprendre et s'améliorer ; les chercheurs passent beaucoup de temps à créer et à évaluer des ensembles de données de formation et ont trouvé deux meilleures méthodes ; :

Les données synthétiques aident avec les bases

Vous pouvez utiliser des modèles statistiques ou des simulations physiques pour générer des données de séries chronologiques synthétiques significatives, essentiellement. Le modèle temporel peut guider le modèle pour apprendre la grammaire de la prédiction des séries chronologiques.

Les données du monde réel ajoutent une saveur du monde réel

Les chercheurs ont passé au peigne fin les ensembles de données de séries chronologiques publiques disponibles et ont combiné sélectivement 100 milliards Un vaste corpus de points temporels est constitué.

Dans l'ensemble de données, il y a des pages vues de Google Trends et Wikipedia, qui suivent ce qui intéresse les utilisateurs et reflètent bien les tendances et les modèles de nombreuses autres séries chronologiques du monde réel, aidant TimesFM à comprendre la situation dans son ensemble. peut améliorer les performances de généralisation pour les « contextes spécifiques à un domaine non vus pendant la formation ».

Résultats de l'évaluation sur échantillon zéro

Les chercheurs ont mené une évaluation sur échantillon zéro de TimesFM sur des données invisibles pendant la formation en utilisant une référence de série chronologique couramment utilisée, et il a été observé que TimesFM surpassait la plupart des méthodes statistiques telles que ARIMA, ETS, et peut égaler ou surpasser de puissants modèles DL tels que DeepAR, PatchTST, qui ont été explicitement formés sur des séries chronologiques cibles.

Les chercheurs ont utilisé Monash Forecasting Archive pour évaluer les performances prêtes à l'emploi de TimesFM, un ensemble de données contenant des dizaines de milliers de séries chronologiques provenant de divers domaines tels que les prévisions de trafic, de météo et de demande, couvrant des fréquences allant de quelques minutes. aux données annuelles.

Sur la base de la littérature existante, les chercheurs ont examiné l'erreur absolue moyenne (MAE) correctement mise à l'échelle pour obtenir la moyenne sur l'ensemble de données.

Comme on peut le constater, Zero-shot (ZS) TimesFM surpasse la plupart des méthodes supervisées, y compris les récents modèles d'apprentissage en profondeur. TimesFM et GPT-3.5 ont également été comparés pour la prédiction à l'aide de la technologie d'indication spécifique proposée par llmtime (ZS), et les résultats ont prouvé que TimesFM fonctionnait mieux que llmtime (ZS)

Avec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

Sur l'ensemble de données Monash, TimesFM (ZS ) Rapport MAE par rapport à d'autres méthodes supervisées et sans tir (plus le niveau est faible, mieux c'est)

La plupart des ensembles de données Monash sont à court ou à moyen terme, ce qui signifie que la longueur de prédiction n'est pas trop longue. les prévisions à long terme sont le PatchTST de référence de pointe (et d’autres références de prévision à long terme).

Les chercheurs ont tracé le MAE sur l'ensemble de données ETT pour la tâche de prévoir 96 et 192 points temporels dans le futur, en calculant la métrique sur la dernière fenêtre de test de chaque ensemble de données.

Avec seulement 200 millions de paramètres, les performances sans échantillon dépassent celles supervisées ! Google publie un modèle de base de prédiction de séries chronologiques TimesFM

Dernière fenêtre MAE (le plus bas est le meilleur) de TimesFM (ZS) par rapport à llmtime (ZS) et la référence de prévision à long terme sur l'ensemble de données ETT

Comme on peut le voir, TimesFM ne dépasse pas seulement llmtime ( ZS) et correspond à celui d'un modèle PatchTST supervisé explicitement formé sur l'ensemble de données correspondant.

Conclusion

Les chercheurs ont formé un modèle de base uniquement décodeur en utilisant un vaste corpus de pré-formation de 100 milliards de points temporels réels, dont la plupart étaient des données de séries chronologiques d'intérêt de recherche de Google Trends et des pages de Wikipedia Views.

Les résultats montrent que même un modèle pré-entraîné relativement petit de 200 M de paramètres, utilisant l'architecture TimesFM, présente d'assez bonnes performances zéro-shot dans divers benchmarks publics (différents domaines et granularités).

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Appel d'outil dans LLMSAppel d'outil dans LLMSApr 14, 2025 am 11:28 AM

Les modèles de grands langues (LLM) ont augmenté en popularité, la fonctionnalité d'appel à l'outil élargissant considérablement leurs capacités au-delà de la génération de texte simple. Maintenant, les LLM peuvent gérer des tâches d'automatisation complexes telles que la création d'interface utilisateur dynamique et l'autonomie A

Comment les jeux de TDAH, les outils de santé et les chatbots d'IA transforment la santé mondialeComment les jeux de TDAH, les outils de santé et les chatbots d'IA transforment la santé mondialeApr 14, 2025 am 11:27 AM

Un jeu vidéo peut-il faciliter l'anxiété, se concentrer ou soutenir un enfant atteint de TDAH? Au fur et à mesure que les défis de la santé augmentent à l'échelle mondiale - en particulier chez les jeunes - les innovateurs se tournent vers un outil improbable: les jeux vidéo. Maintenant l'un des plus grands divertissements du monde Indus

Entrée des Nations Unies sur l'IA: gagnants, perdants et opportunitésEntrée des Nations Unies sur l'IA: gagnants, perdants et opportunitésApr 14, 2025 am 11:25 AM

«L'histoire a montré que bien que les progrès technologiques stimulent la croissance économique, elle n'assure pas elle-même une répartition des revenus équitable ou la promotion du développement humain inclusif», écrit Rebeca Grynspan, secrétaire général de la CNUCTAD, dans le préambule.

Compétences de négociation d'apprentissage via une IA générativeCompétences de négociation d'apprentissage via une IA générativeApr 14, 2025 am 11:23 AM

Easy PEASY, utilisez une IA générative comme tuteur de négociation et partenaire d'entraînement. Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur la dernière IA, y compris l'identification et l'explication

Ted révèle d'Openai, Google, Meta se dirige vers le tribunal, Selfie avec moi-mêmeTed révèle d'Openai, Google, Meta se dirige vers le tribunal, Selfie avec moi-mêmeApr 14, 2025 am 11:22 AM

La conférence TED2025, qui s'est tenue à Vancouver, a terminé sa 36e édition hier 11 avril. Il a présenté 80 conférenciers de plus de 60 pays, dont Sam Altman, Eric Schmidt et Palmer Luckey. Le thème de Ted, «l'humanité repensée», a été fait sur mesure

Joseph Stiglitz met en garde contre l'inégalité imminente au milieu du pouvoir monopoleJoseph Stiglitz met en garde contre l'inégalité imminente au milieu du pouvoir monopoleApr 14, 2025 am 11:21 AM

Joseph Stiglitz est économiste de renom et récipiendaire du prix Nobel en économie en 2001. Stiglitz postule que l'IA peut aggraver les inégalités existantes et le pouvoir consolidé entre les mains de quelques sociétés dominantes, sapant finalement économique économique

Qu'est-ce que la base de données de graphiques?Qu'est-ce que la base de données de graphiques?Apr 14, 2025 am 11:19 AM

Bases de données graphiques: révolutionner la gestion des données à travers les relations À mesure que les données se développent et que ses caractéristiques évoluent sur divers champs, les bases de données de graphiques émergent comme des solutions transformatrices pour gérer les données interconnectées. Contrairement à la traditionnelle

Routage LLM: stratégies, techniques et implémentation PythonRoutage LLM: stratégies, techniques et implémentation PythonApr 14, 2025 am 11:14 AM

Routage de modèle de grande langue (LLM): optimiser les performances grâce à une distribution de tâches intelligente Le paysage en évolution rapide de LLMS présente une gamme diversifiée de modèles, chacun avec des forces et des faiblesses uniques. Certains excellent dans le contenu créatif Gen

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

VSCode Windows 64 bits Télécharger

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

Version Mac de WebStorm

Version Mac de WebStorm

Outils de développement JavaScript utiles

Navigateur d'examen sécurisé

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP