Maison  >  Article  >  Périphériques technologiques  >  Les algorithmes couramment utilisés dans l'analyse temporelle sont tous ici

Les algorithmes couramment utilisés dans l'analyse temporelle sont tous ici

PHPz
PHPzavant
2023-12-15 14:17:541162parcourir

L'analyse des séries chronologiques consiste à utiliser les caractéristiques d'un événement dans la période passée pour prédire les caractéristiques de l'événement dans la période future. Il s’agit d’un problème de modélisation prédictive relativement complexe qui diffère des prédictions des modèles d’analyse de régression. Le modèle de série chronologique dépend de l'ordre dans lequel les événements se produisent. Des valeurs de même taille produiront des résultats différents lorsque l'ordre est modifié. Les problèmes de séries chronologiques sont tous considérés comme des problèmes de régression, mais la méthode de régression (régression linéaire, modèle arborescent). , deep learning, etc.) il existe certaines différences.

Les algorithmes couramment utilisés dans lanalyse temporelle sont tous iciL'analyse temporelle comprend l'analyse temporelle statique (STA) et l'analyse temporelle dynamique.

Voici plusieurs algorithmes d'analyse temporelle courants

1 Analyse temporelle d'apprentissage en profondeur

RNN (Recurrent Neural Network)

Le réseau neuronal récurrent fait référence à une structure qui se produit de manière répétée au fil du temps. Il a une très large gamme d'applications dans le traitement du langage naturel (NLP), les images vocales et d'autres domaines. La plus grande différence entre les réseaux RNN et les autres réseaux est que le RNN peut réaliser une certaine « fonction de mémoire » et constitue le meilleur choix pour l'analyse des séries chronologiques. Tout comme les êtres humains peuvent mieux comprendre le monde à travers leurs propres souvenirs passés. RNN met également en œuvre un mécanisme similaire à celui du cerveau humain, conservant une certaine quantité de mémoire pour les informations traitées, contrairement à d'autres types de réseaux neuronaux qui ne peuvent pas conserver la mémoire des informations traitées.

Avantages :

Cette méthode peut mémoriser le temps et convient à la résolution de problèmes avec des intervalles courts dans la série chronologique

Inconvénients :

Les données à pas longs sont sujettes à des problèmes de disparition et d'explosion de gradient

LSTM (Long Short-Term Memory Network)

LSTM (Long Short-Term Memory) est un réseau neuronal récurrent temporel conçu pour résoudre le problème de dépendance à long terme existant dans les réseaux neuronaux récurrents (RNN) conventionnels. Tous les RNN sont composés d'une série de modules de réseaux neuronaux répétés

Atouts :

Convient pour traiter et prédire des événements importants dans des séries temporelles avec des intervalles et des délais très longs.

Inconvénients :

Trop de paramètres de modèle entraîneront des problèmes de surajustement

2 Modèle d'analyse de séries chronologiques traditionnel

Régression automatique (AR)

Moyenne mobile (Moyenne mobile, MA)
  • Moyenne mobile autorégressive (ARMA)
  • Moyenne mobile intégrée autorégressive (ARIMA)
  • Moyenne mobile intégrée autorégressive saisonnière (Moyenne mobile intégrée autorégressive saisonnière, SARIMA)
  • Moyenne mobile intégrée autorégressive saisonnière avec régresseurs exogènes ( SARIMAX)
  • Modèle autorégressif AR
  • Le modèle autorégressif (modèle AR en abrégé) est une méthode d'analyse de séries chronologiques utilisée pour décrire la relation entre une variable de série chronologique et ses valeurs passées. Le modèle AR suppose une relation linéaire entre les observations actuelles et les observations passées, et utilise les observations passées pour prédire les observations futures.
Atouts :

Simplicité : Le modèle AR est un modèle linéaire facile à comprendre et à mettre en œuvre. Il utilise uniquement les observations passées comme variables indépendantes, sans aucun autre facteur complexe à prendre en compte.

Capacités de modélisation : les modèles AR peuvent capturer la structure d'autocorrélation des données de séries chronologiques, c'est-à-dire la relation entre les observations actuelles et les observations passées. Il fournit des prédictions sur les observations futures et révèle des tendances et des modèles dans les données.
  • Inconvénients :
    • Applicable uniquement aux séries stationnaires : le modèle AR exige que la série chronologique soit stationnaire, c'est-à-dire que la moyenne, la variance et l'autocorrélation ne changent pas avec le temps. Si la série est non stationnaire, vous devrez peut-être effectuer des opérations de différenciation ou utiliser d'autres modèles pour gérer la non-stationnarité.
    • Sensible aux observations passées : les résultats de prédiction du modèle AR sont affectés par les observations passées, de sorte que le problème de l'accumulation d'erreurs peut survenir lorsqu'il s'agit de prédictions à long terme. Un ordre plus important peut conduire à un surajustement du modèle, tandis qu'un ordre plus petit peut ne pas rendre compte de la dynamique complexe de la série chronologique.
    • Impossible de gérer les données saisonnières : les modèles AR ne peuvent pas gérer directement les séries chronologiques présentant une saisonnalité évidente. Pour les données présentant des tendances saisonnières, des modèles AR saisonniers (SAR) ou des modèles ARIMA peuvent être utilisés pour la modélisation.

    Méthode de la Moyenne Mobile (MA)

    Méthode de la Moyenne Mobile (MA) : Cette méthode est basée sur la moyenne des données et suppose une certaine stabilité entre les valeurs futures et les valeurs passées

    Forces :

    Capture la relation de moyenne mobile dans les données de séries chronologiques. Le modèle MA utilise une combinaison linéaire de termes d'erreur de bruit blanc provenant de pas de temps passés pour prédire les observations actuelles et capture donc la nature de la moyenne mobile dans les données.

    Relativement simple et intuitif. Les paramètres du modèle MA représentent les poids des termes d'erreur de bruit blanc aux pas de temps passés, et le modèle peut être ajusté en estimant ces poids.

    Inconvénients :

    • ne peut capturer que la relation de moyenne mobile et ne peut pas capturer la relation autorégressive. Le modèle MA ignore les observations de pas de temps passés et peut ne pas capturer l'autocorrélation dans les données.
    • Pour certaines données de séries chronologiques, le modèle MA peut nécessiter un ordre plus élevé pour bien s'adapter aux données, ce qui entraîne une complexité accrue du modèle.

    Modèle de moyenne mobile autorégressive

    Le modèle de moyenne mobile autorégressive (modèle ARMA, modèle d'auto-régression et de moyenne mobile) est une méthode importante pour étudier les séries chronologiques. ). Modèle) comme base, il présente les caractéristiques d’une large gamme d’applications et d’une petite erreur de prédiction.

    Moyenne mobile intégrée autorégressive (ARIMA)

    Le modèle ARIMA est l'abréviation du modèle de moyenne mobile différentielle autorégressive, le nom complet est Modèle de moyenne mobile intégrée autorégressive. Ce modèle se compose principalement de trois parties, à savoir le modèle autorégressif (AR), le processus de différence (I) et le modèle de moyenne mobile (MA). L'idée de base du modèle ARIMA est d'utiliser les informations historiques des données elles-mêmes. pour prédire l'avenir. La valeur de la balise à un moment donné est affectée à la fois par la valeur de la balise au cours de la période passée et par les événements accidentels de la période passée. En d'autres termes, le modèle ARIMA suppose que la valeur de la balise fluctue autour de la tendance générale du temps. la tendance est affectée par des étiquettes historiques, les fluctuations sont affectées par des événements accidentels au cours d'une période de temps et la tendance générale elle-même n'est pas nécessairement stable

    Le modèle ARIMA est une méthode d'analyse de séries chronologiques qui analyse les données en modélisant l'autocorrélation et la différence pour extraire les modèles de séries chronologiques cachés dans les données, puis prédire les données futures

    La partie AR est utilisée pour traiter la partie autorégressive de la série chronologique, qui prend en compte les observations de plusieurs périodes passées L'effet de la valeur sur la valeur actuelle.

    • La partie I est utilisée pour rendre stationnaires les séries chronologiques non stationnaires. Grâce au traitement des différences de premier ou de deuxième ordre, la tendance et les facteurs saisonniers de la série chronologique sont éliminés.
    • La partie MA est utilisée pour traiter la partie moyenne mobile de la série chronologique, qui prend en compte l'impact des erreurs de prévision passées sur la valeur actuelle.
    • En combinant ces trois parties, le modèle ARIMA peut non seulement capturer les changements de tendance des données, mais également gérer les données présentant des changements temporaires, soudains ou un bruit important. Par conséquent, le modèle ARIMA fonctionne bien dans de nombreux problèmes de prévision de séries chronologiques.

    Atouts :

    La construction du modèle est très simple, utilisant uniquement des variables endogènes sans recourir à d'autres variables exogènes. Les variables dites endogènes font référence à des variables qui dépendent uniquement des données elles-mêmes, contrairement aux modèles de régression qui nécessitent la prise en charge d'autres variables.

    Essentiellement, il ne peut capturer que les relations linéaires, mais pas les relations non linéaires.

    Modèle de moyenne mobile intégrée autorégressive saisonnière SARIMA

    SARIMA est une méthode d'analyse de séries chronologiques couramment utilisée, qui est une extension du modèle ARIMA sur les données saisonnières. Les modèles SARIMA peuvent être utilisés pour prédire les données de séries chronologiques saisonnières, telles que les ventes annuelles ou les visites hebdomadaires de sites Web. Voici les avantages et les inconvénients du modèle SARIMA :

    Atouts :

    • Le modèle SARIMA peut bien gérer les données saisonnières car il prend en compte les facteurs saisonniers dans les données de séries chronologiques.
    • Le modèle SARIMA peut faire des prévisions à long terme sur des données de séries chronologiques car il peut capturer les tendances et les changements cycliques dans les données. Le modèle
    • SARIMA peut être utilisé pour les données de séries chronologiques à plusieurs variables car il peut prendre en compte la relation entre plusieurs variables en même temps.

    Inconvénients :

    • Le modèle SARIMA nécessite une grande quantité de données historiques pour s'entraîner, il peut donc ne pas convenir lorsque la quantité de données est faible.
    • Le modèle SARIMA est sensible aux valeurs aberrantes, les valeurs aberrantes doivent donc être traitées.
    • Le modèle SARIMA a une grande complexité de calcul et nécessite beaucoup de calculs et d'optimisation.

    Modèle de moyenne mobile intégrée autorégressive saisonnière SARIMAX avec régresseurs exogènes

    Le modèle de moyenne mobile intégrée autorégressive saisonnière (SARIMAX) est basé sur le modèle autorégressif mobile différentiel (ARIMA) plus le modèle de régresseur exogène. Il convient aux données de séries chronologiques avec des caractéristiques périodiques et saisonnières évidentes

    3 Autres modèles de séries chronologiques

    Ce type de méthode est représenté par lightgbm et xgboost. Généralement, le problème des séries chronologiques est converti en apprentissage supervisé, et via des fonctionnalités. méthodes d'ingénierie et d'apprentissage automatique pour prédire ; ce modèle peut résoudre les modèles de prédiction de séries chronologiques les plus complexes. Prend en charge la modélisation de données complexes, la régression collaborative multivariée et les problèmes non linéaires.

    L'importance de l'ingénierie des fonctionnalités va de soi et elle joue un rôle clé dans le succès de l'apprentissage automatique. Cependant, l’ingénierie des fonctionnalités n’est pas une tâche simple et nécessite un traitement manuel complexe et une expertise unique. Le niveau d’ingénierie des fonctionnalités détermine souvent la limite supérieure de l’apprentissage automatique, et l’algorithme d’apprentissage automatique est aussi proche que possible de cette limite supérieure. Une fois l'ingénierie des fonctionnalités terminée, nous pouvons appliquer directement les algorithmes du modèle d'arbre - lightgbm et xgboost. Ces deux modèles sont des méthodes de modélisation très courantes et efficaces. De plus, ils ont également les caractéristiques suivantes :

    • calcul rapide et précision élevée du modèle ;
    • les valeurs manquantes n'ont pas besoin d'être traitées, ce qui est plus pratique ;
    • prend en charge les variables de catégorie ;
    • supporte le croisement de fonctionnalités.

    La méthode spécifique à choisir doit être examinée de manière globale en fonction de la nature des données, des caractéristiques du problème, ainsi que de votre propre expérience et capacités.

    Vous devez choisir une méthode de prévision de séries chronologiques appropriée en fonction des caractéristiques spécifiques des données, des exigences du problème et de vos propres capacités. Parfois, la combinaison de plusieurs méthodes peut améliorer la précision et la stabilité des prédictions. Dans le même temps, afin de mieux sélectionner les modèles et évaluer les résultats des prédictions, il est également important d’effectuer une analyse visuelle des données et un diagnostic du modèle.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer