Le modèle ARMA de Box-Jenkins est une combinaison des modèles AR et MA (décrits à la page précédente): begin Xt delta phi1 X phi2 X cdots phip X At - theta1 A - theta2 A - cdots - thetaq A. Où les termes de l'équation ont la même signification que celle donnée pour le modèle AR et MA. Commentaires sur le modèle Box-Jenkins Quelques notes sur ce modèle. Le modèle Box-Jenkins suppose que la série temporelle est stationnaire. Box et Jenkins recommandent de différencier les séries non stationnaires une ou plusieurs fois pour obtenir la stationnarité. Ce faisant, produit un modèle ARIMA, avec le I pour Integrated. Certaines formulations transforment la série en soustrayant la moyenne de la série de chaque point de données. Cela donne une série avec une moyenne de zéro. Que vous ayez besoin de faire ceci ou non dépend du logiciel que vous employez pour estimer le modèle. Les modèles de Boîte-Jenkins peuvent être étendus pour inclure des termes saisonniers autorégressifs et saisonniers moyens mobiles. Bien que cela complique la notation et les mathématiques du modèle, les concepts sous-jacents pour les termes saisonniers autorégressifs et saisonniers sont semblables aux termes non-saisonniers autorégressifs et mobiles. Le modèle le plus général de Box-Jenkins comprend les opérateurs de différence, les termes autorégressifs, Les termes moyens, les opérateurs de différence saisonnière, les termes autorégressifs saisonniers et les termes saisonniers moyens mobiles. Cependant, comme pour la modélisation en général, seuls les termes nécessaires doivent être inclus dans le modèle. Ceux qui s'intéressent aux détails mathématiques peuvent consulter Box, Jenkins et Reisel (1994). Chatfield (1996). Ou Brockwell et Davis (2002). Étapes de la modélisation de Box-Jenkins Il convient de noter les remarques suivantes concernant les modèles de Box-Jenkins. Les modèles Box-Jenkins sont très flexibles en raison de l'inclusion de termes à la fois autorégressifs et mobiles. Sur la base de la décomposition de Wold (non discutée dans le Manuel), un processus stationnaire peut être approché par un modèle ARMA. En pratique, la conclusion de cette approximation peut ne pas être facile. Chatfield (1996) recommande des méthodes de décomposition pour les séries dans lesquelles la tendance et les composantes saisonnières sont dominantes. Construire de bons modèles ARIMA nécessite généralement plus d'expérience que les méthodes statistiques couramment utilisées telles que la régression. Série suffisamment longue Obligatoire Habituellement, l'ajustement efficace des modèles Box-Jenkins nécessite au moins une série modérément longue. Chatfield (1996) recommande au moins 50 observations. Beaucoup d'autres recommanderaient au moins 100 observations. La première étape dans l'élaboration d'un modèle de Box-Jenkins est de déterminer si la série est stationnaire et s'il ya une saisonnalité significative qui doit être modélisé. La stationnarité peut être évaluée à partir d'un tracé séquentiel. Le tracé de la séquence d'exécution doit montrer un emplacement et une échelle constants. Il peut également être détecté à partir d'un graphe d'autocorrélation. Plus précisément, la non-stationnarité est souvent indiquée par un graphique d'autocorrélation avec une décroissance très lente. Différenciation pour atteindre la stationnarité Box et Jenkins recommandent l'approche de différenciation pour atteindre la stationnarité. Cependant, l'ajustement d'une courbe et la soustraction des valeurs ajustées des données d'origine peuvent également être utilisés dans le contexte des modèles Box-Jenkins. Au stade de l'identification du modèle, notre objectif est de détecter la saisonnalité, s'il existe, et d'identifier l'ordre des moyennes saisonnières autorégressives et saisonnières. Pour de nombreuses séries, la période est connue et un seul terme de saisonnalité est suffisant. Par exemple, pour les données mensuelles, nous inclurons généralement un terme AR 12 saisonnier ou un terme saisonnier MA 12. Pour les modèles Box-Jenkins, nous ne supprimons pas explicitement la saisonnalité avant d'installer le modèle. Au lieu de cela, nous incluons l'ordre des termes saisonniers dans la spécification du modèle au logiciel d'estimation ARIMA. Cependant, il peut être utile d'appliquer une différence saisonnière aux données et de régénérer les parcelles d'autocorrélation et d'autocorrélation partielle. Cela peut aider à identifier le modèle de la composante non saisonnière du modèle. Dans certains cas, la différenciation saisonnière peut supprimer la plupart ou la totalité de l'effet saisonnier. Identifier p et q Une fois que la stationnarité et la saisonnalité ont été abordées, l'étape suivante consiste à identifier l'ordre (c'est-à-dire les (p) et (q)) des termes autorégressifs et mobiles. Autocorrélation et parcelles d'autocorrélation partielle Les outils primaires pour ce faire sont le graphe d'autocorrélation et le tracé d'autocorrélation partielle. Le graphique d'autocorrélation de l'échantillon et le graphique d'autocorrélation partielle de l'échantillon sont comparés au comportement théorique de ces parcelles lorsque l'ordre est connu. Ordre du processus autorégressif (p)) Spécifiquement, pour un processus AR (1), la fonction d'autocorrélation de l'échantillon devrait avoir une apparence décroissante exponentiellement. Cependant, les processus AR de plus haut ordre sont souvent un mélange de composants sinusoïdaux décroissants et amortis de façon exponentielle. Pour les processus autorégressifs d'ordre supérieur, l'autocorrélation de l'échantillon doit être complétée par un graphique d'autocorrélation partielle. L'autocorrélation partielle d'un processus AR ((p)) devient zéro au décalage (p 1) et plus grand, donc nous examinons la fonction d'autocorrélation partielle de l'échantillon pour voir s'il existe une évidence d'un départ de zéro. Ceci est habituellement déterminé en plaçant un intervalle de confiance de 95 sur le graphique d'autocorrélation partielle de l'échantillon (la plupart des programmes logiciels qui génèrent des parcelles d'autocorrélation d'échantillons vont également tracer cet intervalle de confiance). Si le programme ne génère pas la bande de confiance, il est d'environ (pm 2sqrt), avec (N) indiquant la taille de l'échantillon. (Q)) La fonction d'autocorrélation d'un processus MA ((q)) devient zéro à lag (q 1) et plus, donc nous examinons la fonction d'autocorrélation de l'échantillon pour voir où elle devient essentiellement nulle. Nous le faisons en plaçant l'intervalle de confiance 95 pour la fonction d'autocorrélation de l'échantillon sur le graphique d'autocorrélation de l'échantillon. La plupart des logiciels qui peuvent générer le graphe d'autocorrélation peuvent également générer cet intervalle de confiance. La fonction d'autocorrélation partielle de l'échantillon n'est généralement pas utile pour identifier l'ordre du processus de la moyenne mobile. Forme de la fonction d'autocorrélation Le tableau suivant résume comment nous utilisons la fonction d'autocorrélation de l'échantillon pour l'identification du modèle. Introduction douce à la méthode Box-Jenkins pour la prévision des séries chronologiques Le modèle de moyenne mobile intégrée autorégressive ou ARIMA est un modèle statistique standard pour le temps Prévision et analyse des séries. Parallèlement à son développement, les auteurs Box et Jenkins suggèrent également un processus d'identification, d'estimation et de vérification des modèles pour un ensemble de données de séries temporelles spécifiques. Ce processus est maintenant appelé la méthode de Box-Jenkins. Dans ce post, vous découvrirez la méthode de Box-Jenkins et des conseils pour l'utiliser sur votre série chronologique problème de prévision. Plus précisément, vous apprendrez: A propos du processus ARIMA et comment les 3 étapes de la méthode Box-Jenkins. Heuristiques des meilleures pratiques pour la sélection de la configuration du modèle q, d et p pour un modèle ARIMA. Évaluer les modèles en recherchant les erreurs de suralimentation et les erreurs résiduelles comme processus de diagnostic. Let8217s commencer. Une douce introduction à la méthode Box-Jenkins pour la prévision des séries chronologiques Photo par Erich Ferdinand. Certains droits réservés. Modèle de moyenne mobile intégrée Autoregressive Un modèle ARIMA est une classe de modèle statistique pour analyser et prévoir des données de séries chronologiques. ARIMA est un acronyme qui signifie A uto R egressive I ntegrated M oving A verage. C'est une généralisation de la Moyenne mobile AutoRegressive plus simple et ajoute la notion d'intégration. Cet acronyme est descriptif, capturant les aspects clés du modèle lui-même. Brièvement, ils sont: AR. Autoregression. Un modèle qui utilise la relation dépendante entre une observation et un certain nombre d'observations retardées. JE . Intégré. L'utilisation de la différenciation des observations brutes (c'est-à-dire en soustrayant une observation d'une observation au pas de temps précédent) pour rendre stationnaire la série temporelle. MA. Moyenne mobile. Un modèle qui utilise la dépendance entre une observation et des erreurs résiduelles d'un modèle de moyenne mobile appliquée aux observations retardées. Chacun de ces composants est explicitement spécifié dans le modèle en tant que paramètre. On utilise une notation standard de ARIMA (p, d, q) où les paramètres sont remplacés par des valeurs entières pour indiquer rapidement le modèle ARIMA spécifique utilisé. Les paramètres du modèle ARIMA sont définis comme suit: p. Le nombre d'observations de décalage incluses dans le modèle, également appelé l'ordre de décalage. ré . Le nombre de fois que les observations brutes sont différenciées, également appelé degré de différenciation. Q. La taille de la fenêtre de la moyenne mobile, également appelée l'ordre de la moyenne mobile. Méthode de Box-Jenkins La méthode de Box-Jenkins a été proposée par George Box et Gwilym Jenkins dans leur livre séminal de 1970 Analyse des séries temporelles: prévision et contrôle. L'approche part de l'hypothèse que le processus qui a généré la série temporelle peut être approximé en utilisant un modèle ARMA s'il est stationnaire ou un modèle ARIMA s'il est non stationnaire. La cinquième édition du manuel de 2016 (Deuxième partie, page 177) se réfère au processus comme une construction de modèle stochastique et qu'il s'agit d'une approche itérative qui se compose des trois étapes suivantes: Identification. Utilisez les données et toutes les informations connexes pour aider à sélectionner une sous-classe de modèle qui peut mieux résumer les données. Estimation. Utiliser les données pour former les paramètres du modèle (c'est-à-dire les coefficients). Vérification diagnostique. Évaluer le modèle ajusté dans le contexte des données disponibles et vérifier les zones où le modèle peut être amélioré. Il s'agit d'un processus itératif, de sorte qu'au fur et à mesure que de nouvelles informations sont acquises pendant le diagnostic, vous pouvez revenir à l'étape 1 et l'intégrer dans de nouvelles classes de modèle. Let8217s jeter un oeil à ces étapes plus en détail. 1. Identification L'étape d'identification est ensuite décomposée en: Évaluer si la série chronologique est stationnaire, et sinon combien de différences sont nécessaires pour la rendre stationnaire. Identifier les paramètres d'un modèle ARMA pour les données. 1.1 Différenciation Voici quelques conseils lors de l'identification. Test de racine unitaire. Utilisez les tests statistiques racine unitaire sur la série chronologique pour déterminer si elle est stationnaire ou non. Répéter après chaque tour de différenciation. Éviter les différences. Différer la série temporelle plus que nécessaire peut entraîner l'addition de corrélation supplémentaire en série et de complexité supplémentaire. 1.2 Configuration de AR et MA Deux tracés de diagnostic peuvent être utilisés pour aider à choisir les paramètres p et q de ARMA ou ARIMA. Il s'agit de: Fonction d'autocorrélation (ACF). Le graphique résume la corrélation d'une observation avec des valeurs de retard. L'axe des x montre le décalage et l'axe des y montre le coefficient de corrélation entre -1 et 1 pour la corrélation négative et positive. Fonction d'autocorrélation partielle (PACF). Le graphique récapitule les corrélations pour une observation avec des valeurs de retard qui n'est pas comptabilisée par des observations antérieures retardées. Les deux tracés sont tracés sous forme de diagrammes à barres montrant les intervalles de confiance de 95 et 99 comme des lignes horizontales. Les barres qui traversent ces intervalles de confiance sont donc plus importantes et intéressantes. Certains modèles utiles que vous pouvez observer sur ces parcelles sont: Le modèle est AR si l'ACF traîne hors après un décalage et a un cut-off dur dans le PACF après un décalage. Ce décalage est pris comme la valeur de p. Le modèle est MA si le PACF traîne hors après un lag et a un cut-off dur dans le ACF après le lag. Cette valeur de retard est considérée comme la valeur de q. Le modèle est un mélange d'AR et de MA si l'ACF et le PACF s'éloignent. 2. Estimation L'estimation implique l'utilisation de méthodes numériques pour minimiser un terme de perte ou d'erreur. Nous n'entrerons pas dans les détails de l'estimation des paramètres du modèle puisque ces détails sont traités par la bibliothèque ou l'outil choisi. Je recommanderais de se référer à un manuel pour une compréhension plus approfondie du problème d'optimisation à résoudre par les modèles ARMA et ARIMA et les méthodes d'optimisation comme mémoire limitée BFGS utilisé pour le résoudre. 3. Vérification de diagnostic L'idée de la vérification de diagnostic consiste à rechercher des preuves que le modèle n'est pas un bon ajustement pour les données. Deux domaines utiles pour étudier les diagnostics sont: 3.1 Suralimentation La première vérification consiste à vérifier si le modèle surmonte les données. En général, cela signifie que le modèle est plus complexe qu'il ne l'est et capture le bruit aléatoire dans les données d'entraînement. Il s'agit d'un problème pour la prévision des séries chronologiques, car il a une incidence négative sur la capacité du modèle à généraliser, ce qui se traduit par une mauvaise performance des prévisions sur les données de l'échantillon. Une attention particulière doit être accordée aux performances à la fois dans l'échantillon et hors de l'échantillon et cela nécessite la conception soigneuse d'un harnais de test robuste pour l'évaluation des modèles. 3.2 Erreurs résiduelles Les résidus de prévision offrent une excellente occasion de diagnostics. Un examen de la distribution des erreurs peut aider à taquiner les biais dans le modèle. Les erreurs d'un modèle idéal ressembleraient au bruit blanc, c'est-à-dire à une distribution gaussienne avec une moyenne de zéro et une variance symétrique. Pour cela, vous pouvez utiliser des diagrammes de densité, des histogrammes et des diagrammes Q-Q qui comparent la distribution des erreurs à la distribution attendue. Une distribution non gaussienne peut suggérer une opportunité de prétraitement des données. Un biais dans la distribution ou une moyenne non nulle peut suggérer un biais dans les prévisions qui peuvent être corrects. De plus, un modèle idéal ne laisserait aucune structure temporelle dans la série temporelle des résidus prévisionnels. Celles-ci peuvent être vérifiées en créant des parcelles ACF et PACF de la série temporelle d'erreur résiduelle. La présence d'une corrélation sérielle dans les erreurs résiduelles suggère une autre possibilité d'utiliser ces informations dans le modèle. Lectures complémentaires La ressource définitive sur le sujet est l'analyse des séries chronologiques: prévision et contrôle. Je recommanderais la 2016 5e édition, en particulier la deuxième partie et les chapitres 6-10. Voici quelques lectures supplémentaires qui peuvent aider à étoffer votre compréhension si vous cherchez à aller plus loin: Dans ce post, vous avez découvert la méthode Box-Jenkins pour l'analyse des séries chronologiques et la prévision. Plus précisément, vous avez appris: A propos du modèle ARIMA et des 3 étapes de la méthode générale de Box-Jenkins. Comment utiliser les parcelles ACF et PACF pour choisir les paramètres p et q pour un modèle ARIMA. Comment utiliser les surenchères et les erreurs résiduelles pour diagnostiquer un modèle ARIMA adapté. Vous avez des questions au sujet de la méthode Box-Jenkins ou de ce post Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour répondre. À propos de Jason Brownlee Jason est rédacteur en chef chez MachineLearningMastery. Il est un mari, père fier, chercheur académique, auteur, développeur professionnel et un praticien d'apprentissage automatique. Il a une maîtrise et un doctorat en intelligence artificielle, a publié des livres sur l'apprentissage des machines et a écrit un code opérationnel qui fonctionne en production. Apprendre encore plus. Comment modéliser les erreurs résiduelles pour corriger les prévisions de séries temporelles avec Python
No comments:
Post a Comment