Saturday, February 4, 2017

Mouvement Moyenne Modèle Temps Série

Il existe un certain nombre d'approches à la modélisation des séries chronologiques. Nous décrivons quelques-unes des approches les plus courantes ci-dessous. Tendances, décompositions saisonnières et résiduelles Une approche consiste à décomposer les séries temporelles en une composante tendancielle, saisonnière et résiduelle. Le triple lissage exponentiel est un exemple de cette approche. Un autre exemple, appelé loess saisonnier, est basé sur les moindres carrés localement pondérés et est discuté par Cleveland (1993). Nous ne discutons pas du loess saisonnier dans ce manuel. Méthodes basées sur la fréquence Une autre approche, couramment utilisée dans les applications scientifiques et d'ingénierie, est d'analyser les séries dans le domaine fréquentiel. Un exemple de cette approche dans la modélisation d'un ensemble de données de type sinusoïdal est illustré dans l'étude de cas de déviation de faisceau. Le diagramme spectral est l'outil principal pour l'analyse de fréquence des séries temporelles. Le modèle autorégressif (AR) est une approche commune pour la modélisation de séries chronologiques univariées: Xt delta phi1 X phi2 X cdots phip X A, où (Xt) est la série temporelle, (At) est le bruit blanc et delta Gauche (1 - somme p phii droite) mu. Avec (mu) désignant la moyenne du processus. Un modèle autorégressif est simplement une régression linéaire de la valeur courante de la série contre une ou plusieurs valeurs antérieures de la série. La valeur de (p) est appelée l'ordre du modèle AR. Les modèles AR peuvent être analysés à l'aide d'une ou plusieurs méthodes, y compris des techniques linéaires de moindres carrés. Ils ont aussi une interprétation directe. Modèles de moyenne mobile (MA) Une autre approche commune pour la modélisation de modèles de séries chronologiques univariées est le modèle de la moyenne mobile (MA): Xt mu At - theta1 A - theta2 A - cdots - thetaq A, où (Xt) est la série chronologique ) Est la moyenne de la série, (A) sont des termes de bruit blanc, et (theta1,, ldots,, thetaq) sont les paramètres du modèle. La valeur de (q) est appelée l'ordre du modèle MA. C'est-à-dire qu'un modèle de moyenne mobile est conceptuellement une régression linéaire de la valeur courante de la série contre le bruit blanc ou des chocs aléatoires d'une ou plusieurs valeurs antérieures de la série. On suppose que les chocs aléatoires à chaque point proviennent de la même distribution, typiquement une distribution normale, avec localisation à zéro et échelle constante. La distinction dans ce modèle est que ces chocs aléatoires sont propogés à des valeurs futures des séries temporelles. L'ajustement des estimations MA est plus compliqué qu'avec les modèles AR parce que les termes d'erreur ne sont pas observables. Cela signifie que les procédures d'ajustement non linéaires itératives doivent être utilisées à la place des moindres carrés linéaires. Les modèles MA ont aussi une interprétation moins évidente que les modèles AR. Parfois, ACF et PACF suggèrent qu'un modèle MA serait un meilleur choix de modèle et que parfois les termes AR et MA devraient être utilisés dans le même modèle (voir la section 6.4.4.5). Notez toutefois que les termes d'erreur après ajustement du modèle doivent être indépendants et suivre les hypothèses standard pour un processus univarié. Box et Jenkins ont popularisé une approche qui combine la moyenne mobile et les approches autorégressives dans le livre Analyse des séries temporelles: prévision et contrôle (Box, Jenkins et Reinsel, 1994). Bien que les approches de la moyenne autorégressive et de la moyenne mobile étaient déjà connues (et ont été étudiées à l'origine par Yule), la contribution de Box et Jenkins a été de développer une méthodologie systématique pour identifier et estimer des modèles qui pourraient intégrer les deux approches. Cela fait des modèles Box-Jenkins une puissante classe de modèles. Les sections suivantes aborderont ces modèles en détail. Un tutoriel complet sur la modélisation des séries chronologiques en R Introduction 8216Time8217 est le facteur le plus important qui assure le succès dans une entreprise. It8217s difficile de suivre le rythme du temps. Mais, la technologie a développé quelques méthodes puissantes utilisant qui nous pouvons 8216 voir choses 8217 à l'avance. Don8217t inquiétez pas, je ne parle pas de Time Machine. Il faut être réaliste ici en parlant des méthodes de prévision d'amplification. L'une de ces méthodes, qui traite des données temporelles, est la modélisation des séries temporelles. Comme son nom l'indique, cela implique de travailler sur des données basées sur le temps (années, jours, heures, minutes) pour tirer des idées cachées pour prendre des décisions éclairées. Les modèles de séries chronologiques sont des modèles très utiles lorsque vous avez des données corrélées en série. La plupart des maisons d'affaires travaillent sur les données de séries chronologiques pour analyser le nombre de ventes pour l'année suivante, le trafic du site Web, la position de la concurrence et bien plus encore. Cependant, c'est aussi l'un des domaines, que de nombreux analystes ne comprennent pas. Donc, si vous n'êtes pas sûr du processus complet de la modélisation des séries temporelles, ce guide vous présentera différents niveaux de modélisation des séries temporelles et ses techniques connexes. Les éléments suivants sont abordés dans ce didacticiel, comme indiqué ci-dessous: Table des matières Bases 8211 Modélisation des séries temporelles Exploration des données de séries chronologiques dans R Introduction à la série chronologique ARMA Modélisation et application de la modélisation des séries temporelles ARIMA Temps de démarrage 1. Notions de base 8211 Heure Série Modeling Let8217s commencent à partir des bases. Cela comprend les séries stationnaires, randonnées aléatoires. Rho Coefficient, Dickey Fuller Essai de stationnarité. Si ces termes sont déjà effrayant vous, don8217t s'inquiètent 8211 ils deviendront clairs dans un peu et je parie que vous commencerez à apprécier le sujet comme je l'explique. Série fixe Il existe trois critères de base pour classer une série comme stationnaire: 1. La moyenne de la série ne doit pas être une fonction du temps mais plutôt une constante. L'image ci-dessous a le graphe de gauche satisfaisant la condition alors que le graphique en rouge a une moyenne dépendant du temps. 2. La variance de la série ne doit pas être une fonction du temps. Cette propriété est connue sous le nom d'homoscédasticité. Le graphique suivant représente ce qui est et ce qui n'est pas une série stationnaire. (Noter la répartition variable de la distribution dans le graphique de droite) 3. La covariance du ième terme et du (i m) terme ne doit pas être une fonction du temps. Dans le graphique suivant, vous remarquerez que l'écart se rapproche au fur et à mesure que le temps augmente. Par conséquent, la covariance n'est pas constante avec le temps pour la série 8217. Pourquoi est-ce que je me soucie de 8216stationarity8217 d'une série chronologique La raison pour laquelle j'ai pris cette section première était que jusqu'à ce que moins que votre série chronologique soit stationnaire, vous ne pouvez pas construire un modèle de série temporelle. Dans les cas où le critère stationnaire est violé, la première condition est de stationner la série chronologique, puis d'essayer des modèles stochastiques pour prédire cette série temporelle. Il y a plusieurs manières d'apporter cette stationnarité. Certains d'entre eux sont Detrending, Differencing etc. Random Walk C'est le concept le plus élémentaire de la série chronologique. Vous pourriez connaître le concept bien. Mais, j'ai trouvé beaucoup de gens dans l'industrie qui interprète la marche aléatoire comme un processus stationnaire. Dans cette section, avec l'aide de quelques mathématiques, je ferai de ce concept clair pour toujours. Prenons un exemple. Exemple: Imaginez une fille se déplaçant aléatoirement sur un échiquier géant. Dans ce cas, la position suivante de la fille dépend uniquement de la dernière position. Maintenant imaginez, vous êtes assis dans une autre pièce et ne sont pas en mesure de voir la fille. Vous voulez prédire la position de la fille avec le temps. Bien sûr, vous deviendrez de plus en plus inexacte que la position de la jeune fille change. A t0 vous savez exactement où la fille est. La prochaine fois, elle ne peut se déplacer que sur 8 carrés et donc votre probabilité plonge à 18 au lieu de 1 et il continue à descendre. Maintenant, essayons de formuler cette série: où Er (t) est l'erreur au point temporel t. C'est le hasard que la fille apporte à chaque point dans le temps. Maintenant, si nous récursivement ajustement dans tous les Xs, nous allons finalement terminer à l'équation suivante: Maintenant, essayons de valider nos hypothèses de séries stationnaires sur cette formulation randonnée aléatoire: 1. Est la constante moyenne Nous savons que l'attente d'une erreur Sera zéro car il est aléatoire. On obtient donc EX (t) EX (0) Constante. 2. Est-ce que la Variance est constante? Par conséquent, on déduit que la marche aléatoire n'est pas un processus stationnaire car elle a une variance variante dans le temps. De plus, si nous vérifions la covariance, nous voyons que cela dépend aussi du temps. Let8217s pimenter les choses un peu, Nous savons déjà qu'une marche aléatoire est un processus non stationnaire. Introduisons un nouveau coefficient dans l'équation pour voir si nous pouvons rendre la formulation stationnaire. Coefficient introduit. Rho Maintenant, nous allons varier la valeur de Rho pour voir si nous pouvons faire la série stationnaire. Ici nous allons interpréter la dispersion visuellement et ne pas faire de test pour vérifier la stationnarité. Voici la courbe de la série chronologique: Augmenter la valeur de Rho à 0.5 nous donne le graphique suivant: Vous remarquerez peut-être que nos cycles sont devenus plus larges, mais essentiellement il ne semble pas y avoir Violation grave des hypothèses fixes. Let8217s prennent maintenant un cas plus extrême de Rho 0.9 Nous voyons encore que le X retourne des valeurs extrêmes à zéro après quelques intervalles. Cette série ne viole pas non-stationarity significativement. Maintenant, let8217s jeter un oeil à la marche aléatoire avec rho 1. Il s'agit évidemment d'une violation des conditions stationnaires. Ce qui fait rho 1 un cas spécial qui sort mal en test stationnaire Nous trouverons la raison mathématique à cela. Les éloignements de l'équation 8220X (t) Rho X (t-1) Er (t) 8221 prennent l'espérance de chaque côté de l'équation. Cette équation est très perspicace. Le X suivant (ou au point temporel t) est abaissé à Rho dernière valeur de X. Par exemple, si X (t 8211 1) 1, EX (t) 0,5 (pour Rho 0,5). Maintenant, si X se déplace dans n'importe quelle direction à partir de zéro, il est tiré à zéro à l'étape suivante. Le seul composant qui peut le pousser encore plus loin est le terme d'erreur. Le terme d'erreur est également probable d'aller dans l'une ou l'autre direction. Que se passe-t-il lorsque le Rho devient 1? Aucune force ne peut tirer le X dans l'étape suivante. Dickey Fuller Test de stationnarité Ce que vous venez d'apprendre dans la dernière section est formellement connu comme Dickey Fuller test. Voici un petit tweak qui est fait pour notre équation de le convertir en un test Dickey Fuller: Nous devons tester si Rho 8211 1 est significativement différent de zéro ou non. Si l'hypothèse nulle est rejetée, on obtient une série chronologique stationnaire. Les essais stationnaires et la conversion d'une série en une série stationnaire sont les processus les plus critiques dans une modélisation de séries temporelles. Vous devez mémoriser chaque détail de ce concept pour passer à l'étape suivante de la modélisation des séries temporelles. Let8217s considèrent maintenant un exemple pour vous montrer à quoi ressemble une série temporelle. 2. Exploration des données de séries chronologiques dans R Nous allons maintenant apprendre à manipuler des données de séries chronologiques sur R. Notre champ d'application sera restreint à l'exploration de données dans un ensemble de séries de séries temporelles et non aux modèles de séries temporelles de construction. J'ai utilisé un jeu de données intégré de R appelé AirPassengers. Le jeu de données se compose des totaux mensuels des passagers aériens internationaux, 1949 à 1960. Loading the Data Set Voici le code qui vous aidera à charger l'ensemble de données et de déverser quelques mesures de haut niveau. Inferences importantes La tendance d'année en année montre clairement que les passagers ont augmenté sans cesse. La variance et la valeur moyenne en juillet et août sont beaucoup plus élevées que le reste des mois. Même si la valeur moyenne de chaque mois est très différente, leur variance est faible. Par conséquent, nous avons un effet saisonnier fort avec un cycle de 12 mois ou moins. Exploration des données devient la plus importante dans un modèle de série chronologique 8211 sans cette exploration, vous ne saurez pas si une série est stationnaire ou non. Comme dans ce cas, nous connaissons déjà de nombreux détails sur le type de modèle que nous recherchons. Les Let8217s reprennent maintenant quelques modèles de séries temporelles et leurs caractéristiques. Nous allons également prendre ce problème en avant et faire quelques prédictions. 3. Introduction à la modélisation des séries temporelles ARMA Les modèles ARMA sont couramment utilisés dans la modélisation des séries temporelles. Dans le modèle ARMA, AR représente l'auto-régression et MA représente la moyenne mobile. Si ces mots vous semblent intimidants, n'hésitez pas à simplifier ces concepts dans les prochaines minutes pour vous Nous allons maintenant développer un talent pour ces termes et comprendre les caractéristiques associées à ces modèles. Mais avant de commencer, vous devriez vous rappeler, AR ou MA ne sont pas applicables sur les séries non stationnaires. Dans le cas où vous obtenez une série non stationnaire, vous devez d'abord stationner la série (en prenant la transformation de différence), puis choisir parmi les modèles de séries chronologiques disponibles. Tout d'abord, I8217ll expliquer chacun de ces deux modèles (AR amp MA) individuellement. Ensuite, nous examinerons les caractéristiques de ces modèles. Modèle de la série chronologique auto-régressive Let8217s comprenant les modèles AR utilisant le cas ci-dessous: Le PIB actuel d'un pays dit x (t) dépend du PIB de la dernière année, c'est-à-dire x (t 8211 1). L'hypothèse étant que le coût total de production des produits et des services d'un pays au cours d'un exercice financier (connu sous le nom de PIB) dépend de la mise en place des services de fabrication l'année précédente et que les nouveaux usines installent des services dans le courant an. Mais la composante principale du PIB est l'ancienne. Par conséquent, nous pouvons formellement écrire l'équation du PIB comme: Cette équation est connue sous le nom AR (1) formulation. Le chiffre un (1) indique que l'instance suivante dépend uniquement de l'instance précédente. L'alpha est un coefficient que nous cherchons à minimiser la fonction d'erreur. Notons que x (t 1) est en effet lié à x (t-2) de la même manière. Par conséquent, tout choc à x (t) disparaîtra progressivement à l'avenir. Par exemple, let8217s dire x (t) est le nombre de bouteilles de jus vendus dans une ville un jour donné. Pendant les hivers, très peu de vendeurs achetaient des bouteilles de jus. Soudain, un jour donné, la température a augmenté et la demande de bouteilles de jus grimpé à 1000. Cependant, au bout de quelques jours, le climat est devenu froid à nouveau. Mais, sachant que les gens se sont habitués à boire du jus pendant les jours chauds, il y avait 50 personnes qui buvaient encore du jus pendant les jours froids. Dans les jours suivants, la proportion est descendue à 25 (50 de 50), puis progressivement à un petit nombre après un nombre significatif de jours. Le graphique ci-dessous explique la propriété d'inertie de la série AR: Modèle de la série temporelle moyenne mobile Let8217s prenez une autre affaire pour comprendre le modèle de la série temporelle moyenne mobile. Un fabricant produit un certain type de sac, qui était facilement disponible sur le marché. Étant un marché concurrentiel, la vente du sac était à zéro pendant plusieurs jours. Ainsi, un jour, il a fait une expérience avec la conception et produit un type différent de sac. Ce type de sac n'était pas disponible n'importe où sur le marché. Ainsi, il a été en mesure de vendre le stock entier de 1000 sacs (on appelle cela comme x (t)). La demande a été si élevée que le sac a manqué de stock. En conséquence, quelque 100 clients impairs n'ont pas pu acheter ce sac. Appelons cette lacune comme étant l'erreur à ce moment. Avec le temps, le sac avait perdu son facteur woo. Mais encore peu de clients sont restés qui sont allés vides remis la veille. Voici une formulation simple pour représenter le scénario: Si nous essayons de tracer ce graphique, il ressemblera à ceci: Avez-vous remarqué la différence entre MA et modèle AR Dans le modèle MA, bruit choc disparaît rapidement avec le temps. Le modèle AR a un effet très durable du choc. Différence entre les modèles AR et MA La principale différence entre un modèle AR et MA est basée sur la corrélation entre les objets de série temporelle à différents moments. La corrélation entre x (t) et x (t-n) pour l'ordre n gt de MA est toujours nulle. Cela découle directement du fait que la covariance entre x (t) et x (t-n) est nulle pour les modèles MA (ce que nous nous référons à l'exemple de la section précédente). Cependant, la corrélation entre x (t) et x (t-n) diminue graduellement avec n devenant plus grand dans le modèle AR. Cette différence est exploitée indépendamment du modèle AR ou MA. Le graphique de corrélation peut nous donner l'ordre du modèle MA. Exploitation des parcelles ACF et PACF Une fois que nous avons la série chronologique stationnaire, nous devons répondre à deux questions principales: Q1. Est-ce un processus AR ou MA Q2. Quel ordre de processus AR ou MA devons-nous utiliser? L'astuce pour résoudre ces questions est disponible dans la section précédente. Didn8217t vous remarquez La première question peut être répondu en utilisant le tableau de corrélation totale (également connu sous le nom de corrélation automatique 8211 fonction ACF). ACF est une courbe de corrélation totale entre différentes fonctions de retard. Par exemple, dans le problème du PIB, le PIB au temps t est x (t). Nous nous intéressons à la corrélation de x (t) avec x (t-1). X (t-2) et ainsi de suite. Maintenant, réfléchissons à ce que nous avons appris plus haut. Dans une série moyenne mobile de lag n, nous n'obtiendrons aucune corrélation entre x (t) et x (t 8211 n -1). Par conséquent, le graphique de corrélation totale coupe au n-ième décalage. Il devient donc simple de trouver le lag pour une série MA. Pour une série AR, cette corrélation va progressivement diminuer sans aucune valeur de coupure. Alors que faisons-nous si c'est une série AR Voici le deuxième tour. Si nous trouvons la corrélation partielle de chaque décalage, elle se coupe après le degré de la série AR. Par exemple, si nous avons une série AR (1), si nous excluons l'effet du 1er lag (x (t-1)), notre 2ème lag (x (t-2)) est indépendant de x (t). Par conséquent, la fonction de corrélation partielle (PACF) diminuera fortement après le 1er lag. Voici les exemples qui permettront de clarifier tout doute que vous avez sur ce concept: La ligne bleue ci-dessus montre des valeurs significativement différentes de zéro. De toute évidence, le graphique ci-dessus a une coupure sur la courbe PACF après le 2e lag, ce qui signifie qu'il s'agit essentiellement d'un processus AR (2). De toute évidence, le graphique ci-dessus a une coupure sur la courbe ACF après le 2e lag, ce qui signifie qu'il s'agit essentiellement d'un processus MA (2). Jusqu'à maintenant, nous avons couvert sur la façon d'identifier le type de série stationnaire en utilisant ACF amp PACF parcelles. Maintenant, je vais vous présenter un cadre complet pour construire un modèle de série chronologique. En outre, nous discuterons également des applications pratiques de la modélisation des séries chronologiques. 4. Cadre et application de la modélisation des séries temporelles ARIMA Une révision rapide, Jusqu'ici, nous avons appris les bases de la modélisation des séries chronologiques, des séries chronologiques dans la modélisation R et ARMA. Il est maintenant temps de rejoindre ces pièces et de faire une histoire intéressante. Vue d'ensemble du cadre Ce cadre (illustré ci-dessous) spécifie l'approche pas à pas sur 8216 Comment faire une analyse de séries chronologiques 8216: Comme vous le savez, les trois premières étapes ont déjà été discutées ci-dessus. Néanmoins, la même chose a été brièvement décrite ci-dessous: Étape 1: visualiser les séries temporelles Il est essentiel d'analyser les tendances avant de construire n'importe quel modèle de série chronologique. Les détails qui nous intéressent se rapportent à tout type de tendance, la saisonnalité ou le comportement aléatoire dans la série. Nous avons couvert cette partie dans la deuxième partie de cette série. Étape 2: Stationariser la série Une fois que nous connaissons les tendances, les tendances, les cycles et la saisonnalité. Nous pouvons vérifier si la série est stationnaire ou non. Dickey 8211 Fuller est l'un des tests populaires pour vérifier la même chose. Nous avons couvert ce test dans la première partie de cette série d'articles. Ce doesn8217t se termine ici Qu'advient-il si la série se trouve être non stationnaire Il existe trois techniques couramment utilisées pour faire une série temporelle stationnaire: 1. Detrending. Ici, nous supprimons simplement la composante de tendance de la série temporelle. Par exemple, l'équation de ma série temporelle est: We8217ll supprimez simplement la partie entre parenthèses et construisez le modèle pour le reste. 2. Différenciation. C'est la technique couramment utilisée pour éliminer la non-stationnarité. Ici, nous essayons de modéliser les différences des termes et non le terme réel. Par exemple, cette différenciation est appelée la partie Intégration dans AR (I) MA. Maintenant, nous avons trois paramètres 3. Saisonnalité. La saisonnalité peut facilement être incorporée directement au modèle ARIMA. Plus d'informations à ce sujet a été discuté dans la partie applications ci-dessous. Étape 3: Trouver les paramètres optimaux Les paramètres p, d, q peuvent être trouvés en utilisant les tracés ACF et PACF. Une addition à cette approche peut être, si ACF et PACF diminue progressivement, cela indique que nous devons rendre la série temporelle stationnaire et introduire une valeur à 8220d8221. Etape 4: Construire le modèle ARIMA Avec les paramètres en main, nous pouvons maintenant essayer de construire le modèle ARIMA. La valeur trouvée dans la section précédente pourrait être une estimation approximative et nous devons explorer plus de combinaisons (p, d, q). Celui avec le BIC et l'AIC le plus bas devrait être notre choix. Nous pouvons également essayer certains modèles avec une composante saisonnière. Juste au cas où, nous remarquons n'importe quelle saisonnalité dans les parcelles ACFPACF. Étape 5: Faire des prévisions Une fois que nous avons le modèle ARIMA final, nous sommes maintenant prêts à faire des prédictions sur les points de temps futurs. Nous pouvons également visualiser les tendances à valider si le modèle fonctionne bien. Applications du modèle de séries temporelles Maintenant, nous utiliserons le même exemple que celui que nous avons utilisé ci-dessus. Ensuite, en utilisant des séries chronologiques, nous ferons des prédictions futures. Nous vous recommandons de consulter l'exemple avant de continuer. Où avons-nous commencé? Voici la trame du nombre de passagers avec des années. Essayez de faire des observations sur ce complot avant d'aller plus loin dans l'article. Voici mes observations: 1. Il ya une composante de la tendance qui fait croître le passager d'année en année. 2. Il semble y avoir une composante saisonnière qui a un cycle de moins de 12 mois. 3. La variance des données ne cesse d'augmenter avec le temps. Nous savons que nous devons aborder deux questions avant de tester les séries stationnaires. Premièrement, nous devons éliminer les écarts inégaux. Nous le faisons en utilisant le journal de la série. Deuxièmement, nous devons nous pencher sur la composante de la tendance. Nous faisons cela en prenant la différence de la série. Maintenant, testez la série résultante. Augmenté Dickey-Fuller Test Nous voyons que la série est assez stationnaire pour faire tout type de série chronologique de modélisation. L'étape suivante consiste à trouver les bons paramètres à utiliser dans le modèle ARIMA. Nous savons déjà que le composant 8216d8217 est 1 car nous avons besoin d'une différence pour rendre la série stationnaire. Pour ce faire, nous utilisons les courbes de corrélation. Voici les parcelles ACF de la série: Que voyez-vous dans le tableau ci-dessus? De toute évidence, la décroissance du graphique ACF est très lente, ce qui signifie que la population n'est pas stationnaire. Nous avons déjà discuté ci-dessus que nous avons maintenant l'intention de régresser sur la différence de grumes plutôt que de grumes directement. Voyons comment la courbe ACF et PACF sortent après avoir régressé sur la différence. De toute évidence, ACF parcelle coupe après le premier décalage. Par conséquent, nous avons compris que la valeur de p devrait être 0 comme l'ACF est la courbe obtenir une coupure. Alors que la valeur de q devrait être 1 ou 2. Après quelques itérations, nous avons trouvé que (0,1,1) comme (p, d, q) se révèle être la combinaison avec moins AIC et BIC. Let8217s s'adapter à un modèle ARIMA et de prédire les 10 prochaines années. Aussi, nous essayerons de s'insérer dans une composante saisonnière dans la formulation ARIMA. Ensuite, nous visualiserons la prédiction avec les données d'entraînement. Vous pouvez utiliser le code suivant pour faire la même chose: Avec cela, nous arrivons à cette fin du didacticiel sur la modélisation des séries temporelles. J'espère que cela vous aidera à améliorer vos connaissances pour travailler sur des données basées sur le temps. Pour tirer le meilleur parti de ce tutoriel, I8217d vous propose de pratiquer ces codes R côte à côte et de vérifier vos progrès. Avez-vous trouvé l'article utile Partager avec nous si vous avez fait un genre similaire d'analyse avant. Faites-nous savoir vos pensées au sujet de cet article dans l'encadré ci-dessous. Si vous aimez ce que vous venez de lire amp souhaitez continuer votre apprentissage analytique, abonnez-vous à nos e-mails. Suivez-nous sur Twitter ou comme notre page facebook. Partagez ceci: Salut Tavish. Tout d'abord, félicitations pour votre travail ici. Il a été très utile. Je vous remercie de votre confiance et j'espère que vous pouvez m'aider J'ai effectué un test Dickey-Fuller sur les deux AirPassengers de la série et diff (log (AirPassengers)) Voici les résultats: Augmenté Dickey-Fuller Test de données: diff (log (AirPassengers) Dickey-Fuller -9.6003, Ordre Lag 0, valeur p 0.01 hypothèse alternative: stationnaire Augmenté Dickey-Fuller Données d'essai: diff (log (AirPassengers)) Dickey-Fuller -9.6003, ordre Lag 0, valeur p 0.01 hypothèse alternative: stationnaire Dans les deux tests j'ai obtenu une petite valeur p qui me permet de rejeter l'hypothèse non stationnaire. Ai-je raison Si oui, la première série est déjà stationnaire Cela signifie que si j'avais effectué un test stationnaire sur la série originale avait passer à l'étape suivante. Merci d'avance. Maintenant avec les bons résultats. Dickey-Fuller -9.6003, ordre Lag 0, p-value 0.01 hypothèse alternative: stationnaire Augmenté Dickey-Fuller Données d'essai: diff AirPassengers Dickey-Fuller -4.6392, P-value 0.01 hypothèse alternative: stationnaire Oui, l'adf. test (AirPassengers) indique que la série est stationnaire. C'est un peu trompeur. Raison: Ce test fait d'abord une dé-tendance sur la série, c'est-à-dire supprime la composante de tendance, puis vérifie la stationnarité. Par conséquent, il marque la série comme stationnaire. Il existe un autre test dans le paquetage fUnitRoots. S'il vous plaît essayez ce code: Démarrez install. packages (8220fUnitRoots8221) Si vous avez déjà installé ce paquet, vous pouvez omettre cette bibliothèque de ligne (fUnitRoots) adfTest (AirPassengers) adfTest (log (AirPassengers)) adfTest Aide .. Merci Ram, j'ai eu la même question que Hugo et votre explication m'a aidé je voulais juste souligner pour le bénéfice de quelqu'un d'autre à la recherche de ce que R est cap sensible, n'oubliez pas de capitaliser le T dans adfTest autrement votre fonction ne fonctionnera pas. Heureusement, la fonction auto. arima nous permet de modéliser les séries temporelles très bien, bien qu'il soit très utile de connaître les bases. Voici un code que j'ai écrit sur les mêmes données Bonjour, Après avoir exécuté ce pred lt - predict (APmodel, n. ahead1012) jetez un oeil à 039pred039 C'est une liste de 2 (pred et se 8211 Je suppose que ce sont des prédictions et des erreurs .) Je suggère d'utiliser un nom autre que pred dans la fonction prédire afin d'éviter la confusion. J'ai utilisé l'APforecast suivant lt - predict (APmodel, n. ahead1012) Donc, APforecast est une liste de pred et se et nous devons tracer les valeurs pred. C.-à-APforecastpred Aussi nous avons fait l'arima sur le journal des AirPassengers, donc la prévision que nous avons est en fait le journal de la vraie prévision. Par conséquent, nous devons trouver le log inverse de ce que nous avons. c'est à dire. Si vous trouvez cela déroutant, je suggère de lire les logarithmes naturels et leur inverse le log quoty039 est de tracer sur une échelle logarithmique 8211 ce n'est pas nécessaire, essayez la fonction sans elle et Avec et observer les résultats. Le bit lty, je n'ai pas encore compris. Lâchez-le et essayez le ts. plot, il fonctionne très bien. Hey Amy, ts. plot () va tracer plusieurs séries chronologiques sur la même parcelle. Les deux premières entrées sont les deux séries chronologiques he8217s traçant. Les deux dernières entrées sont de beaux paramètres visuels (we8217ll revenir à cela). De toute évidence, cela trace la série chronologique AirPassengers dans une ligne sombre et continue. La deuxième entrée est également une série chronologique, mais il est un peu plus déroutant: 8221 2.718predpred8221. Tout d'abord, vous devez savoir ce que predpred est. La fonction predict () ici est une fonction générique qui fonctionnera différemment pour les différentes classes branchées (il le dit si vous tapez predict). La classe avec laquelle nous travaillons est une classe Arima. Si vous tapez predict. Arima, vous trouverez une bonne description de la fonction. Predict. Arima () crache quelque chose avec une partie 8220pred8221 (pour prédire) et une partie 8220se8221 (pour l'erreur standard). Nous voulons la partie 8220pred8221, donc prédpred. Donc, predpred est une série chronologique. Maintenant, 2.718predpred est également. Vous devez vous rappeler que 2.718 est approximativement la constante e, et alors cela a un sens. He8217s juste annuler le journal qu'il a placé sur les données quand il a créé 8220fit8221. Comme pour les deux derniers paramètres, log 8220y8221 définit l'axe y pour être sur une échelle log. Enfin, lty c (1,3) va régler le LineTYpe sur 1 (pour le solide) pour la série chronologique initiale et 3 (pour les points) pour la série temporelle prédite. Hey Tavish, a vraiment apprécié le contenu, Juste un petit doute: Pouvez-vous s'il vous plaît ébaorate la covariance en termes stationnaires. Je comprends le terme de covariance, mais ici dans la série chronologique, il ne vient pas à mon esprit. Pouvez-vous s'il vous plaît m'aider à comprendre la troisième condition de la série stationnaire, soit 8220La covariance de la ième terme et le terme (im) th ne devrait pas être une fonction du temps. 8221 S'il vous plaît aidez-moi à comprendre à partir de données perspective, Chaque date. Comment pouvez-vous expliquer la convariance dans l'exemple réel avec des données de ventes quotidiennes. Parth Gera dit: Salut Tavish, Merci beaucoup. Cet article a été extrêmement utile. Je viens d'avoir un petit problème. Après la dernière étape, Si je veux extraire les valeurs prédites de la courbe. Comment pouvons-nous faire que vous obtenez les valeurs prédites de la variable pred. Pred est une liste avec deux éléments: pred et se. (Prédiction et erreur standard). Pour voir les prédictions, utilisez cette commande: print (predpred) Parth Gera dit: Bonjour Ram, Merci pour votre aide. Ouais, print (predpred) nous donnerait un journal des valeurs prédites. Print (2.718predpred) nous donnerait les valeurs prédites réelles. Merci Oui, si vous utilisez 8216log8217 lors de la création du modèle, vous utiliserez antilog ou exposant pour obtenir les valeurs prédites. Si vous créez un modèle sans la fonction de journal, vous n'utiliserez pas d'exposant pour obtenir les valeurs prédites comment extraire les données des valeurs prédites et réelles de R hello, les données utilisées dans votre tutoriel, AirPassengers, sont déjà une série chronologique objet. Ma question est: Comment puis-je faire prépare mon propre série chronologique? J'ai actuellement un ensemble de données historiques de change, avec la première colonne étant la date, et le reste 20 colonnes sont intitulées par pays, et leurs valeurs sont le taux de change. Après que j'ai converti ma colonne de date en objet de date, quand j'utilise les mêmes commandes employées dans votre tutoriel, les résultats sont drôles. Par exemple start (dataDate) me donnera un résultat de: 1 1 1 et frequency (dataDate) retournera: 1 1 pouvez-vous s'il vous plaît expliquer COMMENT préparer nos données en conséquence afin que nous puissions utiliser les fonctions merci Si vous tapez dans ts Alors vous devriez être sur votre chemin. Vous n'avez besoin que d'une série chronologique (unique), d'une fréquence et d'une date de début. Les exemples au bas de la documentation devraient être très utiles. Par exemple, si vos données ont commencé le 153e jour de 1980.8.4 Modèles de moyenne mobile Au lieu d'utiliser les valeurs passées de la variable de prévision dans une régression , Un modèle de moyenne mobile utilise les erreurs de prévision passées dans un modèle de type régression. Y c et theta e theta e dots theta e, où et est le bruit blanc. Nous appelons cela un modèle MA (q). Bien sûr, nous n'observons pas les valeurs de et, donc ce n'est pas vraiment régression dans le sens habituel. Notez que chaque valeur de yt peut être considérée comme une moyenne mobile pondérée des dernières erreurs de prévision. Toutefois, les modèles de moyenne mobile ne doivent pas être confondus avec le lissage moyen mobile décrit au chapitre 6. Un modèle de moyenne mobile est utilisé pour prévoir les valeurs futures, tandis que le lissage moyen mobile est utilisé pour estimer le cycle tendanciel des valeurs passées. Figure 8.6: Deux exemples de données provenant de modèles de moyenne mobile avec des paramètres différents. A gauche: MA (1) avec y t 20e t 0.8e t-1. A droite: MA (2) avec y t e t - e t-1 0.8e t-2. Dans les deux cas, e t est le bruit blanc normalement distribué avec zéro moyen et variance un. La figure 8.6 présente certaines données d'un modèle MA (1) et d'un modèle MA (2). Modification des paramètres theta1, points, thetaq résultats dans différents modèles de séries chronologiques. Comme pour les modèles autorégressifs, la variance du terme d'erreur et ne changera que l'échelle de la série, et non pas les motifs. Il est possible d'écrire un modèle AR (p) stationnaire comme modèle MA (infty). Par exemple, en utilisant une substitution répétée, nous pouvons le démontrer pour un modèle AR (1): begin php phi1y ph php phi1y phi1y phi1y phi1y 1, la valeur de phi1k diminue à mesure que k devient plus grand. Ainsi, nous obtenons finalement un processus de MA (infty) et yt et phi1 e phi12 e phi13 e cdots. Le résultat inverse se vérifie si l'on impose certaines contraintes aux paramètres MA. Ensuite, le modèle MA est appelé inversible. C'est-à-dire que nous pouvons écrire tout processus inverse MA (q) comme un processus AR (infty). Les modèles Invertible ne sont pas simplement pour nous permettre de convertir des modèles MA en modèles AR. Ils ont également des propriétés mathématiques qui les rendent plus faciles à utiliser dans la pratique. Les contraintes d'inversibilité sont similaires aux contraintes de stationnarité. Pour un modèle MA (1): -1lttheta1lt1. Pour un modèle MA (2): -1lttheta2lt1, theta2theta1 gt-1, theta1-theta2 lt 1. Des conditions plus compliquées tiennent pour qge3. De nouveau, R se chargera de ces contraintes lors de l'estimation des modèles.


No comments:

Post a Comment