3.4: Прогнозування
- Page ID
- 97223
Припустимо, що змінні слабко стаціонарного\(X_1,\ldots,X_n\) часового ряду\((X_t\colon t\in\mathbb{Z})\) спостерігалися з метою передбачити або прогнозувати майбутні значення\(X_{n+1},X_{n+2},\ldots\). Тут основна увага приділяється так званим однокроковим кращим лінійним предикторам (BLP). Це, за визначенням, лінійні комбінації
\[\hat{X}_{n+1}=\phi_{n0}+\phi_{n1}X_n+\ldots+\phi_{nn}X_1 \label{3.4.1} \]
спостережуваних змінних\(X_1,\ldots,X_n\), які мінімізують середню квадратичну похибку
\[ E\left[\{X_{n+1}-g(X_1,\ldots,X_n)\}^2\right] \nonumber \]
для функцій g of\(X_1,\ldots,X_n\). Прямі узагальнення дають визначення для m -step найкращих лінійних предикторів\(\hat{X}_{n+m}\)\(X_{n+m}\) для\(m\in\mathbb{N}\) довільних однаково. Використовуючи Гільбертову космічну теорію, можна довести наступну теорему, яка стане відправною точкою для наших міркувань.
Теорема\(\PageIndex{1}\): Best linear prediction (BLP)
\((X_t\colon t\in\mathbb{Z})\)Дозволяти бути слабо стаціонарним стохастичним процесом якого\(X_1,\ldots,X_n\) спостерігаються. Потім одноступінчастий BLP\(\hat{X}_{n+1}\) з\(X_{n+1}\) визначається рівняннями
\[ E\left[(X_{n+1}-\hat{X}_{n+1})X_{n+1-j}\right]=0 \nonumber \]
для всіх\(j=1,\ldots,n+1\), де\(X_0=1\).
Рівняння, зазначені в\(\PageIndex{1}\) теоремі, можуть бути використані для обчислення коефіцієнтів\(\phi_{n0},\ldots,\phi_{nn}\) в Equation\ ref {3.4.1}. Досить зосередитися на середніх нульових процесах\((X_t\colon t\in\mathbb{Z})\) і, таким чином, встановити\(\phi_{n0}=0\), як показують наступні розрахунки. Припустимо, що\(E[X_t]=\mu\) для всіх\(t\in\mathbb{Z}\). Потім, Теорема\(\PageIndex{1}\) дає, що\(E[\hat{X}_{n+1}]=E[X_{n+1}]=\mu\) (використовуючи рівняння с\(j=n+1\). Отже, він вважає, що
\[ \mu=E[\hat{X}_{n+1}] =E\left[\phi_{n0}+\sum_{\ell=1}^n\phi_{n\ell}X_{n+1-\ell}\right] =\phi_{n0}+\sum_{\ell=1}^n\phi_{n\ell}\mu. \nonumber \]
Використовуючи тепер\(\phi_{n0}=\mu(1-\phi_{n1}-\ldots-\phi_{nn})\), Equation\ ref {3.4.1} можна переписати як
\[ \hat{Y}_{n+1}=\phi_{n1}Y_n+\ldots+\phi_{nn}Y_1, \nonumber \]
де\(\hat{Y}_{n+1}=\hat{X}_{n+1}-\mu\) має середнє значення нуля.
З ACVF\(\gamma\)\((X_t\colon t\in\mathbb{Z})\), рівняння в теоремі\(\PageIndex{1}\) можуть бути виражені як
\[\sum_{\ell=1}^n\phi_{n\ell}\gamma(j-\ell)=\gamma(j),\qquad j=1,\ldots,n. \label{3.4.2} \]
Зверніть увагу, що через\(\phi_{n0}=0\) умовність останнє рівняння в теоремі\(\PageIndex{1}\) (для якої\(j=n+1\)) опущено. Більш зручно, це повторюється в матричних позначеннях. З цією метою нехай,\(\phi_n=(\phi_{n1},\ldots,\phi_{nn})^T\) і\(\Gamma_n=(\gamma(j-\ell))_{j,\ell=1,\ldots,n}\)\(\gamma_n=(\gamma(1),\ldots,\gamma(n))^T\), де\(^T\) позначається транспонування. З цими позначеннями (3.4.2.) стає
\[\Gamma_n\phi_n=\gamma_n \qquad\Longleftrightarrow\qquad \phi_n=\Gamma_n^{-1}\gamma_n, \label{3.4.3} \]
за умови, що\(\Gamma_n\) не є сингулярним.
Визначення коефіцієнтів\(\phi_{n\ell}\), таким чином, зводилося до розв'язання системи лінійних рівнянь і залежить лише від властивостей другого порядку,\((X_t\colon t\in\mathbb{Z})\) які задаються ACVF\(\gamma\).
Нехай\(X_n=(X_n,X_{n-1},\ldots,X_1)^T\). Потім,\(\hat{X}_{n+1}=\phi_n^TX_n\). Для оцінки якості прогнозу обчислюють середню квадратичну похибку за допомогою Equation\ ref {3.4.3} наступним чином:
\[\begin{align} P_{n+1} &=E\left[(X_{n+1}-\hat{X}_{n+1})^2\right] \nonumber \\[5pt] &=E\left[(X_{n+1}-\phi_n^T X_n)^2\right] \nonumber \\[5pt] &=E\left[(X_{n+1}-\gamma_n^T\Gamma_n^{-1} X_n)^2\right]\nonumber \\[5pt] &=E\left[X_{n+1}^2-2\gamma_n^T\Gamma_n^{-1} X_nX_{n+1} +\gamma_n^T\Gamma_n^{-1} X_n X_n^{T}\Gamma_n^{-1}\gamma_n\right]\nonumber \\[5pt] &=\gamma(0)-2\gamma_n^T\Gamma_n^{-1}\gamma_n +\gamma_n^T\Gamma_n^{-1}\Gamma_n\Gamma_n^{-1}\gamma_n\nonumber \\[5pt] &=\gamma(0)-\gamma_n^T\Gamma_n^{-1}\gamma_n. \label{3.4.4} \end{align} \]
Як початковий приклад ми пояснюємо процедуру прогнозування авторегресивного процесу порядку 2.
Приклад\(\PageIndex{1}\): Prediction of an AR(2) Process
\((X_t\colon t\in\mathbb{Z})\)Дозволяти бути причинним AR (2) процес\(X_t=\phi_1X_{t-1}+\phi_2X_{t-2}+Z_t\). Припустимо, що для\(X_1\) прогнозування значення доступне лише спостереження\(X_2\). У цьому спрощеному випадку єдине прогнозне рівняння\ ref {3.4.2} дорівнює
\[ \phi_{11}\gamma(0)=\gamma(1), \nonumber \]
щоб\(\phi_{11}=\rho(1)\) і\(\hat{X}_{1+1}=\rho(1)X_1\).
На наступному кроці припустимо, що\(X_2\) спостережувані значення\(X_1\) і знаходяться під рукою для прогнозування значення\(X_3\). Потім один аналогічно отримує з (3.4.2.), що предиктор може бути обчислений з
\[ \begin{align*} \hat{X}_{2+1} &=\phi_{21}X_{2}+\phi_{22}X_1 =\phi_2^T X_2=(\Gamma_2^{-1}\gamma_2)^T X_2 \\[5pt] &=(\gamma(1),\gamma(2))\left(\begin{array}{c@{\quad}c} \gamma(0) & \gamma(1) \\ \gamma(1) & \gamma(0) \end{array}\right)^{-1} \left(\begin{array}{c} X_2 \\ X_1 \end{array}\right). \end{align*} \nonumber \]
Однак, застосовуючи аргументи, що призводять до визначення PAC у розділі 3.3.3., можна виявити, що
\[E\left[\{X_3-(\phi_1X_2+\phi_2X_1)\}X_1\right]=E[Z_3X_1]=0, \nonumber \]
\[E\left[\{X_3-(\phi_1X_2+\phi_2X_1)\}X_2\right]=E[Z_3X_2]=0. \nonumber \]
Звідси,\(\hat{X}_{2+1}=\phi_1X_2+\phi_2X_1\) і навіть\(\hat{X}_{n+1}=\phi_1X_n+\phi_2X_{n-1}\) для всіх\(n\geq 2\), експлуатує ту чи іншу авторегресійну структуру.
Оскільки подібні результати можуть бути доведені для загальних причинних процесів AR (p), одноступінчасті предиктори мають вигляд
\[ \hat{X}_{n+1}=\phi_1X_n+\ldots+\phi_pX_{n-p+1} \nonumber \]
всякий раз, коли кількість спостережуваних змінних n становить не менше p.
Основний недолік цього підходу відразу видно з попереднього прикладу: Для більших розмірів вибірки n процедура прогнозування вимагає обчислення зворотної матриці,\(\Gamma_n^{-1}\) яка є обчислювально-дорогою. В іншій частині цього розділу введено два рекурсивні методи прогнозування, які взагалі обходять інверсію. Вони відомі як алгоритм Дурбіна-Левінсона та алгоритм інновацій. Нарешті, вводяться предиктори, засновані на нескінченному минулому, які часто легко застосовні для класу причинно-наслідкових та оборотних процесів ARMA.
Спосіб 1. Алгоритм Дурбіна-Левінсона
Якщо\((X_t\colon t\in\mathbb{Z})\) нульовий середній слабо стаціонарний процес з ACVF\(\gamma\) такий, що\(\gamma(0)>0\) і\(\gamma(h)\to 0\) як\(h\to\infty\), то коефіцієнти\(\phi_{n\ell}\) в (3.4.2.) і середні квадратичні похибки\(P_n\) в (3.4.4.) задовольняють рекурсії
\[ \phi_{11}=\frac{\gamma(1)}{\gamma(0)},\qquad P_0=\gamma(0), \nonumber \]
і, для того\(n\geq 1\),
\[ \phi_{nn}=\frac{1}{P_{n-1}} \left(\gamma(n)-\sum_{\ell=1}^{n-1}\phi_{n-1,\ell}\gamma(n-\ell)\right), \nonumber \]
\[ \left(\begin{array}{l}\phi_{n1} \\ {~}\vdots \\ \phi_{n,n-1}\end{array}\right) =\left(\begin{array}{l} \phi_{n-1,1} \\ {~}\vdots \\ \phi_{n-1,n-1}\end{array}\right) -\phi_{nn}\left(\begin{array}{l} \phi_{n-1,n-1} \\ {~}\vdots \\ \phi_{n-1,1}\end{array}\right) \nonumber \]
і
\[ P_{n}=P_{n-1}(1-\phi_{nn}^2). \nonumber \]
Можна показати, що за припущеннями, зробленими на процес\((X_t\colon t\in\mathbb{Z})\), він дійсно тримає, що\(\phi_{nn}\) дорівнює значенню PACF\((X_t\colon t\in\mathbb{Z})\) at lag n. Результат сформульований як наслідок 5.2.1 в Броквелл і Девіс (1991). Цей факт висвітлюється на прикладі.
PACF процесу AR (2)
\((X_t\colon t\in\mathbb{Z})\)Дозволяти бути причинним AR (2) процес. Потім,\(\rho(1)=\phi_1/(1-\phi_2)\) і всі інші значення можна обчислити рекурсивно з
\[ \rho(h)-\phi_1\rho(h-1)-\phi_2\rho(h-2)=0,\qquad h\geq 2. \nonumber \]
Зверніть увагу, що ACVF\(\gamma\) задовольняє різницеве рівняння з тими ж коефіцієнтами, що видно множенням останнього рівняння на\(\gamma(0)\). Застосування алгоритму Дурбіна-Левінсона дає перше, що
\[ \phi_{11}=\frac{\gamma(1)}{\gamma(0)}=\rho(1) \qquad\mbox{and}\qquad P_1=P_0(1-\phi_{11}^2)=\gamma(0)(1-\rho(1)^2). \nonumber \]
Ігноруючи рекурсію для термінів помилки\(P_n\) в наступному, наступні\(\phi_{n\ell}\) значення отримують a
\[\phi_{22} =\frac{1}{P_1}\left[\gamma(2)-\phi_{11}\gamma(1)\right] =\frac{1}{1-\rho(1)^2}\left[\rho(2)-\rho(1)^2\right] \nonumber \]
\[=\frac{\phi_1^2(1-\phi_2)^{-1}+\phi_2-[\phi_1(1-\phi_2)^{-1}]^2} {1-[\phi_1(1-\phi_2)^{-1}]^2}=\phi_2, \nonumber \]
\[\phi_{21} =\phi_{11}-\phi_{22}\phi_{11}=\rho(1)(1-\phi_2)=\phi_1, \nonumber \]
\[\phi_{33} =\frac{1}{P_2}\left[\gamma(3)-\phi_{21}\gamma(2)-\phi_{22}\gamma(1)\right] =\frac{1}{P_2}\left[\gamma(3)-\phi_1\gamma(2)-\phi_2\gamma(2)\right]=0. \nonumber \]
Тепер, посилаючись на зауваження після прикладу 3.3.7., подальші обчислення не потрібні для визначення PACF, оскільки\(\phi_{nn}=0\) для всіх\(n>p=2\).
Спосіб 2. Алгоритм нововведень
На відміну від алгоритму Дурбіна-Левінсона, цей метод може застосовуватися і до нестаціонарних процесів. Таким чином, в цілому слід віддати перевагу перед Методом 1. Алгоритм інновацій отримав свою назву від того, що безпосередньо використовується форма прогнозних рівнянь теореми 3.4.1, які викладені в терміні нововведень\((X_{t+1}-\hat{X}_{t+1})_{t\in\mathbb{Z}}\). Зверніть увагу, що послідовність складається з некорельованих випадкових величин.
Однокрокові предиктори\(\hat{X}_{n+1}\) можна обчислити за рекурсіями
\[ \hat{X}_{0+1}=0,\qquad P_1=\gamma(0) \nonumber \]
і, для того\(n\geq 1\),
\[\hat{X}_{n+1} =\sum_{\ell=1}^n\theta_{n\ell}(X_{n+1-\ell}-\hat{X}_{n+1-\ell}) \nonumber \]
\[P_{n+1} =\gamma(0)-\sum_{\ell=0}^{n-1}\theta_{n,n-\ell}^2P_{\ell+1}, \nonumber \]
де коефіцієнти отримують з рівнянь
\[ \theta_{n,n-\ell}=\frac{1}{P_{\ell+1}} \left[\gamma(n-\ell)-\sum_{i=0}^{\ell-1}\theta_{\ell,\ell-i}\theta_{n,n-i}P_{i+1}\right], \qquad\ell=0,1,\ldots,n-1. \nonumber \]
Як приклад ми покажемо, як алгоритм інновацій застосовується до часового ряду ковзного середнього порядку 1.
Приклад\(\PageIndex{3}\): Prediction of an MA(1) Process
\((X_t\colon t\in\mathbb{Z})\)Дозволяти бути MA (1) процес\(X_t=Z_t+\theta Z_{t-1}\). Зверніть увагу, що
\[ \gamma(0)=(1+\theta^2)\sigma^2,\qquad\gamma(1)=\theta\sigma^2 \qquad\mbox{and}\qquad\gamma(h)=0\quad(h\geq 2). \nonumber \]
Використовуючи алгоритм нововведень, можна обчислити однокроковий предиктор за значеннями
\ begin {align*}
\ theta_ {n1} =\ frac {\ тета\ сигма ^ 2} {p_n},\ qquad
\ theta_ {n\ ell} =0\ quad (\ ell=2,\ ldots, n-1),
\ end {align*}
і
\[ \begin{align*} P_1 &=(1+\theta^2)\sigma^2,\\[5pt] P_{n+1}&=(1+\theta^2-\theta\theta_{n1})\sigma^2 \end{align*} \nonumber \]
як
\[ \hat{X}_{n+1}=\frac{\theta\sigma^2}{P_n}(X_n-\hat{X}_{n}). \nonumber \]
Спосіб 3: Прогнозування на основі нескінченного минулого
Припустимо, що аналізується причинно-оборотний процес ARMA (p, q). Припустимо далі, що (нереально) повна історія процесу може бути збережена і що, таким чином, всі минулі змінні\((X_t\colon t\leq n)\) можуть бути доступні. Визначте тоді
\[ \tilde{X}_{n+m}=E[X_{n+m}|X_n,X_{n-1},\ldots], \nonumber \]
як провісник m -крок вперед, заснований на нескінченному минулому. Можна показати, що для великих розмірів вибірки n різниця між значеннями\(\hat{X}_{n+m}\) і\(\tilde{X}_{n+m}\) зникає з експоненціальною швидкістю. Використовуючи причинність і оборотність процесу ARMA, можна перетворити предиктор\(\tilde{X}_{n+m}\) так, щоб він був у обчислювально-більш здійсненній формі. Для цього зверніть увагу, що за причинністю
\[ \begin{align} \tilde{X}_{n+m} &=E[X_{n+m}|X_n,X_{n-1},\ldots]\nonumber \\[5pt] &=E\left[\sum_{j=0}^\infty\psi_jZ_{n+m-j}\Big|X_n,X_{n-1},\ldots\right]\nonumber \\[5pt] &=\sum_{j=m}^\infty\psi_jZ_{n+m-j} \label{3.4.5} \end{align} \]
тому що\(E[Z_t|X_n,X_{n-1},\ldots]\) дорівнює нулю, якщо t>n і дорівнює z_t if\(t\leq n\) (через оборотність!). Представлення в (3.4.5.) може бути використано для обчислення середньої похибки прогнозування в квадраті\(\tilde{P}_{n+m}\). З причинності випливає, що
\[ \tilde{P}_{n+m}=E[(X_{n+m}-\tilde{X}_{n+m})^2] =E\left[\left(\sum_{j=0}^{m-1}\psi_jZ_{n+m-j}\right)^2\right] =\sigma^2\sum_{j=0}^{m-1}\psi_j^2. \label{3.4.6} \]
З іншого боку, Equation\ ref {3.4.5} не дозволяє безпосередньо обчислити прогнози, оскільки\(\tilde{X}_{n+m}\) дається в терміні змінних шуму\(Z_{n+m-j}\). Замість цього буде використана оборотність. Спочатку спостерігайте, що
\[ E[X_{n+m-j}|X_n,X_{n-1},\ldots]=\left\{\begin{array}{c@{\quad}l} \tilde{X}_{n+m-j}, & j<m.\\[.2cm] X_{n+m-j}, & j\geq m. \end{array}\right. \nonumber \]
За оборотності (частина ``0 = "знову випливає з причинності),
\[ \begin{align}0=E[Z_{n+m}|X_n,X_{n-1},\ldots] & \\[5pt] &=E\left[\sum_{j=0}^\infty\pi_jX_{n+m-j}\Big|X_n,X_{n-1},\ldots\right] \\[5pt] & =\sum_{j=0}^\infty\pi_jE[X_{n+m-j}|X_n,X_{n-1},\ldots].\end{align} \nonumber \]
Поєднуючи попередні два твердження, дає
\[\tilde{X}_{n+m}=-\sum_{j=1}^{m-1}\pi_j\tilde{X}_{n+m-j} -\sum_{j=m}^\infty\pi_jX_{n+m-j}. \label{3.4.7} \]
Рівняння тепер можуть бути вирішені рекурсивно для\(m=1,2,\ldots\) Note, однак, що для будь-якої\(m\geq 1\) послідовності\((X_{n+m+t}-\tilde{X}_{n+m+t}\colon t\in\mathbb{Z})\) не складається з некорельованих випадкових величин. Насправді, якщо\(h\in\mathbb{N}_0\), він вважає, що
\[ \begin{align} E[(X_{n+m}-\tilde{X}_{n+m})(X_{n+m+h}-\tilde{X}_{n+m+h})] &\\[5pt] &=E\left[\sum_{j=0}^{m-1}\psi_jZ_{n+m-j}\sum_{i=0}^{m+h-1}\psi_iZ_{n+m+h-i}\right] \\[5pt] & =\sigma^2\sum_{j=0}^{m-1}\psi_j\psi_{j+h}. \end{align} \nonumber \]
Нарешті, для практичних цілей даний прогноз потрібно скоротити. Це досягається шляхом установки
\[ \sum_{j=n+m}^\infty\pi_jX_{n+m-j}=0. \nonumber \]
Отримані рівняння (див. Equation\ ref {3.4.7} для порівняння) рекурсивно дають усічені предиктори m -кроку\(X_{n+m}^*\):
\[X_{n+m}^*=-\sum_{j=1}^{m-1}\pi_jX_{n+m-j}^*-\sum_{j=m}^{n+m-1}\pi_jX_{n+m-j}. \label{3.4.8} \]