3.5: Оцінка параметрів
(X_t\colon t\in\mathbb{Z})Дозволяти бути причинним і оборотним АРМА (р, q)
процес з відомими замовленнями p і q, можливо з середнім\mu. Цей розділ присвячений процедурам оцінювання вектора невідомого параметра.
\beta=(\mu,\phi_1,\ldots,\phi_p,\theta_1,\ldots,\theta_q,\sigma^2)^T. \tag{3.5.1}
Для спрощення процедури оцінки передбачається, що дані вже скориговані відніманням середнього, і тому обговорення обмежено нульовим середнім моделями ARMA.
Далі вводяться три методи оцінки. Метод моментів найкраще працює у випадку чистих процесів AR, при цьому не призводить до оптимальних процедур оцінки загальних процесів ARMA. Для останніх більш ефективні оцінки забезпечуються методами максимальної ймовірності та найменших квадратів, які будуть розглянуті згодом.
Метод 1 (Метод моментів) Оскільки цей метод є ефективним лише у їхньому випадку, представлення тут обмежується процесами AR (p)
X_t=\phi_1X_{t-1}+\ldots+\phi_pX_{t-p}+Z_t, t\in\mathbb{Z}, \nonumber
де(Z_t\colon t\in\mathbb{Z})\sim\mbox{WN}(0,\sigma^2). Вектор параметрів,\beta відповідно, зводиться до(\phi,\sigma^2)^T з\phi=(\phi_1,\ldots,\phi_p)^T і може бути оцінений за допомогою рівнянь Юля-Уокера
\Gamma_p\phi=\gamma_p \qquad\mbox{and}\ \sigma^2=\gamma(0)-\phi^T\gamma_p, \nonumber
де\Gamma_p=(\gamma(k-j))_{k,j=1,\ldots,p} і\gamma_p=(\gamma(1),\ldots,\gamma(p))^T. Зверніть увагу, що рівняння отримані тими ж аргументами, застосованими для виведення алгоритму Дурбіна-Левінсона в попередньому розділі. Метод моментів пропонує замінити кожну величину в рівняннях Юля-Уокера їх оцінними аналогами, що дає оцінювачі Юля-Уокера
\widehat{\phi}=\hat{\Gamma}_p^{-1} \hat{\gamma}_p=\hat{R}_p^{-1}\hat{\rho}_p \tag{3.5.2}
\hat{\sigma}^2 =\hat{\gamma}(0)-\hat{\gamma}^T_p\hat{\Gamma}_p^{-1}\hat{\gamma}_p =\hat{\gamma}(0)\left[1-\hat{\rho}_p^T\hat{R}_p^{-1}\hat{\rho}_p\right ]. \tag{3.5.3}
У ньому\hat{R}_p=\hat{\gamma}(0)^{-1}\hat{\Gamma}_p і\hat{\rho}_p=\hat{\gamma}(0)^{-1}\hat{\gamma}_p з
\hat{\gamma}(h)визначається як в (1.2.1). Використовуючи\hat{\gamma}(h) як оцінювач для ACVF при відставанніh, залежність від розміру вибіркиn отримується неявним чином. Ця залежність пригнічується в використовуваних тут позначеннях. Наступна теорема містить граничну поведінку оцінок Юля-Уокера, оскільки n прагне до нескінченності.
Теорема 3.5.1. Якщо(X_t\colon t\in\mathbb{Z}) є причинним AR (p) процес, то
\sqrt{n}(\widehat{\phi}-\phi)\stackrel{\cal D}{\longrightarrow} N(\mbox{0},\sigma^2\Gamma_p^{-1})\qquad\mbox{and}\qquad \hat{\sigma}^2\stackrel{P} {\longrightarrow}\sigma^2 \nonumber
якn\to\infty, де\to^P вказує збіжність по ймовірності.
Доказ цього результату наведено в розділі 8.10 Броквелла і Девіса (1991). Оскільки рівняння (3.5.2) та (3.5.3) мають ту саму структуру, що і відповідні рівняння (3.4.3) та (3.4.4), алгоритм Дурбіна-Левінсона може бути використаний для рекурсивного розв'язання оцінок\widehat{\phi}_h=(\widehat{\phi}_{h1},\ldots,\widehat{\phi}_{hh}). Більш того, оскільки\phi_{hh} дорівнює значенню PACF(X_t\colon t\in\mathbb{Z}) at lag h, оцінювач\widehat{\phi}_{hh} може бути використаний як його проксі. Оскільки вже відомо, що у випадку AR (p) процесів,\phi_{hh}=0 якщо h>p, Теорема (3.5.1) має на увазі відразу наступний наслідок.
Наслідок 3.5.1 Якщо(X_t\colon t\in\mathbb{Z}) є причинним AR (p) процес, то
\sqrt{n}\widehat{\phi}_{hh}\stackrel{\cal D}{\longrightarrow}Z \qquad(n\to\infty) \nonumber
для всіх h>p, де Z означає стандартну нормальну випадкову величину.
Приклад 3.5.1. (Оцінки Юля-Уокера для процесів AR (2)). Припустимо, щоX_t=1.5X_{t-1}-.75X_{t-2}+Z_t спостерігалисяn=144 значення авторегресійного процесу, де(Z_t\colon t\in\mathbb{Z}) є послідовність незалежних стандартних нормальних варіацій. Припустимо далі\hat{\gamma}(0)=8.434, що,\hat{\rho}(1)=0.834 і\hat{\rho}(2)=0.476 були розраховані з даних. Оцінки Юля-Уокера для параметрів потім задаються
\widehat{\phi}=\left(\begin{array}{c} \widehat{\phi}_1 \\[.1cm] \widehat{\phi}_2 \end{array}\right) =\left(\begin{array}{rr} 1.000 & 0.834 \\[.1cm] 0.834 & 1.000 \end{array}\right)^{-1} \left(\begin{array}{c} 0.834 \\[.1cm] 0.476 \end{array}\right)= \left(\begin{array}{r} 1.439 \\[.1cm] -0.725\end{array}\right) \nonumber
і
\hat{\sigma}^2=8.434\left[1-(0.834,0.476) \left(\begin{array}{r} 1.439 \\[.1cm] -0.725 \end{array}\right)\right]=1.215. \nonumber
Для побудови асимптотичних довірчих інтервалів за теоремою 3.5.1\sigma^2\Gamma_p^{-1} необхідно оцінити невідому граничну коваріаційну матрицю. Це можна зробити за допомогою кошторисника
\frac{\hat{\sigma}^2\hat{\Gamma}_p^{-1}}{n}= \frac{1}{144}\frac{1.215}{8.434} \left(\begin{array}{rr} 1.000 & 0.834 \\[.1cm] 0.834 & 1.000 \end{array}\right)^{-1}= \left(\begin{array}{rr} 0.057^2 & -0.003 \\[.1cm] -0.003 & 0.057^2 \end{array}\right). \nonumber
Потім1-\alpha рівень довірчого інтервалу для параметрів\phi_1\phi_2 і обчислюється як
1.439\pm 0.057z_{1-\alpha/2} \qquad\mbox{and}\qquad -0.725\pm 0.057z_{1-\alpha/2}, \nonumber
відповідно, деz_{1-\alpha/2} відповідний нормальний квантиль.
Приклад 3.5.2 (Серія набору персоналу).
Давайте переглянемо серію рекрутингу Приклад 3.3.5. Там спочатку була встановлена модель AR (2) відповідно до даних, а параметри моделі потім оцінювалися за допомогою звичайного підходу з найменшими квадратами. Тут коефіцієнти замість цього будуть оцінюватися за допомогою процедури Юля-Уокера. Команда R є
> rec.yw = ar.yw (rec, порядок = 2)}
Середня оцінка може бути отримана з rec.yw$x.mean як\hat{\mu}=62.26, тоді як оцінки авторегресивних параметрів та їх стандартні помилки доступні за допомогою команд rec.yw$ar і sqrt (rec.yw$asy.var.coef as\hat{\phi}_1=1.3316(.0422) and\hat{\phi}_2=-.4445(.0422). Нарешті, оцінку дисперсії отримано з rec.yw$var.pred як\hat{\sigma}^2=94.7991. Всі значення близькі до своїх аналогів у прикладі 3.3.5.
Приклад 3.5.3. Розглянемо інвертований МА (1) процесX_t=Z_t+\theta Z_{t-1}, де|\theta|<1. Використовуючи оборотність, коженX_t має нескінченне авторегресивне представлення
X_t=\sum_{j=1}^\infty(-\theta)^jX_{t-j}+Z_t \nonumber
що є нелінійним у невідомому параметрі\theta, який підлягає оцінці. Метод моментів тут заснований на вирішенні
\hat{\rho}(1)=\frac{\hat{\gamma}(1)}{\hat{\gamma}(0)} =\frac{\hat{\theta}}{1+\hat{\theta}^2}. \nonumber
для\hat{\theta}. Вищенаведене квадратне рівняння має два розв'язки:
\hat{\theta} =\frac{1\pm\sqrt{1-4\hat{\rho}(1)^2}}{2\hat{\rho}(1)}, \nonumber
з яких ми вибираємо оборотний. Зверніть увагу на те,|\hat{\rho}(1)| що не обов'язково менше або дорівнює 1/2, що потрібно для існування реальних рішень. (Теоретичне значення|\rho(1)|, однак, завжди менше 1/2 для будь-якого процесу MA (1), як показує простий розрахунок). Значить, не завжди\theta можна оцінити за заданими зразками даних.
Метод 2 (Оцінка максимальної правдоподібності) Алгоритм інновацій попереднього розділу, застосований до причинного АРМА (p, q)
процес(X_t\colon t\in\mathbb{Z}) дає
\hat{X}_{i+1}=\sum_{j=1}^i\theta_{ij}(X_{i+1-j}-\hat{X}_{i+1-j}), \phantom{\sum_{j=1}^p\phi_jX_{i+1-j}+} 1\leq i< \max\{p,q\}, \nonumber
\hat{X}_{i+1}= \sum_{j=1}^p\phi_jX_{i+1-j}+\sum_{j=1}^q\theta_{ij}(X_{i+1-j}-\hat{X}_{i+1-j}), \phantom{1\leq} i\geq \max\{p,q\}, \nonumber
з помилкою прогнозування
P_{i+1}=\sigma^2R_{i+1}. \nonumber
В останньому виразі,\sigma^2 було враховано з причин, які стануть очевидними з форми функції ймовірності, яка буде розглянута нижче. Нагадаємо, що послідовність(X_{i+1}-\hat{X}_{i+1}\colon i\in\mathbb{Z}) складається з некорельованих випадкових величин, якщо параметри відомі. Припускаючи нормальність помилок, ми до того ж отримуємо навіть незалежність. Це може бути використано для визначення процедури оцінки максимальної ймовірності Гаусса (MLE). На всьому протязі передбачається, що(X_t\colon t\in\mathbb{Z}) має нульове середнє значення (\mu=0). Цікаві параметри збираються в векторах\beta=(\phi,\theta,\sigma^2)^T і\beta'=(\phi,\theta)^T, де\phi=(\phi_1,\ldots,\phi_p)^T і\theta=(\theta_1,\ldots,\theta_q)^T. Припустимо, нарешті, що ми спостерігали змінніX_1,\ldots,X_n. Тоді функція правдоподібності Гаусса для нововведень
L(\beta)=\frac{1}{(2\pi\sigma^2)^{n/2}}\left(\prod_{i=1}^nR_i^{1/2}\right) \exp\left(-\frac{1}{2\sigma^2}\sum_{j=1}^n\frac{(X_j-\hat{X}_j)^2}{R_j}\right). \tag{3.5.4}
Беручи часткову\ln L(\beta) похідну щодо змінної,\sigma^2 виявляє, що MLE for\sigma^2 може бути
розраховується з
\hat{\sigma}^2=\frac{S(\hat{\phi},\hat{\theta})}{n},\qquad S(\hat{\phi},\hat{\theta})=\sum_{j=1}^n\frac{(X_j-\hat{X}_j)^2}{R_j}. \nonumber
У ньому\hat{\phi} і\hat{\theta} позначають MLE\phi і\theta отримані від мінімізації ймовірності профілю або зниженої ймовірності
\ell(\phi,\theta)=\ln\left(\frac{S(\phi,\theta)}{n}\right) +\frac 1n\sum_{j=1}^n\ln(R_j). \nonumber
Зверніть увагу, що ймовірність профілю\ell(\phi,\theta) можна обчислити за допомогою алгоритму нововведень. Швидкість цих обчислень сильно залежить від якості початкових оцінок. Вони часто забезпечуються неоптимальною процедурою Yule-Walker. Щодо числових методів, таких як алгоритми Ньютона-Рафсона та скорингу, див. Розділ 3.6 в Shumway and Stoffer (2006).
Граничний розподіл процедури MLE наведено у вигляді наступної теореми. Його доказ можна знайти в розділі 8.8 Броквелла і Девіса (1991).
Теорема 3.5.2. (X_t\colon t\in\mathbb{Z})Дозволяти причинно-наслідковий та оборотний процес ARMA (p, q), визначений послідовністю iid
(Z_t\colon t\in\mathbb{Z}) satisfying E[Z_t]=0і
E[Z_t^2]=\sigma^2. Розглянемо MLE\hat{\beta}' того\beta', що ініціалізується з моментом оцінки
Спосіб 1. Потім,
\sqrt{n}(\hat{\beta}'-\beta')\stackrel{\cal D}{\longrightarrow} N(\mbox{0},\sigma^2\Gamma_{p,q}^{-1}) \qquad(n\to\infty). \nonumber
Результат - оптимальний. Матриця коваріації\Gamma_{p,q} має блокову форму і може бути оцінена за коваріаціями різних авторегресійних процесів.
Приклад 3.5.4 (Серія набору персоналу). Процедура оцінки MLE для серії набору може бути застосована в R наступним чином:
>rec.mle = ar.mle (рек, замовлення = 2)
Середня оцінка може бути отримана з rec.mle$x.mean як\hat{\mu}=62.26, тоді як оцінки авторегресивних параметрів та їх стандартні помилки доступні за допомогою команд rec.mle$ar та sqrt (rec.mle$asy.var.coef) як\hat{\phi}_1=1.3513(.0410) і\hat{\phi}_2=-.4099(.0410). Нарешті, оцінку дисперсії отримано з rec.yw$var.pred як\hat{\sigma}^2=89.3360. Всі значення дуже близькі до своїх аналогів у прикладі 3.3.5.
Метод 3 (Оцінка найменших квадратів) Альтернатива методу моментів і MLE забезпечується оцінкою найменших квадратів (LSE). Для причинно-наслідкових та оборотних процесів ARMA (p, q) він заснований на мінімізації зваженої суми квадратів
S(\phi,\theta)=\sum_{j=1}^n\frac{(X_j-\hat{X}_j)^2}{R_j} \tag{3.5.5}
щодо\phi і\theta, відповідно. Припускаючи, що\tilde{\phi} і\tilde{\theta} позначають ці LSE, LSE для\sigma^2 обчислюється як
\tilde{\sigma}^2=\frac{S(\tilde{\phi},\tilde{\theta})}{n-p-q}. \nonumber
Процедура найменших квадратів має ту саму асимптотику, що і MLE.
Теорема 3.5.3. Результат теореми 3.5.2. тримається також, якщо\hat{\beta}' його замінити на\tilde{\beta}'.
Приклад 3.5.5 (Серія набору персоналу). Оцінка найменших квадратів вже обговорювалася в прикладі 3.3.5, включаючи команди R.