3.5: Оцінка параметрів
- Page ID
- 97224
\((X_t\colon t\in\mathbb{Z})\)Дозволяти бути причинним і оборотним АРМА (р, q)
процес з відомими замовленнями p і q, можливо з середнім\(\mu\). Цей розділ присвячений процедурам оцінювання вектора невідомого параметра.
\[\beta=(\mu,\phi_1,\ldots,\phi_p,\theta_1,\ldots,\theta_q,\sigma^2)^T. \tag{3.5.1} \]
Для спрощення процедури оцінки передбачається, що дані вже скориговані відніманням середнього, і тому обговорення обмежено нульовим середнім моделями ARMA.
Далі вводяться три методи оцінки. Метод моментів найкраще працює у випадку чистих процесів AR, при цьому не призводить до оптимальних процедур оцінки загальних процесів ARMA. Для останніх більш ефективні оцінки забезпечуються методами максимальної ймовірності та найменших квадратів, які будуть розглянуті згодом.
Метод 1 (Метод моментів) Оскільки цей метод є ефективним лише у їхньому випадку, представлення тут обмежується процесами AR (p)
\[ X_t=\phi_1X_{t-1}+\ldots+\phi_pX_{t-p}+Z_t, t\in\mathbb{Z}, \nonumber \]
де\((Z_t\colon t\in\mathbb{Z})\sim\mbox{WN}(0,\sigma^2)\). Вектор параметрів,\(\beta\) відповідно, зводиться до\((\phi,\sigma^2)^T\) з\(\phi=(\phi_1,\ldots,\phi_p)^T\) і може бути оцінений за допомогою рівнянь Юля-Уокера
\[\Gamma_p\phi=\gamma_p \qquad\mbox{and}\ \sigma^2=\gamma(0)-\phi^T\gamma_p, \nonumber \]
де\(\Gamma_p=(\gamma(k-j))_{k,j=1,\ldots,p}\) і\(\gamma_p=(\gamma(1),\ldots,\gamma(p))^T\). Зверніть увагу, що рівняння отримані тими ж аргументами, застосованими для виведення алгоритму Дурбіна-Левінсона в попередньому розділі. Метод моментів пропонує замінити кожну величину в рівняннях Юля-Уокера їх оцінними аналогами, що дає оцінювачі Юля-Уокера
\[\widehat{\phi}=\hat{\Gamma}_p^{-1} \hat{\gamma}_p=\hat{R}_p^{-1}\hat{\rho}_p \tag{3.5.2} \]
\[\hat{\sigma}^2 =\hat{\gamma}(0)-\hat{\gamma}^T_p\hat{\Gamma}_p^{-1}\hat{\gamma}_p =\hat{\gamma}(0)\left[1-\hat{\rho}_p^T\hat{R}_p^{-1}\hat{\rho}_p\right ]. \tag{3.5.3} \]
У ньому\(\hat{R}_p=\hat{\gamma}(0)^{-1}\hat{\Gamma}_p\) і\(\hat{\rho}_p=\hat{\gamma}(0)^{-1}\hat{\gamma}_p\) з
\(\hat{\gamma}(h)\)визначається як в (1.2.1). Використовуючи\(\hat{\gamma}(h)\) як оцінювач для ACVF при відставанні\(h\), залежність від розміру вибірки\(n\) отримується неявним чином. Ця залежність пригнічується в використовуваних тут позначеннях. Наступна теорема містить граничну поведінку оцінок Юля-Уокера, оскільки n прагне до нескінченності.
Теорема 3.5.1. Якщо\((X_t\colon t\in\mathbb{Z})\) є причинним AR (p) процес, то
\[ \sqrt{n}(\widehat{\phi}-\phi)\stackrel{\cal D}{\longrightarrow} N(\mbox{0},\sigma^2\Gamma_p^{-1})\qquad\mbox{and}\qquad \hat{\sigma}^2\stackrel{P} {\longrightarrow}\sigma^2 \nonumber \]
як\(n\to\infty\), де\(\to^P\) вказує збіжність по ймовірності.
Доказ цього результату наведено в розділі 8.10 Броквелла і Девіса (1991). Оскільки рівняння (3.5.2) та (3.5.3) мають ту саму структуру, що і відповідні рівняння (3.4.3) та (3.4.4), алгоритм Дурбіна-Левінсона може бути використаний для рекурсивного розв'язання оцінок\(\widehat{\phi}_h=(\widehat{\phi}_{h1},\ldots,\widehat{\phi}_{hh})\). Більш того, оскільки\(\phi_{hh}\) дорівнює значенню PACF\((X_t\colon t\in\mathbb{Z})\) at lag h, оцінювач\(\widehat{\phi}_{hh}\) може бути використаний як його проксі. Оскільки вже відомо, що у випадку AR (p) процесів,\(\phi_{hh}=0\) якщо h>p, Теорема (3.5.1) має на увазі відразу наступний наслідок.
Наслідок 3.5.1 Якщо\((X_t\colon t\in\mathbb{Z})\) є причинним AR (p) процес, то
\[ \sqrt{n}\widehat{\phi}_{hh}\stackrel{\cal D}{\longrightarrow}Z \qquad(n\to\infty) \nonumber \]
для всіх h>p, де Z означає стандартну нормальну випадкову величину.
Приклад 3.5.1. (Оцінки Юля-Уокера для процесів AR (2)). Припустимо, що\(X_t=1.5X_{t-1}-.75X_{t-2}+Z_t\) спостерігалися\(n=144\) значення авторегресійного процесу, де\((Z_t\colon t\in\mathbb{Z})\) є послідовність незалежних стандартних нормальних варіацій. Припустимо далі\(\hat{\gamma}(0)=8.434\), що,\(\hat{\rho}(1)=0.834\) і\(\hat{\rho}(2)=0.476\) були розраховані з даних. Оцінки Юля-Уокера для параметрів потім задаються
\[ \widehat{\phi}=\left(\begin{array}{c} \widehat{\phi}_1 \\[.1cm] \widehat{\phi}_2 \end{array}\right) =\left(\begin{array}{rr} 1.000 & 0.834 \\[.1cm] 0.834 & 1.000 \end{array}\right)^{-1} \left(\begin{array}{c} 0.834 \\[.1cm] 0.476 \end{array}\right)= \left(\begin{array}{r} 1.439 \\[.1cm] -0.725\end{array}\right) \nonumber \]
і
\[ \hat{\sigma}^2=8.434\left[1-(0.834,0.476) \left(\begin{array}{r} 1.439 \\[.1cm] -0.725 \end{array}\right)\right]=1.215. \nonumber \]
Для побудови асимптотичних довірчих інтервалів за теоремою 3.5.1\(\sigma^2\Gamma_p^{-1}\) необхідно оцінити невідому граничну коваріаційну матрицю. Це можна зробити за допомогою кошторисника
\[ \frac{\hat{\sigma}^2\hat{\Gamma}_p^{-1}}{n}= \frac{1}{144}\frac{1.215}{8.434} \left(\begin{array}{rr} 1.000 & 0.834 \\[.1cm] 0.834 & 1.000 \end{array}\right)^{-1}= \left(\begin{array}{rr} 0.057^2 & -0.003 \\[.1cm] -0.003 & 0.057^2 \end{array}\right). \nonumber \]
Потім\(1-\alpha\) рівень довірчого інтервалу для параметрів\(\phi_1\)\(\phi_2\) і обчислюється як
\[ 1.439\pm 0.057z_{1-\alpha/2} \qquad\mbox{and}\qquad -0.725\pm 0.057z_{1-\alpha/2}, \nonumber \]
відповідно, де\(z_{1-\alpha/2}\) відповідний нормальний квантиль.
Приклад 3.5.2 (Серія набору персоналу).
Давайте переглянемо серію рекрутингу Приклад 3.3.5. Там спочатку була встановлена модель AR (2) відповідно до даних, а параметри моделі потім оцінювалися за допомогою звичайного підходу з найменшими квадратами. Тут коефіцієнти замість цього будуть оцінюватися за допомогою процедури Юля-Уокера. Команда R є
> rec.yw = ar.yw (rec, порядок = 2)}
Середня оцінка може бути отримана з rec.yw$x.mean як\(\hat{\mu}=62.26\), тоді як оцінки авторегресивних параметрів та їх стандартні помилки доступні за допомогою команд rec.yw$ar і sqrt (rec.yw$asy.var.coef as\(\hat{\phi}_1=1.3316(.0422)\) and\(\hat{\phi}_2=-.4445(.0422)\). Нарешті, оцінку дисперсії отримано з rec.yw$var.pred як\(\hat{\sigma}^2=94.7991\). Всі значення близькі до своїх аналогів у прикладі 3.3.5.
Приклад 3.5.3. Розглянемо інвертований МА (1) процес\(X_t=Z_t+\theta Z_{t-1}\), де\(|\theta|<1\). Використовуючи оборотність, кожен\(X_t\) має нескінченне авторегресивне представлення
\[ X_t=\sum_{j=1}^\infty(-\theta)^jX_{t-j}+Z_t \nonumber \]
що є нелінійним у невідомому параметрі\(\theta\), який підлягає оцінці. Метод моментів тут заснований на вирішенні
\[ \hat{\rho}(1)=\frac{\hat{\gamma}(1)}{\hat{\gamma}(0)} =\frac{\hat{\theta}}{1+\hat{\theta}^2}. \nonumber \]
для\(\hat{\theta}\). Вищенаведене квадратне рівняння має два розв'язки:
\[ \hat{\theta} =\frac{1\pm\sqrt{1-4\hat{\rho}(1)^2}}{2\hat{\rho}(1)}, \nonumber \]
з яких ми вибираємо оборотний. Зверніть увагу на те,\(|\hat{\rho}(1)|\) що не обов'язково менше або дорівнює 1/2, що потрібно для існування реальних рішень. (Теоретичне значення\(|\rho(1)|\), однак, завжди менше 1/2 для будь-якого процесу MA (1), як показує простий розрахунок). Значить, не завжди\(\theta\) можна оцінити за заданими зразками даних.
Метод 2 (Оцінка максимальної правдоподібності) Алгоритм інновацій попереднього розділу, застосований до причинного АРМА (p, q)
процес\((X_t\colon t\in\mathbb{Z})\) дає
\[\hat{X}_{i+1}=\sum_{j=1}^i\theta_{ij}(X_{i+1-j}-\hat{X}_{i+1-j}), \phantom{\sum_{j=1}^p\phi_jX_{i+1-j}+} 1\leq i< \max\{p,q\}, \nonumber \]
\[\hat{X}_{i+1}= \sum_{j=1}^p\phi_jX_{i+1-j}+\sum_{j=1}^q\theta_{ij}(X_{i+1-j}-\hat{X}_{i+1-j}), \phantom{1\leq} i\geq \max\{p,q\}, \nonumber \]
з помилкою прогнозування
\[ P_{i+1}=\sigma^2R_{i+1}. \nonumber \]
В останньому виразі,\(\sigma^2\) було враховано з причин, які стануть очевидними з форми функції ймовірності, яка буде розглянута нижче. Нагадаємо, що послідовність\((X_{i+1}-\hat{X}_{i+1}\colon i\in\mathbb{Z})\) складається з некорельованих випадкових величин, якщо параметри відомі. Припускаючи нормальність помилок, ми до того ж отримуємо навіть незалежність. Це може бути використано для визначення процедури оцінки максимальної ймовірності Гаусса (MLE). На всьому протязі передбачається, що\((X_t\colon t\in\mathbb{Z})\) має нульове середнє значення (\(\mu=0\)). Цікаві параметри збираються в векторах\(\beta=(\phi,\theta,\sigma^2)^T\) і\(\beta'=(\phi,\theta)^T\), де\(\phi=(\phi_1,\ldots,\phi_p)^T\) і\(\theta=(\theta_1,\ldots,\theta_q)^T\). Припустимо, нарешті, що ми спостерігали змінні\(X_1,\ldots,X_n\). Тоді функція правдоподібності Гаусса для нововведень
\[L(\beta)=\frac{1}{(2\pi\sigma^2)^{n/2}}\left(\prod_{i=1}^nR_i^{1/2}\right) \exp\left(-\frac{1}{2\sigma^2}\sum_{j=1}^n\frac{(X_j-\hat{X}_j)^2}{R_j}\right). \tag{3.5.4} \]
Беручи часткову\(\ln L(\beta)\) похідну щодо змінної,\(\sigma^2\) виявляє, що MLE for\(\sigma^2\) може бути
розраховується з
\[ \hat{\sigma}^2=\frac{S(\hat{\phi},\hat{\theta})}{n},\qquad S(\hat{\phi},\hat{\theta})=\sum_{j=1}^n\frac{(X_j-\hat{X}_j)^2}{R_j}. \nonumber \]
У ньому\(\hat{\phi}\) і\(\hat{\theta}\) позначають MLE\(\phi\) і\(\theta\) отримані від мінімізації ймовірності профілю або зниженої ймовірності
\[ \ell(\phi,\theta)=\ln\left(\frac{S(\phi,\theta)}{n}\right) +\frac 1n\sum_{j=1}^n\ln(R_j). \nonumber \]
Зверніть увагу, що ймовірність профілю\(\ell(\phi,\theta)\) можна обчислити за допомогою алгоритму нововведень. Швидкість цих обчислень сильно залежить від якості початкових оцінок. Вони часто забезпечуються неоптимальною процедурою Yule-Walker. Щодо числових методів, таких як алгоритми Ньютона-Рафсона та скорингу, див. Розділ 3.6 в Shumway and Stoffer (2006).
Граничний розподіл процедури MLE наведено у вигляді наступної теореми. Його доказ можна знайти в розділі 8.8 Броквелла і Девіса (1991).
Теорема 3.5.2. \((X_t\colon t\in\mathbb{Z})\)Дозволяти причинно-наслідковий та оборотний процес ARMA (p, q), визначений послідовністю iid
\((Z_t\colon t\in\mathbb{Z}) satisfying E[Z_t]=0\)і
\(E[Z_t^2]=\sigma^2\). Розглянемо MLE\(\hat{\beta}'\) того\(\beta'\), що ініціалізується з моментом оцінки
Спосіб 1. Потім,
\[ \sqrt{n}(\hat{\beta}'-\beta')\stackrel{\cal D}{\longrightarrow} N(\mbox{0},\sigma^2\Gamma_{p,q}^{-1}) \qquad(n\to\infty). \nonumber \]
Результат - оптимальний. Матриця коваріації\(\Gamma_{p,q}\) має блокову форму і може бути оцінена за коваріаціями різних авторегресійних процесів.
Приклад 3.5.4 (Серія набору персоналу). Процедура оцінки MLE для серії набору може бути застосована в R наступним чином:
>rec.mle = ar.mle (рек, замовлення = 2)
Середня оцінка може бути отримана з rec.mle$x.mean як\(\hat{\mu}=62.26\), тоді як оцінки авторегресивних параметрів та їх стандартні помилки доступні за допомогою команд rec.mle$ar та sqrt (rec.mle$asy.var.coef) як\(\hat{\phi}_1=1.3513(.0410)\) і\(\hat{\phi}_2=-.4099(.0410)\). Нарешті, оцінку дисперсії отримано з rec.yw$var.pred як\(\hat{\sigma}^2=89.3360\). Всі значення дуже близькі до своїх аналогів у прикладі 3.3.5.
Метод 3 (Оцінка найменших квадратів) Альтернатива методу моментів і MLE забезпечується оцінкою найменших квадратів (LSE). Для причинно-наслідкових та оборотних процесів ARMA (p, q) він заснований на мінімізації зваженої суми квадратів
\(S(\phi,\theta)=\sum_{j=1}^n\frac{(X_j-\hat{X}_j)^2}{R_j} \tag{3.5.5}\)
щодо\(\phi\) і\(\theta\), відповідно. Припускаючи, що\(\tilde{\phi}\) і\(\tilde{\theta}\) позначають ці LSE, LSE для\(\sigma^2\) обчислюється як
\[ \tilde{\sigma}^2=\frac{S(\tilde{\phi},\tilde{\theta})}{n-p-q}. \nonumber \]
Процедура найменших квадратів має ту саму асимптотику, що і MLE.
Теорема 3.5.3. Результат теореми 3.5.2. тримається також, якщо\(\hat{\beta}'\) його замінити на\(\tilde{\beta}'\).
Приклад 3.5.5 (Серія набору персоналу). Оцінка найменших квадратів вже обговорювалася в прикладі 3.3.5, включаючи команди R.