Skip to main content
LibreTexts - Ukrayinska

16.4: Перетворення коробка-Кокса

  • Page ID
    98210
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Цілі навчання

    • Вивчити перетворення Бокса-Кокса

    Джордж Бокс і сер Девід Кокс співпрацювали на одному папері (Box,\(1964\)). Історія полягає в тому, що в той час як Кокс відвідував Box у Вісконсіні, вони вирішили, що повинні написати папір разом через схожість їх імен (і що обидва британські). Насправді професор Бокс одружений на дочці сера Рональда Фішера.

    Перетворення Box-Cox\(x\) змінної також індексується\(λ\), і визначається як

    \[ x' = \dfrac{x^\lambda-1}{\lambda} \label{eq1}\]

    На перший погляд, хоча формула в Equation\ ref {eq1} є масштабованою версією перетворення Тукі\(x^\lambda\), це перетворення не схоже на формулу Туреччини в Equation (2). Однак більш уважний погляд показує, що коли\(λ < 0\), як\(x_\lambda\) і\(X_{\lambda }^{'}\) змінити знак,\(x^\lambda\) щоб зберегти порядок. Більший інтерес викликає той факт, що коли\(λ = 0\), то змінна Box-Cox є невизначеною формою\(0/0\). Переписування формули Бокса-Кокса як

    \[X_{\lambda }^{'}=\frac{e^{\lambda \log (x)}-1}{\lambda }\approx \frac{\left ( 1+\lambda \log (x) + \tfrac{1}{2}\lambda ^2\log (x)^2 + \cdots \right )-1}{\lambda }\rightarrow \log (x)\]

    як\(\lambda \rightarrow 0\). Цей самий результат також може бути отриманий за допомогою правила L'Hôpital з вашого курсу обчислення. Це дає суворе пояснення припущення Тукі про те, що перетворення журналу (яке не є прикладом перетворення поліномів) може бути вставлено за значенням\(λ = 0\).

    коробка-кокс_рис1 [1] .jpg
    Малюнок\(\PageIndex{1}\): Приклади перетворення Box-Cox\(X_{\lambda }^{'}\) проти\(x\) for\(λ = −1, 0, 1\). У другому ряду наноситься\(X_{\lambda }^{'}\) впритул\(log(x)\). Червона точка знаходиться в\((1, 0)\).

    Зверніть увагу з цим визначенням\(X_{\lambda }^{'}\) того, що\(x = 1\) завжди відображає точку\(X_{\lambda }^{'} = 0\) для всіх значень\(λ\). Щоб побачити, як працює трансформація, подивіться на прикладах на рис\(\PageIndex{1}\). У верхньому ряду вибір\(λ = 1\) просто зміщується\(x\) на значення\(x−1\), яке представляє собою пряму лінію. У нижньому ряду (за напівлогарифмічною шкалою) вибір\(λ = 0\) відповідає логарифмічному перетворенню, яке тепер є прямою лінією. Ми накладаємо більшу колекцію перетворень на напівлогарифмічну шкалу на рис\(\PageIndex{2}\).

    коробка-кокс_рис2 [1] .jpg
    Малюнок\(\PageIndex{2}\): Приклади перетворення Box-Cox\(X_{\lambda }^{'}\) проти\(log(x)\) for\(−2 < λ < 3\). Нижня крива відповідає,\(λ = −2\) а верхня до\(λ = 3\).

    Трансформація до нормальності

    Іншим важливим використанням змінного перетворення є усунення перекосу та інших функцій розподілу, що ускладнюють аналіз. Часто мета полягає в тому, щоб знайти просту трансформацію, яка веде до нормальності. У статті на\(q-q\) ділянках ми обговоримо, як оцінити нормальність набору даних,

    \[x_1,x_2, \ldots ,x_n.\]

    Дані, які є нормальними, ведуть до прямої лінії на графіку q-q. Оскільки коефіцієнт кореляції максимізується, коли діаграма розсіювання лінійна, ми можемо використовувати той самий підхід вище, щоб знайти найбільш нормальне перетворення.

    Зокрема, формуємо\(n\) пари

    \[\left ( \Phi ^{-1} \left ( \frac{i-0.5}{n} \right ), x_{(i)} \right ),\; for\; i=1,2,\cdots ,n\]

    де\(\Phi ^{-1}\) - зворотний CDF нормальної щільності і\(x_{(i)}\) позначає\(i^{th}\) відсортоване значення набору даних. Як приклад розглянемо велику вибірку британських доходів домогосподарств, прийнятих\(1973\), нормованих, щоб мати середнє значення рівне одиниці (\(n = 7125\)). Такі дані часто сильно перекошені, як зрозуміло з малюнка\(\PageIndex{3}\). Дані були відсортовані та поєднані з\(7125\) нормальними квантилями. Значення\(λ\) того, що давало найбільшу кореляцію (\(r = 0.9944\)) було\(λ = 0.21\).

    коробка-кокс_рис3 [1] .jpg
    Малюнок\(\PageIndex{3}\): (L) Графік щільності\(1973\) британських даних про доходи. (R) Найкраще значення\(λ\) є\(0.21\).

    Графік щільності ядра оптимально перетворених даних показаний у лівому кадрі рисунка\(\PageIndex{4}\). Хоча ця цифра набагато менше перекошена, ніж на малюнку\(\PageIndex{3}\), у розподілі явно є додатковий «компонент», який може відображати бідних. Економісти часто аналізують логарифм доходів, відповідний\(λ = 0\); див\(\PageIndex{4}\). Рис. Співвідношення є тільки\(r = 0.9901\) в цьому випадку, але для зручності, ймовірно, буде кращим log-transform.

    коробка-кокс_рис4 [1] .jpg
    Малюнок\(\PageIndex{4}\): (L) Графік щільності\(1973\) британських даних про доходи, перетворений с\(λ = 0.21\). (R) Журнал перетворення с\(λ = 0\).

    Інші програми

    Регресійний аналіз - це ще одна програма, де часто застосовується перетворення змінних. Для моделі

    \[y =\beta_o + \beta_1 x_1 + \beta_2 x_2 + \ldots \beta_p x_p + \epsilon\]

    і приталена модель

    \[\widehat{y}=b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p\]

    кожна зі змінних предиктора\(x_j\) може бути перетворена. Звичайним критерієм є дисперсія залишків, задана

    \[\frac{1}{n} \sum_{i=1}^{n} (\widehat{y}_i-y_i)^2\]

    Іноді змінна відповіді y може трансформуватися. У цьому випадку слід дотримуватися обережності, оскільки дисперсія залишків не порівнянна, оскільки\(λ\) змінюється. \(\bar{g}_y\)Дозволяти представляти середнє геометричне змінних відповіді.

    \[\bar{g}_y = \left ( \prod_{i-1}^{n} y_i \right )^{1/n}\]

    Тоді перетворена відповідь визначається як

    \[y_{\lambda }^{'} = \frac{y^\lambda -1}{\lambda \cdot \bar{g}_{y}^{\lambda -1}}\]

    Коли\(λ = 0\) (логарифмічний випадок),

    \[y_{0}^{'} = \bar{g}_y \cdot \log (y)\]

    Додаткові приклади та обговорення див. Кутнер, Нахтсхайм, Нетер та Лі (2004).

    Посилання

    1. Бокс, Г.Е.П. і Кокс, Д. Р. (1964). Аналіз трансформацій, Журнал Королівського статистичного товариства, Серія B, 26, 211-252.
    2. Кутнер, М., Нахтсхайм, К., Нетер, Дж., і Лі, В. (2004). Прикладні лінійні статистичні моделі, Макгроу-Хілл/Ірвін, Homewood, IL.