16.4: Перетворення коробка-Кокса
Цілі навчання
- Вивчити перетворення Бокса-Кокса
Джордж Бокс і сер Девід Кокс співпрацювали на одному папері (Box,1964). Історія полягає в тому, що в той час як Кокс відвідував Box у Вісконсіні, вони вирішили, що повинні написати папір разом через схожість їх імен (і що обидва британські). Насправді професор Бокс одружений на дочці сера Рональда Фішера.
Перетворення Box-Coxx змінної також індексуєтьсяλ, і визначається як
x′=xλ−1λ
На перший погляд, хоча формула в Equation\ ref {eq1} є масштабованою версією перетворення Тукіxλ, це перетворення не схоже на формулу Туреччини в Equation (2). Однак більш уважний погляд показує, що колиλ<0, якxλ іX′λ змінити знак,xλ щоб зберегти порядок. Більший інтерес викликає той факт, що колиλ=0, то змінна Box-Cox є невизначеною формою0/0. Переписування формули Бокса-Кокса як
X′λ=eλlog(x)−1λ≈(1+λlog(x)+12λ2log(x)2+⋯)−1λ→log(x)
якλ→0. Цей самий результат також може бути отриманий за допомогою правила L'Hôpital з вашого курсу обчислення. Це дає суворе пояснення припущення Тукі про те, що перетворення журналу (яке не є прикладом перетворення поліномів) може бути вставлено за значеннямλ=0.
![коробка-кокс_рис1 [1] .jpg](https://stats.libretexts.org/@api/deki/files/1236/box-cox_fig1%255B1%255D.jpg)
Зверніть увагу з цим визначеннямX′λ того, щоx=1 завжди відображає точкуX′λ=0 для всіх значеньλ. Щоб побачити, як працює трансформація, подивіться на прикладах на рис16.4.1. У верхньому ряду вибірλ=1 просто зміщуєтьсяx на значенняx−1, яке представляє собою пряму лінію. У нижньому ряду (за напівлогарифмічною шкалою) вибірλ=0 відповідає логарифмічному перетворенню, яке тепер є прямою лінією. Ми накладаємо більшу колекцію перетворень на напівлогарифмічну шкалу на рис16.4.2.
![коробка-кокс_рис2 [1] .jpg](https://stats.libretexts.org/@api/deki/files/1237/box-cox_fig2%255B1%255D.jpg)
Трансформація до нормальності
Іншим важливим використанням змінного перетворення є усунення перекосу та інших функцій розподілу, що ускладнюють аналіз. Часто мета полягає в тому, щоб знайти просту трансформацію, яка веде до нормальності. У статті наq−q ділянках ми обговоримо, як оцінити нормальність набору даних,
x1,x2,…,xn.
Дані, які є нормальними, ведуть до прямої лінії на графіку q-q. Оскільки коефіцієнт кореляції максимізується, коли діаграма розсіювання лінійна, ми можемо використовувати той самий підхід вище, щоб знайти найбільш нормальне перетворення.
Зокрема, формуємоn пари
(Φ−1(i−0.5n),x(i)),fori=1,2,⋯,n
деΦ−1 - зворотний CDF нормальної щільності іx(i) позначаєith відсортоване значення набору даних. Як приклад розглянемо велику вибірку британських доходів домогосподарств, прийнятих1973, нормованих, щоб мати середнє значення рівне одиниці (n=7125). Такі дані часто сильно перекошені, як зрозуміло з малюнка16.4.3. Дані були відсортовані та поєднані з7125 нормальними квантилями. Значенняλ того, що давало найбільшу кореляцію (r=0.9944) булоλ=0.21.
![коробка-кокс_рис3 [1] .jpg](https://stats.libretexts.org/@api/deki/files/1238/box-cox_fig3%255B1%255D.jpg)
Графік щільності ядра оптимально перетворених даних показаний у лівому кадрі рисунка16.4.4. Хоча ця цифра набагато менше перекошена, ніж на малюнку16.4.3, у розподілі явно є додатковий «компонент», який може відображати бідних. Економісти часто аналізують логарифм доходів, відповіднийλ=0; див16.4.4. Рис. Співвідношення є тількиr=0.9901 в цьому випадку, але для зручності, ймовірно, буде кращим log-transform.
![коробка-кокс_рис4 [1] .jpg](https://stats.libretexts.org/@api/deki/files/1239/box-cox_fig4%255B1%255D.jpg)
Інші програми
Регресійний аналіз - це ще одна програма, де часто застосовується перетворення змінних. Для моделі
y=βo+β1x1+β2x2+…βpxp+ϵ
і приталена модель
ˆy=b0+b1x1+b2x2+⋯+bpxp
кожна зі змінних предиктораxj може бути перетворена. Звичайним критерієм є дисперсія залишків, задана
1nn∑i=1(ˆyi−yi)2
Іноді змінна відповіді y може трансформуватися. У цьому випадку слід дотримуватися обережності, оскільки дисперсія залишків не порівнянна, оскількиλ змінюється. ˉgyДозволяти представляти середнє геометричне змінних відповіді.
ˉgy=(n∏i−1yi)1/n
Тоді перетворена відповідь визначається як
y′λ=yλ−1λ⋅ˉgλ−1y
Колиλ=0 (логарифмічний випадок),
y′0=ˉgy⋅log(y)
Додаткові приклади та обговорення див. Кутнер, Нахтсхайм, Нетер та Лі (2004).
Посилання
- Бокс, Г.Е.П. і Кокс, Д. Р. (1964). Аналіз трансформацій, Журнал Королівського статистичного товариства, Серія B, 26, 211-252.
- Кутнер, М., Нахтсхайм, К., Нетер, Дж., і Лі, В. (2004). Прикладні лінійні статистичні моделі, Макгроу-Хілл/Ірвін, Homewood, IL.