Loading [MathJax]/jax/output/HTML-CSS/jax.js
Skip to main content
LibreTexts - Ukrayinska

16.4: Перетворення коробка-Кокса

Цілі навчання

  • Вивчити перетворення Бокса-Кокса

Джордж Бокс і сер Девід Кокс співпрацювали на одному папері (Box,1964). Історія полягає в тому, що в той час як Кокс відвідував Box у Вісконсіні, вони вирішили, що повинні написати папір разом через схожість їх імен (і що обидва британські). Насправді професор Бокс одружений на дочці сера Рональда Фішера.

Перетворення Box-Coxx змінної також індексуєтьсяλ, і визначається як

x=xλ1λ

На перший погляд, хоча формула в Equation\ ref {eq1} є масштабованою версією перетворення Тукіxλ, це перетворення не схоже на формулу Туреччини в Equation (2). Однак більш уважний погляд показує, що колиλ<0, якxλ іXλ змінити знак,xλ щоб зберегти порядок. Більший інтерес викликає той факт, що колиλ=0, то змінна Box-Cox є невизначеною формою0/0. Переписування формули Бокса-Кокса як

Xλ=eλlog(x)1λ(1+λlog(x)+12λ2log(x)2+)1λlog(x)

якλ0. Цей самий результат також може бути отриманий за допомогою правила L'Hôpital з вашого курсу обчислення. Це дає суворе пояснення припущення Тукі про те, що перетворення журналу (яке не є прикладом перетворення поліномів) може бути вставлено за значеннямλ=0.

коробка-кокс_рис1 [1] .jpg
Малюнок16.4.1: Приклади перетворення Box-CoxXλ протиx forλ=1,0,1. У другому ряду наноситьсяXλ впритулlog(x). Червона точка знаходиться в(1,0).

Зверніть увагу з цим визначеннямXλ того, щоx=1 завжди відображає точкуXλ=0 для всіх значеньλ. Щоб побачити, як працює трансформація, подивіться на прикладах на рис16.4.1. У верхньому ряду вибірλ=1 просто зміщуєтьсяx на значенняx1, яке представляє собою пряму лінію. У нижньому ряду (за напівлогарифмічною шкалою) вибірλ=0 відповідає логарифмічному перетворенню, яке тепер є прямою лінією. Ми накладаємо більшу колекцію перетворень на напівлогарифмічну шкалу на рис16.4.2.

коробка-кокс_рис2 [1] .jpg
Малюнок16.4.2: Приклади перетворення Box-CoxXλ протиlog(x) for2<λ<3. Нижня крива відповідає,λ=2 а верхня доλ=3.

Трансформація до нормальності

Іншим важливим використанням змінного перетворення є усунення перекосу та інших функцій розподілу, що ускладнюють аналіз. Часто мета полягає в тому, щоб знайти просту трансформацію, яка веде до нормальності. У статті наqq ділянках ми обговоримо, як оцінити нормальність набору даних,

x1,x2,,xn.

Дані, які є нормальними, ведуть до прямої лінії на графіку q-q. Оскільки коефіцієнт кореляції максимізується, коли діаграма розсіювання лінійна, ми можемо використовувати той самий підхід вище, щоб знайти найбільш нормальне перетворення.

Зокрема, формуємоn пари

(Φ1(i0.5n),x(i)),fori=1,2,,n

деΦ1 - зворотний CDF нормальної щільності іx(i) позначаєith відсортоване значення набору даних. Як приклад розглянемо велику вибірку британських доходів домогосподарств, прийнятих1973, нормованих, щоб мати середнє значення рівне одиниці (n=7125). Такі дані часто сильно перекошені, як зрозуміло з малюнка16.4.3. Дані були відсортовані та поєднані з7125 нормальними квантилями. Значенняλ того, що давало найбільшу кореляцію (r=0.9944) булоλ=0.21.

коробка-кокс_рис3 [1] .jpg
Малюнок16.4.3: (L) Графік щільності1973 британських даних про доходи. (R) Найкраще значенняλ є0.21.

Графік щільності ядра оптимально перетворених даних показаний у лівому кадрі рисунка16.4.4. Хоча ця цифра набагато менше перекошена, ніж на малюнку16.4.3, у розподілі явно є додатковий «компонент», який може відображати бідних. Економісти часто аналізують логарифм доходів, відповіднийλ=0; див16.4.4. Рис. Співвідношення є тількиr=0.9901 в цьому випадку, але для зручності, ймовірно, буде кращим log-transform.

коробка-кокс_рис4 [1] .jpg
Малюнок16.4.4: (L) Графік щільності1973 британських даних про доходи, перетворений сλ=0.21. (R) Журнал перетворення сλ=0.

Інші програми

Регресійний аналіз - це ще одна програма, де часто застосовується перетворення змінних. Для моделі

y=βo+β1x1+β2x2+βpxp+ϵ

і приталена модель

ˆy=b0+b1x1+b2x2++bpxp

кожна зі змінних предиктораxj може бути перетворена. Звичайним критерієм є дисперсія залишків, задана

1nni=1(ˆyiyi)2

Іноді змінна відповіді y може трансформуватися. У цьому випадку слід дотримуватися обережності, оскільки дисперсія залишків не порівнянна, оскількиλ змінюється. ˉgyДозволяти представляти середнє геометричне змінних відповіді.

ˉgy=(ni1yi)1/n

Тоді перетворена відповідь визначається як

yλ=yλ1λˉgλ1y

Колиλ=0 (логарифмічний випадок),

y0=ˉgylog(y)

Додаткові приклади та обговорення див. Кутнер, Нахтсхайм, Нетер та Лі (2004).

Посилання

  1. Бокс, Г.Е.П. і Кокс, Д. Р. (1964). Аналіз трансформацій, Журнал Королівського статистичного товариства, Серія B, 26, 211-252.
  2. Кутнер, М., Нахтсхайм, К., Нетер, Дж., і Лі, В. (2004). Прикладні лінійні статистичні моделі, Макгроу-Хілл/Ірвін, Homewood, IL.