8.1: Q-Q ділянки
Цілі навчання
- Створіть, для якихq−q ділянок використовуються.
- Опишіть формуq−q ділянки при дотриманні розподільного припущення.
- Вміти створити нормальнийq−q сюжет.
Квантіль абоq−q графік - це дослідницький графічний пристрій, який використовується для перевірки дійсності розподільного припущення для набору даних. Загалом, основна ідея полягає в обчисленні теоретично очікуваного значення для кожної точки даних на основі розглянутого розподілу. Якщо дані дійсно йдуть за передбачуваним розподілом, то точки наq−q ділянці будуть падати приблизно на пряму.
Перш ніж заглиблюватися в подробиціq−q графіків, ми спочатку опишемо два пов'язаних графічних методу оцінки розподільних припущень: гістограму і функцію кумулятивного розподілу (CDF). Як буде видно,q−q сюжети більш загальні, ніж ці альтернативи.
Оцінка розподільних припущень
Як приклад розглянемо дані, виміряні з фізичного пристрою, такого як вертушка, зображена на малюнку8.1.1. Червона стрілка обертається навколо центру, а коли стрілка перестає обертатися,1 записується число між0 і. Чи можемо ми визначити, чи справедливий спиннер?

Якщо вертушка справедлива, то ці цифри повинні слідувати рівномірному розподілу. Щоб дослідити, чи є вертушка справедливим, оберніть стрілкуn раз, і запишіть вимірювання поμ1,μ2,...,μn. У цьому прикладі ми збираємоn=100 зразки. Гістограма забезпечує корисну візуалізацію цих даних. На малюнку8.1.2 ми показуємо три різні гістограми за шкалою ймовірності. Гістограма повинна бути плоскою для рівномірного зразка, але візуальне сприйняття змінюється залежно від того, чи є гістограма105, або3 контейнери. Остання гістограма виглядає плоскою, але дві інші гістограми явно не плоскі. Незрозуміло, на якій гістограмі ми повинні спиратися на свій висновок.

Крім того, ми можемо використовувати функцію кумулятивного розподілу (CDF), яка позначається символомF(μ). CDF дає ймовірність того, що спиннер дає значення менше або рівне, тобто ймовірність тогоμ, що червона стрілка приземлиться в проміжку[0,μ]. За допомогою простої арифметикиF(μ)=μ, яка представляє собою діагональну пряму лініюy=x. CDF на основі даних вибірки називається емпіричним CDF (ECDF)ˆFn(u), позначається і визначається як частка даних менше або дорівнюєμ; тобто
ˆFn(u)=#ui≤un
Загалом, ECDF набуває рваний сходовий вигляд.
Для зразка вертушки, проаналізованого на малюнку8.1.2, ми обчислили ECDF і CDF, які відображаються на малюнку8.1.3. У лівому кадрі ECDF з'являється близько до лініїy=x, показаної в середньому кадрі. У правій рамці ми накладаємо ці дві криві і перевіряємо, що вони дійсно досить близько один до одного. Зверніть увагу, що нам не потрібно вказувати кількість бункерів, як при гістограмі.

q-q графік для рівномірних даних
Графікq−q для рівномірних даних дуже схожий на емпіричну графіку CDF, за винятком перевернутих осей. q−qСюжет забезпечує наочне порівняння квантилей вибірки з відповідними теоретичними квантилями. Взагалі, якщо точки наq−q ділянці відходять від прямої, то передбачуваний розподіл ставиться під сумнів.
Тут ми визначаємо q-ю квантиль партії з n чисел як число,ξq таке, що дріб q x n зразка меншеξq, тоді як(1−q)×n частка зразка більшеξq. Найвідомішим квантилем є медіанаξ0.5, яка розташовується посередині вибірки.
Розглянемо невеликий зразок5 чисел від спиннера:
μ1=0.41,μ2=0.24,μ3=0.59,μ4=0.03,μ5=0.67
Виходячи з нашого опису вертушки, ми очікуємо рівномірного розподілу для моделювання цих даних. Якби вибіркові дані були «ідеальними», то в середньому було б спостереження посередині кожного з5 інтервалів:00.20.2 to0.4,0.4 to0.6, to і так далі. Таблиця8.1.1 показує точки5 даних (відсортовані за зростанням) і теоретично очікуване значення кожної з них виходячи з припущення, що розподіл рівномірний (середина інтервалу).
Дані (μ) | Ранг (i) | Середина в інтервалі |
---|---|---|
0,03 | 1 | 0.1 |
0,24 | 2 | 0.3 |
0,41 | 3 | 0.5 |
0,59 | 4 | 0.7 |
0,67 | 5 | 0.9 |
Теоретичні та емпіричні CDF показані на малюнку,8.1.4 аq−q графік показаний у лівій рамці рисунка8.1.5.

Загалом, повний набір квантилей вибірки ми вважаємо відсортованими значеннями даних
μ(1)<μ(2)<μ(3)<…<μ(n−1)<μ(n),
де дужки в індексі вказують на те, що дані були впорядковані. Грубо кажучи, ми очікуємо, що перше впорядковане значення буде в середині інтервалу(0,1/n), друге - в середині інтервалу(1/n,2/n), а останнє - в середині інтервалу(n−1n,1). Таким чином, візьмемо за теоретичний квантиль значення
ξq=q≈i−0.5n
деq відповідаєith впорядкованому значенню вибірки. Віднімаємо кількість0.5 так, щоб опинилися рівно посередині інтервалу(i−1n,in). Ці ідеї зображені в правій рамці малюнка8.1.4 для нашого невеликого зразка розміруn=5.
Тепер ми готові точно визначитися зq−q сюжетом. Спочатку ми обчислюємо n очікуваних значень даних, які ми поєднуємо з n точок даних, відсортованих у порядку зростання. Для рівномірної щільностіq−q ділянку складається зn впорядкованих пар
(i−0.5n,ui),fori=1,2,⋯,n
Це визначення трохи відрізняється від ECDF, яке включає в себе пункти(ui,in). У лівій рамці8.1.5 малюнка виводимоq−q графік5 точок в табл8.1.1. У правих двох кадрах Figure8.1.5 ми виводимоq−q графік тієї ж партії чисел, що використовується на малюнку8.1.2. У кінцевому кадрі складаємо діагональну лініюy=x як точку відліку.

Розмір вибірки слід враховувати, судячи про те, наскільки близькийq−q ділянку до прямої. Ми показуємо два інших рівномірних зразка розміруn=10 іn=1000 на малюнку8.1.6. Зверніть увагу, щоq−q сюжет колиn=1000 практично ідентичний лініїy=x, тоді як такий не той випадок, коли розмір вибірки є тількиn=10.

На малюнку8.1.7 ми показуємоq−q графіки двох випадкових зразків, які не є однорідними. В обох прикладах квантилі вибірки відповідають теоретичним квантилям лише на медіані та в крайніх точках. Обидва зразки здаються симетричними навколо медіани. Але дані в лівому кадрі ближче до медіани, ніж очікувалося б, якби дані були рівномірними. Дані в правій рамці знаходяться далі від медіани, ніж можна було б очікувати, якби дані були рівномірними.

Фактично дані генерувалисяR мовою з бета-дистрибутивів з параметрамиa=b=3a=b=0.4 зліва і справа. На малюнку8.1.8 ми показуємо гістограми цих двох наборів даних, які служать для уточнення істинних форм щільностей. Вони явно неоднорідні.

q-q графік для нормальних даних
Визначенняq−q ділянки може бути розширено на будь-яку суцільну щільність. q−qДілянка буде близький до прямої, якщо передбачувана щільність правильна. Оскільки кумулятивна функція розподілу рівномірної щільності була прямою лінією,q−q графік було дуже легко побудувати. Для даних, які не є однорідними, теоретичні квантилі повинні обчислюватися іншим способом.
Нехайz1,z2,...,zn позначають випадкову вибірку з нормального розподілу із середнімμ=0 і стандартним відхиленнямσ=1. Нехай впорядковані значення позначаються
z(1)<z(2)<z(3)<…<z(n−1)<z(n)
Ці n впорядкованих значень гратимуть роль квантилей вибірки.
Розглянемо зразок5 значень з розподілу, щоб побачити, як вони порівнюються з тим, що очікувалося б при нормальному розподілі. 5Значення у порядку зростання показані в першому стовпці таблиці8.1.2.
Дані (z) | Ранг (i) | Середина в інтервалі | Звичайний (z) |
---|---|---|---|
-1.96 | 1 | 0.1 | -1.28 |
-0.78 | 2 | 0.3 | -0.52 |
0,31 | 3 | 0.5 | 0.00 |
1.15 | 4 | 0.7 | 0,52 |
1.62 | 5 | 0.9 | 1.28 |
Так само, як і у випадку з рівномірним розподілом, у нас є5 інтервали. Однак при нормальному розподілі теоретичний квантиль - це не середина інтервалу, а навпаки нормального розподілу для середини інтервалу. Беручи перший інтервал як приклад, ми хочемо знати такеz0.1 значення, що площі в нормальному розподілі нижчеz. Це можна обчислити за допомогою зворотного нормального калькулятора, як показано на малюнку8.1.9. Просто встановіть поле «Shaded Area» на середину інтервалу (0.1) і натисніть на кнопку «Нижче». Результат є−1.28. Тому10% розподіл нижчеz значення−1.28.

q−qГрафік для даних у таблиці8.1.2 показаний в лівому кадрі рисунка8.1.11.
Загалом, що ми повинні прийняти як відповідні теоретичні квантилі? Нехай кумулятивна функція розподілу нормальної щільності позначається значеннямΦ(z). У попередньому прикладіΦ(−1.28)=0.10 іΦ(0.00)=0.50. Використовуючи квантильні позначення,ξq якщоqth квантиль нормального розподілу, то
Φ(ξq)=q
Тобто ймовірність нормальної вибірки менше, ніжξq насправді простоq.
Розглянемо перше впорядковане значення,z1. Що ми можемо очікувати, що значенняΦ(z1) буде? Інтуїтивно ми очікуємо, що ця ймовірність прийме значення в інтервалі(0,1/n). Так само ми очікуємоΦ(z2) взяти на себе значення в інтервалі(1/n,2/n). Продовжуючи, миΦ(zn) очікуємо падіння в інтервалі((n−1)/n,1). Таким чином, теоретичний квантиль, який ми бажаємо, визначається зворотним (не зворотним) нормальним CDF. Зокрема, теоретичний квантиль, відповідний емпіричному квантілі,zi повинен бути
ξq≈i−0.5n
дляi=1,2,…,n.
Емпірична CDF та теоретична квантильна побудова для невеликої вибірки, наведеної в таблиці8.1.2, відображені на рисунку8.1.10. Для більшої100 вибірки розміру перші кілька очікуваних квантилей є−2.576−2.170, і−1.960.

У лівій рамці рисунка ми виводимо графік невеликого нормального зразка8.1.11, наведеного в табл8.1.2.q−q Решта кадрів на малюнку8.1.11 відображаютьq−q графіки звичайних випадкових зразків розміруn=100 іn=1000. У міру збільшення розміру вибірки точки наq−q ділянках лежать ближче до лініїy=x.

Як і раніше, нормальнийq−q сюжет може свідчити про відступи від нормальності. Два найпоширеніших приклади - це перекошені дані та дані з важкими хвостами (великий куртоз). На малюнку8.1.12 ми показуємоq−q нормальні графіки для набору даних з чі-квадратом (перекосом) та набору даних Student's-t (kurtotic), обидва розміруn=1000. Дані були вперше стандартизовані. Червона лінія зновуy=x. Зверніть увагу, зокрема, що дані зt розподілу дотримуються нормальної кривої досить близько, поки останній десяток або близько того не вказує на кожну крайність.

q-q графіки для нормальних даних із загальним середнім та масштабом
Наше попереднє обговоренняq−q ділянок для нормальних даних все передбачало, що наші дані були стандартизовані. Один з підходів до побудовиq−q ділянок полягає в тому, щоб спочатку стандартизувати дані, а потім продовжити, як описано раніше. Альтернативою є побудова сюжету безпосередньо з необроблених даних.
У цьому розділі ми наведемо загальний підхід до даних, які не стандартизовані. Чому ми стандартизували дані на малюнку8.1.12? q−qСюжет складається зn точок
(Φ−1(i−5n),zi)fori=1,2,...,n
Якщо вихідні дані {zi} нормальні, але мають довільне середнєμ і стандартне відхиленняσ, то лінія неy=x буде відповідати очікуваним теоретичним квантилям. Зрозуміло, що лінійне перетворення
μ+σξq
забезпечитьqth теоретичний квантиль за перетвореною шкалою. На практиці, з новим набором даних{x1,x2,…,xn},
нормальнийq−q сюжет буде складатися з n точок
(Φ−1(i−5n),xi)fori=1,2,...,n
Замість побудови лініїy=x як опорної лінії, лінія
y=M+s·x
повинні складатися, деM іs знаходяться вибіркові моменти (середнє і стандартне відхилення), відповідні теоретичним моментамμ іσ. Крім того, якщо дані стандартизовані, то лініяy=x буде доречною, оскільки тепер середнє значення зразка буде0 і стандартне відхилення вибірки буде1.
Приклад8.1.1: SAT Case Study
Тематичне дослідження SAT слідувало за академічними досягненнями студентів105 коледжів за спеціальністю «інформатика». Перша змінна - це їх словесний бал SAT, а друга - середній бал (GPA) на рівні університету. Перш ніж обчислити статистику висновків за допомогою цих змінних, ми повинні перевірити, чи нормальні їх розподіли. На малюнку8.1.13 ми виводимоq−q сюжети словесних змінних SAT і університетських GPA.

Словесний SAT, здається, досить добре дотримується нормального розподілу, за винятком крайніх хвостів. Однак університетська змінна GPA є дуже ненормальною. Порівняйте графік GPAq−q з моделюванням у правій рамці малюнка8.1.7. Ці цифри дуже схожі, за винятком регіону деx≈−1. Щоб слідувати цим ідеям, ми обчислили гістограми змінних та їх діаграму розкиду на малюнку8.1.14. Ці цифри розповідають зовсім іншу історію. Університет GPA є бімодальним,20% з близько студентів потрапляють в окремий кластер з оцінкоюC. Діаграма розкиду досить незвичайна. Хоча студенти в цьому кластері мають нижче середнього словесних балів SAT, є стільки студентів з низькими балами SAT, чий GPA були досить респектабельними. Ми можемо спекулювати щодо причини (ів): різні відволікання, різні звички до вивчення, але це були б лише спекуляції. Але зауважте, що сира кореляція між словесним SAT і GPA є досить високою0.65, але коли ми виключаємо кластер, кореляція для86 решти студентів трохи падає0.59.

Обговорення
Параметричне моделювання зазвичай передбачає прийняття припущень щодо форми даних або форми залишків від регресійного прилягання. Перевірка таких припущень може приймати різні форми, але дослідження форми за допомогою гістограм іq−q графіків є дуже ефективним. q−qГрафік не має жодних конструктивних параметрів, таких як кількість бункерів для гістограми.
У просунутому лікуванніq−q сюжет може бути використаний для формального тестування нульової гіпотези про те, що дані є нормальними. Це робиться шляхом обчислення коефіцієнта кореляціїn точок наq−q ділянці. Залежно від цьогоn, нульова гіпотеза відхиляється, якщо коефіцієнт кореляції менше порогового. Поріг вже досить близький до0.95 для скромних розмірів вибірки.
Ми бачили, щоq−q сюжет для рівномірних даних дуже тісно пов'язаний з емпіричною функцією кумулятивного розподілу. Для функцій загальної щільності так зване інтегральне перетворення ймовірності приймає випадковуX величину і зіставляє її з інтервалом (0,1) через CDFX самого себе, тобто
Y=FX(X)
який, як було показано, є рівномірною щільністю. Це пояснює, чомуq−q графік на стандартизованих даних завжди близький до лінії,y=x коли модель правильна.
Нарешті, вчені роками використовували спеціальний графічний папір, щоб зробити відносини лінійними (прямі). Найпоширенішим прикладом раніше був напівжурнальний папір, на якому точки, що слідують за формулою,y=aebx виглядають лінійними. Це випливає, звичайноlog(y)=log(a)+bx, оскільки, що є рівнянням для прямої лінії. Графікиq−q можуть розглядатися як «графічний папір ймовірності», який робить графік впорядкованих значень даних у пряму лінію. Кожна щільність має свою особливу вірогідність графічного паперу.