Processing math: 100%
Skip to main content
LibreTexts - Ukrayinska

8.1: Q-Q ділянки

Цілі навчання

  • Створіть, для якихqq ділянок використовуються.
  • Опишіть формуqq ділянки при дотриманні розподільного припущення.
  • Вміти створити нормальнийqq сюжет.

Квантіль абоqq графік - це дослідницький графічний пристрій, який використовується для перевірки дійсності розподільного припущення для набору даних. Загалом, основна ідея полягає в обчисленні теоретично очікуваного значення для кожної точки даних на основі розглянутого розподілу. Якщо дані дійсно йдуть за передбачуваним розподілом, то точки наqq ділянці будуть падати приблизно на пряму.

Перш ніж заглиблюватися в подробиціqq графіків, ми спочатку опишемо два пов'язаних графічних методу оцінки розподільних припущень: гістограму і функцію кумулятивного розподілу (CDF). Як буде видно,qq сюжети більш загальні, ніж ці альтернативи.

Оцінка розподільних припущень

Як приклад розглянемо дані, виміряні з фізичного пристрою, такого як вертушка, зображена на малюнку8.1.1. Червона стрілка обертається навколо центру, а коли стрілка перестає обертатися,1 записується число між0 і. Чи можемо ми визначити, чи справедливий спиннер?

q-q_spinner.jpg
Малюнок8.1.1: Фізичний пристрій, який дає зразки з рівномірного розподілу

Якщо вертушка справедлива, то ці цифри повинні слідувати рівномірному розподілу. Щоб дослідити, чи є вертушка справедливим, оберніть стрілкуn раз, і запишіть вимірювання поμ1,μ2,...,μn. У цьому прикладі ми збираємоn=100 зразки. Гістограма забезпечує корисну візуалізацію цих даних. На малюнку8.1.2 ми показуємо три різні гістограми за шкалою ймовірності. Гістограма повинна бути плоскою для рівномірного зразка, але візуальне сприйняття змінюється залежно від того, чи є гістограма105, або3 контейнери. Остання гістограма виглядає плоскою, але дві інші гістограми явно не плоскі. Незрозуміло, на якій гістограмі ми повинні спиратися на свій висновок.

histograms.jpg
Малюнок: Три8.1.2 гістограми вибірки рівномірних100 точок

Крім того, ми можемо використовувати функцію кумулятивного розподілу (CDF), яка позначається символомF(μ). CDF дає ймовірність того, що спиннер дає значення менше або рівне, тобто ймовірність тогоμ, що червона стрілка приземлиться в проміжку[0,μ]. За допомогою простої арифметикиF(μ)=μ, яка представляє собою діагональну пряму лініюy=x. CDF на основі даних вибірки називається емпіричним CDF (ECDF)ˆFn(u), позначається і визначається як частка даних менше або дорівнюєμ; тобто

ˆFn(u)=#uiun

Загалом, ECDF набуває рваний сходовий вигляд.

Для зразка вертушки, проаналізованого на малюнку8.1.2, ми обчислили ECDF і CDF, які відображаються на малюнку8.1.3. У лівому кадрі ECDF з'являється близько до лініїy=x, показаної в середньому кадрі. У правій рамці ми накладаємо ці дві криві і перевіряємо, що вони дійсно досить близько один до одного. Зверніть увагу, що нам не потрібно вказувати кількість бункерів, як при гістограмі.

cdf_fig3.jpg
Рисунок8.1.3: Емпіричні та теоретичні функції кумулятивного розподілу зразка100 рівномірних точок

q-q графік для рівномірних даних

Графікqq для рівномірних даних дуже схожий на емпіричну графіку CDF, за винятком перевернутих осей. qqСюжет забезпечує наочне порівняння квантилей вибірки з відповідними теоретичними квантилями. Взагалі, якщо точки наqq ділянці відходять від прямої, то передбачуваний розподіл ставиться під сумнів.

Тут ми визначаємо q-ю квантиль партії з n чисел як число,ξq таке, що дріб q x n зразка меншеξq, тоді як(1q)×n частка зразка більшеξq. Найвідомішим квантилем є медіанаξ0.5, яка розташовується посередині вибірки.

Розглянемо невеликий зразок5 чисел від спиннера:

μ1=0.41,μ2=0.24,μ3=0.59,μ4=0.03,μ5=0.67

Виходячи з нашого опису вертушки, ми очікуємо рівномірного розподілу для моделювання цих даних. Якби вибіркові дані були «ідеальними», то в середньому було б спостереження посередині кожного з5 інтервалів:00.20.2 to0.4,0.4 to0.6, to і так далі. Таблиця8.1.1 показує точки5 даних (відсортовані за зростанням) і теоретично очікуване значення кожної з них виходячи з припущення, що розподіл рівномірний (середина інтервалу).

Таблиця8.1.1: Обчислення очікуваних значень квантилей

Дані (μ) Ранг (i) Середина в інтервалі
0,03 1 0.1
0,24 2 0.3
0,41 3 0.5
0,59 4 0.7
0,67 5 0.9

Теоретичні та емпіричні CDF показані на малюнку,8.1.4 аqq графік показаний у лівій рамці рисунка8.1.5.

cdf_fig4.jpg
Малюнок8.1.4: Теоретичні та емпіричні CDF невеликої вибірки5 рівномірних точок разом із очікуваними значеннями5 точок (червоні точки у правій рамці)

Загалом, повний набір квантилей вибірки ми вважаємо відсортованими значеннями даних

μ(1)<μ(2)<μ(3)<<μ(n1)<μ(n),

де дужки в індексі вказують на те, що дані були впорядковані. Грубо кажучи, ми очікуємо, що перше впорядковане значення буде в середині інтервалу(0,1/n), друге - в середині інтервалу(1/n,2/n), а останнє - в середині інтервалу(n1n,1). Таким чином, візьмемо за теоретичний квантиль значення

ξq=qi0.5n

деq відповідаєith впорядкованому значенню вибірки. Віднімаємо кількість0.5 так, щоб опинилися рівно посередині інтервалу(i1n,in). Ці ідеї зображені в правій рамці малюнка8.1.4 для нашого невеликого зразка розміруn=5.

Тепер ми готові точно визначитися зqq сюжетом. Спочатку ми обчислюємо n очікуваних значень даних, які ми поєднуємо з n точок даних, відсортованих у порядку зростання. Для рівномірної щільностіqq ділянку складається зn впорядкованих пар

(i0.5n,ui),fori=1,2,,n

Це визначення трохи відрізняється від ECDF, яке включає в себе пункти(ui,in). У лівій рамці8.1.5 малюнка виводимоqq графік5 точок в табл8.1.1. У правих двох кадрах Figure8.1.5 ми виводимоqq графік тієї ж партії чисел, що використовується на малюнку8.1.2. У кінцевому кадрі складаємо діагональну лініюy=x як точку відліку.

figure5_q-q_plots.jpg
Малюнок8.1.5: (Ліворуч)qq графік5 рівномірних точок. (Праворуч)qq ділянка зразка100 рівномірних точок

Розмір вибірки слід враховувати, судячи про те, наскільки близькийqq ділянку до прямої. Ми показуємо два інших рівномірних зразка розміруn=10 іn=1000 на малюнку8.1.6. Зверніть увагу, щоqq сюжет колиn=1000 практично ідентичний лініїy=x, тоді як такий не той випадок, коли розмір вибірки є тількиn=10.

qq_fig_6.jpg
Малюнок8.1.6:qq ділянки вибірки10 і1000 рівномірних точок

На малюнку8.1.7 ми показуємоqq графіки двох випадкових зразків, які не є однорідними. В обох прикладах квантилі вибірки відповідають теоретичним квантилям лише на медіані та в крайніх точках. Обидва зразки здаються симетричними навколо медіани. Але дані в лівому кадрі ближче до медіани, ніж очікувалося б, якби дані були рівномірними. Дані в правій рамці знаходяться далі від медіани, ніж можна було б очікувати, якби дані були рівномірними.

qq_fig7.jpg
Малюнок8.1.7. qqділянки двох зразків розміру1000, які не є однорідними.

Фактично дані генерувалисяR мовою з бета-дистрибутивів з параметрамиa=b=3a=b=0.4 зліва і справа. На малюнку8.1.8 ми показуємо гістограми цих двох наборів даних, які служать для уточнення істинних форм щільностей. Вони явно неоднорідні.

histograms_fig8.jpg
Рисунок8.1.8: Гістограми двох неоднорідних наборів даних

q-q графік для нормальних даних

Визначенняqq ділянки може бути розширено на будь-яку суцільну щільність. qqДілянка буде близький до прямої, якщо передбачувана щільність правильна. Оскільки кумулятивна функція розподілу рівномірної щільності була прямою лінією,qq графік було дуже легко побудувати. Для даних, які не є однорідними, теоретичні квантилі повинні обчислюватися іншим способом.

Нехайz1,z2,...,zn позначають випадкову вибірку з нормального розподілу із середнімμ=0 і стандартним відхиленнямσ=1. Нехай впорядковані значення позначаються

z(1)<z(2)<z(3)<<z(n1)<z(n)

Ці n впорядкованих значень гратимуть роль квантилей вибірки.

Розглянемо зразок5 значень з розподілу, щоб побачити, як вони порівнюються з тим, що очікувалося б при нормальному розподілі. 5Значення у порядку зростання показані в першому стовпці таблиці8.1.2.

Таблиця8.1.2: Обчислення очікуваних значень квантилей для нормальних даних.
Дані (z) Ранг (i) Середина в інтервалі Звичайний (z)
-1.96 1 0.1 -1.28
-0.78 2 0.3 -0.52
0,31 3 0.5 0.00
1.15 4 0.7 0,52
1.62 5 0.9 1.28

Так само, як і у випадку з рівномірним розподілом, у нас є5 інтервали. Однак при нормальному розподілі теоретичний квантиль - це не середина інтервалу, а навпаки нормального розподілу для середини інтервалу. Беручи перший інтервал як приклад, ми хочемо знати такеz0.1 значення, що площі в нормальному розподілі нижчеz. Це можна обчислити за допомогою зворотного нормального калькулятора, як показано на малюнку8.1.9. Просто встановіть поле «Shaded Area» на середину інтервалу (0.1) і натисніть на кнопку «Нижче». Результат є1.28. Тому10% розподіл нижчеz значення1.28.

normal_fig9.jpg
Рисунок8.1.9: Приклад калькулятора оберненої нормалі для знаходження значення очікуваної квантилі з нормального розподілу

qqГрафік для даних у таблиці8.1.2 показаний в лівому кадрі рисунка8.1.11.

Загалом, що ми повинні прийняти як відповідні теоретичні квантилі? Нехай кумулятивна функція розподілу нормальної щільності позначається значеннямΦ(z). У попередньому прикладіΦ(1.28)=0.10 іΦ(0.00)=0.50. Використовуючи квантильні позначення,ξq якщоqth квантиль нормального розподілу, то

Φ(ξq)=q

Тобто ймовірність нормальної вибірки менше, ніжξq насправді простоq.

Розглянемо перше впорядковане значення,z1. Що ми можемо очікувати, що значенняΦ(z1) буде? Інтуїтивно ми очікуємо, що ця ймовірність прийме значення в інтервалі(0,1/n). Так само ми очікуємоΦ(z2) взяти на себе значення в інтервалі(1/n,2/n). Продовжуючи, миΦ(zn) очікуємо падіння в інтервалі((n1)/n,1). Таким чином, теоретичний квантиль, який ми бажаємо, визначається зворотним (не зворотним) нормальним CDF. Зокрема, теоретичний квантиль, відповідний емпіричному квантілі,zi повинен бути

ξqi0.5n

дляi=1,2,,n.

Емпірична CDF та теоретична квантильна побудова для невеликої вибірки, наведеної в таблиці8.1.2, відображені на рисунку8.1.10. Для більшої100 вибірки розміру перші кілька очікуваних квантилей є2.5762.170, і1.960.

cdf_figure10.jpg
Малюнок8.1.10: Емпіричний CDF невеликої вибірки5 нормальних точок разом з очікуваними значеннями5 точок (червоні точки в правій рамці)

У лівій рамці рисунка ми виводимо графік невеликого нормального зразка8.1.11, наведеного в табл8.1.2.qq Решта кадрів на малюнку8.1.11 відображаютьqq графіки звичайних випадкових зразків розміруn=100 іn=1000. У міру збільшення розміру вибірки точки наqq ділянках лежать ближче до лініїy=x.

qq_ділянка_малюнок 11.jpg
Малюнок8.1.11:qq ділянки нормальних даних

Як і раніше, нормальнийqq сюжет може свідчити про відступи від нормальності. Два найпоширеніших приклади - це перекошені дані та дані з важкими хвостами (великий куртоз). На малюнку8.1.12 ми показуємоqq нормальні графіки для набору даних з чі-квадратом (перекосом) та набору даних Student's-t (kurtotic), обидва розміруn=1000. Дані були вперше стандартизовані. Червона лінія зновуy=x. Зверніть увагу, зокрема, що дані зt розподілу дотримуються нормальної кривої досить близько, поки останній десяток або близько того не вказує на кожну крайність.

qq_non-normal_fig12.jpg
Малюнок8.1.12:qq графіки для стандартизованих ненормальних даних (n=1000)

q-q графіки для нормальних даних із загальним середнім та масштабом

Наше попереднє обговоренняqq ділянок для нормальних даних все передбачало, що наші дані були стандартизовані. Один з підходів до побудовиqq ділянок полягає в тому, щоб спочатку стандартизувати дані, а потім продовжити, як описано раніше. Альтернативою є побудова сюжету безпосередньо з необроблених даних.

У цьому розділі ми наведемо загальний підхід до даних, які не стандартизовані. Чому ми стандартизували дані на малюнку8.1.12? qqСюжет складається зn точок

(Φ1(i5n),zi)fori=1,2,...,n

Якщо вихідні дані {zi} нормальні, але мають довільне середнєμ і стандартне відхиленняσ, то лінія неy=x буде відповідати очікуваним теоретичним квантилям. Зрозуміло, що лінійне перетворення

μ+σξq

забезпечитьqth теоретичний квантиль за перетвореною шкалою. На практиці, з новим набором даних{x1,x2,,xn},

нормальнийqq сюжет буде складатися з n точок

(Φ1(i5n),xi)fori=1,2,...,n

Замість побудови лініїy=x як опорної лінії, лінія

y=M+s·x

повинні складатися, деM іs знаходяться вибіркові моменти (середнє і стандартне відхилення), відповідні теоретичним моментамμ іσ. Крім того, якщо дані стандартизовані, то лініяy=x буде доречною, оскільки тепер середнє значення зразка буде0 і стандартне відхилення вибірки буде1.

Приклад8.1.1: SAT Case Study

Тематичне дослідження SAT слідувало за академічними досягненнями студентів105 коледжів за спеціальністю «інформатика». Перша змінна - це їх словесний бал SAT, а друга - середній бал (GPA) на рівні університету. Перш ніж обчислити статистику висновків за допомогою цих змінних, ми повинні перевірити, чи нормальні їх розподіли. На малюнку8.1.13 ми виводимоqq сюжети словесних змінних SAT і університетських GPA.

qq_sat.jpg
Малюнок8.1.13qq: графіки для даних учня (n=105).

Словесний SAT, здається, досить добре дотримується нормального розподілу, за винятком крайніх хвостів. Однак університетська змінна GPA є дуже ненормальною. Порівняйте графік GPAqq з моделюванням у правій рамці малюнка8.1.7. Ці цифри дуже схожі, за винятком регіону деx1. Щоб слідувати цим ідеям, ми обчислили гістограми змінних та їх діаграму розкиду на малюнку8.1.14. Ці цифри розповідають зовсім іншу історію. Університет GPA є бімодальним,20% з близько студентів потрапляють в окремий кластер з оцінкоюC. Діаграма розкиду досить незвичайна. Хоча студенти в цьому кластері мають нижче середнього словесних балів SAT, є стільки студентів з низькими балами SAT, чий GPA були досить респектабельними. Ми можемо спекулювати щодо причини (ів): різні відволікання, різні звички до вивчення, але це були б лише спекуляції. Але зауважте, що сира кореляція між словесним SAT і GPA є досить високою0.65, але коли ми виключаємо кластер, кореляція для86 решти студентів трохи падає0.59.

histograms_sat.jpg
Малюнок8.1.14: Гістограми та діаграма розсіювання словесних змінних SAT та GPA для105 студентів.

Обговорення

Параметричне моделювання зазвичай передбачає прийняття припущень щодо форми даних або форми залишків від регресійного прилягання. Перевірка таких припущень може приймати різні форми, але дослідження форми за допомогою гістограм іqq графіків є дуже ефективним. qqГрафік не має жодних конструктивних параметрів, таких як кількість бункерів для гістограми.

У просунутому лікуванніqq сюжет може бути використаний для формального тестування нульової гіпотези про те, що дані є нормальними. Це робиться шляхом обчислення коефіцієнта кореляціїn точок наqq ділянці. Залежно від цьогоn, нульова гіпотеза відхиляється, якщо коефіцієнт кореляції менше порогового. Поріг вже досить близький до0.95 для скромних розмірів вибірки.

Ми бачили, щоqq сюжет для рівномірних даних дуже тісно пов'язаний з емпіричною функцією кумулятивного розподілу. Для функцій загальної щільності так зване інтегральне перетворення ймовірності приймає випадковуX величину і зіставляє її з інтервалом (0,1) через CDFX самого себе, тобто

Y=FX(X)

який, як було показано, є рівномірною щільністю. Це пояснює, чомуqq графік на стандартизованих даних завжди близький до лінії,y=x коли модель правильна.

Нарешті, вчені роками використовували спеціальний графічний папір, щоб зробити відносини лінійними (прямі). Найпоширенішим прикладом раніше був напівжурнальний папір, на якому точки, що слідують за формулою,y=aebx виглядають лінійними. Це випливає, звичайноlog(y)=log(a)+bx, оскільки, що є рівнянням для прямої лінії. Графікиqq можуть розглядатися як «графічний папір ймовірності», який робить графік впорядкованих значень даних у пряму лінію. Кожна щільність має свою особливу вірогідність графічного паперу.