19.4: Пояснення частки дисперсії
Цілі навчання
- Вкажіть різницю в ухилі міжη2 іω2
- Обчисленняη2 обчислювальнихω2
- Розрізняютьω2 і частковіω2
- Вкажіть упередженістьR2 і що можна зробити, щоб зменшити його
Розміри ефектів часто вимірюються з точки зору частки дисперсії, поясненої змінною. У цьому розділі ми обговорюємо цей спосіб вимірювання розміру ефекту як у конструкціях ANOVA, так і в кореляційних дослідженнях.
Проекти ANOVA
Відповіді суб'єктів будуть відрізнятися майже в кожному експерименті. Розглянемо, наприклад, кейс «Усмішки і поблажливість». Гістограма залежної змінної «поблажливість» показана на малюнку19.4.1. Зрозуміло, що бали поблажливості значно різняться. Є багато причин, чому бали відрізняються. Один, звичайно, полягає в тому, що суб'єктам було призначено чотири різні умови посмішки, і стан, в якому вони перебували, може вплинути на їх бал поблажливості. Крім того, цілком ймовірно, що деякі предмети, як правило, більш поблажливі, ніж інші, тим самим сприяючи різниці між балами. Існує багато інших можливих джерел відмінностей у рейтингах поблажливості, включаючи, можливо, те, що деякі суб'єкти перебували в кращому настрої, ніж інші, та/або що деякі суб'єкти реагували більш негативно, ніж інші, на зовнішній вигляд або манери стимулюючої людини. Ви можете собі уявити, що існує безліч інших причин, чому оцінки предметів можуть відрізнятися.

Одним із способів вимірювання впливу умов є визначення частки дисперсії між оцінками суб'єктів, що припадає на умови. У цьому прикладі дисперсія балів є2.794. Питання полягає в тому, як ця дисперсія порівнюється з тим, якою була б дисперсія, якби кожен суб'єкт був у тому ж стані лікування. Ми оцінюємо це, обчислюючи дисперсію в межах кожної з умов лікування та приймаючи середнє значення цих відхилень. Для цього прикладу середнє значення відхилень є2.649. Оскільки середня дисперсія в умовах посмішки не набагато менше, ніж дисперсія ігноруючи умови, зрозуміло, що «Умова посмішки» не несе відповідальності за високий відсоток дисперсії балів. Найзручніший спосіб обчислення поясненої пропорції - через суму квадратів «умови» і суму квадратів загальної. Обчислення цих сум квадратів наведені в розділі про ANOVA. Для наведених даних сума квадратів для «Умови посмішки» дорівнює,27.535 а сума квадратів загальна дорівнює377.189. Тому пропорція, пояснена «Стан посмішки», становить:
27.535377.189=0.073
Таким чином,0.073 або7.3% дисперсія пояснюється «Стан посмішки».
Альтернативним способом поглянути на пояснену дисперсію є зменшення пропорції похибки. Сума квадратів total (377.189) представляє варіацію, коли «Умова посмішки» ігнорується, а сума квадратів error (377.189−27.535=349.654) є варіацією, що залишилася, коли враховується «Умова посмішки». Різниця між377.189 і349.654 є27.535. Це зменшення похибки27.535 являє собою пропорційне зменшення27.535/377.189=0.073, таке ж значення, яке обчислюється з точки зору частки дисперсії пояснюється.
Ця міра розміру ефекту, незалежно від того, обчислюється з точки зору дисперсії, поясненої або з точки зору зменшення відсотка похибки,η називаєтьсяη2 де грецька буква ета. На жаль,η2 має тенденцію завищувати пояснену дисперсію і тому є упередженою оцінкою частки дисперсії пояснюється. Як такий, не рекомендується (незважаючи на те, що про це повідомляє провідний пакет статистики).
Альтернативна міра,ω2 (омега в квадраті), є неупередженим і може бути обчислена з
ω2=SSQcondition−(k−1)MSESSQtotal+MSE
деMSE - середня квадратна похибка іk кількість умов. Для цього прикладуk=4 іω2=0.052.
Важливо знати, що як мінливість вибіркової популяції, так і конкретні рівні незалежної змінної є важливими детермінантами частки дисперсії, поясненої. Розглянемо дві можливі конструкції експерименту, що вивчає вплив споживання алкоголю на здатність водіння. Як видно з таблиці19.4.1,Design 1 має менший діапазон доз і більш різноманітну популяцію, ніжDesign 2. Які наслідки для частки дисперсії пояснюється дозою? Варіація через дозу буде більшоюDesign 2, ніжDesign 1 оскільки алкоголь маніпулюється сильніше, ніж вDesign 1. Однак дисперсія в чисельності населення повинна бути більшою,Design 1 оскільки вона включає більш різноманітний набір водіїв. Оскільки зDesign 1 дисперсією через Dose буде меншою, а загальна дисперсія буде більшою, частка дисперсії, пояснена Dose, буде набагато меншою,Design 1 ніж використанняDesign 2. Таким чином, пояснена частка дисперсії не є загальною характеристикою незалежної змінної. Натомість це залежить від конкретних рівнів незалежної змінної, що використовується в експерименті, та мінливості вибіркової популяції.
Дизайн |
Доза |
Населення |
1 |
0.00 |
Всі водії віком від 16 до 80 років |
0,30 |
||
0,60 |
||
2 |
0.00 |
Досвідчені водії віком від 25 до 30 років |
0,50 |
||
1.00 |
Факторіальні конструкції
У однофакторних конструкціях сума квадратів загальна є умовою суми квадратів плюс сума похибки квадратів. Частка роз'ясненої дисперсії визначена відносно загальної суми квадратів. УA×B дизайні є три джерела варіації (A,B,A×B) на додаток до помилки. Частка дисперсії, пояснена для змінної (наприклад)A, може бути визначена відносно суми квадратів total (SSQA+SSQB+SSQA×B+SSQerror) або відносноSSQA+SSQerror.
Для ілюстрації на прикладі розглянемо гіпотетичний експеримент щодо впливу віку (6і12 років) і методів навчання читання (експериментальні та контрольні умови). Засоби наведені в табл19.4.2. Стандартне відхилення кожної з чотирьох осередків (Age×Treatmentкомбінацій) дорівнює5. (Природно, для реальних даних стандартні відхилення не були б точно рівними, а кошти не були б цілими числами.) Нарешті, були10 предмети на клітинку, в результаті чого в цілому40 суб'єктів.
Лікування | ||
---|---|---|
Вік | Експериментальний | Контроль |
6 | 40 | 42 |
12 | 50 | 56 |
Джерела варіації, ступеня свободи та суми квадратів з аналізу зведеної таблиці дисперсій, а також чотири міри розміру ефекту наведені в табл19.4.3. Зверніть увагу, що сума квадратів за віком дуже велика щодо двох інших ефектів. Це те, що можна було б очікувати, оскільки різниця в здатності до читання між6 - і12 -річними дуже велика щодо ефекту стану.
Джерело | дф | SSQ | η2 | частковий η2 |
ω2 | частковий ω2 |
---|---|---|---|---|---|---|
Вік | 1 | 1440 | \ (η ^ 2\) ">0,567 | \ (η ^ 2\) ">0,615 | \ (ω^2\) ">0.552 | \ (ω^2\) ">0.586 |
Стан | 1 | 160 | \ (η ^ 2\) ">0,063 | \ (η ^ 2\) ">0.151 | \ (ω^2\) ">0.053 | \ (ω^2\) ">0,119 |
А х С | 1 | 40 | \ (η ^ 2\) ">0,016 | \ (η ^ 2\) ">0,043 | \ (ω^2\) ">0,006 | \ (ω^2\) ">0,015 |
Помилка | 36 | 900 | ||||
Всього | 39 | 2540 |
Спочатку розглянемо два методи обчисленьη2, міченіη2 і частковіη2. Значенняη2 для ефекту - це просто сума квадратів для цього ефекту, поділена на загальну суму квадратів. Наприклад,η2 для Вік є1440/2540=0.567. Як і в однофакторної конструкції,η2 пропорція загальної варіації пояснюється змінною. Частковаη2 для ВікSSQAge ділиться на (SSQAge+SSQerror), що є1440/2340=0.615.
Як бачите,η2 часткова більше, ніжη2. Це пояснюється тим, що знаменник менший для частковогоη2. Різниця міжη2 частковоюη2 і ще більшою для впливу стану. Це тому, щоSSQAge є великим, і це робить велику різницю, включений він у знаменник чи ні.
Як зазначалося раніше, краще використовувати,ω2 ніжη2 тому, щоη2 має позитивний ухил. Ви можете бачити, що значення для меншеω2, ніж дляη2. Розрахунки дляω2 наведені нижче:
ω2=SSQeffect−dfeffectMSerrorSSQtotal+MSerror
ω2partial=SSQeffect−dfeffectMSerrorSSQeffect+(N−dfeffect)MSerror
деN - загальна кількість спостережень.
Вибір того, чи використовуватиω2 чи часткове,ω2 є суб'єктивним; жоден не є правильним чи неправильним. Однак важливо зрозуміти різницю і, якщо ви використовуєте комп'ютерне програмне забезпечення, знати, яка версія обчислюється. (Остерігайтеся, принаймні один програмний пакет неправильно позначає статистику).
Кореляційні дослідження
У розділі «Розбиття сум квадратів» в розділі «Регресія» ми побачили, що сума квадратів дляY (змінна критерію) може бути розділена на суму пояснених квадратів і суму квадратів похибки. Отже, частка дисперсії, пояснена множинною регресією, є:
SSQexplained/SSQtotal
У простій регресії частка дисперсії пояснюється дорівнюєr2; при множинній регресії вона дорівнюєR2.
Загалом,R2 є аналогомη2 і є упередженою оцінкою поясненої дисперсії. Наступна формула коригуванняR2 аналогічнаω2 і менш упереджена (хоча і не зовсім неупереджена):
R2adjusted=1−(1−R2)(N−1)N−p−1
деN - загальна кількість спостережень іp число змінних предиктора.