7.3: Аналіз дисперсії
- Page ID
- 17852
Розглянемо наступні дані, які показують стабільність реагенту при різних умовах зберігання зразків; всі значення - відсотки відновлення, тому результат 100 вказує на те, що концентрація реагенту залишається незмінною і що деградації не відбулося.
випробування/лікування | A (загальна темна) | B (приглушене світло) | C (повне світло) |
1 | 101 | 100 | 90 |
2 | 101 | 99 | 92 |
3 | 104 | 101 | 94 |
Щоб визначити, чи має світло значний вплив на стабільність реагенту, ми можемо вибрати серію t-тестів, порівнюючи всі можливі середні значення; у цьому випадку нам потрібні три такі тести:
- порівняти A до B
- порівняти A до C
- порівняти B з C
Кожен такий тест має ймовірність помилки I типу\(\alpha_{test}\). Загальна ймовірність помилки типу I в k тестах,\(\alpha_{total}\), дорівнює
\[\alpha_{total} = 1 - (1 - \alpha_{test})^{k} \nonumber\]
Для трьох таких тестів\(\alpha = 0.05\), використовуючи, ми маємо
\[\alpha_{total} = 1 - (1 - 0.05)^{3} = 0.143 \nonumber\]
або 14,3% ймовірності помилки типу I. Зв'язок між числом умов, n, і числом тестів, k, дорівнює
\[k = \frac {n(n-1)} {2} \nonumber\]
що означає, що k зростає швидко, як n збільшується, як показано на малюнку\(\PageIndex{1}\).
і що величина помилки типу I також швидко зростає, як показано на малюнку\(\PageIndex{2}\).
Ми можемо компенсувати цю задачу зменшенням\(\alpha_{test}\) для кожного незалежного тесту так, що\(\alpha_{total}\) дорівнює нашій бажаній ймовірності; таким чином\(k = 3\), для\(n = 3\) нас є, і досягти 0,05 кожного окремого значення\(\alpha_{test}\) бути\(\alpha_{total}\)
\[\alpha_{test} = 1 - (1 - 0.05)^{1/3} = 0.017 \nonumber\]
Значення\(\alpha_{test}\) зменшуються швидко, як видно на рис\(\PageIndex{3}\).
Проблема тут полягає в тому, що ми шукаємо значну різницю на парній основі без будь-яких доказів того, що загальна варіація даних за всіма умовами (також відома як лікування) досить велика, що це не може бути пояснено лише експериментальною невизначеністю (тобто випадковою помилкою). Один із способів визначити, чи є систематична помилка в наборі даних, без виявлення джерела систематичної помилки, полягає в порівнянні варіації в межах кожного лікування з варіацією між методами лікування. Ми припускаємо, що варіація в межах кожного лікування відображає невизначеність в аналітичному методі (випадкові помилки) і що варіація між методами лікування включає як невизначеність методу, так і будь-які систематичні помилки в окремих методах лікування. Якщо різниця між процедурами значно більша, ніж варіація в межах лікування, то систематична помилка здається ймовірною. Ми називаємо цей процес аналізом дисперсії, або ANOVA; для однієї незалежної змінної (кількість світла в даному випадку) це односторонній аналіз дисперсії.
Основні деталі одностороннього розрахунку ANOVA такі:
Крок 1: Розглядайте дані як один великий набір даних і обчислюйте його середнє значення та його дисперсію, яку ми називаємо глобальним\(\bar{\bar{x}}\) середнім значенням та глобальною дисперсією\(\bar{\bar{s^{2}}}\).
\[\bar{\bar{x}} = \frac { \sum_{i=1}^h \sum_{j=1}^{n_{i}} x_{ij} } {N} \nonumber\]
\[\bar{\bar{s^{2}}} = \frac { \sum_{i=1}^h \sum_{j=1}^{n_{i}} (x_{ij} - \bar{\bar{x}})^{2} } {N - 1} \nonumber\]
де\(h\) - кількість обробок,\(n_{i}\) це кількість реплікацій для\(i^{th}\) лікування, і\(N\) загальна кількість вимірювань.
Крок 2: Обчисліть дисперсію всередині зразка\(s_{w}^{2}\), використовуючи середнє значення для кожного лікування\(\bar{x}_{i}\), і реплікації для цього лікування.
\[s_{w}^{2} = \frac { \sum_{i=1}^h \sum_{j=1}^{n_{i}} (x_{ij} - \bar{x}_{i})^{2} } {N - h} \nonumber\]
Крок 3: Обчисліть дисперсію між зразками\(s_{b}^{2}\), використовуючи засоби для кожного лікування та глобальне середнє значення
\[s_{b}^{2} = \frac { \sum_{i=1}^h \sum_{j=1}^{n_{i}} (\bar{x}_{i} - \bar{\bar{x}})^2 } {h - 1} = \frac {\sum_{i=1}^h n_{i} (\bar{x}_{i} - \bar{\bar{x}})^2 } {h - 1} \nonumber\]
Крок 4: Якщо між процедурами є значна різниця, то\(s_{b}^{2}\) повинна бути значно більшою\(s_{w}^{2}\), яку ми оцінюємо за допомогою однохвостої\(F\) -тесту, де
\[H_{0}: s_{b}^{2} = s_{w}^{2} \nonumber\]
\[H_{A}: s_{b}^{2} > s_{w}^{2} \nonumber\]
Крок 5: Якщо є суттєва різниця, то оцінюємо\(\sigma_{rand}^{2}\) і\(\sigma_{systematic}^{2}\) як
\[s_{w}^{2} \approx \sigma_{rand}^{2} \nonumber\]
\[s_{b}^{2} \approx \sigma_{rand}^{2} + \bar{n}\sigma_{systematic}^{2} \nonumber\]
\(\bar{n}\)де середня кількість реплікацій на лікування.
Це здається великою роботою, але ми можемо спростити розрахунки, зазначивши, що
\[SS_{total} = \sum_{i=1}^h \sum_{j=1}^{n_{i}} (x_{ij} - \bar{\bar{x}})^{2} = \bar{\bar{s^{2}}}(N - 1) \nonumber\]
\[SS_{w} = \sum_{i=1}^h \sum_{j=1}^{n_{i}} (x_{ij} - \bar{x}_{i})^{2} \nonumber\]
\[SS_{b} = \sum_{i=1}^h n_{i} (\bar{x}_{i} - \bar{\bar{x}})^2 \nonumber\]
\[SS_{total} = SS_{w} + SS_{b} \nonumber\]
і що\(SS_{total}\) і\(SS_{b}\) відносно легко обчислити, де\(SS\) коротка сума квадратів. Таблиця\(\PageIndex{1}\) збирає ці рівняння разом
джерело дисперсії | сума квадратів | ступені свободи | дисперсія |
між зразками | \(\sum_{i=1}^h n_{i} (\bar{x}_{i} - \bar{\bar{x}})^2\) | \(h - 1\) | \(s_{b}^{2} = \frac {SS_{b}} {h - 1}\) |
в межах зразків | \(SS_{total} = SS_{w} + SS_{b}\) | \(N - h\) | \(s_{w}^{2} = \frac {SS_{w}} {N - h}\) |
всього | \(\bar{\bar{s^{2}}}(N - 1)\) |
Хімічні реактиви мають обмежений термін придатності. Щоб визначити вплив світла на стійкість реагенту, свіжоприготований розчин зберігається протягом однієї години при трьох різних умовах освітлення: загальному темному, приглушеному світлі та повному світлі. Наприкінці однієї години кожне рішення аналізувалося тричі, отримуючи наступні відсотки відновлення; відновлення 100% означає, що виміряна концентрація така ж, як фактична концентрація. Нульова гіпотеза полягає в тому, що немає різниці між різними методами лікування та Альтернативна гіпотеза полягає в тому, що принаймні одне з методів лікування дає результат, який значно відрізняється від інших методів лікування.
судовий розгляд/умова | A (загальна темна) | B (приглушене світло) | C (повне світло) |
1 | 101 | 100 | 90 |
2 | 101 | 99 | 92 |
3 | 104 | 101 | 94 |
Рішення
По-перше, ми розглядаємо дані як один великий набір даних з дев'яти значень і обчислюємо середнє глобальне і глобальну\(\bar{\bar{s^{2}}}\) дисперсію; це 98 і 23,75 відповідно.\(\bar{\bar{x}}\) Також обчислюється середнє значення для кожного з трьох обробок, отримавши значення 102,0 для лікування А, 100,0 для лікування В і 92,0 для лікування С.
Далі обчислюємо загальну суму квадратів,\(SS_{total}\)
\[\bar{\bar{s^{2}}}(N - 1) = 23.75(9 - 1) = 190.0 \nonumber\]
між вибіркою суми квадратів,\(SS_{b}\)
\[SS_{b} = \sum_{i=1}^h n_{i} (\bar{x}_{i} - \bar{\bar{x}})^2 = 3(102.0 - 98.0)^2 + 3(100.0 - 98.0)^2 + 3(92.0 - 98.0)^2 = 168.0 \nonumber\]
і всередині вибірки сума квадратів,\(SS_{w}\)
\[ SS_{w} = SS_{total} - SS_{b} = 190.0 - 168.0 = 22.0 \nonumber\]
Різниця між процедурами,\(s_b^2\) є
\[\frac {SS_{b}} {h - 1} = \frac{168}{3 - 1} = 84.0 \nonumber\]
і дисперсія в межах лікування,\(s_w^2\) є
\[\frac {SS_{w}} {N - h} = \frac{22.0}{9 - 3} = 3.67 \nonumber\]
Нарешті, ми завершуємо F -тест, обчислюючи F exp
\[F_{exp} = \frac{s_b^2}{s_w^2} = \frac{84.0}{3.67} = 22.9 \nonumber\]
і порівняти його з критичним значенням для F (0,05, 2, 6) = 5,143 з додатка 3. Оскільки F exp > F (0.05, 2, 6), ми відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу про те, що принаймні одне з методів лікування дає результат, який значно відрізняється від інших методів лікування. Ми можемо оцінити дисперсію через випадкові помилки як
\[\sigma_{random}^{2} = s_{w}^{2} = 3.67 \nonumber\]
і дисперсія через систематичні помилки як
\[\sigma_{systematic}^{2} = \frac {\sigma_{random}^{2} - s_{w}^{2}} {\bar{n}} = \frac {84.0 - 3.67} {3} = 26.8 \nonumber\]
Знайшовши докази значної різниці між методами лікування, ми можемо використовувати індивідуальні t -тести на парах процедур, щоб показати, що результати лікування С значно відрізняються від двох інших методів лікування.