7.1: Тестування значущості
- Page ID
- 17811
Розглянемо наступну проблему. Щоб визначити, чи ефективний препарат для зниження концентрації глюкози в крові, ми збираємо два набори зразків крові у пацієнта. Ми збираємо один набір зразків безпосередньо перед введенням ліків, а другий набір зразків збираємо через кілька годин. Після того, як ми проаналізуємо зразки, ми повідомляємо про їх відповідні засоби та відхилення. Як ми вирішуємо, чи успішно препарат знижував концентрацію глюкози в крові у пацієнта?
Одним із способів відповісти на це питання є побудова нормальної кривої розподілу для кожного зразка та порівняння двох кривих між собою. Три можливі результати наведені на малюнку\(\PageIndex{1}\). На малюнку\(\PageIndex{1a}\) є повне поділ двох нормальних кривих розподілу, що говорить про те, що два зразки значно відрізняються один від одного. На малюнку\(\PageIndex{1b}\) нормальні криві розподілу для двох зразків майже повністю перекривають один одного, що говорить про те, що різниця між зразками незначна. Малюнок\(\PageIndex{1c}\), однак, ставить перед нами дилему. Хоча засоби для двох зразків здаються різними, перекриття їх нормальних кривих розподілу свідчить про те, що значна кількість можливих результатів може належати до будь-якого розподілу. У цьому випадку найкраще, що ми можемо зробити, - це зробити заяву про ймовірність того, що зразки значно відрізняються один від одного.

Процес, за допомогою якого ми визначаємо ймовірність того, що між двома зразками існує значна різниця, називається тестуванням значущості або тестуванням гіпотез. Перш ніж обговорити конкретні приклади, давайте спочатку встановимо загальний підхід до проведення та інтерпретації тесту на значущість.
Побудова тесту на значущість
Мета тесту на значущість - визначити, чи є різниця між двома або більше результатами достатньо великою, щоб нам було зручно заявити, що різниця не може бути пояснена невизначеними помилками. Першим кроком у побудові тесту на значущість є визначення проблеми як питання так чи ні, наприклад,
«Чи ефективний цей препарат для зниження рівня глюкози в крові пацієнта?»
Нульова гіпотеза та альтернативна гіпотеза визначають дві можливі відповіді на наше запитання «так» чи «ні». Нульова гіпотеза, H 0, полягає в тому, що невизначені помилки достатні для пояснення будь-яких відмінностей між нашими результатами. Альтернативна гіпотеза H A полягає в тому, що відмінності в наших результатах занадто великі, щоб пояснюватися випадковою помилкою, і що вони повинні мати визначальний характер. Ми перевіряємо нульову гіпотезу, яку ми або зберігаємо, або відхиляємо. Якщо відкинути нульову гіпотезу, то треба прийняти альтернативну гіпотезу і зробити висновок, що різниця істотна.
Нездатність відхилити нульову гіпотезу - це не те саме, що прийняти її. Ми зберігаємо нульову гіпотезу, оскільки у нас недостатньо доказів, щоб довести її неправильну. Неможливо довести, що нульова гіпотеза вірна. Це важливий момент і той, який легко забути. Щоб оцінити цей момент, давайте використаємо ці дані для маси 100 циркулюючих копійок США.
Пенні | Вага (г) | Пенні | Вага (г) | Пенні | Вага (г) | Пенні | Вага (г) |
---|---|---|---|---|---|---|---|
1 | 3.126 | 26 | 3.073 | 51 | 3.101 | 76 | 3.086 |
2 | 3.140 | 27 | 3.084 | 52 | 3.049 | 77 | 3.123 |
3 | 3.092 | 28 | 3.148 | 53 | 3.082 | 78 | 3.15 |
4 | 3.095 | 29 | 3.047 | 54 | 3.142 | 79 | 3.055 |
5 | 3.080 | 30 | 3.121 | 55 | 3.082 | 80 | 3.057 |
6 | 3.065 | 31 | 3.116 | 56 | 3.066 | 81 | 3.097 |
7 | 3.117 | 32 | 3.005 | 57 | 3.128 | 82 | 3.066 |
8 | 3.034 | 33 | 3.15 | 58 | 3.112 | 83 | 3.113 |
9 | 3.126 | 34 | 3.103 | 59 | 3.085 | 84 | 3.102 |
10 | 3.057 | 35 | 3.086 | 60 | 3.086 | 85 | 3.033 |
11 | 3.053 | 36 | 3.103 | 61 | 3.084 | 86 | 3.112 |
12 | 3.099 | 37 | 3.049 | 62 | 3.104 | 87 | 3.103 |
13 | 3.065 | 38 | 2.998 | 63 | 3.107 | 88 | 3.198 |
14 | 3.059 | 39 | 3.063 | 64 | 3.093 | 89 | 3.103 |
15 | 3.068 | 40 | 3.055 | 65 | 3.126 | 90 | 3.126 |
16 | 3.060 | 41 | 3.181 | 66 | 3.138 | 91 | 3.111 |
17 | 3.078 | 42 | 3.108 | 67 | 3.131 | 92 | 3.126 |
18 | 3.125 | 43 | 3.114 | 68 | 3.120 | 93 | 3.052 |
19 | 3.090 | 44 | 3.121 | 69 | 3.100 | 94 | 3.113 |
20 | 3.100 | 45 | 3.105 | 70 | 3.099 | 95 | 3.085 |
21 | 3.055 | 46 | 3.078 | 71 | 3.097 | 96 | 3.117 |
22 | 3.105 | 47 | 3.147 | 72 | 3.091 | 97 | 3.142 |
23 | 3.063 | 48 | 3.104 | 73 | 3.077 | 98 | 3.031 |
24 | 3.083 | 49 | 3.146 | 74 | 3.178 | 99 | 3.083 |
25 | 3.065 | 50 | 3.095 | 75 | 3.054 | 100 | 3.104 |
Подивившись на дані, ми можемо запропонувати наступні нульові та альтернативні гіпотези.
H 0: Маса циркулюючого американського пенні становить від 2.900 г до 3.200 г
H A: Маса циркулюючої американської копійки може бути менше 2.900 г або більше 3.200 г
Для перевірки нульової гіпотези знаходимо копійку і визначаємо її масу. Якщо маса копійки дорівнює 2,512 г, то можна відкинути нульову гіпотезу і прийняти альтернативну гіпотезу. Припустимо, що маса копійки дорівнює 3.162 м Хоча цей результат підвищує нашу впевненість у нульовій гіпотезі, він не доводить, що нульова гіпотеза правильна, оскільки наступна копійка, яку ми вибірку, може важити менше 2.900 г або більше 3.200 г.
Після того, як ми викладемо null та альтернативні гіпотези, другим кроком є вибір рівня довіри для аналізу. Рівень довіри визначає ймовірність того, що ми неправильно відкинемо нульову гіпотезу, коли вона, по суті, істинна. Ми можемо висловити це як нашу впевненість у тому, що ми правильні у відкиданні нульової гіпотези (наприклад, 95%), або як ймовірність того, що ми неправильні у відхиленні нульової гіпотези. Для останніх рівень довіри дається як\(\alpha\), де
\[\alpha = 1 - \frac {\text{confidence interval (%)}} {100} \nonumber\]
Для 95% рівня довіри\(\alpha\) становить 0,05.
Третій крок - розрахувати відповідну статистику тесту і порівняти її з критичним значенням. Критичне значення тестової статистики визначає точку розриву між значеннями, які призводять нас до відхилення або збереження нульової гіпотези, яка є четвертим і останнім кроком тесту на значущість. Як ми побачимо в наступних розділах, як ми обчислюємо статистику тесту, залежить від того, що ми порівнюємо.
Чотири кроки для статистичного аналізу даних за допомогою тесту на значущість:
- Поставте питання та викладіть нульову гіпотезу H 0 та альтернативну гіпотезу H A.
- Виберіть рівень довіри для статистичного аналізу.
- Розрахуйте відповідну статистику тесту і порівняйте її з критичним значенням.
- Або збережіть нульову гіпотезу, або відкиньте її і прийміть альтернативну гіпотезу.
Однохвостий і двохвіст значущості тести
Припустимо, ми хочемо оцінити точність нового аналітичного методу. Ми можемо використовувати цей метод для аналізу стандартного довідкового матеріалу, який містить відому концентрацію аналіту,\(\mu\). Ми аналізуємо стандарт кілька разів, отримуючи середнє значення\(\overline{X}\), для концентрації аналіта. Наша нульова гіпотеза полягає в тому, що немає різниці між\(\overline{X}\) і\(\mu\)
\[H_0 \text{: } \overline{X} = \mu \nonumber\]
Якщо ми проводимо тест на значущість\(\alpha = 0.05\), то ми зберігаємо нульову гіпотезу, якщо 95% довіри інтервал навколо\(\overline{X}\) містить\(\mu\). Якщо альтернативна гіпотеза
\[H_\text{A} \text{: } \overline{X} \neq \mu \nonumber\]
то відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу, якщо\(\mu\) лежить в затінених областях в будь-якому кінці кривої розподілу ймовірності вибірки (рис.\(\PageIndex{2a}\)). На кожну з затінених областей припадає 2,5% площі під кривою розподілу ймовірностей, загалом 5%. Це двоххвостий тест на значущість, оскільки ми відхиляємо нульову гіпотезу для значень\(\mu\) на будь-якому екстремальному рівні кривої розподілу ймовірності вибірки.

Ми можемо написати альтернативну гіпотезу двома додатковими способами:
\[H_\text{A} \text{: } \overline{X} > \mu \nonumber\]
\[H_\text{A} \text{: } \overline{X} < \mu \nonumber\]
відхилення нульової гіпотези, якщо\(\mu\) потрапляє в затінені області\(\PageIndex{2c}\), показані на малюнку\(\PageIndex{2b}\) або малюнку відповідно. У кожному випадку затінена область становить 5% площі під кривою розподілу ймовірностей. Це приклади однохвостого тесту на значущість.
Для фіксованого рівня довіри тест на значення з двома хвостами є більш консервативним тестом, оскільки відкидання нульової гіпотези вимагає більшої різниці між результатами, які ми порівнюємо. У більшості ситуацій у нас немає особливих підстав очікувати, що один результат повинен бути більшим (або повинен бути меншим), ніж інший результат. Так відбувається, наприклад, коли ми оцінюємо точність нового аналітичного методу. Отже, двоххвостий тест на значущість, як правило, є відповідним вибором.
Ми залишаємо однохвостий тест на значущість для ситуації, коли ми конкретно зацікавлені в тому, чи один результат більший (або менший), ніж інший результат. Наприклад, однохвостий тест на значущість підходить, якщо ми оцінюємо здатність ліків знижувати рівень глюкози в крові. У цьому випадку нас цікавить лише те, чи рівень глюкози після введення препарату менше рівня глюкози до початку лікування. Якщо рівень глюкози в крові пацієнта більший після введення ліків, то ми знаємо відповідь - ліки не працювали - і нам не потрібно проводити статистичний аналіз.
Помилки при перевірці значущості
Оскільки тест на значущість спирається на ймовірність, його інтерпретація піддається помилці. У тесті на значущість\(\alpha\) визначає ймовірність відхилення нульової гіпотези, яка є істинною. Коли ми проводимо тест на значущість\(\alpha = 0.05\), існує 5% ймовірність того, що ми неправильно відхилимо нульову гіпотезу. Це відомо як помилка типу 1, і її ризик завжди еквівалентний\(\alpha\). Помилка типу 1 у двоххвостому або однохвостому тестах на значущість відповідає затіненим ділянкам під кривими розподілу ймовірностей на малюнку\(\PageIndex{2}\).
Другий тип помилки виникає, коли ми зберігаємо нульову гіпотезу, навіть якщо вона помилкова. Це помилка 2 типу, і ймовірність її виникнення є\(\beta\). На жаль, в більшості випадків ми не можемо обчислити або оцінити значення для\(\beta\). Імовірність помилки типу 2, однак, обернено пропорційна ймовірності помилки типу 1.
Мінімізація помилки типу 1 за рахунок зменшення\(\alpha\) збільшує ймовірність помилки типу 2. Коли ми вибираємо значення для\(\alpha\) ми повинні йти на компроміс між цими двома типами помилок. Більшість прикладів у цьому тексті використовують 95% рівня довіри (\(\alpha = 0.05\)), оскільки це зазвичай розумний компроміс між помилками типу 1 та 2 для аналітичної роботи. Однак незвично використовувати більш жорсткий (наприклад\(\alpha = 0.01\)) або більш м'який (наприклад\(\alpha = 0.10\)) рівень довіри, коли ситуація цього вимагає.