4.5: Статистичний аналіз даних
- Page ID
- 24878
Довірчий інтервал є корисним способом повідомити про результат аналізу, оскільки він встановлює обмеження на очікуваний результат. За відсутності детермінантної похибки довірчий інтервал, заснований на середньому вибірці, вказує діапазон значень, в якому ми очікуємо знайти середнє значення популяції. Коли ми повідомляємо 95% довірчий інтервал для маси копійки як 3,117 г ± 0,047 г, наприклад, ми заявляємо, що існує лише 5% ймовірність того, що очікувана маса копійки менше 3,070 г або більше 3,164 г.
Оскільки довірчий інтервал - це твердження ймовірності, він дозволяє розглянути порівняльні питання, такі як: «Чи суттєво відрізняються результати новоствореного методу визначення холестерину в крові від отриманих стандартним методом?» або «Чи є значні зміни в складі дощової води, зібраної на різних ділянках за вітром від вугільної комунальної установки?» У цьому розділі ми представимо загальний підхід до статистичного аналізу даних. Конкретні статистичні тести представлені в розділі 4.6.
Надійність тестування значущості останнім часом приділяла велику увагу - див. Nuzzo, R. «Науковий метод: статистичні помилки», Nature, 2014, 506, 150-152 для загального обговорення питань - тому доцільно розпочати цей розділ, зазначивши необхідність забезпечення що наші дані та наше дослідницьке питання сумісні, так що ми не читаємо більше статистичного аналізу, ніж наші дані дозволяють; див. Leek, J. T; Peng, RD «Що таке питання? Наука, 2015, 347, 1314-1315 для обговорення шести загальних дослідницьких питань.
У контексті аналітичної хімії тестування значущості часто супроводжує розвідувальний аналіз даних (Чи є підстави підозрювати, що існує різниця між цими двома аналітичними методами при застосуванні до загальної вибірки?) або аналіз інференційних даних (Чи є підстави підозрювати, що між цими двома незалежними вимірами існує зв'язок?). Статистично значущий результат для цих типів питань аналітичного дослідження, як правило, призводить до розробки додаткових експериментів, які краще підходять для прогнозування або пояснення основної причинно-наслідкової зв'язку. Тест на значущість - це перший крок до побудови більшого розуміння аналітичної проблеми, а не остаточної відповіді на цю проблему.
Тестування значущості
Розглянемо наступну проблему. Щоб визначити, чи ефективний препарат для зниження концентрації глюкози в крові, ми збираємо два набори зразків крові у пацієнта. Ми збираємо один набір зразків безпосередньо перед введенням ліків, а другий набір зразків збираємо через кілька годин. Проаналізувавши зразки, ми повідомляємо про їх відповідні засоби та відхилення. Як ми вирішуємо, чи успішно препарат знижував концентрацію глюкози в крові у пацієнта?
Одним із способів відповісти на це питання є побудова нормальної кривої розподілу для кожного зразка та порівняння двох кривих один з одним. Три можливі результати показані на малюнку Template:index. На рисунку Template:index a є повне розділення двох нормальних кривих розподілу, що дозволяє припустити, що два зразки значно відрізняються один від одного. На рисунку Template:index b нормальні криві розподілу для двох зразків майже повністю перекриваються, що говорить про те, що різниця між зразками незначна. Рисунок Template:index c, однак, ставить перед нами дилему. Хоча засоби для двох зразків здаються різними, перекриття їх нормальних кривих розподілу свідчить про те, що значна кількість можливих результатів може належати до будь-якого розподілу. У цьому випадку найкраще, що ми можемо зробити, - це зробити заяву про ймовірність того, що зразки значно відрізняються один від одного.
Процес, за допомогою якого ми визначаємо ймовірність того, що між двома зразками існує значна різниця, називається тестуванням значущості або тестуванням гіпотез. Перш ніж обговорити конкретні приклади, ми спочатку встановимо загальний підхід до проведення та інтерпретації тесту на значущість.
Побудова тесту на значущість
Мета тесту на значущість полягає в тому, щоб визначити, чи є різниця між двома або більше результатами досить велика, що вона не може бути пояснена невизначеними помилками. Першим кроком у побудові тесту на значущість є заявити про проблему як питання так чи ні, наприклад, «Чи ефективний цей препарат для зниження рівня глюкози в крові пацієнта?» Нульова гіпотеза та альтернативна гіпотеза визначають дві можливі відповіді на наше запитання «так» чи «ні». Нульова гіпотеза, H 0, полягає в тому, що невизначені помилки достатні для пояснення будь-яких відмінностей між нашими результатами. Альтернативна гіпотеза H A полягає в тому, що відмінності в наших результатах занадто великі, щоб пояснюватися випадковою помилкою, і що вони повинні мати визначальний характер. Ми перевіряємо нульову гіпотезу, яку ми або зберігаємо, або відхиляємо. Якщо відкинути нульову гіпотезу, то треба прийняти альтернативну гіпотезу і зробити висновок, що різниця істотна.
Нездатність відхилити нульову гіпотезу - це не те саме, що прийняти її. Ми зберігаємо нульову гіпотезу, оскільки у нас недостатньо доказів, щоб довести її неправильну. Неможливо довести, що нульова гіпотеза вірна. Це важливий момент і той, який легко забути. Щоб оцінити цей момент, повернемося до нашого зразка 100 копійок у таблиці 4.4.3. Подивившись на дані, ми можемо запропонувати наступні нульові та альтернативні гіпотези.
H 0: Маса циркулюючого американського пенні становить від 2.900 г до 3.200 г
H A: Маса циркулюючої американської копійки може бути менше 2.900 г або більше 3.200 г
Для перевірки нульової гіпотези знаходимо копійку і визначаємо її масу. Якщо маса копійки дорівнює 2,512 г, то можна відкинути нульову гіпотезу і прийняти альтернативну гіпотезу. Припустимо, що маса копійки дорівнює 3.162 м Хоча цей результат підвищує нашу впевненість у нульовій гіпотезі, він не доводить, що нульова гіпотеза правильна, оскільки наступна копійка, яку ми вибірку, може важити менше 2.900 г або більше 3.200 г.
Після того, як ми викладемо null та альтернативні гіпотези, другим кроком є вибір рівня довіри для аналізу. Рівень довіри визначає ймовірність того, що ми відкинемо нульову гіпотезу, коли вона, по суті, істинна. Ми можемо висловити це як нашу впевненість у тому, що ми правильні у відкиданні нульової гіпотези (наприклад, 95%), або як ймовірність того, що ми неправильні у відхиленні нульової гіпотези. Для останніх рівень довіри дається як\(\alpha\), де
\[\alpha = 1 - \frac {\text{confidence interval (%)}} {100} \label{4.1}\]
Для 95% рівня довіри,\(\alpha\) це 0,05.
У цьому підручнику ми використовуємо\(\alpha\) для представлення ймовірності того, що ми неправильно відхиляємо нульову гіпотезу. В інших підручниках ця ймовірність дається у вигляді p (часто читається як «p- значення»). Хоча символи відрізняються, значення однакове.
Третій крок - розрахувати відповідну статистику тесту і порівняти її з критичним значенням. Критичне значення тестової статистики визначає точку розриву між значеннями, які призводять нас до відхилення або збереження нульової гіпотези, яка є четвертим і останнім кроком тесту на значущість. Те, як ми обчислюємо статистику тесту, залежить від того, що ми порівнюємо, тема, яку ми розглядаємо в розділі 4.6. Останній крок - або зберегти нульову гіпотезу, або відхилити її і прийняти альтернативну гіпотезу.
Чотири кроки для статистичного аналізу даних за допомогою тесту на значущість:
- Поставте питання і викласти нульову гіпотезу, H 0, і альтернативну гіпотезу, H A.
- Виберіть рівень довіри для статистичного аналізу.
- Розрахуйте відповідну статистику тесту і порівняйте її з критичним значенням.
- Або збережіть нульову гіпотезу, або відкиньте її і прийміть альтернативну гіпотезу.
Однохвостий і двохвіст значущість тести
Припустимо, ми хочемо оцінити точність нового аналітичного методу. Ми можемо використовувати цей метод для аналізу стандартного довідкового матеріалу, який містить відому концентрацію аналіту,\(\mu\). Ми аналізуємо стандарт кілька разів, отримуючи середнє значення\(\overline{X}\), для концентрації аналіта. Наша нульова гіпотеза полягає в тому, що немає різниці між\(\overline{X}\) і\(\mu\)
\[H_0 \text{: } \overline{X} = \mu \nonumber\]
Якщо ми проводимо тест на значущість\(\alpha = 0.05\), то ми зберігаємо нульову гіпотезу, якщо 95% довіри інтервал навколо\(\overline{X}\) містить\(\mu\). Якщо альтернативна гіпотеза
\[H_\text{A} \text{: } \overline{X} \neq \mu \nonumber\]
то відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу, якщо\(\mu\) лежить в затінених областях в будь-якому кінці кривої розподілу ймовірностей вибірки (Рисунок Template:index a). На кожну з затінених областей припадає 2,5% площі під кривою розподілу ймовірностей, загалом 5%. Це двоххвостий тест на значущість, оскільки ми відхиляємо нульову гіпотезу для значень\(\mu\) на будь-якому екстремальному рівні кривої розподілу ймовірності вибірки.
Ми також можемо написати альтернативну гіпотезу двома додатковими способами
\[H_\text{A} \text{: } \overline{X} > \mu \nonumber\]
\[H_\text{A} \text{: } \overline{X} < \mu \nonumber\]
відхилення нульової гіпотези, якщо n потрапляє в затінені області, показані на рисунку Template:index b або Figure {{template.index (ID:2)} c відповідно. У кожному випадку затінена область становить 5% площі під кривою розподілу ймовірностей. Це приклади однохвостого тесту на значущість.
Для фіксованого рівня довіри тест на значення з двома хвостами є більш консервативним тестом, оскільки відкидання нульової гіпотези вимагає більшої різниці між параметрами, які ми порівнюємо. У більшості ситуацій у нас немає особливих підстав очікувати, що один параметр повинен бути більшим (або повинен бути меншим), ніж інший параметр. Так відбувається, наприклад, коли ми оцінюємо точність нового аналітичного методу. Отже, двоххвостий тест на значущість, як правило, є відповідним вибором.
Ми залишаємо однохвостий тест значущості для ситуації, коли ми конкретно зацікавлені в тому, чи один параметр більше (або менше), ніж інший параметр. Наприклад, однохвостий тест на значущість підходить, якщо ми оцінюємо здатність ліків знижувати рівень глюкози в крові. У цьому випадку нас цікавить лише те, чи рівень глюкози після введення препарату менше рівня глюкози до того, як ми розпочали лікування. Якщо рівень глюкози в крові пацієнта більший після введення ліків, то ми знаємо відповідь - ліки не працювали - і не потрібно проводити статистичний аналіз.
Помилка в тестуванні значущості
Оскільки тест на значущість спирається на ймовірність, його інтерпретація піддається помилці. У тесті на значущість a визначає ймовірність відхилення нульової гіпотези, яка є істинною. Коли ми проводимо тест на значущість\(\alpha = 0.05\), існує 5% ймовірність того, що ми неправильно відхилимо нульову гіпотезу. Це відомо як помилка типу 1, і її ризик завжди еквівалентний\(\alpha\). Помилка типу 1 у двоххвостому або однохвостому тестах на значущість відповідає затіненим ділянкам під кривими розподілу ймовірностей на рисунку Template:index.
Другий тип помилки виникає, коли ми зберігаємо нульову гіпотезу, навіть якщо вона помилкова. Це як помилка 2 типу, так і ймовірність її виникнення є\(\beta\). На жаль, в більшості випадків ми не можемо обчислити або оцінити значення для\(\beta\). Імовірність помилки типу 2, однак, обернено пропорційна ймовірності помилки типу 1.
Мінімізація помилки типу 1 за рахунок зменшення\(\alpha\) збільшує ймовірність помилки типу 2. Коли ми вибираємо значення для\(\alpha\) ми повинні йти на компроміс між цими двома типами помилок. Більшість прикладів у цьому тексті використовують 95% рівня довіри (\(\alpha = 0.05\)), оскільки це, як правило, розумний компроміс між помилками типу 1 та 2 для аналітичної роботи. Однак незвично використовувати більш жорсткий (наприклад\(\alpha = 0.01\)) або більш м'який (наприклад\(\alpha = 0.10\)) рівень довіри, коли ситуація цього вимагає.
