Skip to main content
LibreTexts - Ukrayinska

7.1: Тестування значущості

  • Page ID
    17811
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Розглянемо наступну проблему. Щоб визначити, чи ефективний препарат для зниження концентрації глюкози в крові, ми збираємо два набори зразків крові у пацієнта. Ми збираємо один набір зразків безпосередньо перед введенням ліків, а другий набір зразків збираємо через кілька годин. Після того, як ми проаналізуємо зразки, ми повідомляємо про їх відповідні засоби та відхилення. Як ми вирішуємо, чи успішно препарат знижував концентрацію глюкози в крові у пацієнта?

    Одним із способів відповісти на це питання є побудова нормальної кривої розподілу для кожного зразка та порівняння двох кривих між собою. Три можливі результати наведені на малюнку\(\PageIndex{1}\). На малюнку\(\PageIndex{1a}\) є повне поділ двох нормальних кривих розподілу, що говорить про те, що два зразки значно відрізняються один від одного. На малюнку\(\PageIndex{1b}\) нормальні криві розподілу для двох зразків майже повністю перекривають один одного, що говорить про те, що різниця між зразками незначна. Малюнок\(\PageIndex{1c}\), однак, ставить перед нами дилему. Хоча засоби для двох зразків здаються різними, перекриття їх нормальних кривих розподілу свідчить про те, що значна кількість можливих результатів може належати до будь-якого розподілу. У цьому випадку найкраще, що ми можемо зробити, - це зробити заяву про ймовірність того, що зразки значно відрізняються один від одного.

    Малюнок 4.12 PNG
    Рисунок\(\PageIndex{1}\): Три приклади можливих зв'язків між нормальними кривими розподілу для двох зразків. У (а) криві не перекриваються, що говорить про те, що зразки значно відрізняються один від одного. У (b) дві криві майже однакові, що свідчить про те, що зразки не відрізняються. Часткове перекриття кривих у (c) означає, що найкраще, що ми можемо зробити, це оцінити ймовірність того, що між зразками є різниця.

    Процес, за допомогою якого ми визначаємо ймовірність того, що між двома зразками існує значна різниця, називається тестуванням значущості або тестуванням гіпотез. Перш ніж обговорити конкретні приклади, давайте спочатку встановимо загальний підхід до проведення та інтерпретації тесту на значущість.

    Побудова тесту на значущість

    Мета тесту на значущість - визначити, чи є різниця між двома або більше результатами достатньо великою, щоб нам було зручно заявити, що різниця не може бути пояснена невизначеними помилками. Першим кроком у побудові тесту на значущість є визначення проблеми як питання так чи ні, наприклад,

    «Чи ефективний цей препарат для зниження рівня глюкози в крові пацієнта?»

    Нульова гіпотеза та альтернативна гіпотеза визначають дві можливі відповіді на наше запитання «так» чи «ні». Нульова гіпотеза, H 0, полягає в тому, що невизначені помилки достатні для пояснення будь-яких відмінностей між нашими результатами. Альтернативна гіпотеза H A полягає в тому, що відмінності в наших результатах занадто великі, щоб пояснюватися випадковою помилкою, і що вони повинні мати визначальний характер. Ми перевіряємо нульову гіпотезу, яку ми або зберігаємо, або відхиляємо. Якщо відкинути нульову гіпотезу, то треба прийняти альтернативну гіпотезу і зробити висновок, що різниця істотна.

    Нездатність відхилити нульову гіпотезу - це не те саме, що прийняти її. Ми зберігаємо нульову гіпотезу, оскільки у нас недостатньо доказів, щоб довести її неправильну. Неможливо довести, що нульова гіпотеза вірна. Це важливий момент і той, який легко забути. Щоб оцінити цей момент, давайте використаємо ці дані для маси 100 циркулюючих копійок США.

    Таблиця\(\PageIndex{1}\). Маси для вибірки 100 циркулюючих U. S. Пенні
    Пенні Вага (г) Пенні Вага (г) Пенні Вага (г) Пенні Вага (г)
    1 3.126 26 3.073 51 3.101 76 3.086
    2 3.140 27 3.084 52 3.049 77 3.123
    3 3.092 28 3.148 53 3.082 78 3.15
    4 3.095 29 3.047 54 3.142 79 3.055
    5 3.080 30 3.121 55 3.082 80 3.057
    6 3.065 31 3.116 56 3.066 81 3.097
    7 3.117 32 3.005 57 3.128 82 3.066
    8 3.034 33 3.15 58 3.112 83 3.113
    9 3.126 34 3.103 59 3.085 84 3.102
    10 3.057 35 3.086 60 3.086 85 3.033
    11 3.053 36 3.103 61 3.084 86 3.112
    12 3.099 37 3.049 62 3.104 87 3.103
    13 3.065 38 2.998 63 3.107 88 3.198
    14 3.059 39 3.063 64 3.093 89 3.103
    15 3.068 40 3.055 65 3.126 90 3.126
    16 3.060 41 3.181 66 3.138 91 3.111
    17 3.078 42 3.108 67 3.131 92 3.126
    18 3.125 43 3.114 68 3.120 93 3.052
    19 3.090 44 3.121 69 3.100 94 3.113
    20 3.100 45 3.105 70 3.099 95 3.085
    21 3.055 46 3.078 71 3.097 96 3.117
    22 3.105 47 3.147 72 3.091 97 3.142
    23 3.063 48 3.104 73 3.077 98 3.031
    24 3.083 49 3.146 74 3.178 99 3.083
    25 3.065 50 3.095 75 3.054 100 3.104

    Подивившись на дані, ми можемо запропонувати наступні нульові та альтернативні гіпотези.

    H 0: Маса циркулюючого американського пенні становить від 2.900 г до 3.200 г

    H A: Маса циркулюючої американської копійки може бути менше 2.900 г або більше 3.200 г

    Для перевірки нульової гіпотези знаходимо копійку і визначаємо її масу. Якщо маса копійки дорівнює 2,512 г, то можна відкинути нульову гіпотезу і прийняти альтернативну гіпотезу. Припустимо, що маса копійки дорівнює 3.162 м Хоча цей результат підвищує нашу впевненість у нульовій гіпотезі, він не доводить, що нульова гіпотеза правильна, оскільки наступна копійка, яку ми вибірку, може важити менше 2.900 г або більше 3.200 г.

    Після того, як ми викладемо null та альтернативні гіпотези, другим кроком є вибір рівня довіри для аналізу. Рівень довіри визначає ймовірність того, що ми неправильно відкинемо нульову гіпотезу, коли вона, по суті, істинна. Ми можемо висловити це як нашу впевненість у тому, що ми правильні у відкиданні нульової гіпотези (наприклад, 95%), або як ймовірність того, що ми неправильні у відхиленні нульової гіпотези. Для останніх рівень довіри дається як\(\alpha\), де

    \[\alpha = 1 - \frac {\text{confidence interval (%)}} {100} \nonumber\]

    Для 95% рівня довіри\(\alpha\) становить 0,05.

    Третій крок - розрахувати відповідну статистику тесту і порівняти її з критичним значенням. Критичне значення тестової статистики визначає точку розриву між значеннями, які призводять нас до відхилення або збереження нульової гіпотези, яка є четвертим і останнім кроком тесту на значущість. Як ми побачимо в наступних розділах, як ми обчислюємо статистику тесту, залежить від того, що ми порівнюємо.

    Чотири кроки для статистичного аналізу даних за допомогою тесту на значущість:

    1. Поставте питання та викладіть нульову гіпотезу H 0 та альтернативну гіпотезу H A.
    2. Виберіть рівень довіри для статистичного аналізу.
    3. Розрахуйте відповідну статистику тесту і порівняйте її з критичним значенням.
    4. Або збережіть нульову гіпотезу, або відкиньте її і прийміть альтернативну гіпотезу.

    Однохвостий і двохвіст значущості тести

    Припустимо, ми хочемо оцінити точність нового аналітичного методу. Ми можемо використовувати цей метод для аналізу стандартного довідкового матеріалу, який містить відому концентрацію аналіту,\(\mu\). Ми аналізуємо стандарт кілька разів, отримуючи середнє значення\(\overline{X}\), для концентрації аналіта. Наша нульова гіпотеза полягає в тому, що немає різниці між\(\overline{X}\) і\(\mu\)

    \[H_0 \text{: } \overline{X} = \mu \nonumber\]

    Якщо ми проводимо тест на значущість\(\alpha = 0.05\), то ми зберігаємо нульову гіпотезу, якщо 95% довіри інтервал навколо\(\overline{X}\) містить\(\mu\). Якщо альтернативна гіпотеза

    \[H_\text{A} \text{: } \overline{X} \neq \mu \nonumber\]

    то відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу, якщо\(\mu\) лежить в затінених областях в будь-якому кінці кривої розподілу ймовірності вибірки (рис.\(\PageIndex{2a}\)). На кожну з затінених областей припадає 2,5% площі під кривою розподілу ймовірностей, загалом 5%. Це двоххвостий тест на значущість, оскільки ми відхиляємо нульову гіпотезу для значень\(\mu\) на будь-якому екстремальному рівні кривої розподілу ймовірності вибірки.

    Малюнок 4.13 PNG
    Малюнок\(\PageIndex{2}\): Приклади (а) двохвостий, і (б, в) однохвостий, тест значущості\(\overline{X}\) і\(\mu\). Криві розподілу ймовірностей, які є нормальними розподілами, базуються на середньому та стандартному відхиленні вибірки. Для\(\alpha\) = 0,05 сині області складають 5% площі під кривою. Якщо значення\(\mu\) потрапляє в сині області, то відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу. Ми зберігаємо нульову гіпотезу, якщо значення\(\mu\) потрапляє в незаштриховану область кривої.

    Ми можемо написати альтернативну гіпотезу двома додатковими способами:

    \[H_\text{A} \text{: } \overline{X} > \mu \nonumber\]

    \[H_\text{A} \text{: } \overline{X} < \mu \nonumber\]

    відхилення нульової гіпотези, якщо\(\mu\) потрапляє в затінені області\(\PageIndex{2c}\), показані на малюнку\(\PageIndex{2b}\) або малюнку відповідно. У кожному випадку затінена область становить 5% площі під кривою розподілу ймовірностей. Це приклади однохвостого тесту на значущість.

    Для фіксованого рівня довіри тест на значення з двома хвостами є більш консервативним тестом, оскільки відкидання нульової гіпотези вимагає більшої різниці між результатами, які ми порівнюємо. У більшості ситуацій у нас немає особливих підстав очікувати, що один результат повинен бути більшим (або повинен бути меншим), ніж інший результат. Так відбувається, наприклад, коли ми оцінюємо точність нового аналітичного методу. Отже, двоххвостий тест на значущість, як правило, є відповідним вибором.

    Ми залишаємо однохвостий тест на значущість для ситуації, коли ми конкретно зацікавлені в тому, чи один результат більший (або менший), ніж інший результат. Наприклад, однохвостий тест на значущість підходить, якщо ми оцінюємо здатність ліків знижувати рівень глюкози в крові. У цьому випадку нас цікавить лише те, чи рівень глюкози після введення препарату менше рівня глюкози до початку лікування. Якщо рівень глюкози в крові пацієнта більший після введення ліків, то ми знаємо відповідь - ліки не працювали - і нам не потрібно проводити статистичний аналіз.

    Помилки при перевірці значущості

    Оскільки тест на значущість спирається на ймовірність, його інтерпретація піддається помилці. У тесті на значущість\(\alpha\) визначає ймовірність відхилення нульової гіпотези, яка є істинною. Коли ми проводимо тест на значущість\(\alpha = 0.05\), існує 5% ймовірність того, що ми неправильно відхилимо нульову гіпотезу. Це відомо як помилка типу 1, і її ризик завжди еквівалентний\(\alpha\). Помилка типу 1 у двоххвостому або однохвостому тестах на значущість відповідає затіненим ділянкам під кривими розподілу ймовірностей на малюнку\(\PageIndex{2}\).

    Другий тип помилки виникає, коли ми зберігаємо нульову гіпотезу, навіть якщо вона помилкова. Це помилка 2 типу, і ймовірність її виникнення є\(\beta\). На жаль, в більшості випадків ми не можемо обчислити або оцінити значення для\(\beta\). Імовірність помилки типу 2, однак, обернено пропорційна ймовірності помилки типу 1.

    Мінімізація помилки типу 1 за рахунок зменшення\(\alpha\) збільшує ймовірність помилки типу 2. Коли ми вибираємо значення для\(\alpha\) ми повинні йти на компроміс між цими двома типами помилок. Більшість прикладів у цьому тексті використовують 95% рівня довіри (\(\alpha = 0.05\)), оскільки це зазвичай розумний компроміс між помилками типу 1 та 2 для аналітичної роботи. Однак незвично використовувати більш жорсткий (наприклад\(\alpha = 0.01\)) або більш м'який (наприклад\(\alpha = 0.10\)) рівень довіри, коли ситуація цього вимагає.