Skip to main content
LibreTexts - Ukrayinska

1.5: Випадкова помилка

  • Page ID
    105365
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Цілі навчання

    Прочитавши цю главу, ви зможете зробити наступне:

    1. Визначте випадкову помилку та диференціюйте її від зміщення
    2. Проілюструйте випадкову помилку прикладами
    3. Інтерпретувати p -значення
    4. Інтерпретувати довірчий інтервал
    5. Розмежуйте статистичні помилки типу 1 та 2 типу та поясніть, як вони застосовуються до епідеміологічних досліджень
    6. Опишіть, як статистична влада впливає на дослідження

    У цьому розділі ми розглянемо випадкову помилку - звідки вона походить, як ми з нею справляємося та що це означає для епідеміології.

    Що таке випадкова помилка?

    Перш за все, випадкова помилка - це не упередження. Упередженість є систематичною помилкою і докладніше розглядається в розділі 6.

    Випадкова помилка - це якраз те, що вона звучить як: випадкові помилки в даних. Всі дані містять випадкові помилки, тому що жодна система вимірювань не є ідеальною. Величина випадкових похибок частково залежить від шкали, на якій щось вимірюється (похибки в вимірюваннях молекулярного рівня були б на порядку нанометрів, тоді як помилки у вимірах людського зросту, ймовірно, на порядку сантиметра або двох) і частково від якості використовуваних інструментів. Фізичні та хімічні лабораторії мають високоточні, дорогі ваги, які можуть вимірювати масу до найближчого грама, мікрограма або нанограма, тоді як середня шкала у ванній кімнаті, ймовірно, точна в межах півфунта або фунта.

    Щоб обернути голову навколо випадкової помилки, уявіть, що ви випікаєте торт, який вимагає 6 столових ложок вершкового масла. Щоб отримати 6 столових ложок вершкового масла (три чверті палички, якщо є 4 палички в фунті, як це зазвичай вірно в США), ви можете використовувати позначки, які з'являються на вощеному папері навколо палички, припускаючи, що вони вишикувалися правильно. Або ви могли б слідувати методу моєї матері, який полягає в тому, щоб розгорнути палицю, зробити невелику позначку на тому, що виглядає як одна половина палиці, а потім дістатися до трьох чвертей шляхом очного яблука половину половини. Або ви можете скористатися моїм методом, який полягає в тому, щоб очне яблуко позначку в три чверті від початку і відрізати. Будь-який з цих методів «вимірювання» дасть вам приблизно 6 столових ложок вершкового масла, що, безумовно, досить добре для цілей випічки торта - але, ймовірно, не зовсім 3 унції коштує, а це скільки 6 столових ложок вершкового масла важить в США. [Я] Ступінь, в якій ви трохи більше 3 унцій цього разу і, можливо, трохи менше 3 унцій наступного разу викликає випадкову помилку у вимірі вершкового масла. Якщо ви завжди недооцінювали або завжди завищували, то це було б упередження—однак ваші послідовно недооцінені або завищені вимірювання будуть містити випадкову помилку.

    Притаманна мінливість

    Для будь-якої даної змінної, яку ми можемо захотіти виміряти в епідеміології (наприклад, висота, середній бал, частота серцевих скорочень, кількість років, що працюють на певній фабриці, рівень тригліцеридів в сироватці крові тощо), ми очікуємо, що у вибірці буде варіативність - тобто ми не очікуємо, що кожен у популяції матиме саме такий однакове значення. Це не випадкова помилка. Випадкова помилка (і упередження) виникає, коли ми намагаємося виміряти ці речі. Дійсно, епідеміологія як сфера спирається на цю властиву мінливість. Якби всі були в точності однакові, то ми не змогли б визначити, які види людей піддаються більш високому ризику розвитку того чи іншого захворювання.

    В епідеміології іноді наші вимірювання покладаються на людину, крім учасника дослідження, яка вимірює щось на або про учасника. Приклади можуть включати виміряний зріст або вагу, артеріальний тиск або сироватковий холестерин. Для деяких з них (наприклад, вага та холестерин сироватки крові) випадкова помилка повзає в дані через використовуваний інструмент - тут шкала, яка, ймовірно, має коливання півфунта, або лабораторний аналіз з похибкою в кілька міліграмів на децилітр. Для інших вимірювань (наприклад, висоти та артеріального тиску) вимірювач сам відповідає за будь-яку випадкову похибку, як у прикладі вершкового масла.

    Однак багато наших вимірювань покладаються на самозвітування учасників. Є цілі підручники та класи, присвячені дизайну анкет, і наука, яка стоїть за тим, як отримати найбільш точні дані від людей за допомогою методів опитування, досить хороша. Дослідницький центр Pew пропонує приємний вступний посібник з дизайну анкети на своєму веб-сайті.

    Що стосується нашого обговорення тут, випадкова помилка буде відображатися і в даних анкети. Для деяких змінних буде менше випадкових помилок, ніж інші (наприклад, самостійна гонка, ймовірно, досить точна), але все одно будуть деякі - наприклад, люди випадково перевіряють неправильне поле. Для інших змінних буде більше випадкових помилок (наприклад, неточні відповіді на такі питання, як: «У минулому році скільки разів на місяць ви їли рис?»). Гарне запитання, яке слід задати собі при розгляді кількості випадкової помилки, яка може бути у змінній, отриманої з анкети, є: «Чи можуть люди сказати мені це?» Більшість людей теоретично можуть сказати вам, скільки сну вони отримали минулої ночі, але вони були б важко сказати вам, скільки сну вони отримали в ту ж ніч рік тому. Чи скажуть вони вам чи ні, - це інша справа і стосується упередженості (див. Розділ 6). Незважаючи на це, випадкова помилка в даних анкети збільшується, оскільки ймовірність того, що люди можуть сказати вам відповідь, зменшується.

    Кількісна оцінка випадкової помилки

    Хоча ми можемо і повинні працювати над мінімізацією випадкових помилок (використовуючи високоякісні інструменти, навчання персоналу тому, як робити вимірювання, розробляти хороші анкети тощо), її ніколи не можна повністю усунути. На щастя, ми можемо використовувати статистику для кількісної оцінки випадкових помилок, присутніх у дослідженні. Дійсно, для цього і потрібна статистика. У цій книзі я висвітлю лише невеликий шматочок величезного поля статистики: інтерпретацію p -значень і довірчих інтервалів (КІ). Замість того, щоб зосередитися на тому, як їх обчислити [1], я натомість зосереджуся на тому, що вони означають (і що вони не означають). Знання p-значень і СНД достатньо, щоб дати можливість точної інтерпретації результатів епідеміологічних досліджень для початківців студентів-епідеміологів.

    p -значення

    При проведенні наукових досліджень будь-якого роду, в тому числі епідеміології, починається з гіпотези, яка потім перевіряється в міру проведення дослідження. Наприклад, якщо ми вивчаємо середній зріст студентів, наша гіпотеза (зазвичай вказується H 1) може полягати в тому, що студенти чоловічої статі, в середньому, вище, ніж студентки. Однак для статистичного тестування ми повинні перефразувати нашу гіпотезу як нульову гіпотезу [2]. У цьому випадку наша нульова гіпотеза (зазвичай позначається H 0) буде такою:

    H 0: Немає різниці в середньому зростанні між студентами чоловічої та жіночої статі.

    Потім ми проведемо наше дослідження, щоб перевірити цю гіпотезу. Спочатку визначаємо цільову популяцію (студенти бакалаврату) і проводимо вибірку з цієї сукупності. Потім ми вимірюємо висоту та стать кожного у вибірці та обчислюємо середній зріст серед чоловіків порівняно з жінками. Потім ми проведемо статистичний тест для порівняння середніх висот у групах 2. Оскільки у нас є безперервна змінна (висота), виміряна в 2 групах (чоловіки та жінки), ми б використовували t -тест [3], а t -статистика, розрахована за допомогою цього тесту, матиме відповідне p -значення, що нас дійсно хвилює.

    Значення p - це ймовірність того, що якщо ви повторите дослідження, ви знайдете результат принаймні як екстремальний, припускаючи, що нульова гіпотеза істинна.

    Скажімо, в нашому дослідженні ми виявляємо, що студенти-чоловіки в середньому 5 футів 10 дюймів, а серед студенток середня висота становить 5 футів 6 дюймів (для різниці 4 дюймів), і ми обчислюємо p -значення 0,04. Це означає, що якщо дійсно немає різниці в середньому зрості між студентами-чоловіками та студентами-студентами (тобто, якщо нульова гіпотеза вірна) і ми повторюємо дослідження (весь шлях назад до складання нової вибірки з популяції), є 4% шанс, що ми знову знайдемо різницю в середній висоті 4 дюймів і більше.

    Є кілька наслідків, які випливають з вищезазначеного пункту. По-перше, в епідеміології ми завжди обчислюємо 2-хвостові p -значення. Тут це просто означає, що 4% ймовірність різниці висоти ≥4 дюймів нічого не говорить про те, яка група вища - тільки що одна група (або чоловіки, або жінки) буде вищою в середньому принаймні на 4 дюйми. По-друге, p-значення безглузді, якщо вам трапляється, що ви зможете записати всю популяцію у своєму дослідженні. Як приклад, скажімо, наше дослідницьке питання стосується студентів у галузі охорони здоров'я 425 (H425, Основи епідеміології) протягом зимового семестру 2020 року в Університеті штату Орегон (OSU). Чи чоловіки чи жінки вищі в цій популяції? Оскільки населення досить маленьке, і всі члени легко ідентифікуються, ми можемо записати всіх, замість того, щоб покладатися на вибірку. У вимірюванні висоти все одно буде випадкова помилка, але ми більше не використовуємо p -значення для її кількісної оцінки. Це тому, що якби ми повторювали дослідження, ми б знайшли саме те саме, оскільки ми насправді вимірювали всіх у популяції. P -значення застосовуються тільки в тому випадку, якщо ми працюємо з зразками.

    Нарешті, зауважте, що p -значення описує ймовірність ваших даних, припускаючи, що нульова гіпотеза є істинною - вона не описує ймовірність істинності нульової гіпотези з урахуванням ваших даних. Це поширена помилка інтерпретації, яку роблять як початківці, так і старші читачі епідеміологічних досліджень. p -значення нічого не говорить про те, наскільки ймовірно, що нульова гіпотеза вірна (і, таким чином, з іншого боку, про істинність вашої фактичної гіпотези). Швидше, це кількісно визначає ймовірність отримання даних, які ви отримали, якщо нульова гіпотеза дійсно виявилася правдою. Це тонке розмежування, але дуже важливе.

    Статистична значимість

    Що буде далі? У нас є p -значення, яке говорить нам шанс отримати наші дані з урахуванням нульової гіпотези. Але що це насправді означає з точки зору того, що робити висновок про результати дослідження? У галузі охорони здоров'я та клінічних досліджень стандартною практикою є використання p ≤ 0,05 для вказівки статистичної значущості. Іншими словами, десятиліття дослідників у цій галузі колективно вирішили, що якщо шанс вчинення помилки типу I (докладніше про це нижче) становить 5% або менше, ми «відхилимо нульову гіпотезу». Продовжуючи приклад висоти зверху, ми б таким чином дійшли висновку, що існує різниця у висоті між статями, принаймні серед студентів бакалаврату. Для p -значень вище 0,05 ми «не можемо відхилити нульову гіпотезу», і замість цього робимо висновок, що наші дані не дали жодних доказів того, що між студентами чоловічої та жіночої статі була різниця у висоті.

    Невдача відхилення Null проти прийняття Null

    Якщо p > 0,05, ми не можемо відхилити нульову гіпотезу. Ми ніколи не приймаємо нульову гіпотезу, тому що дуже важко довести відсутність чогось. «Прийняття» нульової гіпотези означає, що ми довели, що насправді немає різниці у висоті між студентами-чоловіками та жінками, що не сталося. Якщо р > 0,05, це просто означає, що ми не знайшли доказів на противагу нульовій гіпотезі - не те, що зазначені докази не існує. Ми, можливо, отримали дивний зразок, ми могли б мати занадто малий зразок тощо Існує ціла область клінічних досліджень (порівняльна ефективність дослідження vi), присвячена тому, щоб показати, що одне лікування не краще або гірше, ніж інше; методи поля складні, а розміри вибірки обов'язкові досить великі. Для більшості епідеміологічних досліджень ми просто дотримуємося того, щоб не відхилити.

    Чи є p ≤ 0,05 відсічення довільним? Абсолютно. Це варто мати на увазі, особливо для p -значень дуже близько цього зрізу. Чи дійсно 0.49 відрізняється від 0.51? Ймовірно, ні, але вони знаходяться по протилежних сторонам цієї довільної лінії. Розмір p -значення залежить від 3 речей: розмір вибірки, розмір ефекту (легше відкинути нульову гіпотезу, якщо справжня різниця у висоті - чи ми вимірювали всіх у популяції, а не лише наш зразок - це 6 дюймів, а не 2 дюйми), і узгодженість даних, більшість зазвичай вимірюються стандартними відхиленнями навколо середніх висот в 2 групах. Таким чином, p -значення 0.51 майже напевно можна зробити меншим, просто зарахувавши більше людей у дослідження (це стосується влади, яка є зворотною помилкою типу II, розглянутої нижче). Важливо пам'ятати про цей факт, коли читаєте дослідження.

    Frequentist проти Байєсівської статистики

    Тестування статистичної значущості є частиною галузі статистики, яку називають статистикою частот. ii Хоча надзвичайно поширена в епідеміології та суміжних галузях, ця практика, як правило, не розглядається як ідеальна наука з ряду причин. Перш за все, відсічення 0.05 є абсолютно довільним, iii та суворе тестування значущості відхилило б нуль для p = 0.049, але не може відхилити для p = 0.051, хоча вони майже ідентичні. По-друге, є набагато більше нюансів інтерпретації p -значень та довірчих інтервалів, ніж ті, які я розглянув у цій главі. iv Наприклад, p -значення дійсно перевіряє всі припущення аналізу, а не тільки нульова гіпотеза, і велике значення p часто вказує лише на те, що дані не можуть розрізнити численні конкуруючі гіпотези. Однак, оскільки охорона здоров'я та клінічна медицина вимагають рішень «так чи ні» (Чи варто витрачати ресурси на цю кампанію з охорони здоров'я? Чи повинен цей пацієнт отримувати цей препарат?) , там повинна бути якась система для прийняття рішення yay чи nay, і статистичне тестування значущості в даний час це. Є й інші способи кількісного визначення випадкової помилки, і дійсно Байєсівська статистика (яка замість відповіді «так чи ні» дає ймовірність того, що щось трапиться) ii стає все більш популярним. Тим не менш, оскільки частотна статистика та тестування нульових гіпотез все ще є найпоширенішими методами, що використовуються в епідеміологічній літературі, вони знаходяться в центрі уваги цієї глави.

    Помилки типу I та типу II

    Помилка типу I (зазвичай символізується α, грецька буква альфа, і тісно пов'язана з p -значеннями) - це ймовірність того, що ви неправильно відхилите нульову гіпотезу - іншими словами, що ви «знаходите» щось, чого насправді немає. Вибравши 0,05 як наше скорочення статистичної значущості, ми в галузі охорони здоров'я та клінічних досліджень мовчазно погодилися, що ми готові прийняти, що 5% наших висновків дійсно будуть помилками типу I або помилковими спрацьовуваннями.

    Помилка типу II (зазвичай символізується β, грецька буква бета) протилежна: β - це ймовірність того, що ви неправильно не відмовитеся від нульової гіпотези - іншими словами, ви пропускаєте щось, що насправді є.

    Потужність = 1 - β і інтерпретується як ймовірність того, що ви знайдете речі, якщо вони там є.

    Потужність в епідеміологічних дослідженнях варіюється в широких межах: в ідеалі вона повинна бути не менше 90% (мається на увазі показник похибки II типу 10%), але часто вона набагато нижче. Потужність пропорційна розміру вибірки, але в експоненціальній манері - потужність зростає, коли розмір вибірки зростає, але для отримання від 90 до 95% потужності потрібно набагато більший стрибок розміру вибірки, ніж для переходу від 40 до 45% потужності. Якщо дослідження не може відхилити нульову гіпотезу, але дані виглядають так, що між групами може бути велика різниця, часто проблема полягає в тому, що дослідження було недостатньо, і при більшій вибірці значення p, ймовірно, впаде нижче магічного відсічення 0,05. З іншого боку, частина проблеми з невеликими зразками полягає в тому, що ви могли б просто випадково отримати нерепрезентативну вибірку, і додавання додаткових учасників не призведе до результатів до статистичної значущості. Як приклад, припустимо, що нас знову цікавлять гендерні відмінності висоти, але цього разу лише серед колегіальних спортсменів. Ми починаємо з дуже невеликого дослідження — лише одна чоловіча команда та одна жіноча команда. Якщо ми виберемо, скажімо, чоловічу баскетбольну команду та жіночу гімнастичну команду, ми, швидше за все, знайдемо колосальну різницю в середніх висотах - можливо, 18 дюймів або більше. Додавання інших команд до нашого дослідження майже напевно призведе до набагато більш вузької різниці середніх висот, а різниця 18 дюймів «знайдена» в нашому початковому невеликому дослідженні не затримується з часом.

    Довірчі інтервали

    Оскільки ми встановили прийнятний\ альфа рівень на рівні 5%, в епідеміології та суміжних галузях ми найчастіше використовуємо 95% довірчих інтервалів (95% КІ). Можна використовувати 95% CI для тестування значущості: якщо 95% CI не включає нульове значення (0 для різниці ризику та 1.0 для коефіцієнтів шансів, коефіцієнтів ризику та коефіцієнтів ставок), то p < 0,05, і результат є статистично значущим.

    Хоча 95% CI можуть бути використані для тестування значущості, вони містять набагато більше інформації, ніж просто значення p <0,05 чи ні. Більшість епідеміологічних досліджень повідомляють про 95% CI навколо будь-яких точкових оцінок, які представлені. Правильне тлумачення 95% КІ виглядає наступним чином:

    Якщо ви повторили дослідження 100 разів (повернутися до складання вибірки з населення), і дослідження є вільним від усіх упереджень, то 95 з тих 100 разів CI, які ви обчислюєте, включатиме «реальну» відповідь, яку ви отримаєте, якби ви могли записати всіх у населення.

    Ми також можемо проілюструвати це наочно:

    альт
    Малюнок\(\PageIndex{1}\): https://es.Wikipedia.org/wiki/Intervalo_de_confianza

    На малюнку 5-1 параметр популяції μ представляє «реальну» відповідь, яку ви б отримали, якби могли зарахувати абсолютно всіх в популяції до дослідження. Оцінюємо μ з даними нашого зразка. Продовжуючи наш приклад висоти, це може бути 5 дюймів: якби ми могли магічно виміряти висоту кожного студента в США (або світі, залежно від того, як ви визначили свою цільову популяцію), середня різниця між студентами чоловічої та жіночої статі становила б 5 дюймів. Важливо, що цей параметр населення майже завжди не спостерігається - він стає помітним лише в тому випадку, якщо ви визначите своє населення досить вузько, щоб ви могли записати всіх. Кожна синя вертикальна лінія представляє CI окремого «дослідження» —50 з них, в даному випадку. CI змінюються, оскільки зразок щоразу дещо відрізняється, однак більшість CI (насправді всі, крім 3) містять μ.

    Якщо ми проведемо наше дослідження і знайдемо середню різницю в 4 дюйми (95% CI, 1.5 — 7), CI говорить нам про 2 речі. По-перше, p -значення для нашого t -тесту буде <0.05, оскільки CI виключає 0 (нульове значення в даному випадку, оскільки ми обчислюємо міру різниці). По-друге, інтерпретація КІ така: якби ми повторили наше дослідження (включаючи малювання нового зразка) 100 разів, то 95 з тих часів наші КІ включали б реальне значення (яке ми знаємо тут 5 дюймів, але яке в реальному житті ви б не знали). Таким чином, дивлячись на CI тут 1.5 - 7.0 дюймів дає уявлення про те, що реальна різниця може бути - це майже напевно лежить десь в цьому діапазоні, але може бути настільки ж малим, як 1,5 дюйма або як великий, як 7 дюймів. Як і p -значення, CI залежать від розміру вибірки. Великий зразок дасть порівняно вужчий ІІ. Більш вузькі CI вважаються кращими, оскільки вони дають більш точну оцінку того, якою може бути «правдива» відповідь.

    Резюме

    Випадкова похибка присутня у всіх вимірах, хоча деякі змінні більш схильні до неї, ніж інші. P -значення та CI використовуються для кількісної оцінки випадкової помилки. p -значення 0,05 або менше зазвичай приймається як «статистично значущий», і відповідне CI виключає нульове значення. CI корисні для вираження потенційного діапазону оцінюваної «реальної» вартості населення.


    Посилання

    i. вершкове масло в США і в іншому світі. Кухня Ерренс. Березень 2014 року. https://www.errenskitchen.com/cookin...t-conversions/. Доступ до 26 вересня 2018 р. (ψ Повернення)

    II. Байєсівський проти частотного підходу: ті ж дані, протилежні результати. 365 даних Sci. Серпень 2017 року. https://365datascience.com/bayesian-...tist-approach/. Доступ до 17 жовтня 2018 р. (ψ Повернення 1) (ψ Повернення 2)

    iii. Сміт Р.Дж. Триваюче неправильне використання тестування значущості нульової гіпотези в біологічній антропології. Ам Дж. Фіз Антрополь. 2018; 166 (1) :236-245. дої:10.1002/ajpa.23399 (Повернення)

    IV. Фарланд Л.В., Коррея КФ, Мудрий ЛА, Вільямс ПЛ, Гінзбург Е.С., Місмер С.А. P-значення та репродуктивне здоров'я: що можуть навчитися клінічні дослідники від Американської статистичної асоціації? Гум Рекорд від англ. 2016; 31 (11) :2406-2410. дої:10.1093/хамреп/роса 192 (Повернення)

    проти Гренландії S, Senn SJ, Ротман К.Дж., та ін. Статистичні тести, значення p, довірчі інтервали та потужність: керівництво до неправильних тлумачень. Епідеміологія ЄС. 2016; 31:337-350. дої:10.1007/с10654-016-0149-3

    vi. Чому дослідження порівняльної ефективності важливо? Дослідницький інститут результатів, орієнтованих на пацієнта. https://www.pcori.org/files/why-comp...arch-important. Доступ до 17 жовтня 2018 р. (ψ Повернення)


    1. Існує не тільки одна формула для обчислення p -значення або CI. Швидше, формули змінюються залежно від того, який статистичний тест застосовується. Будь-який вступний текст біостатистики, який обговорює, які статистичні методи використовувати і коли також надасть відповідну інформацію про p -значення та обчислення СІ. ψ
    2. Не витрачайте занадто довго, намагаючись з'ясувати, навіщо нам потрібна нульова гіпотеза; ми просто робимо. Обґрунтування ховається в століттях академічної філософії науки аргументів. ψ
    3. Як правильно вибрати тест виходить за рамки цієї книги—див. будь-яку книгу з вступної біостатистики