1.4: Основні поняття тестування гіпотез
Цілі навчання
- Однією з головних цілей статистичного тестування гіпотез є оцінкаP величини, яка є ймовірністю отримання спостережуваних результатів, або чогось більш екстремального, якщо нульова гіпотеза була істинною. Якщо спостережувані результати малоймовірні при нульовій гіпотезі, відкиньте нульову гіпотезу.
- Альтернативи цього «частотного» підходу до статистики включають Байєсівську статистику та оцінку розмірів ефектів та довірчих інтервалів.
Вступ
Існують різні способи ведення статистики. Методику, яку використовує переважна більшість біологів, і методику, яку описує більша частина цього посібника, іноді називають «частотою» або «класичною» статистикою. Він передбачає тестування нульової гіпотези шляхом порівняння даних, які ви спостерігаєте у своєму експерименті, з прогнозами нульової гіпотези. Ви оцінюєте, якою буде ймовірність отримання спостережуваних результатів, або чогось більш екстремального, якби нульова гіпотеза була правдою. Якщо ця оцінена ймовірність (Pзначення) досить мала (нижче значення значущості), то ви робите висновок, що малоймовірно, що нульова гіпотеза істинна; ви відкидаєте нульову гіпотезу і приймаєте альтернативну гіпотезу.
Багато статистиків жорстко критикують частотну статистику, але їх критика не вплинула на те, як більшість біологів роблять статистику. Тут я викладу деякі ключові поняття, що використовуються в статистиці частот, а потім коротко опишу деякі альтернативи.
Нульова гіпотеза
Нульова гіпотеза - це твердження, яке ви хочете перевірити. Загалом, нульова гіпотеза полягає в тому, що речі однакові між собою, або такі ж, як теоретичне очікування. Наприклад, якщо виміряти розмір ніг курей чоловічої та жіночої статі, нульова гіпотеза може полягати в тому, що середній розмір стопи у курчат-самців такий же, як середній розмір стопи у самок курей. Якщо порахувати кількість самців і самок курей, народжених від набору курей, нульова гіпотеза може полягати в тому, що співвідношення самців і самок дорівнює теоретичному очікуванню1:1 співвідношення.
Альтернативна гіпотеза полягає в тому, що речі відрізняються один від одного або відрізняються від теоретичного очікування.

Наприклад, однією з альтернативних гіпотез було б те, що чоловічі кури мають інший середній розмір ноги, ніж самки курей; інша полягає в тому, що співвідношення статі відрізняється від1:1.
Зазвичай нульова гіпотеза нульна, а альтернативна гіпотеза цікава. Наприклад, припустимо, ви годуєте шоколадом купу курей, потім подивіться на співвідношення статі у їх потомства. Якщо ви отримуєте більше самок, ніж самців, це було б надзвичайно захоплюючим відкриттям: це було б фундаментальним відкриттям щодо механізму визначення статі, самки курей цінніші за курчат-самців у породах, що несуть яйце, і ви зможете опублікувати свій результат у науці чи Природа. Багато людей витратили багато часу і грошей, намагаючись змінити співвідношення статі у курей, і якщо ви досягнете успіху, ви будете багатими і відомими. Але якщо шоколад не змінить співвідношення статі, це буде надзвичайно нудний результат, і вам важко буде опублікувати його в Східному Делавері Journal of Chickenology. Тому спокусливо шукати шаблони у ваших даних, які підтримують захоплюючу альтернативну гіпотезу. Наприклад, ви можете подивитися на48 потомство курей, що годуються шоколадом, і побачити31 самок і тільки17 самців. Це виглядає багатообіцяючим, але перш ніж ви станете щасливими і почнете купувати офіційний одяг для церемонії Нобелівської премії, вам потрібно запитати «Яка ймовірність отримати відхилення від нульового очікування такого великого, просто випадково, якщо нудна нульова гіпотеза дійсно вірна?» Тільки коли ця ймовірність низька, ви можете відхилити нульову гіпотезу. Метою статистичного тестування гіпотез є оцінка ймовірності отримання ваших спостережуваних результатів за нульовою гіпотезою.
Біологічні проти статистичних нульових гіпотез
Важливо розрізняти біологічні нульові та альтернативні гіпотези та статистичні нульові та альтернативні гіпотези. «Статевий відбір самок призвів до того, що чоловічі кури розвивалися більшими ногами, ніж самки» - біологічна альтернативна гіпотеза; вона говорить щось про біологічні процеси, в даному випадку статевий відбір. «Чоловічі кури мають інший середній розмір ноги, ніж самки» - це статистична альтернативна гіпотеза; вона говорить щось про цифри, але нічого про те, що призвело до того, що ці цифри були різними. Біологічні нульові та альтернативні гіпотези є першими, про які слід подумати, оскільки вони описують щось цікаве про біологію; вони є двома можливими відповідями на біологічне запитання, яке вас цікавить («Що впливає на розмір стопи у курей?»). Статистичні нульові та альтернативні гіпотези - це твердження про дані, які повинні випливати з біологічних гіпотез: якщо статевий відбір сприяє більшим ногам у курей чоловічої статі (біологічна гіпотеза), то середній розмір стопи у курчат-самців повинен бути більшим за середній показник у самок (a статистичної гіпотези). Якщо ви відхилите статистичну нульову гіпотезу, вам доведеться вирішити, чи достатньо цього доказів того, що ви можете відхилити свою біологічну нульову гіпотезу. Наприклад, якщо ви не виявите значної різниці в розмірі стопи між чоловічими та жіночими курами, ви можете зробити висновок: «Немає істотних доказів того, що статевий відбір призвів до того, що чоловічі кури мали більші ноги». Якщо ви виявите статистично значущу різницю в розмірі стопи, цього може бути недостатньо для вас, щоб зробити висновок, що статевий відбір спричинив більші ноги; Це може бути, що чоловіки їдять більше, або що більші ноги є побічним продуктом розвитку гребінців півнів, або що чоловіки бігають навколо більше і вправа робить ноги більше. Коли існує безліч біологічних інтерпретацій статистичного результату, потрібно подумати про додаткові експерименти, щоб перевірити різні можливості.
Тестування нульової гіпотези
Основна мета статистичного тесту полягає в тому, щоб визначити, чи є спостережуваний набір даних настільки відрізняється від того, що ви очікуєте за нульовою гіпотезою, що ви повинні відхилити нульову гіпотезу. Наприклад, припустимо, ви вивчаєте визначення статі у курей. Для порід курей, які виведені для відкладання великої кількості яєць, самки пташенят цінніші, ніж пташенята чоловічої статі, тому, якби ви могли придумати спосіб маніпулювати статевим співвідношенням, ви могли б зробити багато пташенят дуже щасливими. Ви годували шоколадом купу самок курей (у птахів, на відміну від ссавців, самка батька визначає стать потомства), і ви отримуєте пташенят25 самки і пташенят23 чоловічої статі. Будь-хто подивився б на ці цифри і побачив, що вони можуть легко стати результатом випадковості; не було б підстав відхиляти нульову гіпотезу1:1 співвідношення жінок і чоловіків. Якщо у вас є47 жінки і1 чоловіки, більшість людей подивилися б на ці цифри і побачили, що вони будуть вкрай малоймовірними через удачу, якби нульова гіпотеза була правдою; ви б відкинули нульову гіпотезу і зробили висновок, що шоколад дійсно змінив статеве співвідношення. Однак що робити, якщо у вас були31 самки і17 самці? Це, безумовно, більше жінок, ніж чоловіків, але чи дійсно це так навряд чи відбудеться через шанс, що ви можете відхилити нульову гіпотезу? Щоб відповісти на це, потрібно більше, ніж здоровий глузд, потрібно обчислити ймовірність отримання відхилення, яке велике через випадковість.
P значення

На малюнку вище я використовував функцію BINOMDIST Excel для обчислення ймовірності отримання кожного можливого числа чоловіків, від0 до48, під нульовою гіпотезою, які0.5 є чоловічими. Як бачите, ймовірність вивести17 самців із48 загальної кількості курей приблизно0.015. Це здається досить маленькою ймовірністю, чи не так? Однак, це ймовірність отримати саме17 самці. Те, що ви хочете знати, - це ймовірність отримати17 або менше чоловіків. Якби ви збиралися прийняти17 чоловіків як доказ того, що співвідношення статі було упередженим, ви також прийняли б1615, або14,... чоловіків як доказ упередженого співвідношення статі. Тому вам потрібно скласти вірогідності всіх цих результатів. Імовірність отримання17 або меншої кількості чоловіків з48, за нульовою гіпотезою, є0.030. Це означає, що якби у вас була нескінченна кількість курей, половина самців і половина самок, і ви взяли купу випадкових зразків48 курей,3.0% зразки мали б17 або менше самців.
Це число,0.030,, єP значенням. Вона визначається як ймовірність отримання спостережуваного результату, або більш екстремального результату, якщо нульова гіпотеза вірна. Отже "P=0.030" - це скорочений спосіб сказати: «Імовірність отримання17 або меншої кількості курей самців із48 загальної кількості курей, ЯКЩО нульова гіпотеза вірна, що50% кури є самцями, є»0.030.
Помилкові спрацьовування проти помилкових негативів
Після того, як ви зробите статистичний тест, ви або збираєтеся відхилити або прийняти нульову гіпотезу. Відкидання нульової гіпотези означає, що ви робите висновок, що нульова гіпотеза не відповідає дійсності; у нашому прикладі сексу з куркою ви б зробили висновок, що справжня частка пташенят чоловічої статі, якби ви дали шоколад нескінченній кількості курячих матерів, була б меншою, ніж50%.
Коли ви відхиляєте нульову гіпотезу, є ймовірність, що ви робите помилку. Нульова гіпотеза дійсно може бути правдою, і може бути, що ваші експериментальні результати відхиляються від нульової гіпотези чисто в результаті випадковості. У зразку48 курей можна отримати17 курчат-самців чисто випадково; навіть можливо (хоча вкрай малоймовірно) отримати048 чоловічих і жіночих курей чисто випадково, хоча справжня частка -50% самці. Ось чому ми ніколи не говоримо, що «доводять» щось в науці; завжди є шанс, хоч і незначний, що наші дані обманюють нас і відхиляються від нульової гіпотези чисто через випадковість. Коли ваші дані обманюють вас у відхиленні нульової гіпотези, хоча це правда, це називається «хибним позитивом» або «Помилка типу I». Таким чином, ще один спосіб визначенняP значення є ймовірність отримання помилкового позитиву, як той, який ви спостерігали, якщо нульова гіпотеза вірна.
Інший спосіб, яким ваші дані можуть обдурити вас, - це коли ви не відкидаєте нульову гіпотезу, хоча це неправда. Якщо справжня частка жіночих пташенят є51%, нульова гіпотеза50% пропорції не відповідає дійсності, але ви навряд чи отримаєте значну різницю від нульової гіпотези, якщо у вас немає величезного розміру вибірки. Нездатність відхилити нульову гіпотезу, хоча це не так, це «помилково негативна» або «помилка типу II». Ось чому ми ніколи не говоримо, що наші дані показують, що нульова гіпотеза є правдою; все, що ми можемо сказати, це те, що ми не відкинули нульову гіпотезу.
Рівні значущості
Чи0.030 означає ймовірність того, що ви повинні відкинути нульову гіпотезу, і зробити висновок, що шоколад дійсно викликав зміну статевого співвідношення? Конвенція в більшості біологічних досліджень полягає у використанні рівня значущості0.05. Це означає, що якщоP значення менше0.05, ви відхиляєте нульову гіпотезу; якщоP більше або дорівнює0.05, ви не відхиляєте нульову гіпотезу. Немає нічого математично чарівного в тому0.05, що вона була обрана досить довільно в перші дні статистики; люди могли домовитися0.04, або0.025, або0.071 як загальноприйнятий рівень значущості.
Рівень значущості (також відомий як «критичне значення» або «альфа»), який ви повинні використовувати, залежить від витрат на різні види помилок. З рівнем значущості0.05, у вас є5% шанс відхилити нульову гіпотезу, навіть якщо це правда. Якщо ви спробуєте100 різні методи лікування на своїх курей, і жодне з них не змінює співвідношення статі,5% ваші експерименти дадуть вам дані, які значно відрізняються від1:1 статевого співвідношення, просто випадково. Іншими словами,5% ваші експерименти дадуть вам помилковий позитив. Якщо ви використовуєте більш високий рівень значущості, ніж звичайний0.05, наприклад0.10, ви збільшите свій шанс хибного позитиву до0.10 (отже, збільшуючи ваш шанс на збентежливо неправильний висновок), але ви також зменшите свій шанс помилкового негативу (збільшуючи ваш шанс виявлення тонкого ефекту). Якщо ви використовуєте більш низький рівень значущості, ніж звичайний0.05, наприклад0.01, ви зменшуєте свій шанс незручного помилкового позитиву, але ви також робите менш імовірно, що ви виявите реальне відхилення від нульової гіпотези, якщо така є.
Відносні витрати на помилкові спрацьовування та помилкові негативи, і, отже, найкращеP значення для використання, будуть різними для різних експериментів. Якщо ви перевіряєте купу потенційних методів лікування, що змінюють статеве співвідношення, і отримуєте хибний позитив, це не було б великою справою; Ви б просто провели ще кілька тестів на це лікування, поки ви не переконалися, що початковий результат був помилковим позитивним. Однак вартість помилкового негативу полягала б у тому, що ви пропустите надзвичайно цінне відкриття. Тому ви можете встановити значення значення значення0.10 або більше для ваших початкових тестів. З іншого боку, як тільки ваше лікування, що змінює статеве співвідношення, проходить остаточні випробування перед продажем фермерам, помилковий позитив може бути дуже дорогим; Ви хочете бути дуже впевненими, що це дійсно спрацювало. В іншому випадку, якщо ви продасте курячим фермерам лікування статевого співвідношення, яке, виявляється, насправді не працює (це було помилково позитивним), вони подадуть до суду на штани з вас. Тому, можливо, ви захочете встановити свій рівень0.01 значущості або навіть нижче для ваших остаточних тестів.
Вибраний вами рівень значущості також повинен залежати від того, наскільки ймовірно, що ви вважаєте, що ваша альтернативна гіпотеза буде вірною, прогноз, який ви робите перед тим, як зробити експеримент. Це основа Байєсівської статистики, як пояснюється нижче.
Ви повинні вибрати рівень значущості, перш ніж збирати дані, звичайно. Якщо ви вирішите використовувати інший рівень значущості, ніж звичайний0.05, люди будуть скептично; ви повинні бути в змозі виправдати свій вибір. Протягом усього цього посібника я завжди використовуватимуP<0.05 як рівень значущості. Якщо ви проводите експеримент, де вартість помилкового позитиву набагато більша або менша, ніж вартість помилкового негативу, або експеримент, де ви вважаєте, що малоймовірно, що альтернативна гіпотеза буде правдою, вам слід розглянути можливість використання іншого рівня значущості.
Однохвоста проти двохвоста ймовірності
Імовірність, яка була розрахована вище0.030, - це ймовірність отримати17 або менше самців48. Це було б суттєво, використовуючи умовнийP<0.05 критерій. Однак як щодо ймовірності отримати17 або менше самок? Якщо ваша нульова гіпотеза - «Частка чоловіків є17 або більше», а ваша альтернативна гіпотеза - «Частка чоловіків менше0.5, ніж», то ви б використалиP=0.03 значення, знайдене, додавши ймовірність отримання17 або меншої кількості чоловіків. Це називається однохвостою ймовірністю, тому що ви додаєте ймовірності лише в один хвіст розподілу, показаного на малюнку. Однак, якщо ваша нульова гіпотеза «Частка чоловіків є0.5 «, то ваша альтернативна гіпотеза: «Частка чоловіків відрізняється від»0.5. У цьому випадку слід додати ймовірність отримання17 або меншої кількості самок до ймовірності отримання17 або меншої кількості самців. Це називається двоххвостої ймовірністю. Якщо ви зробите це з курячим результатом, ви отримаєтеP=0.06, що не зовсім суттєво.
Ви повинні вирішити, чи використовувати однохвосту або двохвосту ймовірність, перш ніж збирати свої дані, звичайно. Однохвоста ймовірність є більш потужною, в сенсі того, що має менший шанс помилкових негативів, але ви повинні використовувати лише однохвосту ймовірність, якщо ви дійсно, дійсно маєте тверде прогнозування про те, який напрямок відхилення ви вважаєте цікавим. У прикладі курки у вас може виникнути спокуса використовувати однохвосту ймовірність, тому що ви шукаєте лише методи лікування, які зменшують частку нікчемних чоловічих курей. Але якби ви випадково знайшли лікування, яке виробляло87% курчат-самців, чи справді ви опублікували результат як «Лікування не спричинило значного зменшення частки курей чоловічої статі»? Сподіваюся, що ні. Ви зрозумієте, що цей несподіваний результат, хоча це не те, чого хотіли ви та ваші друзі-фермери, був би дуже цікавим для інших людей; приводячи до відкриттів про фундаментальну біологію визначення статі у курей, може навіть допомогти вам коли-небудь виробляти більше жіночих курей. Будь-який раз, коли відхилення в будь-якому напрямку буде цікавим, слід використовувати двоххвосту ймовірність. Крім того, люди скептично ставляться до однохвостих ймовірностей, особливо якщо однохвоста ймовірність значна, а двохвоста ймовірність не була б значною (як у нашому прикладі з курки, що їдять шоколад). Якщо ви не надасте дуже переконливе пояснення, люди можуть подумати, що ви вирішили використовувати однохвосту ймовірність після того, як ви побачили, що двоххвоста ймовірність не була досить значною, що було б обманом. Може бути простіше завжди використовувати двоххвості ймовірності. Для цього посібника я завжди буду використовувати двоххвості ймовірності, якщо я не даю зрозуміти, що цікавим буде лише один напрямок відхилення від нульової гіпотези.
Повідомлення про ваші результати
У старі часи, коли люди шукалиP значення в друкованих таблицях, вони повідомляли про результати статистичного тесту як "P<0.05«," «,"P<0.01 «і т.д. в даний час майже всі програми комп'ютерної статистики дають точнеP значення, отримане в результаті статистичного тесту, такого якP>0.10 P=0.029, і це те, що ви повинні повідомити в своїх публікаціях. Ви зробите висновок, що результати або значні, або вони не є значними; вони або відхиляють нульову гіпотезу (якщоP вона нижче вашого заздалегідь визначеного рівня значущості), або не відкидають нульову гіпотезу (якщоP вона вище вашого рівня значущості). Але інші люди захочуть знати, чи є ваші результати «сильно» значними (Pнабагато менше0.05), що дасть їм більше впевненості у ваших результатах, ніж якби вони були «ледве» значними (P=0.043наприклад). Крім того, іншим дослідникам знадобиться точнеP значення, якщо вони хочуть об'єднати ваші результати з іншими в мета-аналіз.
Програми комп'ютерної статистики можуть давати кілька неточніP значення, коли їх дуже мало. Як тільки вашіP значення стануть дуже маленькими, ви можете просто сказати "P<0.00001" або якесь інше вражаюче невелике число. Ви також повинні дати або свої вихідні дані, або тестову статистику та ступені свободи, якщо хтось захоче обчислити ваше точнеP значення.
Розміри ефектів і довірчі інтервали
Досить поширена критика підходу до перевірки гіпотез до статистики полягає в тому, що нульова гіпотеза завжди буде помилковою, якщо у вас досить великий розмір вибірки. У прикладі курячих ніг критики стверджували б, що якби у вас був нескінченний розмір вибірки, неможливо, щоб кури-самці мали точно такий же середній розмір стопи, як і самки курей. Тому, оскільки ви знаєте, перш ніж робити експеримент, що нульова гіпотеза є помилковою, немає сенсу перевіряти її.
Ця критика стосується лише двоххвостих тестів, де нульова гіпотеза - «Речі точно такі ж», а альтернатива - «Речі різні». Імовірно, ці критики вважають, що було б добре зробити однохвостий тест з нульовою гіпотезою, як «Довжина ноги чоловічих курей така ж, як або менше, ніж у самок», оскільки нульова гіпотеза про те, що чоловічі кури мають менші ноги, ніж самки, може бути правдою. Так що, якщо ви турбуєтеся про цю проблему, ви можете думати про двоххвостий тест, де нульова гіпотеза полягає в тому, що речі однакові, як стенографія для виконання двох однохвостих тестів. Значне відхилення нульової гіпотези в двоххвостовому тесті було б еквівалентом відхилення однієї з двох однохвостих нульових гіпотез.
Пов'язана критика полягає в тому, що значне відхилення нульової гіпотези може не бути біологічно значущим, якщо різниця занадто мала, щоб мати значення. Наприклад, в експерименті з курячим сексом лікування, яке виробляло пташенят49.9% чоловічої статі, може значно відрізнятися від50%, але цього було б недостатньо, щоб фермери захотіли придбати ваше лікування. Ці критики кажуть, що ви повинні оцінити розмір ефекту і поставити на нього довірчий інтервал, а не оцінюватиP значення. Тож метою вашого експерименту з курячим сексом не повинно бути сказати «Шоколад дає частку самців, яка значно менше50% ((P=0.015)», а сказати «Шоколад виробляється36.1% самцями з95% довірчим інтервалом25.9% до»47.4%. Для експерименту з курячими ногами ви б сказали щось на кшталт: «Різниця між самцями та самками в середньому розмірі стопи є2.45mm, з довірчим інтервалом на різницю»±1.98mm.
Оцінка розмірів ефектів та довірчих інтервалів є корисним способом узагальнення результатів, і це, як правило, має бути частиною аналізу даних; часто потрібно включати довірчі інтервали в графіку. Однак є багато експериментів, де мета полягає в тому, щоб вирішити питання так/ні, а не оцінити число. У початкових тестах шоколаду на співвідношення статі курки метою було б вирішити між «Це змінило статеве співвідношення» і «Здавалося, не змінило статевого співвідношення». Будь-яка зміна статевого співвідношення, яка є достатньо великою, щоб ви могли її виявити, була б цікавою і вартою подальших експериментів. Хоча це правда, що різниця між49.9% і,50% можливо, не варто проводити, ви не будете робити експеримент на достатній кількості курей, щоб виявити різницю, що невелика.
Часто люди, які стверджують, що уникають тестування гіпотез, скажуть щось на кшталт «95%довірчий інтервал25.9% до47.4% не включає50%, тому ми робимо висновок, що рослинний екстракт значно змінив статеве співвідношення». Це незграбна і кругова форма тестування гіпотез, і вони можуть також визнати це і повідомити проP значення.
Байєсівська статистика
Ще однією альтернативою частотної статистики є байєсівська статистика. Ключова відмінність полягає в тому, що Байєсівська статистика вимагає вказати ваше найкраще припущення про ймовірність кожного можливого значення параметра, що підлягає оцінці, перш ніж експеримент буде зроблений. Це відомо як «попередня ймовірність». Отже, для вашого експерименту з курячим сексом ви намагаєтеся оцінити «справжню» частку чоловічих курей, які народилися б, якби у вас була нескінченна кількість курей. Ви повинні були б вказати, наскільки ймовірно ви вважали, що справжня частка чоловічих курей була50%, або51%, або52%47.3%, і т.д., Ви б потім подивилися на результати вашого експерименту і використовували інформацію для обчислення нових ймовірностей, що справжня частка самців кури були50%, або51%, або52%, або47.3%, і т.д. (задній розподіл).
Зізнаюся, що я насправді не розумію байєсівську статистику, і прошу вибачення за те, що не пояснив це добре. Зокрема, я не розумію, як люди повинні придумати попередній розподіл для видів експериментів, які роблять більшість біологів. За винятком систематики, де Байєсівська оцінка філогеній досить популярна і, здається, має сенс, я не бачив багатьох дослідницьких біологів, які використовують байєсівську статистику для рутинного аналізу даних простих лабораторних експериментів. Це означає, що навіть якби культові прихильники байєсової статистики переконали вас в тому, що вони мають рацію, вам буде важко пояснити свої результати своїм одноліткам-біологам. Статистика - це метод передачі інформації, і якщо ви говорите іншою мовою, ніж люди, з якими ви розмовляєте, ви не передасте багато інформації. Так що я буду дотримуватися традиційної частотної статистики для цього посібника.
Сказавши це, є одна ключова концепція з Байєсівська статистика, яка важлива для розуміння всіх користувачів статистики. Щоб проілюструвати його, уявіть, що ви тестуєте екстракти з1000 різних тропічних рослин, намагаючись знайти щось, що вб'є личинок жуків. Реальність (яку ви не знаєте) полягає в тому, що500 екстракти вбивають личинок жуків, а500 ні. Ви робите1000 експерименти і робите1000 частотні статистичні тести, і ви використовуєте традиційний рівень значущостіP<0.05. 500Рослинні екстракти, які дійсно працюють, дають вамP<0.05; це справжні позитиви. З500 витягів, які не працюють,5% з них дають вамP<0.05 випадково (це сенс значення,P врешті-решт), тому у вас є25 помилкові спрацьовування. Таким чином, ви отримаєте525 рослинні екстракти, які дали вамP значення менше, ніж0.05. Вам доведеться робити подальші експерименти, щоб з'ясувати, які25 помилкові спрацьовування, а які є500 справжніми позитивами, але це не так вже й погано, оскільки ви знаєте, що більшість з них виявляться справжніми позитивами.
Тепер уявіть, що ви тестуєте ці екстракти з1000 різних тропічних рослин, щоб спробувати знайти той, який змусить волосся рости. Реальність (яку ви не знаєте) полягає в тому, що один з екстрактів змушує волосся рости, а інший999 - ні. Ви робите1000 експерименти і робите1000 частотні статистичні тести, і ви використовуєте традиційний рівень значущостіP<0.05. Один рослинний екстракт, який дійсно працює, дає вам P <0,05; це справжній позитив. Але з999 витягів, які не працюють,5% з них дають вамP<0.05 випадково, тому у вас є про50 помилкові спрацьовування. У підсумку ви отримуєте51P значення менше0.05, але майже всі вони є помилковими спрацьовуваннями.
Тепер замість того, щоб випробувати1000 рослинні екстракти, уявіть, що ви тестуєте лише один. Якщо ви тестуєте його, щоб побачити, чи вбиває він личинок жуків, ви знаєте (на основі всього, що ви знаєте про біологію рослин та жуків), є досить хороший шанс, що він спрацює, тому ви можете бути впевнені, щоP значення менше, ніж0.05 є справжнім позитивом. Але якщо ви тестуєте цей екстракт однієї рослини, щоб побачити, чи росте він волосся, що, як ви знаєте, дуже малоймовірно (на основі всього, що ви знаєте про рослини та волосся),P значення менше, ніж0.05 майже напевно помилкове позитивне. Іншими словами, якщо ви очікуєте, що нульова гіпотеза, ймовірно, вірна, то статистично значущий результат, ймовірно, є хибним позитивом. Це сумно; найцікавіші, дивовижні, несподівані результати у ваших експериментах - це, мабуть, лише ваші дані, які намагаються змусити вас поспішати до смішних висновків. Вам слід вимагати набагато нижчогоP значення, щоб відхилити нульову гіпотезу, яка, на вашу думку, є істинною.
Байєсівський буде наполягати на тому, щоб ви поставили цифри, наскільки ймовірно, що ви думаєте, що нульова гіпотеза і різні значення альтернативної гіпотези, перш ніж ви зробите експеримент, і я не впевнений, як це повинно працювати на практиці для більшості експериментальної біології. Але загальна концепція є цінною: як резюмував Карл Саган, «Надзвичайні претензії вимагають надзвичайних доказів».
Рекомендації
Ось три експерименти, щоб проілюструвати, коли різні підходи до статистики є доречними. У першому експерименті ви тестуєте рослинний екстракт на кроликах, щоб побачити, чи знизить він їх артеріальний тиск. Ви вже знаєте, що рослинний екстракт є сечогінним засобом (змушує кроликів більше мочити), і ви вже знаєте, що діуретики, як правило, знижують артеріальний тиск, тому ви думаєте, що є хороший шанс, що це спрацює. Якщо це спрацює, ви зробите більше недорогих тестів на тварин, перш ніж робити дорогі, потенційно ризиковані випробування на людях. Ваше попереднє очікування полягає в тому, що нульова гіпотеза (що екстракт рослини не має ефекту) має хороші шанси бути помилковими, а вартість помилкового позитиву досить низька. Таким чином, ви повинні проводити тестування гіпотез частотою, з рівнем значущості0.05.
У другому експерименті ви збираєтеся поставити добровольців людей з високим кров'яним тиском на сувору дієту з низьким вмістом солі і подивитися, наскільки знижується їх артеріальний тиск. Всі будуть прив'язані до лікарні на місяць і годують або звичайним харчуванням, або тими ж продуктами з вдвічі меншою кількістю солі. Для цього експерименту ви не були б дуже зацікавлені вP цінності, оскільки на основі попередніх досліджень у тварин і людей, ви вже цілком впевнені, що зменшення споживання солі знизить кров'яний тиск; Ви впевнені, що нульова гіпотеза про те, що «споживання солі не впливає на артеріальний тиск» є помилковий. Натомість вам дуже цікаво дізнатися, наскільки знижується артеріальний тиск. Зменшення споживання солі вдвічі - це велика справа, і якщо це лише знижує артеріальний тиск за допомогою1mm Hg, крихітний приріст тривалості життя не буде коштувати життя м'якої їжі та нав'язливого читання етикеток. Якщо він знижує артеріальний тиск20mm з довірчим інтервалом±5mm, це може бути варто. Тому слід оцінити розмір ефекту (різницю артеріального тиску між дієтами) і довірчий інтервал на різницю.

У третьому експерименті ви збираєтеся надіти магнітні капелюхи на морських свинок і подивитися, чи знижується їх артеріальний тиск (щодо морських свинок, які носять такі немагнітні шапки, які зазвичай носять морські свинки). Це дійсно дурний експеримент, і ви знаєте, що дуже малоймовірно, що магніти матимуть якийсь ефект (це не неможливо - магніти впливають на відчуття напрямку самонавідних голубів, і, можливо, морські свинки мають щось подібне в їхньому мозку і, можливо, це якось вплине на їх артеріальний тиск - це просто здається дійсно малоймовірним). Ви можете проаналізувати свої результати за допомогою байєсової статистики, яка вимагатиме вказати в числовому вираженні, наскільки малоймовірно, що ви думаєте, що магнітні капелюхи працюватимуть. Або ви можете використовувати частотну статистику, але вимагаютьP значення набагато, набагато нижче, ніж0.05 переконати себе, що ефект реальний.