2.2: Стандартне статистичне тестування гіпотез
- Page ID
- 4302
Стандартні підходи до тестування гіпотез майже повністю зосереджені на відкиданні нульових гіпотез. У рамках (зазвичай називають частотним підходом до статистики) спочатку визначається нульова гіпотеза. Ця нульова гіпотеза представляє ваше очікування, якщо якогось закономірності, наприклад, різниці між групами, немає, або якщо якийсь цікавий процес не відбувся. Наприклад, можливо, вам цікаво порівняти середній розмір тіла двох видів ящірок, аноли і гекона. Наша нульова гіпотеза полягала б у тому, що два види не відрізняються розміром тіла. Альтернативою, яку можна зробити висновок, відкинувши цю нульову гіпотезу, є те, що один вид більший за інший. Інший приклад може включати дослідження двох змінних, таких як розмір тіла та довжина ноги, у наборі видів ящірок 1. Тут нульова гіпотеза полягала б у тому, що між розміром тіла та довжиною ноги немає зв'язку. Альтернативна гіпотеза, яка знову ж таки представляє ситуацію, коли насправді відбувається цікаве явище, полягає в тому, що існує взаємозв'язок з розміром тіла і довжиною ноги. Для частотних підходів альтернативною гіпотезою завжди є заперечення нульової гіпотези; як ви побачите нижче, інші підходи дозволяють порівняти придатність набору моделей без цього обмеження і вибрати найкращу серед них.
Наступним кроком є визначення тестової статистики, певного способу вимірювання закономірностей в даних. У двох прикладах вище ми розглянули б тестову статистику, яка вимірює різницю в середньому розмірі тіла серед наших двох видів ящірок, або нахил співвідношення між розміром тіла та довжиною ноги відповідно. Потім можна порівняти значення цієї тестової статистики в даних з очікуванням цієї тестової статистики за нульовою гіпотезою. Взаємозв'язок між тестовою статистикою та її очікуванням при нульовій гіпотезі фіксується P-значенням. P-значення - це ймовірність отримання тестової статистики принаймні такої ж екстремальної, як фактична тестова статистика у випадку, коли нульова гіпотеза істинна. Ви можете думати про P-значення як міру того, наскільки ймовірно, що ви отримаєте свої дані у Всесвіті, де істинна нульова гіпотеза. Іншими словами, P-значення вимірює, наскільки ймовірним є нульова гіпотеза, що ви отримаєте тестову статистику принаймні настільки ж екстремальну, як і те, що ви бачите в даних. Зокрема, якщо P-значення дуже велике, скажімо P = 0,94, то вкрай ймовірно, що ваші дані сумісні з цією нульовою гіпотезою.
Якщо тестова статистика сильно відрізняється від того, що можна було б очікувати при нульовій гіпотезі, то P-значення буде невеликим. Це означає, що ми навряд чи отримаємо тестову статистику, помічену в даних, якщо нульова гіпотеза була правдою. У цьому випадку ми відхиляємо нульову гіпотезу до тих пір, поки P менше, ніж якесь значення, обране заздалегідь. Це значення є порогом значущості, α, і майже завжди встановлюється в α = 0,05. На відміну від цього, якщо ця ймовірність велика, то немає нічого «особливого» у ваших даних, принаймні з точки зору вашої нульової гіпотези. Тестова статистика знаходиться в межах діапазону, очікуваного за нульовою гіпотезою, і ми не можемо відхилити цю нульову гіпотезу. Зверніть увагу на ретельну мову тут - у стандартній фреймворці часто ви ніколи не приймаєте нульову гіпотезу, ви просто не можете її відхилити.
Повертаючись до нашого прикладу, що перевертає ящір, ми можемо використовувати частотний підхід. У цьому випадку наш конкретний приклад має назву; це біноміальний тест, який оцінює, чи має дана подія з двома результатами певної ймовірності успіху. В даному випадку ми зацікавлені в тестуванні нульової гіпотези про те, що наша ящірка є справедливим фліппером; тобто, що ймовірність голів р Н = 0,5. Біноміальний тест використовує кількість «успіхів» (ми будемо використовувати кількість голів, H = 63) в якості тестової статистики. Потім ми запитуємо, чи є ця тестова статистика набагато більшою або набагато меншою, ніж ми могли б очікувати за нашою нульовою гіпотезою. Отже, наша нульова гіпотеза полягає в тому, що р Н = 0,5; наша альтернатива, значить, полягає в тому, що р Н приймає якесь інше значення: р Н ≠ 0,5.
Щоб провести тест, спочатку потрібно розглянути, скільки «успіхів» ми повинні очікувати, якщо нульова гіпотеза була правдою. Розглянуто розподіл нашої тестової статистики (кількість голів) при нашій нульовій гіпотезі (p H = 0,5). Цей розподіл є біноміальним розподілом (рис. 2.1).
Ми можемо використовувати відомі ймовірності біноміального розподілу для обчислення нашого P-значення. Ми хочемо знати ймовірність отримання результату принаймні такого ж екстремального, як і наші дані при кресленні з біноміального розподілу з параметрами p = 0,5 і n = 100. Обчислимо площу цього розподілу, яка лежить праворуч від 63. Цю площу, P = 0,003, можна отримати або з таблиці, зі статистичного програмного забезпечення, або за допомогою відносно простого розрахунку. Значення, 0,003, являє собою ймовірність отримання не менше 63 голів з 100 випробувань при р Н = 0,5. Це число є P-значенням з нашого біноміального тесту. Оскільки ми тільки обчислили площу нашого нульового розподілу в одному хвості (в даному випадку праворуч, де значення більше або рівні 63), то це насправді однохвостий тест, і ми розглядаємо лише частину нашої нульової гіпотези, де р H > 0,5. Такий підхід може бути придатним у деяких випадках, але частіше нам потрібно помножити це число на 2, щоб отримати двоххвостий тест; таким чином, P = 0,006. Це двоххвосте P-значення 0,006 включає можливість таких екстремальних результатів, як наша тестова статистика в будь-якому напрямку, або занадто багато, або занадто мало голів. Оскільки P < 0,05, обране нами значення α, ми відкидаємо нульову гіпотезу, і робимо висновок, що у нас несправедлива ящірка.
У біології нульові гіпотези відіграють вирішальну роль у багатьох статистичних аналізах. Так чому б не закінчити цю главу зараз? Одне питання полягає в тому, що біологічні нульові гіпотези майже завжди нецікаві. Вони часто описують ситуацію, коли закономірності в даних виникають лише випадково. Однак якщо порівнювати живі види один з одним, між ними майже завжди є деякі відмінності. Насправді для біології нульові гіпотези досить часто є явно помилковими. Наприклад, два різних види, що мешкають в різних місцях проживання, не однакові, і якщо ми їх виміряємо достатньо, ми виявимо цей факт. З цієї точки зору обидва результати стандартного тесту гіпотези є неосвіченими. Один або відкидає дурну гіпотезу, яка, ймовірно, була помилковою з самого початку, або один «не може відхилити» цю нульову гіпотезу 2. Існує набагато більше інформації, яку потрібно отримати, оцінюючи значення параметрів та здійснюючи вибір моделі з ймовірністю або байєсівськими рамками, як ми побачимо нижче. Тим не менш, статистичні підходи часто зустрічаються, мають своє місце в нашому наборі інструментів, і вони будуть розглянуті в декількох розділах цієї книги.
Однією з ключових концепцій у стандартному тестуванні гіпотез є ідея статистичної помилки. Статистичні помилки бувають двох видів: помилки типу I та типу II. Помилки типу I виникають, коли нульова гіпотеза істинна, але слідчий помилково відхиляє її. Стандартне тестування гіпотез контролює помилки I типу за допомогою параметра α, який визначає прийняту норму помилок типу I. Наприклад, якщо α = 0,05, слід очікувати скоєння помилки типу I приблизно 5% часу. Коли проводяться багаторазові стандартні тести гіпотез, дослідники часто «коригують» свої P-значення за допомогою корекції Бонферроні. Якщо ви це зробите, то існує лише 5% ймовірність помилки одного типу I у всіх розглянутих тестах. Однак ця особлива увага на помилках типу I має вартість. Також можна вносити помилки типу II, коли нульова гіпотеза є помилковою, але її не вдається відхилити. Швидкість помилок типу II в статистичних тестах може бути надзвичайно високою. Хоча статистики дбають про створення підходів, які мають високу потужність, традиційне тестування гіпотез зазвичай виправляє помилки типу I на рівні 5%, тоді як рівень помилок типу II залишається невідомим. Існують прості способи обчислення частоти помилок типу II (наприклад, аналіз потужності), але вони проводяться лише рідко. Крім того, корекція Бонферроні різко збільшує частоту помилок типу II. Це важливо, тому що - як заявив Пернегер (1998) - «... помилки типу II не менш хибні, ніж помилки типу I». Цей крайній акцент на контролі помилок типу I за рахунок помилок типу II є, для мене, основною слабкістю частотного підходу 3.
Я висвітлю деякі приклади частотного підходу в цій книзі, головним чином при обговоренні традиційних методів, таких як філогенетичні незалежні контрасти (PICs). Крім того, один із підходів вибору моделі, часто використовуваних у цій книзі, тести на коефіцієнт ймовірності, покладаються на стандартну частотну настройку з нульовими та альтернативними гіпотезами.
Однак є дві вагомі причини шукати кращі способи зробити порівняльну статистику. По-перше, як зазначено вище, стандартні методи покладаються на тестування нульових гіпотез, які - для еволюційних питань - зазвичай апріорі дуже ймовірно, щоб бути помилковими. Для відповідного прикладу розглянемо дослідження, яке порівнює швидкість видоутворення між двома кладами м'ясоїдних тварин. Нульова гіпотеза полягає в тому, що два клади мають рівну швидкість видоутворення - що майже напевно помилково, хоча ми можемо поставити під сумнів, наскільки різними можуть бути дві ставки. По-друге, на мій погляд, стандартні частотні методи роблять занадто великий акцент на P-значеннях і недостатньо на розмірі статистичних ефектів. Невелике значення P може відображати або великий ефект, або дуже великі розміри вибірки, або обидва.
Підсумовуючи, частотні статистичні методи поширені в порівняльній статистиці, але можуть бути обмежуючими. Я часто обговорюватиму ці методи в цій книзі, головним чином через їх поширене використання в цій галузі. При цьому ми будемо шукати альтернативи, коли це можливо.
