Loading [MathJax]/jax/output/HTML-CSS/jax.js
Skip to main content
LibreTexts - Ukrayinska

6.1: Кілька порівнянь

Цілі навчання
  • Коли ви виконуєте велику кількість статистичних тестів, деякі матимутьP значення менше, ніж0.05 чисто випадково, навіть якщо всі ваші нульові гіпотези дійсно вірні. Корекція Бонферроні - це один простий спосіб врахувати це; коригування швидкості помилкового виявлення за допомогою процедури Бенджаміні-Хохберга є більш потужним методом.

Проблема з множинними порівняннями

Кожен раз, коли ви відхиляєте нульову гіпотезу, оскількиP значення менше, ніж ваше критичне значення, можливо, ви помиляєтеся; нульова гіпотеза дійсно може бути правдою, і ваш значний результат може бути обумовлений випадковістю. PЗначення0.05 означає, що є5% шанс отримати ваш спостережуваний результат, якщо нульова гіпотеза була істинною. Це не означає, що є5% шанс, що нульова гіпотеза вірна.

Наприклад, якщо ви робите100 статистичні тести, і для всіх них нульова гіпотеза насправді вірна, ви очікуєте, що тести будуть значними наP<0.05 рівні, тільки через5 випадковість. У такому випадку ви б мали про5 статистично значущі результати, всі з яких були помилковими спрацьовуваннями. Вартість, з часом, зусиллями і, можливо, грошима, може бути досить високою, якщо ви базуєте важливі висновки на цих помилкових спрацьовуваннях, і це було б принаймні незручно для вас, як тільки інші люди зробили подальші дослідження і виявили, що ви помилялися.

Ця проблема, що коли ви робите кілька статистичних тестів, деяка частка буде помилковими спрацьовуваннями, приділяється все більшої уваги в останні кілька років. Це важливо для таких методів, як використання мікромасивів, які дозволяють вимірювати кількості РНК відразу для десятків тисяч генів; сканування мозку, при якому кровотік можна оцінити в100,000 або більше тривимірних бітах мозку; і еволюційна геноміка, де послідовності кожен ген в геномі двох і більше видів можна порівняти. Не існує загальноприйнятого підходу до вирішення проблеми множинних порівнянь; це область активних досліджень, як в математичних деталах, так і в більш широких епістомологічних питаннях.

Контроль сімейної частоти помилок - Bonferroni Корекція

Класичний підхід до проблеми множинного порівняння полягає у контролі частоти помилок сімейного характеру. Замість того, щоб встановлювати критичнийP рівень для значущості або альфа0.05, ви використовуєте нижче критичне значення. Якщо нульова гіпотеза вірна для всіх тестів, ймовірність отримати один результат, який є значним при цьому новому, більш низькому критичному значенні, є0.05. Іншими словами, якщо всі нульові гіпотези вірні, ймовірність того, що сімейство тестів включає одне або кілька помилкових спрацьовувань через випадковість, є0.05.

Найпоширеніший спосіб контролювати сімейну частоту помилок - це корекція Бонферроні. Ви знаходите критичне значення (альфа) для індивідуального тесту, розділивши сімейну частоту помилок (зазвичай0.05) на кількість тестів. Таким чином, якщо ви робите100 статистичні тести, критичним значенням для індивідуального тесту буде0.05/100=0.0005, і ви вважаєте лише окремі тести значнимиP<0.0005. Як приклад, García-Arenzana et al. (2014) перевірили асоціації25 дієтичних змінних з мамографічною щільністю, важливим фактором ризику раку молочної залози, у іспанських жінок. Вони виявили такі результати:

дієтична змінна Значення P
Загальна кількість калорій <0,001
Оливкова олія 0,008
незбиране молоко 0.039
Біле м'ясо 0.041
Білки 0.042
Горіхи 0,06
Крупи і макарони 0.074
Біла риба 0,205
Вершкове масло 0.212
Овочі 0,216
Знежирене молоко 0,222
червоне м'ясо 0,251
Фрукти 0,269
Яйця 0,275
Блакитна риба 0,34
Бобові 0,341
Вуглеводи 0,384
Картопля 0.569
Хліб 0.594
Жири 0.696
Солодощі 0,762
Молочні продукти 0,94
Напівзнежирене молоко 0,942
Всього м'яса 0,975
Оброблене м'ясо 0,986

Як бачите, п'ять змінних показують значне (P<0.05)P значення. Однак, оскільки García-Arenzana et al. (2014) перевірили25 дієтичні змінні, ви очікуєте, що одна або дві змінні показуватимуть значний результат чисто випадково, навіть якщо дієта не мала реального впливу на мамографічну щільність. Застосовуючи корекцію Бонферроні, ви б розділилиP=0.05 на кількість тестів (25), щоб отримати критичне значення Бонферроні, тому тест повиненP<0.002 бути значним. За цим критерієм значним є лише тест на загальну кількість калорій.

Корекція Бонферроні доцільна, коли одне хибне позитивне в наборі тестів буде проблемою. Це в основному корисно, коли існує досить мала кількість декількох порівнянь, і ви шукаєте один або два, які можуть бути значними. Однак, якщо у вас є велика кількість численних порівнянь, і ви шукаєте багато, які можуть бути значними, корекція Бонферроні може призвести до дуже високого рівня помилкових негативів. Наприклад, припустимо, ви порівнюєте рівень експресії20,000 генів між раковою тканиною печінки та нормальною тканиною печінки. Виходячи з попередніх досліджень, ви сподіваєтеся знайти десятки або сотні генів з різним рівнем експресії. Якщо ви використовуєте корекцію Бонферроні,P значення повинно бути меншим, ніж0.05/20000=0.0000025 бути значним. Тільки гени з величезними відмінностями в експресії матимутьP значення, що низько, і можуть пропустити багато важливих відмінностей тільки тому, що ви хотіли бути впевнені, що ваші результати не включають жодного помилкового негативу.

Важливим питанням з корекцією Бонферроні є вирішення того, що таке «сім'я» статистичних тестів. García-Arenzana et al. (2014) перевірили25 дієтичні змінні, так що ці тести одна «сім'я», що робить критичнеP значення0.05/25? Але вони також вимірювали13 недієтичні змінні, такі як вік, освіта та соціально-економічний статус; чи слід їх включати в сім'ю тестів, роблячи критичнеP значення0.05/38? А що робити, якщо в 2015 році García-Arenzana et al. написати ще один документ, в якому вони порівнюють30 дієтичні змінні між раком молочної залози та хворими на рак молочної залози; чи повинні вони включати тих, хто входить у свою сім'ю тестів, і повернутися назад і повторно проаналізувати дані у своєму документі 2014 року, використовуючи критичнеP значення 0.05/55? Немає твердого правила щодо цього; вам доведеться використовувати своє судження, виходячи з того, наскільки поганим буде помилковий позитив. Очевидно, що ви повинні прийняти це рішення, перш ніж дивитися на результати, інакше було б занадто легко підсвідомо раціоналізувати розмір сім'ї, який дає вам бажані результати.

Контроль швидкості помилкового виявлення: процедура Бенджаміні—Хохберга

Альтернативним підходом є контроль швидкості помилкового виявлення. Це частка «відкриттів» (значущих результатів), які насправді є помилковими спрацьовуваннями. Наприклад, припустимо, ви використовуєте мікромасиви для порівняння рівнів експресії20,000 генів між пухлинами печінки та нормальними клітинами печінки. Ви збираєтеся робити додаткові експерименти над будь-якими генами, які показують значну різницю між нормальними та пухлинними клітинами, і ви готові прийняти до10% генів, значними результатами яких є помилкові спрацьовування; ви дізнаєтесь, що вони помилкові спрацьовування, коли ви робите подальші експерименти. У цьому випадку ви встановите швидкість помилкового виявлення10%.

Один хороший метод контролю швидкості помилкового виявлення був коротко згаданий Сімс (1986) і детально розроблений Бенджаміні і Хохберг (1995). Поставте окреміP значення по порядку, від найменших до найбільших. НайменшаP величина має рангi=1, потім наступне найменше маєi=2 тощо Порівняйте кожне окремеP значення з його критичним значенням Бенджаміні-Хохберга(i/m)Q, де i - ранг,m загальна кількість тестів іQ є помилковою швидкістю виявлення, яку ви вибрали. НайбільшеP значення, яке має,P<(i/m)Q є значним, і всіP значення, менші за нього, також є значними, навіть ті, які не менше їх критичного значення Бенджаміні-Хохберга.

Щоб проілюструвати це, ось дані García-Arenzana et al. (2014) знову, з критичним значенням Бенджаміні-Хохберга для помилкової швидкості виявлення0.25.

дієтична змінна Значення P Ранг (в/м) Q
Загальна кількість калорій <0,001 1 0,010
Оливкова олія 0,008 2 0,020
незбиране молоко 0.039 3 0,030
Біле м'ясо 0.041 4 0,040
Білки 0.042 5 0,050
Горіхи 0.060 6 0.060
Крупи і макарони 0.074 7 0,070
Біла риба 0,205 8 0.080
Вершкове масло 0.212 9 0.090
Овочі 0,216 10 0.100
Знежирене молоко 0,222 11 0.110
червоне м'ясо 0,251 12 0,120
Фрукти 0,269 13 0.130
Яйця 0,275 14 0.140
Блакитна риба 0,34 15 0,150
Бобові 0,341 16 0,160
Вуглеводи 0,384 17 0.170
Картопля 0.569 18 0,180
Хліб 0.594 19 0,190
Жири 0.696 20 0,200
Солодощі 0,762 21 0,210
Молочні продукти 0,94 22 0,220
Напівзнежирене молоко 0,942 23 0,230
Всього м'яса 0,975 24 0,240
Оброблене м'ясо 0,986 25 0,250

Зчитуючи вниз стовпчикP значень,P<(i/m)Q найбільший з - білки, де індивідуальнеP значення (0.042) менше(i/m)Q значення0.050. Таким чином, перші п'ять тестів були б значними. Зверніть увагу, що незбиране молоко та біле м'ясо є значними, хоча їхP значення не менше критичних значень Бенджаміні-Хохберга; вони є значними, оскільки маютьP значення менше, ніж у білків.

Коли ви використовуєте процедуру Бенджаміні-Хохберга з помилковою швидкістю виявлення більше0.05, ніж, цілком можливо, що окремі тести будуть значними, навіть якщо їхP значення більше0.05. Уявіть, що всіP цінності в дослідженні García-Arenzana et al. (2014) були між0.10 і0.24. Тоді при помилковій швидкості виявлення0.25 всі тести були б значними, навіть той, зP=0.24. Це може здатися неправильним, але якби всі25 нульові гіпотези були правдивими, ви очікуєте, що найбільшеP значення буде добре закінчено0.90; було б вкрай малоймовірно, що найбільшеP значення буде менше0.25. Ви тільки очікуєте, що найбільшеP значення буде менше, ніж0.25 якби більшість нульових гіпотез були помилковими, і оскільки помилкова швидкість виявлення0.25 означає, що ви готові відхилити кілька справжніх нульових гіпотез, ви б відхилили їх усіх.

Перш ніж збирати дані, слід ретельно вибирати помилкову швидкість виявлення. Зазвичай, коли ви робите велику кількість статистичних тестів, ваш експеримент є лише першим, дослідницьким кроком, і ви збираєтеся продовжити більше експериментів над цікавими індивідуальними результатами. Якщо вартість додаткових експериментів низька, а вартість помилкового негативу (відсутність потенційно важливого відкриття) висока, вам, ймовірно, слід використовувати досить високу швидкість помилкового виявлення, наприклад0.10 або0.20, щоб ви не пропустили нічого важливого. Іноді люди використовують помилкову швидкість виявлення0.05, ймовірно, через плутанину щодо різниці між помилковою швидкістю виявлення та ймовірністю помилкового позитиву, коли нуль істинний; помилковий рівень виявлення,0.05 ймовірно, занадто низький для багатьох експериментів.

Процедура Бенджаміні-Хохберга менш чутлива, ніж процедура Бонферроні, до вашого рішення про те, що таке «сім'я» тестів. Якщо збільшити кількість тестів, а розподілP значень буде таким же в щойно доданих тестах, як і в оригінальних тестах, процедура Бенджаміні-Хохберга дасть таку ж частку значних результатів. Наприклад, якби García-Arenzana et al. (2014) подивилися на50 змінні замість, а нові25 тести мали той самий набір значень P, що25 і оригінал25, вони мали б10 значні результати при Бенджаміні-Хохберзі з помилковою швидкістю виявлення0.25. Це не означає, що ви можете повністю ігнорувати питання про те, що становить сім'ю; якщо ви змішаєте два набори тестів, один з деякими низькимиP значеннями, а другий набір без низькихP значень, ви зменшите кількість значних результатів порівняно з простим аналізом першого набору сам по собі.

Іноді ви побачите «скоригованеP значення Бенджаміні-Хохберга». СкоригованеP значення для тесту - це або час необробленогоP значення,m/i або скоригованеP значення для наступного вищого вихідногоP значення, залежно від того, що менше (пам'ятайте, що m - кількість тестів, а i - ранг кожного тесту, з1 рангом найменшого Pзначення). ЯкщоP скориговане значення менше швидкості помилкового виявлення, тест є значним. Наприклад, скоригованеP значення для білків у прикладі набору даних є0.042×(25/5)=0.210; скоригованеP значення для білого м'яса менше0.041×(25/4)=0.256 або0.210, так воно є0.210. На мій погляд, «скоригованіP значення» трохи заплутані, оскільки вони насправді не є оцінками ймовірності (P) чого-небудь. Я думаю, що краще дати сиріP значення і сказати, які є значущими, використовуючи процедуру Бенджаміні-Хохберга з помилковою швидкістю виявлення, але якщо значення P, скориговані Бенджаміні-Хохбергом, є загальними в літературі вашої галузі, вам, можливо, доведеться їх використовувати.

Успенський

Корекція Бонферроні та процедура Бенджаміні-Хохберга припускають, що окремі тести незалежні один від одного, як при порівнянні зразка A проти зразка B, C проти D, E проти F тощо Якщо ви порівнюєте зразок A проти зразка B, A проти C, A проти D тощо, порівняння не є незалежними; якщо A вище ніж B, є хороший шанс, що A буде вище, ніж C, а також. Одне місце це відбувається, коли ви робите незаплановані порівняння засобів в anova, для яких були розроблені різні інші методи, такі як тест Тукі-Крамера. Інша експериментальна конструкція з декількома, незалежними порівняннями - це коли ви порівнюєте кілька змінних між групами, а змінні співвідносяться між собою всередині груп. Прикладом може бути вибивання вашого улюбленого гена у мишей і порівняння всього, що ви можете придумати на нокауті проти контрольних мишей: довжина, вага, сила, швидкість бігу, споживання їжі, виробництво калу тощо Усі ці змінні, ймовірно, будуть корелювати всередині груп; миші, які довші, ймовірно, також важить більше, був би сильніше, бігати швидше, їсти більше їжі, і більше какати. Для аналізу подібного роду експерименту можна використовувати багатоваріантний аналіз дисперсії, або манова, який я не висвітлюю в цьому підручнику.

Інші, більш складні методи, такі як Reiner et al. (2003), були розроблені для контролю помилкової швидкості виявлення, які можуть бути більш доречними, коли немає незалежності в даних. Якщо ви використовуєте мікромасиви, зокрема, вам потрібно ознайомитися з цією темою.

Коли не потрібно виправляти для кількох порівнянь

Мета множинних виправлень порівнянь - зменшити кількість помилкових спрацьовувань, оскільки помилкові спрацьовування можуть бути незручними, заплутаними та змусити вас та інших людей витрачати свій час. Нещасливим побічним продуктом виправлення для декількох порівнянь є те, що ви можете збільшити кількість помилкових негативів, де дійсно є ефект, але ви не виявляєте його як статистично значущий. Якщо помилкові негативи дуже дорогі, можливо, ви взагалі не захочете виправляти кілька порівнянь. Наприклад, припустимо, ви пішли на багато неприємностей і витрат, щоб вибити ваш улюблений ген, маннозо-6-фосфатізомеразу (Mpi), в штамі мишей, які спонтанно розвивають багато пухлин. Руки тремтять від хвилювання, ви отримуєте перші Mpi -/- миші і починаєте вимірювати речі: артеріальний тиск, швидкість росту, швидкість навчання лабіринту, щільність кісток, глянець шерсті, все, що ви можете придумати, щоб виміряти на мишці. Ви вимірюєте50 речі на Mpi -/- мишах і звичайних мишах, запускаєте відповідні статистичні тести, і найменшимP значенням є0.013 різниця в розмірі пухлини. Якщо ви використовуєте корекцію Бонферроні, цеP=0.013 не буде близьким до значного; це також може бути несуттєвим для процедури Бенджаміні-Хохберга. Якщо ви зробите висновок, що немає суттєвої різниці між мишами Mpi -/- та Mpi +/+, напишіть нудну маленьку папір під назвою «Відсутність чогось цікавого в Mpi -/- миші», і шукати інший проект? Ні, ваша стаття повинна бути «Можливий вплив Mpi на рак». Звичайно, ви повинні бути обережними і підкреслити в роботі, що є хороший шанс, що ваш результат є хибним позитивним; але вартість помилкового позитиву - якщо подальші експерименти показують, що Mpi дійсно не впливає на пухлини - це лише кілька експериментів. Вартість помилкового негативу, з іншого боку, може полягати в тому, що ви пропустили надзвичайно важливе відкриття.

Як робити аналізи

Електронна таблиця

Я написав електронну таблицю, щоб зробити процедуру Бенджаміні-Хохберга benjaminihochberg.xls на до1000P значень. Він розповість вам, якіP значення є значними після контролю за помилковою швидкістю виявлення, яку ви вибрали. Це також дасть скоригованіP значення Бенджаміні-Хохберга, хоча я думаю, що вони дурні.

Я також написав електронну таблицю, щоб зробити виправлення Bonferroni bonferroni.xls на до1000P значень.

Веб-сторінки

Я не знаю жодних веб-сторінок, які виконуватимуть процедуру Бенджаміні-Хохберга.

Р

RКомпаньйон Сальваторе Мангіафіко має зразкові програми R для Бонферроні, Бенджаміні-Хохберга та кілька інших методів виправлення для кількох порівнянь.

САС

Існує PROC MULTTEST, який виконає процедуру Бенджаміні-Хохберга, а також багато інших виправлень множинного порівняння. Ось приклад використання даних про дієту та мамографічну щільність від García-Arenzana et al. (2014).

DATA mammodiet;
ВХІДНИЙ корм $ Raw_P;
карти;
синій_риба .34
Хліб .594
Вершкове масло .212
Вуглеводи .384
Крупи_і_макаронні вироби .074
Молочні продукти .94
Яйця .275
Жири. 696
Фрукти .269
Бобові .341
Горіхи .06
Оливкова олія .08
Картопля .569
М'ясо плавлене_986
Білки 0.42
Червоне м'ясо .251
Напівзнежирене_молоко 942
Знежирений_молоко .222
Цукерки 762
Всього_калорії .001
Всього_м'ясо .975
Овочі .216

Білий_риба .205
Білий_м'ясо .041 незбиране_молоко .039
;
PROC СОРТУВАТИ ДАНІ=MAMMODIET out=Sorted_P;
ПО Raw_P;
PROC МУЛЬТИТЕСТ InpValues=Sorted_P FDR;
ВИКОНАТИ;

Зверніть увагу, що зміннаP значення повинна бути названа "Raw_P». Я сортував дані за "Raw_P", перш ніж робити тест декількох порівнянь, щоб зробити остаточний результат легше читати. У заяві PROC MULTTEST, INPVALUES повідомляє, який файл містить змінну Raw_P, а FDR повідомляє SAS запустити процедуру Бенджаміні-Хохберга.

На виході буде вихідний списокP значень і стовпчик з написом «Швидкість помилкового виявлення». Якщо число у цьому стовпці менше, ніж коефіцієнт помилкового виявлення, який ви вибрали перед проведенням експерименту, початкове («необроблене»)P значення є значним.

Перевірте необроблене помилкове виявлення Швидкість

1 0,0010 0,0250
2 0,0080 0,1000
3 0,0390 0,2100
4 0,0410 0,2100
5 0,0420 0,2100
6 0,0600 0,2500
7 0,0740 0,2643
8 0,2050 0,491
9 0,2120 0,491
10 0,2160
0,491 1 0,220 0. 4911
12 0,2510 0,491
13 0,2690 0,491
14 0,2750 0,491
15 0,3400 0,5328
16 0,3410 0,5328
17 0,3840 0. 5647
18 0.5690 0.7816
19 0.5940 0.7816
20 0.6960 0.8700
21 0.7620 0.9071
22 0.9400 0.9860
23 0.9420 0. 9860
24 0,9750 0,9860
25 0,9860 0,9860

Отже, якби ви вибрали помилковий рівень виявлення0.25, перший6 був би значним; якщо ви вибрали помилкову швидкість виявлення0.15, лише перші два були б значними.

Посилання

  1. Гарсія-Аренцана, Н., Наваррете-Муньос, В.Лопе, П. Морео, С.Ласо-Паблос, Н. Асунсе, Ф. Казанова-Гомес, C. Санчес-Контадор, C. Santamariña, N.Aragonés, B.P. Гомес, Дж. Віоке, і М.Поллан. 2014. Споживання калорій, споживання оливкової олії та мамографічна щільність серед іспанських жінок. Міжнародний журнал раку 134:1916-1925.
  2. Бенджаміні, Ю., і Ю.Хохберг. 1995. Контроль швидкості помилкового виявлення: практичний і потужний підхід до багаторазового тестування. Журнал Королівського статистичного товариства B 57:289-300.
  3. Райнер, А., Екутьєлі і Ю.Бенджаміні. 2003 рік. Виявлення диференційно виражених генів за допомогою процедур контролю швидкості помилкового виявлення. Біоінформатика 19:368-375.
  4. Саймс, Р.Дж. 1986. Покращена процедура Бонферроні для декількох тестів значущості. Біометрія 73:751-754.