6.1: Кілька порівнянь

Last updated
Save as PDF

Page ID: 98756

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$

Цілі навчання

Коли ви виконуєте велику кількість статистичних тестів, деякі матимуть$P$ значення менше, ніж$0.05$ чисто випадково, навіть якщо всі ваші нульові гіпотези дійсно вірні. Корекція Бонферроні - це один простий спосіб врахувати це; коригування швидкості помилкового виявлення за допомогою процедури Бенджаміні-Хохберга є більш потужним методом.

Проблема з множинними порівняннями

Кожен раз, коли ви відхиляєте нульову гіпотезу, оскільки$P$ значення менше, ніж ваше критичне значення, можливо, ви помиляєтеся; нульова гіпотеза дійсно може бути правдою, і ваш значний результат може бути обумовлений випадковістю. $P$Значення$0.05$ означає, що є$5\%$ шанс отримати ваш спостережуваний результат, якщо нульова гіпотеза була істинною. Це не означає, що є$5\%$ шанс, що нульова гіпотеза вірна.

Наприклад, якщо ви робите$100$ статистичні тести, і для всіх них нульова гіпотеза насправді вірна, ви очікуєте, що тести будуть значними на$P<0.05$ рівні, тільки через$5$ випадковість. У такому випадку ви б мали про$5$ статистично значущі результати, всі з яких були помилковими спрацьовуваннями. Вартість, з часом, зусиллями і, можливо, грошима, може бути досить високою, якщо ви базуєте важливі висновки на цих помилкових спрацьовуваннях, і це було б принаймні незручно для вас, як тільки інші люди зробили подальші дослідження і виявили, що ви помилялися.

Ця проблема, що коли ви робите кілька статистичних тестів, деяка частка буде помилковими спрацьовуваннями, приділяється все більшої уваги в останні кілька років. Це важливо для таких методів, як використання мікромасивів, які дозволяють вимірювати кількості РНК відразу для десятків тисяч генів; сканування мозку, при якому кровотік можна оцінити в$100,000$ або більше тривимірних бітах мозку; і еволюційна геноміка, де послідовності кожен ген в геномі двох і більше видів можна порівняти. Не існує загальноприйнятого підходу до вирішення проблеми множинних порівнянь; це область активних досліджень, як в математичних деталах, так і в більш широких епістомологічних питаннях.

Контроль сімейної частоти помилок - Bonferroni Корекція

Класичний підхід до проблеми множинного порівняння полягає у контролі частоти помилок сімейного характеру. Замість того, щоб встановлювати критичний$P$ рівень для значущості або альфа$0.05$, ви використовуєте нижче критичне значення. Якщо нульова гіпотеза вірна для всіх тестів, ймовірність отримати один результат, який є значним при цьому новому, більш низькому критичному значенні, є$0.05$. Іншими словами, якщо всі нульові гіпотези вірні, ймовірність того, що сімейство тестів включає одне або кілька помилкових спрацьовувань через випадковість, є$0.05$.

Найпоширеніший спосіб контролювати сімейну частоту помилок - це корекція Бонферроні. Ви знаходите критичне значення (альфа) для індивідуального тесту, розділивши сімейну частоту помилок (зазвичай$0.05$) на кількість тестів. Таким чином, якщо ви робите$100$ статистичні тести, критичним значенням для індивідуального тесту буде$0.05/100=0.0005$, і ви вважаєте лише окремі тести значними$P<0.0005$. Як приклад, García-Arenzana et al. (2014) перевірили асоціації$25$ дієтичних змінних з мамографічною щільністю, важливим фактором ризику раку молочної залози, у іспанських жінок. Вони виявили такі результати:

дієтична змінна	Значення P
Загальна кількість калорій	<0,001
Оливкова олія	0,008
незбиране молоко	0.039
Біле м'ясо	0.041
Білки	0.042
Горіхи	0,06
Крупи і макарони	0.074
Біла риба	0,205
Вершкове масло	0.212
Овочі	0,216
Знежирене молоко	0,222
червоне м'ясо	0,251
Фрукти	0,269
Яйця	0,275
Блакитна риба	0,34
Бобові	0,341
Вуглеводи	0,384
Картопля	0.569
Хліб	0.594
Жири	0.696
Солодощі	0,762
Молочні продукти	0,94
Напівзнежирене молоко	0,942
Всього м'яса	0,975
Оброблене м'ясо	0,986

Як бачите, п'ять змінних показують значне ($P<0.05$)$P$ значення. Однак, оскільки García-Arenzana et al. (2014) перевірили$25$ дієтичні змінні, ви очікуєте, що одна або дві змінні показуватимуть значний результат чисто випадково, навіть якщо дієта не мала реального впливу на мамографічну щільність. Застосовуючи корекцію Бонферроні, ви б розділили$P=0.05$ на кількість тестів ($25$), щоб отримати критичне значення Бонферроні, тому тест повинен$P<0.002$ бути значним. За цим критерієм значним є лише тест на загальну кількість калорій.

Корекція Бонферроні доцільна, коли одне хибне позитивне в наборі тестів буде проблемою. Це в основному корисно, коли існує досить мала кількість декількох порівнянь, і ви шукаєте один або два, які можуть бути значними. Однак, якщо у вас є велика кількість численних порівнянь, і ви шукаєте багато, які можуть бути значними, корекція Бонферроні може призвести до дуже високого рівня помилкових негативів. Наприклад, припустимо, ви порівнюєте рівень експресії$20,000$ генів між раковою тканиною печінки та нормальною тканиною печінки. Виходячи з попередніх досліджень, ви сподіваєтеся знайти десятки або сотні генів з різним рівнем експресії. Якщо ви використовуєте корекцію Бонферроні,$P$ значення повинно бути меншим, ніж$0.05/20000=0.0000025$ бути значним. Тільки гени з величезними відмінностями в експресії матимуть$P$ значення, що низько, і можуть пропустити багато важливих відмінностей тільки тому, що ви хотіли бути впевнені, що ваші результати не включають жодного помилкового негативу.

Важливим питанням з корекцією Бонферроні є вирішення того, що таке «сім'я» статистичних тестів. García-Arenzana et al. (2014) перевірили$25$ дієтичні змінні, так що ці тести одна «сім'я», що робить критичне$P$ значення$0.05/25$? Але вони також вимірювали$13$ недієтичні змінні, такі як вік, освіта та соціально-економічний статус; чи слід їх включати в сім'ю тестів, роблячи критичне$P$ значення$0.05/38$? А що робити, якщо в 2015 році García-Arenzana et al. написати ще один документ, в якому вони порівнюють$30$ дієтичні змінні між раком молочної залози та хворими на рак молочної залози; чи повинні вони включати тих, хто входить у свою сім'ю тестів, і повернутися назад і повторно проаналізувати дані у своєму документі 2014 року, використовуючи критичне$P$ значення $0.05/55$? Немає твердого правила щодо цього; вам доведеться використовувати своє судження, виходячи з того, наскільки поганим буде помилковий позитив. Очевидно, що ви повинні прийняти це рішення, перш ніж дивитися на результати, інакше було б занадто легко підсвідомо раціоналізувати розмір сім'ї, який дає вам бажані результати.

Контроль швидкості помилкового виявлення: процедура Бенджаміні—Хохберга

Альтернативним підходом є контроль швидкості помилкового виявлення. Це частка «відкриттів» (значущих результатів), які насправді є помилковими спрацьовуваннями. Наприклад, припустимо, ви використовуєте мікромасиви для порівняння рівнів експресії$20,000$ генів між пухлинами печінки та нормальними клітинами печінки. Ви збираєтеся робити додаткові експерименти над будь-якими генами, які показують значну різницю між нормальними та пухлинними клітинами, і ви готові прийняти до$10\%$ генів, значними результатами яких є помилкові спрацьовування; ви дізнаєтесь, що вони помилкові спрацьовування, коли ви робите подальші експерименти. У цьому випадку ви встановите швидкість помилкового виявлення$10\%$.

Один хороший метод контролю швидкості помилкового виявлення був коротко згаданий Сімс (1986) і детально розроблений Бенджаміні і Хохберг (1995). Поставте окремі$P$ значення по порядку, від найменших до найбільших. Найменша$P$ величина має ранг$i=1$, потім наступне найменше має$i=2$ тощо Порівняйте кожне окреме$P$ значення з його критичним значенням Бенджаміні-Хохберга$(i/m)Q$, де i - ранг,$m$ загальна кількість тестів і$Q$ є помилковою швидкістю виявлення, яку ви вибрали. Найбільше$P$ значення, яке має,$P<(i/m)Q$ є значним, і всі$P$ значення, менші за нього, також є значними, навіть ті, які не менше їх критичного значення Бенджаміні-Хохберга.

Щоб проілюструвати це, ось дані García-Arenzana et al. (2014) знову, з критичним значенням Бенджаміні-Хохберга для помилкової швидкості виявлення$0.25$.

дієтична змінна	Значення P	Ранг	(в/м) Q
Загальна кількість калорій	<0,001	1	0,010
Оливкова олія	0,008	2	0,020
незбиране молоко	0.039	3	0,030
Біле м'ясо	0.041	4	0,040
Білки	0.042	5	0,050
Горіхи	0.060	6	0.060
Крупи і макарони	0.074	7	0,070
Біла риба	0,205	8	0.080
Вершкове масло	0.212	9	0.090
Овочі	0,216	10	0.100
Знежирене молоко	0,222	11	0.110
червоне м'ясо	0,251	12	0,120
Фрукти	0,269	13	0.130
Яйця	0,275	14	0.140
Блакитна риба	0,34	15	0,150
Бобові	0,341	16	0,160
Вуглеводи	0,384	17	0.170
Картопля	0.569	18	0,180
Хліб	0.594	19	0,190
Жири	0.696	20	0,200
Солодощі	0,762	21	0,210
Молочні продукти	0,94	22	0,220
Напівзнежирене молоко	0,942	23	0,230
Всього м'яса	0,975	24	0,240
Оброблене м'ясо	0,986	25	0,250

Зчитуючи вниз стовпчик$P$ значень,$P<(i/m)Q$ найбільший з - білки, де індивідуальне$P$ значення ($0.042$) менше$(i/m)Q$ значення$0.050$. Таким чином, перші п'ять тестів були б значними. Зверніть увагу, що незбиране молоко та біле м'ясо є значними, хоча їх$P$ значення не менше критичних значень Бенджаміні-Хохберга; вони є значними, оскільки мають$P$ значення менше, ніж у білків.

Коли ви використовуєте процедуру Бенджаміні-Хохберга з помилковою швидкістю виявлення більше$0.05$, ніж, цілком можливо, що окремі тести будуть значними, навіть якщо їх$P$ значення більше$0.05$. Уявіть, що всі$P$ цінності в дослідженні García-Arenzana et al. (2014) були між$0.10$ і$0.24$. Тоді при помилковій швидкості виявлення$0.25$ всі тести були б значними, навіть той, з$P=0.24$. Це може здатися неправильним, але якби всі$25$ нульові гіпотези були правдивими, ви очікуєте, що найбільше$P$ значення буде добре закінчено$0.90$; було б вкрай малоймовірно, що найбільше$P$ значення буде менше$0.25$. Ви тільки очікуєте, що найбільше$P$ значення буде менше, ніж$0.25$ якби більшість нульових гіпотез були помилковими, і оскільки помилкова швидкість виявлення$0.25$ означає, що ви готові відхилити кілька справжніх нульових гіпотез, ви б відхилили їх усіх.

Перш ніж збирати дані, слід ретельно вибирати помилкову швидкість виявлення. Зазвичай, коли ви робите велику кількість статистичних тестів, ваш експеримент є лише першим, дослідницьким кроком, і ви збираєтеся продовжити більше експериментів над цікавими індивідуальними результатами. Якщо вартість додаткових експериментів низька, а вартість помилкового негативу (відсутність потенційно важливого відкриття) висока, вам, ймовірно, слід використовувати досить високу швидкість помилкового виявлення, наприклад$0.10$ або$0.20$, щоб ви не пропустили нічого важливого. Іноді люди використовують помилкову швидкість виявлення$0.05$, ймовірно, через плутанину щодо різниці між помилковою швидкістю виявлення та ймовірністю помилкового позитиву, коли нуль істинний; помилковий рівень виявлення,$0.05$ ймовірно, занадто низький для багатьох експериментів.

Процедура Бенджаміні-Хохберга менш чутлива, ніж процедура Бонферроні, до вашого рішення про те, що таке «сім'я» тестів. Якщо збільшити кількість тестів, а розподіл$P$ значень буде таким же в щойно доданих тестах, як і в оригінальних тестах, процедура Бенджаміні-Хохберга дасть таку ж частку значних результатів. Наприклад, якби García-Arenzana et al. (2014) подивилися на$50$ змінні замість, а нові$25$ тести мали той самий набір значень P, що$25$ і оригінал$25$, вони мали б$10$ значні результати при Бенджаміні-Хохберзі з помилковою швидкістю виявлення$0.25$. Це не означає, що ви можете повністю ігнорувати питання про те, що становить сім'ю; якщо ви змішаєте два набори тестів, один з деякими низькими$P$ значеннями, а другий набір без низьких$P$ значень, ви зменшите кількість значних результатів порівняно з простим аналізом першого набору сам по собі.

Іноді ви побачите «скориговане$P$ значення Бенджаміні-Хохберга». Скориговане$P$ значення для тесту - це або час необробленого$P$ значення,$m/i$ або скориговане$P$ значення для наступного вищого вихідного$P$ значення, залежно від того, що менше (пам'ятайте, що m - кількість тестів, а i - ранг кожного тесту, з$1$ рангом найменшого $P$значення). Якщо$P$ скориговане значення менше швидкості помилкового виявлення, тест є значним. Наприклад, скориговане$P$ значення для білків у прикладі набору даних є$0.042\times (25/5)=0.210$; скориговане$P$ значення для білого м'яса менше$0.041\times (25/4)=0.256$ або$0.210$, так воно є$0.210$. На мій погляд, «скориговані$P$ значення» трохи заплутані, оскільки вони насправді не є оцінками ймовірності ($P$) чого-небудь. Я думаю, що краще дати сирі$P$ значення і сказати, які є значущими, використовуючи процедуру Бенджаміні-Хохберга з помилковою швидкістю виявлення, але якщо значення P, скориговані Бенджаміні-Хохбергом, є загальними в літературі вашої галузі, вам, можливо, доведеться їх використовувати.

Успенський

Корекція Бонферроні та процедура Бенджаміні-Хохберга припускають, що окремі тести незалежні один від одного, як при порівнянні зразка A проти зразка B, C проти D, E проти F тощо Якщо ви порівнюєте зразок A проти зразка B, A проти C, A проти D тощо, порівняння не є незалежними; якщо A вище ніж B, є хороший шанс, що A буде вище, ніж C, а також. Одне місце це відбувається, коли ви робите незаплановані порівняння засобів в anova, для яких були розроблені різні інші методи, такі як тест Тукі-Крамера. Інша експериментальна конструкція з декількома, незалежними порівняннями - це коли ви порівнюєте кілька змінних між групами, а змінні співвідносяться між собою всередині груп. Прикладом може бути вибивання вашого улюбленого гена у мишей і порівняння всього, що ви можете придумати на нокауті проти контрольних мишей: довжина, вага, сила, швидкість бігу, споживання їжі, виробництво калу тощо Усі ці змінні, ймовірно, будуть корелювати всередині груп; миші, які довші, ймовірно, також важить більше, був би сильніше, бігати швидше, їсти більше їжі, і більше какати. Для аналізу подібного роду експерименту можна використовувати багатоваріантний аналіз дисперсії, або манова, який я не висвітлюю в цьому підручнику.

Інші, більш складні методи, такі як Reiner et al. (2003), були розроблені для контролю помилкової швидкості виявлення, які можуть бути більш доречними, коли немає незалежності в даних. Якщо ви використовуєте мікромасиви, зокрема, вам потрібно ознайомитися з цією темою.

Коли не потрібно виправляти для кількох порівнянь

Мета множинних виправлень порівнянь - зменшити кількість помилкових спрацьовувань, оскільки помилкові спрацьовування можуть бути незручними, заплутаними та змусити вас та інших людей витрачати свій час. Нещасливим побічним продуктом виправлення для декількох порівнянь є те, що ви можете збільшити кількість помилкових негативів, де дійсно є ефект, але ви не виявляєте його як статистично значущий. Якщо помилкові негативи дуже дорогі, можливо, ви взагалі не захочете виправляти кілька порівнянь. Наприклад, припустимо, ви пішли на багато неприємностей і витрат, щоб вибити ваш улюблений ген, маннозо-6-фосфатізомеразу (Mpi), в штамі мишей, які спонтанно розвивають багато пухлин. Руки тремтять від хвилювання, ви отримуєте перші Mpi ^-/- миші і починаєте вимірювати речі: артеріальний тиск, швидкість росту, швидкість навчання лабіринту, щільність кісток, глянець шерсті, все, що ви можете придумати, щоб виміряти на мишці. Ви вимірюєте$50$ речі на Mpi ^-/- мишах і звичайних мишах, запускаєте відповідні статистичні тести, і найменшим$P$ значенням є$0.013$ різниця в розмірі пухлини. Якщо ви використовуєте корекцію Бонферроні, це$P=0.013$ не буде близьким до значного; це також може бути несуттєвим для процедури Бенджаміні-Хохберга. Якщо ви зробите висновок, що немає суттєвої різниці між мишами Mpi ^-/- та Mpi ^+/+, напишіть нудну маленьку папір під назвою «Відсутність чогось цікавого в Mpi ^-/- миші», і шукати інший проект? Ні, ваша стаття повинна бути «Можливий вплив Mpi на рак». Звичайно, ви повинні бути обережними і підкреслити в роботі, що є хороший шанс, що ваш результат є хибним позитивним; але вартість помилкового позитиву - якщо подальші експерименти показують, що Mpi дійсно не впливає на пухлини - це лише кілька експериментів. Вартість помилкового негативу, з іншого боку, може полягати в тому, що ви пропустили надзвичайно важливе відкриття.

Як робити аналізи

Електронна таблиця

Я написав електронну таблицю, щоб зробити процедуру Бенджаміні-Хохберга benjaminihochberg.xls на до$1000$$P$ значень. Він розповість вам, які$P$ значення є значними після контролю за помилковою швидкістю виявлення, яку ви вибрали. Це також дасть скориговані$P$ значення Бенджаміні-Хохберга, хоча я думаю, що вони дурні.

Я також написав електронну таблицю, щоб зробити виправлення Bonferroni bonferroni.xls на до$1000$$P$ значень.

Веб-сторінки

Я не знаю жодних веб-сторінок, які виконуватимуть процедуру Бенджаміні-Хохберга.

Р

$R$Компаньйон Сальваторе Мангіафіко має зразкові програми R для Бонферроні, Бенджаміні-Хохберга та кілька інших методів виправлення для кількох порівнянь.

САС

Існує PROC MULTTEST, який виконає процедуру Бенджаміні-Хохберга, а також багато інших виправлень множинного порівняння. Ось приклад використання даних про дієту та мамографічну щільність від García-Arenzana et al. (2014).

DATA mammodiet;
ВХІДНИЙ корм $ Raw_P;
карти;
синій_риба .34
Хліб .594
Вершкове масло .212
Вуглеводи .384
Крупи_і_макаронні вироби .074
Молочні продукти .94
Яйця .275
Жири. 696
Фрукти .269
Бобові .341
Горіхи .06
Оливкова олія .08
Картопля .569
М'ясо плавлене_986
Білки 0.42
Червоне м'ясо .251
Напівзнежирене_молоко 942
Знежирений_молоко .222
Цукерки 762
Всього_калорії .001
Всього_м'ясо .975
Овочі .216

Білий_риба .205
Білий_м'ясо .041 незбиране_молоко .039
;
PROC СОРТУВАТИ ДАНІ=MAMMODIET out=Sorted_P;
ПО Raw_P;
PROC МУЛЬТИТЕСТ InpValues=Sorted_P FDR;
ВИКОНАТИ;

Зверніть увагу, що змінна$P$ значення повинна бути названа "Raw_P». Я сортував дані за "Raw_P", перш ніж робити тест декількох порівнянь, щоб зробити остаточний результат легше читати. У заяві PROC MULTTEST, INPVALUES повідомляє, який файл містить змінну Raw_P, а FDR повідомляє SAS запустити процедуру Бенджаміні-Хохберга.

На виході буде вихідний список$P$ значень і стовпчик з написом «Швидкість помилкового виявлення». Якщо число у цьому стовпці менше, ніж коефіцієнт помилкового виявлення, який ви вибрали перед проведенням експерименту, початкове («необроблене»)$P$ значення є значним.

Перевірте необроблене помилкове виявлення Швидкість

1 0,0010 0,0250
2 0,0080 0,1000
3 0,0390 0,2100
4 0,0410 0,2100
5 0,0420 0,2100
6 0,0600 0,2500
7 0,0740 0,2643
8 0,2050 0,491
9 0,2120 0,491
10 0,2160
0,491 1 0,220 0. 4911
12 0,2510 0,491
13 0,2690 0,491
14 0,2750 0,491
15 0,3400 0,5328
16 0,3410 0,5328
17 0,3840 0. 5647
18 0.5690 0.7816
19 0.5940 0.7816
20 0.6960 0.8700
21 0.7620 0.9071
22 0.9400 0.9860
23 0.9420 0. 9860
24 0,9750 0,9860
25 0,9860 0,9860

Отже, якби ви вибрали помилковий рівень виявлення$0.25$, перший$6$ був би значним; якщо ви вибрали помилкову швидкість виявлення$0.15$, лише перші два були б значними.

Посилання

Гарсія-Аренцана, Н., Наваррете-Муньос, В.Лопе, П. Морео, С.Ласо-Паблос, Н. Асунсе, Ф. Казанова-Гомес, C. Санчес-Контадор, C. Santamariña, N.Aragonés, B.P. Гомес, Дж. Віоке, і М.Поллан. 2014. Споживання калорій, споживання оливкової олії та мамографічна щільність серед іспанських жінок. Міжнародний журнал раку 134:1916-1925.
Бенджаміні, Ю., і Ю.Хохберг. 1995. Контроль швидкості помилкового виявлення: практичний і потужний підхід до багаторазового тестування. Журнал Королівського статистичного товариства B 57:289-300.
Райнер, А., Екутьєлі і Ю.Бенджаміні. 2003 рік. Виявлення диференційно виражених генів за допомогою процедур контролю швидкості помилкового виявлення. Біоінформатика 19:368-375.
Саймс, Р.Дж. 1986. Покращена процедура Бонферроні для декількох тестів значущості. Біометрія 73:751-754.