5.12: Базові ставки
Цілі навчання
- Обчислити ймовірність умови з хітів, помилкових тривог та базових ставок за допомогою діаграми дерева
- Обчислити ймовірність умови з хітів, помилкових тривог та базових ставок за допомогою теореми Байєса
Припустимо, що на вашому регулярному фізичному огляді ви тест позитивний на ХворобаX. Хоча хворобаX має лише легкі симптоми, ви стурбовані і запитайте свого лікаря про точність тесту. Виходить, що тест95% точний. Здавалося б, ймовірність того, що у васX є Хвороба, тому0.95. Однак ситуація не така проста.
З одного боку, потрібна додаткова інформація про точність тесту, оскільки існує два види помилок, які може зробити тест: промахи та помилкові спрацьовування. Якщо у вас насправді є хвороба,X і тест не зміг її виявити, це було б промахом. Якщо у вас не булоX Хвороба, і тест вказував, що ви зробили, це було б помилково позитивним. Показники пропуску та помилково позитивні не обов'язково однакові. Наприклад, припустимо, що тест точно вказує на захворювання у99% людей, які його мають, і точно вказує на відсутність захворювання у91% людей, які його не мають. Іншими словами, тест має показник пропускання0.01 і помилково позитивний показник0.09. Це може призвести до того, що ви переглянете своє судження та дійдете висновку, що ваш шанс захворювання є0.91. Це було б неправильно, оскільки ймовірність залежить від частки людей, які мають захворювання. Ця пропорція називається базовою ставкою.
Припустимо,X що Хвороба - рідкісне захворювання, і тільки2% у людей у вашій ситуації воно є. Як це впливає на ймовірність того, що у вас є? Або, загалом, яка ймовірність того, що хтось, хто позитивно тестує, насправді має хворобу? Розглянемо, що було б, якби був перевірений мільйон людей. З них один мільйон людей,2% або20,000 люди мали б захворювання. 20,000З них із захворюванням тест точно виявить його у99% них. Це означає, що19,800 випадки були б точно ідентифіковані. Тепер розглянемо мільйона людей (980,000), які не мають захворювання.98% Оскільки помилково позитивний показник є0.09,9% з цих980,000 людей буде тест позитивний на захворювання. Це загальна кількість88,200 людей, неправильно поставлених діагнозом.
Підводячи підсумок,19,800 люди, які випробували позитивний результат, насправді мали б хворобу, а88,200 люди, які тестували позитивно, не мали б захворювання. Це означає, що з усіх тих, хто випробував позитивний результат, тільки
19,80019,800+88,200=0.1833
з них насправді було б захворювання. Так що ймовірність того, що у вас захворювання немає0.95, або0.91, а тільки0.1833.
Ці результати зведені в табл5.12.1. Числа людей, у яких діагностовано захворювання, показані червоним кольором. З одного мільйона людей, випробуваних, тест був правильним для891,800 тих, хто не має хвороби та для19,800 хвороби; тест був правильним91% того часу. Однак, якщо ви подивитеся лише на людей, які тестують позитивно (показані червоним кольором), лише19,800(0.1833) з позитивних88,200+19,800=108,000 тестів насправді мають захворювання.
Справжня умова | |||
---|---|---|---|
Без хвороб 980 000 |
Хвороба 20 000 |
||
Результат тесту |
Результат тесту |
||
Позитивні 88,200 |
Негативний 891 800 |
Позитивні 19 800 |
Негативний 200 |
Теорема Байєса
Цей же результат можна отримати за допомогою теореми Байєса. Теорема Байєса враховує як попередню ймовірність події, так і діагностичне значення тесту для визначення задньої ймовірності події. Для поточного прикладу подія полягає в тому, що у вас ХворобаX. Давайте назвемо цю подіюD. Оскільки лише2% люди у вашій ситуації мають захворюванняX, попередня ймовірність подіїD є0.02. Або, більш формально,P(D)=0.02. ЯкщоP(D′) представляє ймовірність того, що EventD є помилковим, тоP(D′)=1−P(D)=0.98.
Щоб визначити діагностичну цінність тесту, нам потрібно визначити іншу подію: що у вас позитивний тест на ХворобаX. Давайте назвемо цю подіюT. Діагностичне значення тесту залежить від ймовірності, яку ви отримаєте позитивний результат, враховуючи, що у вас насправді є захворювання, написане якP(T|D), і ймовірність того, що ви тест позитивний, враховуючи, що у вас немає захворювання, написане якP(T|D′). Теорема Байєса, показана нижче, дозволяє обчислитиP(D|T), ймовірність того, що у вас є захворювання, враховуючи, що ви тест позитивний на нього.
P(D|T)=P(T|D)P(D)P(T|D)P(D)+P(T|D′)P(D′)
Різні терміни:
P(T|D)=0.99
P(T|D′)=0.09
P(D)=0.02
P(D′)=0.98
Тому,
P(D|T)=(0.99)(0.02)(0.99)(0.02)+(0.09)(0.98)=0.1833
яке є тим самим значенням, обчисленим раніше.