12.4: Теорема Байєса

Last updated

Oct 27, 2022
Save as PDF
- 12.3: Робота з подіями
- 12.5: Підрахунок

$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$

$\newcommand{\id}{\mathrm{id}}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\kernel}{\mathrm{null}\,}$

$\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$

$\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$

$\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\id}{\mathrm{id}}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\kernel}{\mathrm{null}\,}$

$\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$

$\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$

$\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$

У цьому розділі ми зосередимося на більш складних задачах умовної ймовірності, які ми почали розглядати в останньому розділі.

Приклад 19

Припустимо, певне захворювання має рівень захворюваності 0,1% (тобто страждає 0,1% населення). Для виявлення цього захворювання був розроблений тест. Тест не дає помилкових негативів (тобто кожен, хто має хворобу, буде тест позитивний на нього), але хибнопозитивний показник становить 5% (тобто близько 5% людей, які здають тест, перевірять позитивний результат, навіть якщо у них немає захворювання). Припустимо, випадково обраний людина приймає тест і тести позитивні. Яка ймовірність того, що ця людина насправді має захворювання?

Рішення

Є два способи підходу до вирішення цієї проблеми. Один включає в себе важливий результат теорії ймовірностей під назвою теорема Байєса. Цю теорему ми обговоримо трохи пізніше, а поки скористаємося альтернативним і, сподіваємося, набагато більш інтуїтивним підходом.

Давайте розбиваємо інформацію в проблемі шматок за шматком.

Припустимо, певне захворювання має рівень захворюваності 0,1% (тобто страждає 0,1% населення). Відсоток 0,1% можна перетворити в десяткове число, перемістивши десятковий розряд на два розряди вліво, щоб отримати 0,001. У свою чергу, 0,001 можна переписати як дріб: 1/1000. Це говорить нам про те, що приблизно 1 з кожних 1000 людей має захворювання. (Якби ми хотіли, ми могли б написати P (хвороба) =0.001.)

Для виявлення цього захворювання був розроблений тест. Тест не дає помилкових негативів (тобто кожен, у кого є захворювання, буде тест позитивний на нього). Ця частина досить проста: кожен, хто має хворобу, буде тест позитивний, або, альтернативно, кожен, хто тестує негативний, не має захворювання. (Можна також сказати P (позитивний | хвороба) =1.)

Хибнопозитивний показник становить 5% (тобто близько 5% людей, які здають тест, виявлять позитивний результат, навіть якщо у них немає захворювання). Це ще більш прямолінійно. Інший спосіб погляду на це полягає в тому, що з кожних 100 людей, які проходять тестування і не мають захворювання, 5 виявлять позитивний результат, навіть якщо у них немає захворювання. (Можна також сказати, що $P$ (позитивний | без хвороби) = 0,05.)

Припустимо, випадково обраний людина приймає тест і тести позитивні. Яка ймовірність того, що ця людина насправді має захворювання? Тут ми хочемо обчислити $P$ (хвороба | позитивна). Ми вже знаємо, що $P$ (позитивна|хвороба) =1, але пам'ятайте, що умовні ймовірності не рівні, якщо умови перемикаються.

Замість того, щоб думати з точки зору всіх цих ймовірностей, які ми розробили, давайте створимо гіпотетичну ситуацію і застосуємо факти, викладені вище. По-перше, припустимо, що ми випадковим чином вибираємо 1000 людей і адмініструємо тест. Скільки ми очікуємо захворювання? Оскільки близько 1/1000 всіх людей страждають хворобою, $\frac{1}{1000}$ з 1000 чоловік - 1. (Тепер ви знаєте, чому ми вибрали 1000.) Лише 1 з 1000 випробовуваних насправді має захворювання; інші 999 - ні.

Ми також знаємо, що 5% всіх людей, які не мають захворювання, матимуть позитивний результат. Є 999 людей, які не мають захворювань, тому ми очікуємо $(0.05)(999)=49.95$ (так, близько 50) людей, які перевірять позитивні результати, які не мають захворювання.

Тепер повернемося до початкового питання, обчислюючи P (disease|позитивний). У нашому прикладі є 51 людина, яка випробовує позитивний результат (одна нещасна людина, яка насправді має хворобу, плюс 50 людей, які тестували позитивно, але не мають). Лише один з цих людей має захворювання, тому

P (хвороба | позитивна) $\approx \frac{1}{51} \approx 0.0196$

або менше 2%. Це вас дивує? Це означає, що з усіх людей, які мають позитивний тест, понад 98% не мають захворювання.

Відповідь, яку ми отримали, була трохи приблизною, так як ми округлили 49,95 до 50. Ми могли б повторити проблему зі 100 000 випробовуваних, 100 з яких мали б захворювання та $(0.05)(99,900)=4995$ тест позитивний, але не мають захворювання, тому точна ймовірність захворювання, якщо тест позитивний

P (хвороба | позитивна) $\approx \frac{100}{5095} \approx 0.0196$

що в значній мірі однакова відповідь.

Але повернемося до дивовижного результату. З усіх людей, які мають позитивний тест, понад 98% не мають захворювання. Якщо ваша здогадка на ймовірність того, що людина, яка позитивно тестує, має хворобу, дико відрізнялася від правильної відповіді (2%), не відчувайте себе погано. Точно така ж проблема була поставлена лікарям і студентам-медикам в Гарвардській медичній школі 25 років тому і результати, виявлені в 1978 Нова Англія журнал медицини статті. Тільки близько 18% учасників отримали правильну відповідь. Більшість решти вважали, що відповідь була ближче до 95% (можливо, вони були введені в оману помилково позитивним показником 5%).

Так що принаймні ви повинні відчувати себе трохи краще, що купа лікарів не отримали правильну відповідь або (якщо ви думали, що відповідь була набагато вищою). Але значення цього висновку та подібних результатів інших досліджень в проміжні роки полягає не в тому, щоб студенти математики почували себе краще, а в можливих катастрофічних наслідків, які це може мати для догляду за пацієнтами. Якщо лікар вважає, що шанси на те, що позитивний результат тесту майже гарантує, що пацієнт має захворювання, вони можуть почати непотрібну і, можливо, шкідливу схему лікування здорового пацієнта. Або ще гірше, оскільки в перші дні кризи СНІДу, коли ВІЛ-позитивний часто прирівнювався до смертного вироку, пацієнт може вжити кардинальних дій і покінчити життя самогубством.

Як ми бачили в цьому гіпотетичному прикладі, найбільш відповідальним способом дій для лікування пацієнта, який має позитивні результати, було б порадити пацієнта, що у них, швидше за все, немає захворювання, і замовити подальші, більш надійні, тести для перевірки діагнозу.

Однією з причин того, що лікарі та студенти-медики в дослідженні зробили так погано, є те, що такі проблеми, коли представлені в видах курсів статистики, які часто проходять студенти-медики, вирішуються за допомогою теореми Байєса, яка констатується наступним чином:

Теорема Байєса

$P(A | B)=\frac{P(A) P(B | A)}{P(A) P(B | A)+P(\bar{A}) P(B | \bar{A})}$

У нашому попередньому прикладі це перекладається на

$P(\text { disease } | \text { positive })=\frac{P(\text { disease }) P(\text { positive } | \text { disease })}{P(\text { disease }) P(\text { positive } | \text { disease })+P(\text { no disease }) P(\text { positive } | \text { no disease })}$

Підключення в цифрах дає

$P(\text { disease } | \text { positive })=\frac{(0.001)(1)}{(0.001)(1)+(0.999)(0.05)} \approx 0.0196$

що точно така ж відповідь, як і наше оригінальне рішення.

Проблема полягає в тому, що ви (або типовий студент-медик, або навіть типовий професор математики) набагато частіше зможете запам'ятати оригінальне рішення, ніж згадати теорему Байєса. Психологи, такі як Герд Гігеренцер, автор книги «Розраховані ризики: як дізнатися, коли цифри обманюють вас», виступали за те, щоб замість теореми Байєса був використаний метод, який бере участь у вихідному рішенні (який Гігеренцер називає методом «природних частот»). Гігеренцер провів дослідження і виявив, що ті, хто освічений методом природної частоти, змогли згадати його набагато довше, ніж ті, кого навчали теоремі Байєса. Коли хтось розглядає можливі наслідки для життя і смерті, пов'язані з такими розрахунками, здається розумним прислухатися до його порад.

Приклад 20

Певне захворювання має рівень захворюваності 2%. Якщо помилково негативний показник становить 10%, а помилково позитивний показник становить 1%, обчислити ймовірність того, що людина, яка тестує позитивний, насправді має захворювання.

Рішення

Уявіть собі 10 000 людей, які проходять тестування. З цих 10 000 200 матимуть захворювання; 10% з них, або 20, матимуть негативний результат, а решта 180 - позитивний. З 9800, які не мають захворювання, 98 тест буде позитивним. Таким чином, із 278 людей, які мають позитивний тест, 180 матимуть захворювання. Таким чином

$P(\text { disease } | \text { positive })=\frac{180}{278} \approx 0.647$

тому близько 65% людей, які мають позитивний тест, матимуть захворювання.

Використання теореми Байєса безпосередньо дало б той самий результат:

$P(\text { disease } | \text { positive })=\frac{(0.02)(0.90)}{(0.02)(0.90)+(0.98)(0.01)}=\frac{0.018}{0.0278} \approx 0.647$

Спробуйте зараз 5

Певне захворювання має рівень захворюваності 0,5%. Якщо помилкових негативів немає і якщо помилково позитивний показник становить 3%, обчисліть ймовірність того, що людина, яка випробовує позитивний результат, насправді має захворювання.

Відповідь

З 100 000 людей 500 мали б цю хворобу. З них всі 500 випробували б позитивно. З 99 500 без захворювання 2985 помилково випробували б позитивний, а інші 96 515 - негативні.

$\mathrm{P}(\text { disease } | \text { positive })=\frac{500}{500+2985}=\frac{500}{3485} \approx 14.3 \%$