5.5: Середні показники
- Page ID
- 29805
Припустимо, нам цікаво дізнатися, наскільки високий обраний в нашому прикладі першокурсник. Якщо ми знаємо, кого обирають, ми могли б легко виявити його зростання (якщо припустити, що висота кожного першокурсника доступна в деякій базі даних). Але що робити, якщо ми не дізналися особистість обраної людини? Чи можемо ми ще оцінити висоту?
Спочатку спокусливо сказати, що ми нічого не знаємо про висоту, оскільки не знаємо, хто обраний. Але це явно не так, оскільки досвід показує, що переважна більшість першокурсників мають висоту від 60 дюймів (5 футів) до 78 дюймів (6 футів 6 дюймів), тому ми можемо почувати себе в безпеці при оцінці висоти, скажімо, 70 дюймів. Принаймні, ми б не оцінили висоту як 82 дюйми.
З ймовірністю ми можемо бути більш точними і розрахувати оцінку висоти, не знаючи вибору. І формула, яку ми використовуємо для цього розрахунку, продовжить працювати після того, як ми дізнаємося фактичний вибір і відповідно відрегулюємо ймовірності.
Припустимо, у нас є розділ з подіями,\(A_i\) кожен з яких має певне значення для такого атрибута, як height, скажімо\(h_i\). Тоді середнє значення (також зване очікуваним\(H_{av}\) значенням) цього атрибута буде знайдено з ймовірностей, пов'язаних з кожною з цих подій як
\(H_{av} = \displaystyle \sum_{i} p(A_i)h_i \tag{5.9}\)
де сума знаходиться над розділом.
Такого роду формула може бути використана, щоб знайти середні значення багатьох властивостей, таких як SAT оцінки, вага, вік, або чисте багатство. Це не підходить для властивостей, які не є числовими, такими як стать, колір очей, особистість або передбачуваний схоластичний майор.
Зауважте, що це визначення середнього охоплює випадок, коли кожна подія розділу має значення для атрибута, як-от height. Це було б справедливо для висоти першокурсників тільки для фундаментальної перегородки. Нам би хотілося аналогічний спосіб обчислення середніх показників для інших перегородок, наприклад поділу чоловіків і жінок. Проблема полягає в тому, що не всі чоловіки мають однаковий зріст, тому незрозуміло, для чого використовувати\(h_i\) в рівнянні 5.9.
Рішення полягає у визначенні середнього зросту чоловіків з точки зору більш дрібнозернистої перегородки, такої як основна перегородка. Теорема Байєса корисна в цьому плані. Відзначимо, що ймовірність того, що першокурсник\(i\) обраний, враховуючи вибір, як відомо, чоловік, є
\(p(A_i \; | \; M) = \dfrac{p(A_i)p(M \; | \; A_i)}{p(M)} \tag{5.10}\)
де\(p(M \;|\; A_i)\) особливо просто - це або 1 або 0 залежно від того, чи\(i\) є першокурсник чоловіком чи жінкою. Тоді середній зріст чоловіків-першокурсників становить
\(H_{av}(M) = \displaystyle \sum_{i} p(A_i \; | \; M)h_i \tag{5.11}\)
і так само для жінок,
\(H_{av}(W) = \displaystyle \sum_{i} p(A_i \; | \; W)h_i \tag{5.12}\)
Тоді середній зріст всіх першокурсників задається за формулою точно так же, як Equation 5.9:
\(H_{av} = p(M)H_{av}(M) + p(W)H_{av}(W) \tag{5.13} \)
Ці формули для середніх показників дійсні, якщо всі\(p(A_i)\) для відповідного розділу рівні (наприклад, якщо першокурсник обраний «випадковим чином»). Але вони більш загальні—вони також справедливі для будь-якого розподілу ймовірностей\(p(A_i)\).
Єдине, на що слід звернути увагу, це випадок, коли одна з подій має ймовірність дорівнює нулю, наприклад, якщо ви хотіли середній зріст першокурсників з Невади, і там не сталося жодного.
