4.4: Розподіл вимірювань та результатів
- Page ID
- 24871
Раніше ми повідомляли про результати визначення маси циркулюючої американської копійки, отримавши середнє значення 3,117 г і стандартне відхилення 0,051 м Таблиця Template:index показує результати за секунду, незалежне визначення маси копійки, а також дані першого експерименту. Хоча засоби і стандартні відхилення для двох експериментів схожі, вони не ідентичні. Різниця між двома експериментами викликає кілька цікавих питань. Чи є результати для одного експерименту кращими, ніж результати для іншого експерименту? Чи дають два експерименти еквівалентні оцінки для середнього та стандартного відхилення? Яка наша найкраща оцінка очікуваної маси копійки? Щоб відповісти на ці питання, нам потрібно зрозуміти, як ми можемо передбачити властивості всіх копійок, використовуючи результати аналізу невеликої вибірки копійок. Ми починаємо з розрізнення між популяціями та зразками.
| Перший експеримент | Другий експеримент | ||
|---|---|---|---|
| Пенні | Маса (г) | Пенні | Маса (г) |
| 1 | 3.080 | 1 | 3.052 |
| 2 | 3.094 | 2 | 3.141 |
| 3 | 3.107 | 3 | 3.083 |
| 4 | 3.056 | 4 | 3.083 |
| 5 | 3.112 | 5 | 3.048 |
| 6 | 3.174 | ||
| 7 | 3.198 | ||
| \(\overline{X}\) | 3.117 | 3.081 | |
| \(s\) | 0,051 | 0,037 | |
Популяції та зразки
Популяція - це сукупність усіх об'єктів у досліджуваній нами системі. Для даних у таблиці Template:index, населення становить всі гроші США в обігу. Це населення настільки велике, що ми не можемо проаналізувати кожного члена населення. Замість цього ми вибираємо та аналізуємо обмежену підмножину або вибірку населення. Дані в таблиці Template:index, наприклад, показують результати для двох таких вибірок, взятих з більшої кількості всіх циркулюючих США копійок.
Розподіл ймовірностей для популяцій
Таблиця Template:index надає засоби та стандартні відхилення для двох зразків циркулюючих копійок США. Що ж говорять нам ці зразки про населення копійки? Яка найбільша можлива маса за копійки? Яка найменша можлива маса? Чи всі маси однаково вірогідні, або деякі маси більш поширені?
Щоб відповісти на ці питання, нам потрібно знати, як розподіляються маси окремих копійок щодо середньої маси населення. Ми представляємо розподіл сукупності шляхом побудови ймовірності або частоти отримання конкретного результату в залежності від можливих результатів. Такі ділянки називаються розподілами ймовірностей.
Існує багато можливих розподілів ймовірностей; насправді розподіл ймовірностей може мати будь-яку форму залежно від характеру населення. На щастя, багато хімічних систем відображають один з декількох поширених розподілів ймовірностей. Два з цих розподілів, біноміальний розподіл і нормальний розподіл, розглядаються в цьому розділі.
Біноміальний розподіл
Біноміальний розподіл описує сукупність, в якій результатом є кількість разів, коли відбувається певна подія під час фіксованої кількості випробувань. Математично біноміальний розподіл визначається як
\[P(X, N) = \frac {N!} {X!(N - X)!} \times p^X \times (1 - p)^{N - X} \nonumber\]
де P (X, N) - ймовірність того, що подія відбудеться X разів під час N випробувань, а p - ймовірність події для одного випробування. Якщо ви перевернете монету п'ять разів, P (2,5) є ймовірність, що монета з'явиться «голови» рівно в два рази.
Термін N! читається як N -факторіал і є продуктом\(N \times (N – 1) \times (N – 2) \times \cdots \times 1\). Наприклад, 4! є\(4 \times 3 \times 2 \times 1 = 24\). Ваш калькулятор, ймовірно, має ключ для обчислення факторіалів.
Біноміальний розподіл має чітко визначені показники центральної тенденції та поширення. Очікуване середнє значення
\[\mu = Np \nonumber\]
і очікуваний спред задається дисперсією
\[\sigma^2 = Np(1 - p) \nonumber\]
або стандартне відхилення.
\[\sigma = \sqrt{Np(1 - p)} \nonumber\]
Біноміальний розподіл описує сукупність, члени якої мають лише конкретні, дискретні значення. Наприклад, коли ви котите матрицю, можливі значення 1, 2, 3, 4, 5 або 6. Рулон 3,45 неможливий. Як показано у прикладі роботи Template:index, одним із прикладів хімічної системи, яка підпорядковується біноміальному розподілу, є ймовірність знаходження певного ізотопу в молекулі.
Вуглець має два стабільних, нерадіоактивних ізотопу, 12 С і 13 С, з відносною ізотопною кількістю відповідно 98,89% і 1,11%.
(а) Яке середнє і стандартне відхилення для кількості атомів 13 С в молекулі холестерину (C 27 H 44 O)?
(б) Яка ймовірність того, що молекула холестерину не має атомів 13 С?
Рішення
Імовірність знаходження атома 13 С в молекулі холестерину слід за біноміальним розподілом, де X - число 13 атомів С, N - число атомів вуглецю в молекулі холестерину, а р - ймовірність того, що атом вуглець в 13 С.
Для (а) середня кількість атомів 13 С в молекулі холестерину становить
\[\mu = Np = 27 \times 0.0111 = 0.300 \nonumber\]
зі стандартним відхиленням
\[\sigma = \sqrt{Np(1 - p)} = \sqrt{27 \times 0.0111 \times (1 - 0.0111)} = 0.544 \nonumber\]
Для (б) ймовірність знаходження молекули холестерину без атома 13 С становить
\[P(0, 27) = \frac {27!} {0! \: (27 - 0)!} \times (0.0111)^0 \times (1 - 0.0111)^{27 - 0} = 0.740 \nonumber\]
Існує 74,0% ймовірність того, що молекула холестерину не матиме атома 13 С, результат узгоджується з спостереженням, що середня кількість атомів 13 С на молекулу холестерину, 0,300, менше одиниці.
Частина біноміального розподілу атомів 13 С в холестерин показана на малюнку Template:index. Відзначимо, зокрема, що існує невелика ймовірність знайти більше двох атомів по 13 С в будь-якій молекулі холестерину.
Нормальний розподіл
Біноміальний розподіл описує сукупність, члени якої мають лише певні дискретні значення. Так відбувається з кількістю 13 атомів С в холестерин. Молекула холестерину, наприклад, може мати два атома 13 С, але вона не може мати 2,5 атома 13 С. Популяція є безперервною, якщо її члени можуть приймати будь-яке значення. Ефективність вилучення холестерину з зразка, наприклад, може приймати будь-яке значення між 0% (холестерин не витягується) і 100% (весь холестерин витягується).
Найбільш поширеним безперервним розподілом є гауссове, або нормальний розподіл, рівняння для якого
\[f(X) = \frac {1} {\sqrt{2 \pi \sigma^2}} e^{- \frac {(X - \mu)^2} {2 \sigma^2}} \nonumber\]
де\(\mu\) очікуване середнє значення для населення з n членами
\[\mu = \frac {\sum_{i = 1}^n X_i} {n} \nonumber\]
і\(\sigma^2\) є дисперсією населення.
\[\sigma^2 = \frac {\sum_{i = 1}^n (X_i - \mu)^2} {n} \label{4.1}\]
Приклади трьох нормальних розподілів, кожен з яких має очікуване середнє значення 0 і з відхиленнями 25, 100 або 400 відповідно, наведено на рисунку Template:index. Заслуговують на увагу дві особливості цих нормальних кривих розподілу. По-перше, зверніть увагу, що кожен нормальний розподіл має єдиний максимум, який відповідає\(\mu\), і що розподіл симетричний щодо цього значення. По-друге, збільшення дисперсії населення збільшує розкид розподілу та зменшує його висоту; однак площа під кривою однакова для всіх трьох розподілів.
Площа під нормальною кривою розподілу є важливою і корисною властивістю, оскільки вона дорівнює ймовірності знаходження члена населення в межах певного діапазону значень. Наприклад, на малюнку Template:index}, наприклад, 99,99% населення, показаної на кривій (a), мають значення X між —20 і +20. Для кривої (c) 68,26% членів населення мають значення X між —20 і +20.
Оскільки нормальний розподіл залежить виключно від\(\mu\) і\(\sigma^2\), ймовірність знаходження члена населення між будь-якими двома межами однакова для всіх нормально розподілених популяцій. Наприклад, на малюнку Template:index} показано, що 68,26% членів нормального розподілу мають значення в межах діапазону\(\mu \pm 1 \sigma\), а 95,44% членів населення мають значення в межах діапазону\(\mu \pm 2 \sigma\). Лише 0,27% членів населення мають значення, які перевищують очікуване середнє більш ніж на ± 3\(\sigma\). Додаткові діапазони та ймовірності зібрані разом в таблиці ймовірностей, включеній в Додаток 3. Як показано в прикладі Template:index, якщо ми знаємо середнє значення і стандартне відхилення для нормально розподіленої сукупності, то ми можемо визначити відсоток популяції між будь-якими визначеними межами.
Відомо, що кількість аспірину в таблетках знеболюючого від конкретного виробника дотримується нормального розподілу при\(\mu\) = 250 мг і\(\sigma\) = 5. У випадковому зразку таблеток з виробничої лінії, який відсоток, як очікується, буде містити від 243 до 262 мг аспірину?
Рішення
Ми не визначаємо безпосередньо відсоток таблеток між 243 мг і 262 мг аспірину. Натомість ми спочатку знаходимо відсоток таблеток з менше 243 мг аспірину та відсоток таблеток, що містять понад 262 мг аспірину. Віднімаючи ці результати від 100%, дає відсоток таблеток, які містять від 243 мг до 262 мг аспірину.
Щоб знайти відсоток таблеток, що містять менше 243 мг аспірину або більше 262 мг аспірину, обчислюємо відхилення, z, кожної межі з\(\mu\) точки зору стандартного відхилення населення,\(\sigma\)
\[z = \frac {X - \mu} {\sigma} \nonumber\]
де X - межа, про яку йде мова. Відхилення для нижньої межі дорівнює
\[z_{lower} = \frac {243 - 250} {5} = -1.4 \nonumber\]
і відхилення для верхньої межі дорівнює
\[z_{upper} = \frac {262 - 250} {5} = +2.4 \nonumber\]
Використовуючи таблицю в Додатку 3, ми виявляємо, що відсоток таблеток, що містять менше 243 мг аспірину, становить 8,08%, а відсоток таблеток з більш ніж 262 мг аспірину становить 0,82%. Тому відсоток таблеток, що містять від 243 до 262 мг аспірину, становить
\[100.00 \% - 8.08 \% - 0.82 \% = 91.10 \% \nonumber\]
Рисунок Template:index показує розподіл прагнення в таблетках, причому область синього кольору показує відсоток таблеток, що містять між 243 мг і 262 мг аспірину.
Який відсоток таблеток аспірину буде містити від 240 мг до 245 мг аспірину, якщо середній показник населення становить 250 мг, а стандартне відхилення населення - 5 мг.
- Відповідь
-
Щоб знайти відсоток таблеток, які містять менше 245 мг аспірину, спочатку обчислюємо відхилення, z,
\[z = \frac {245 - 250} {5} = -1.00 \nonumber\]
а потім шукайте відповідну ймовірність в Додатку 3, отримавши значення 15,87%. Щоб знайти відсоток таблеток, які містять менше 240 мг аспірину, ми виявляємо, що
\[z = \frac {240 - 250} {5} = -2.00 \nonumber\]
що відповідає 2,28%. Відсоток таблеток, що містять від 240 до 245 мг прагнучих, становить 15,87% - 2,28% = 13,59%.
Довірчі інтервали для населення
Якщо ми вибираємо випадковим чином одного члена з популяції, яке його найімовірніше значення? Це важливе питання, і в тій чи іншій формі воно лежить в основі будь-якого аналізу, в якому ми хочемо екстраполювати з вибірки на материнську популяцію вибірки. Однією з найважливіших особливостей розподілу ймовірності населення є те, що він дає можливість відповісти на це питання.
Рисунок Template:index показує, що для нормального розподілу 68,26% членів населення мають значення в межах діапазону\(\mu \pm 1\sigma\). Заявляючи це іншим способом, існує 68,26% ймовірності того, що результат для однієї вибірки, взятої з нормально розподіленої популяції, знаходиться в інтервалі\(\mu \pm 1\sigma\). Загалом, якщо ми виберемо один зразок, ми очікуємо його значення, X i знаходиться в діапазоні
\[X_i = \mu \pm z \sigma \label{4.2}\]
де значення z - наскільки ми впевнені в присвоєнні цього діапазону. Значення, про які повідомляється таким чином, називаються довірчими інтервалами. Наприклад, рівняння\ ref {4.2} є довірчим інтервалом для одного члена популяції. Таблиця Template:index дає довірчі інтервали для декількох значень z. З причин, розглянутих пізніше в розділі, 95% рівень довіри є загальним вибором в аналітичній хімії.
Коли z = 1, ми називаємо це 68.26% довірчий інтервал.
| z | Довірчий інтервал |
|---|---|
| 0,50 | 38.30 |
| 1.00 | 68.26 |
| 1,50 | 86.64 |
| 1.96 | 95.00 |
| 2.00 | 95.44 |
| 2.50 | 98.76 |
| 3.00 | 99.73 |
| 3.50 | 99.95 |
Який 95% довірчий інтервал для кількості аспірину в одній таблетці знеболюючого, взятого з населення, для\(\mu\) якої 250 мг, а для\(\sigma\) якої 5?
Рішення
Використовуючи таблицю Template:index, ми виявимо, що z дорівнює 1,96 для 95% довірчого інтервалу. Заміна цього в Equation\ ref {4.2} дає довірчий інтервал для однієї таблетки як
\[X_i = \mu \pm 1.96\sigma = 250 \text{ mg} \pm (1.96 \times 5) = 250 \text{ mg} \pm 10 \text{mg} \nonumber\]
Довірчий інтервал 250 мг ± 10 мг означає, що 95% таблеток у населення містять від 240 до 260 мг аспірину.
Крім того, ми можемо переписати Equation\ ref {4.2} так, щоб воно давало довірчий інтервал на\(\mu\) основі стандартного відхилення населення та значення одного члена, отриманого з популяції.
\[\mu = X_i \pm z \sigma \label{4.3}\]
Стандартне відхилення населення для кількості аспірину в партії знеболюючих таблеток, як відомо, становить 7 мг аспірину. Якщо випадковим чином вибрати і проаналізувати одну таблетку і виявити, що вона містить 245 мг аспірину, який 95% довірчий інтервал для населення середній?
Рішення
95% довірчий інтервал для середнього населення наведено як
\[\mu = X_i \pm z \sigma = 245 \text{ mg} \pm (1.96 \times 7) \text{ mg} = 245 \text{ mg} \pm 14 \text{ mg} \nonumber\]
Тому, виходячи з цієї однієї вибірки, ми оцінюємо, що існує 95% ймовірність того\(\mu\), що середнє значення популяції лежить в межах від 231 мг до 259 мг аспірину.
Зверніть увагу на кваліфікацію, для якої прогноз\(\mu\) базується на одній вибірці; інша вибірка, ймовірно, дасть інший 95% довірчий інтервал. Таким чином, наш результат - це оцінка на\(\mu\) основі цього зразка.
Незвично прогнозувати очікуване середнє значення популяції з аналізу однієї вибірки; натомість ми збираємо n зразків, взятих із відомої популяції\(\sigma\), і повідомляємо середнє значення X. Стандартне відхилення середнього\(\sigma_{\overline{X}}\), яке також відоме як стандартна похибка середнього, становить
\[\sigma_{\overline{X}} = \frac {\sigma} {\sqrt{n}} \nonumber\]
Довірчий інтервал для середнього показника населення, отже, становить
\[\mu = \overline{X} \pm \frac {z \sigma} {\sqrt{n}} \nonumber\]
Який 95% довірчий інтервал для таблеток анальгетика в прикладі Template:index, якщо аналіз п'яти таблеток дає середнє значення 245 мг аспірину?
Рішення
У цьому випадку довірчий інтервал дорівнює
\[\mu = 245 \text{ mg} \pm \frac {1.96 \times 7} {\sqrt{5}} \text{ mg} = 245 \text{ mg} \pm 6 \text{ mg} \nonumber\]
Ми оцінюємо 95% ймовірність того, що середнє значення населення становить від 239 мг до 251 мг аспірину. Як і очікувалося, довірчий інтервал при використанні середнього показника п'яти зразків менше, ніж для одного зразка.
Аналіз семи таблеток аспірину від населення, яке, як відомо, має стандартне відхилення 5, дає наступні результати в мг аспірину на таблетку:
\(246 \quad 249 \quad 255 \quad 251 \quad 251 \quad 247 \quad 250\)
Який 95% довірчий інтервал для очікуваного середнього рівня населення?
- Відповідь
-
Середній показник становить 249.9 мг аспірину/таблетки для цього зразка з семи таблеток. Для 95% довірчого інтервалу значення z дорівнює 1,96, що робить довірчий інтервал
\[249.9 \pm \frac {1.96 \times 5} {\sqrt{7}} = 249.9 \pm 3.7 \approx 250 \text{ mg} \pm 4 \text { mg} \nonumber\]
Розподіли ймовірностей для зразків
У прикладах Template:index — Template:index ми припустили, що кількість аспірину в анальгетичних таблетках зазвичай розподіляється. Не аналізуючи кожного члена населення, як ми можемо виправдати це припущення? У ситуації, коли ми не можемо вивчити всю сукупність або коли ми не можемо передбачити математичну форму розподілу ймовірностей населення, ми повинні вивести розподіл з обмеженої вибірки її членів.
Вибіркові розподіли та центральна гранична теорема
Повернемося до проблеми визначення маси копійки, щоб далі дослідити взаємозв'язок між розподілом населення та розподілом вибірки, взятої з цієї популяції. Два набори даних у таблиці Template:index занадто малі, щоб забезпечити корисну картину розподілу зразка, тому ми будемо використовувати більший зразок 100 копійок, показаний у таблиці Template:index. Середнє і стандартне відхилення для цієї проби складають 3,095 г і 0,0346 г відповідно.
| Пенні | Вага (г) | Пенні | Вага (г) | Пенні | Вага (г) | Пенні | Вага (г) |
|---|---|---|---|---|---|---|---|
| 1 | 3.126 | 26 | 3.073 | 51 | 3.101 | 76 | 3.086 |
| 2 | 3.140 | 27 | 3.084 | 52 | 3.049 | 77 | 3.123 |
| 3 | 3.092 | 28 | 3.148 | 53 | 3.082 | 78 | 3.15 |
| 4 | 3.095 | 29 | 3.047 | 54 | 3.142 | 79 | 3.055 |
| 5 | 3.080 | 30 | 3.121 | 55 | 3.082 | 80 | 3.057 |
| 6 | 3.065 | 31 | 3.116 | 56 | 3.066 | 81 | 3.097 |
| 7 | 3.117 | 32 | 3.005 | 57 | 3.128 | 82 | 3.066 |
| 8 | 3.034 | 33 | 3.15 | 58 | 3.112 | 83 | 3.113 |
| 9 | 3.126 | 34 | 3.103 | 59 | 3.085 | 84 | 3.102 |
| 10 | 3.057 | 35 | 3.086 | 60 | 3.086 | 85 | 3.033 |
| 11 | 3.053 | 36 | 3.103 | 61 | 3.084 | 86 | 3.112 |
| 12 | 3.099 | 37 | 3.049 | 62 | 3.104 | 87 | 3.103 |
| 13 | 3.065 | 38 | 2.998 | 63 | 3.107 | 88 | 3.198 |
| 14 | 3.059 | 39 | 3.063 | 64 | 3.093 | 89 | 3.103 |
| 15 | 3.068 | 40 | 3.055 | 65 | 3.126 | 90 | 3.126 |
| 16 | 3.060 | 41 | 3.181 | 66 | 3.138 | 91 | 3.111 |
| 17 | 3.078 | 42 | 3.108 | 67 | 3.131 | 92 | 3.126 |
| 18 | 3.125 | 43 | 3.114 | 68 | 3.120 | 93 | 3.052 |
| 19 | 3.090 | 44 | 3.121 | 69 | 3.100 | 94 | 3.113 |
| 20 | 3.100 | 45 | 3.105 | 70 | 3.099 | 95 | 3.085 |
| 21 | 3.055 | 46 | 3.078 | 71 | 3.097 | 96 | 3.117 |
| 22 | 3.105 | 47 | 3.147 | 72 | 3.091 | 97 | 3.142 |
| 23 | 3.063 | 48 | 3.104 | 73 | 3.077 | 98 | 3.031 |
| 24 | 3.083 | 49 | 3.146 | 74 | 3.178 | 99 | 3.083 |
| 25 | 3.065 | 50 | 3.095 | 75 | 3.054 | 100 | 3.104 |
Гістограма (Рисунок Template:index) є корисним способом вивчення даних у таблиці Template:index. Для створення гістограми ми ділимо зразок на інтервали, по масі, і визначаємо відсоток копійок в межах кожного інтервалу (Table Template:index). Зауважте, що середнє значення зразка є середньою точкою гістограми.
| Масовий інтервал | Частота (в% від зразка) | Масовий інтервал | Частота (в% від зразка) |
|---|---|---|---|
| 2.91 — 3.09 | 2 | 3.105 — 3.123 | 19 |
| 3.010 — 3.028 | 0 | 3.124 — 3.142 | 12 |
| 3.029 — 3.047 | 4 | 3.143 — 3.161 | 3 |
| 3.048 — 3.066 | 19 | 3.162 — 3.180 | 1 |
| 3.067 — 3.085 | 14 | 3.181 — 3.199 | 2 |
| 3.086 — 3,14 | 24 | 3.200 — 3.218 | 0 |
Рисунок Template:index також включає нормальну криву розподілу для населення копійки, виходячи з припущення, що середнє значення та дисперсія для вибірки є відповідними оцінками для середнього та дисперсії популяції. Хоча гістограма не ідеально симетрична за формою, вона забезпечує хороше наближення нормальної кривої розподілу, припускаючи, що зразок 100 копійок нормально розподілений. Легко уявити, що гістограма наближається більш точно до нормального розподілу, якщо ми включимо додаткові копійки в наш зразок.
Ми не будемо пропонувати формального доказу того, що вибірка копійок у таблиці Template:index та населення всіх циркулюючих американських копійок зазвичай розподіляються; однак докази на малюнку Template:index настійно свідчать про це. Хоча ми не можемо стверджувати, що результати всіх експериментів зазвичай розподілені, в більшості випадків наші дані зазвичай розподіляються. Відповідно до центральної граничної теореми, коли вимірювання піддається різним невизначеним похибкам, результати цього вимірювання наближаються до нормального розподілу [Mark, H.; Workman, J Spectroscopy 1988, 3, 44—48]. Центральна гранична теорема істинна, навіть якщо окремі джерела невизначеної похибки нормально не розподілені. Головне обмеження центральної граничної теореми полягає в тому, що джерела невизначеної помилки повинні бути незалежними та подібної величини, щоб жодне джерело помилки не домінувало над остаточним розподілом.
Додатковою особливістю центральної граничної теореми є те, що розподіл середніх для зразків, взятих з популяції з будь-яким розподілом, наближається до нормального розподілу, якщо розмір кожної вибірки досить великий. Наприклад, на малюнку Template:index показано розподіл двох зразків 10 000, отриманих з рівномірного розподілу, в якому кожне значення між 0 і 1 відбувається з однаковою частотою. Для зразків розміром n = 1 отриманий розподіл тісно наближає рівномірний розподіл популяції. Розподіл середніх для зразків розміром n = 10, однак, тісно наближає нормальний розподіл.
Ви можете розумно запитати, чи важливий цей аспект центральної граничної теореми, оскільки навряд чи ми виконаємо 10 000 аналізів, кожен з яких є середнім показником 10 індивідуальних випробувань. Це обманює. Коли ми купуємо зразок грунту, наприклад, він складається з безлічі окремих частинок, кожна з яких є індивідуальним зразком грунту. Наш аналіз цього зразка, таким чином, дає середнє значення для цієї великої кількості окремих частинок грунту. Через це актуальна центральна гранична теорема. Для обговорення обставин, коли центральна гранична теорема може не застосовуватися, див. «Чи вважаєте ви, що вона нормально розподілена?» , Повне посилання на який є Маєвський, М.; Вагнер, М.; Фарлін, Дж. наук. Загальна Environ. 2016, 548—549, 408—409.
Ступені свободи
Ви помітили відмінності між рівнянням дисперсії сукупності та дисперсією вибірки? Якщо ні, то ось два рівняння:
\[\sigma^2 = \frac {\sum_{i = 1}^n (X_i - \mu)^2} {n} \nonumber\]
\[s^2 = \frac {\sum_{i = 1}^n (X_i - \overline{X})^2} {n - 1} \nonumber\]
Обидва рівняння вимірюють дисперсію навколо середнього, використовуючи\(\mu\) для популяції та\(\overline{X}\) для вибірки. Хоча рівняння використовують різні заходи для середнього, намір однаковий як для вибірки, так і для популяції. Більш цікава відмінність - між знаменниками двох рівнянь. Коли ми обчислюємо дисперсію популяції, ми ділимо чисельник на розмір популяції n; однак для дисперсії вибірки ділимо на n — 1, де n — розмір вибірки. Чому ми ділимо на n — 1, коли обчислюємо дисперсію вибірки?
Дисперсія - це середнє квадратне відхилення окремих результатів щодо середнього. Коли ми обчислюємо середнє значення, ми ділимо суму на кількість незалежних вимірювань, або ступеня свободи, в розрахунку. Для дисперсії населення ступені свободи дорівнюють чисельності населення, п. Коли ми вимірюємо кожного члена населення, ми маємо повну інформацію про населення.
Однак, коли ми обчислюємо дисперсію вибірки, ми\(\mu\) замінюємо на\(\overline{X}\), яку ми також обчислюємо, використовуючи ті ж дані. Якщо у вибірці є n членів, ми можемо вивести значення n -го члена з решти n — 1 членів і середнє значення. Наприклад, якщо\(n = 5\) і ми знаємо, що перші чотири зразки - це 1, 2, 3 і 4, і що середнє значення дорівнює 3, то п'ятий член зразка повинен бути
\[X_5 = (\overline{X} \times n) - X_1 - X_2 - X_3 - X_4 = (3 \times 5) - 1 - 2 - 3 - 4 = 5 \nonumber\]
Оскільки ми маємо лише чотири незалежні вимірювання, ми втратили один ступінь свободи. Використання n — 1 замість n, коли ми обчислюємо дисперсію вибірки, гарантує, що\(s^2\) це неупереджена оцінка\(\sigma^2\).
Ось ще один спосіб подумати про ступені свободи. Ми аналізуємо зразки, щоб зробити прогнози щодо основної популяції. Коли наша вибірка складається з n вимірювань, ми не можемо зробити більше, ніж n незалежних прогнозів щодо населення. Кожен раз, коли ми оцінюємо такий параметр, як середнє значення населення, ми втрачаємо ступінь свободи. Якщо для обчислення середнього зразка існує n ступенів свободи, то при обчисленні дисперсії вибірки залишається n — 1 ступінь свободи.
Довірчі інтервали для зразків
Раніше ми ввели довірчий інтервал як спосіб повідомити про найбільш ймовірне значення середнього значення популяції,\(\mu\)
\[\mu = \overline{X} \pm \frac {z \sigma} {\sqrt{n}} \label{4.4}\]
де\(\overline{X}\) - середнє значення для вибірки розміром n, і\(\sigma\) є стандартним відхиленням популяції. Для більшості аналізів ми не знаємо стандартного відхилення населення. Однак ми все ще можемо обчислити довірчий інтервал, якщо ми внесемо дві зміни до Equation\ ref {4.4}.
Перша модифікація проста - ми замінюємо стандартне відхилення населення\(\sigma\), стандартним відхиленням вибірки, s. Друга модифікація не така очевидна. Значення z у таблиці Template:index призначені для нормального розподілу, який є функцією\(sigma^2\), а не s 2. Хоча дисперсія вибірки, s 2, є неупередженою оцінкою дисперсії популяції\(\sigma^2\), значення s 2 рідко дорівнюватиме\(\sigma^2\). Для врахування цієї невизначеності при\(\sigma^2\) оцінюванні замінено змінну z в Equation\ ref {4.4} на змінну t, де t визначається таким чином, що\(t \ge z\) на всіх рівнях довіри.
\[\mu = \overline{X} \pm \frac {t s} {\sqrt{n}} \label{4.5}\]
Значення для t на рівні довіри 95% наведені в таблиці Template:index. Зауважте, що t стає меншим із збільшенням кількості ступенів свободи, і що вона наближається до z, коли n наближається до нескінченності. Чим більше вибірка, тим ближче її довірчий інтервал для вибірки (Equation\ ref {4.5}) наближається до довірчого інтервалу для популяції (Equation\ ref {4.3}). Додаток 4 містить додаткові значення t для інших рівнів довіри.
| Ступені свободи | т | Ступені свободи | т | Ступені свободи | т | Ступені свободи | т |
|---|---|---|---|---|---|---|---|
| 1 | 12.706 | 6 | 2.447 | 12 | 2.179 | 30 | 2.042 |
| 2 | 4.303 | 7 | 2.365 | 14 | 2.145 | 40 | 2.021 |
| 3 | 3.181 | 8 | 2.306 | 16 | 2.120 | 60 | 2.000 |
| 4 | 2.776 | 9 | 2.262 | 18 | 2.101 | 100 | 1,984 |
| 5 | 2.571 | 10 | 2.228 | 20 | 2.086 | \ (\ infty | 1,960 |
Які 95% довірчі інтервали для двох зразків копійок у таблиці Template:index?
Рішення
Середнє значення і стандартне відхилення для першого експерименту складають відповідно 3,117 г і 0,051 м Оскільки зразок складається з семи вимірювань, існує шість ступенів свободи. Значення t з таблиці Template:index, дорівнює 2.447. Підстановка в рівняння\ ref {4.5} дає
\[\mu = 3.117 \text{ g} \pm \frac {2.447 \times 0.051 \text{ g}} {\sqrt{7}} = 3.117 \text{ g} \pm 0.047 \text{ g} \nonumber\]
Для другого експерименту середнє і стандартне відхилення складають 3,081 г і 0,073 г відповідно при чотирьох ступенях свободи. Довірчий інтервал 95%
\[\mu = 3.081 \text{ g} \pm \frac {2.776 \times 0.037 \text{ g}} {\sqrt{5}} = 3.081 \text{ g} \pm 0.046 \text{ g} \nonumber\]
Виходячи з першого експерименту, 95% довірчий інтервал для середнього популяції становить 3.070—3,164 г Для другого експерименту 95% довірчий інтервал становить 3.035—3,127 м Хоча два довірчих інтервали не однакові - пам'ятайте, кожен довірчий інтервал дає різну оцінку для\(\mu\) — середнє значення для кожного експерименту міститься в межах довірчого інтервалу іншого експерименту. Також спостерігається помітне перекриття двох довірчих інтервалів. Обидва ці спостереження узгоджуються з зразками, взятими з однієї і тієї ж популяції.
Зверніть увагу, що наше порівняння цих двох довірчих інтервалів на цьому етапі є дещо розпливчастим і незадовільним. До цього моменту ми повернемося в наступному розділі, коли розглянемо статистичний підхід до порівняння результатів експериментів.
Який довірчий інтервал 95% для вибірки 100 копійок у таблиці Template:index? Середнє і стандартне відхилення для цієї проби складають 3,095 г і 0,0346 г відповідно. Порівняйте результат з довірчими інтервалами для зразків копійок у таблиці Template:index.
- Відповідь
-
Маючи 100 копійок, ми маємо 99 ступенів свободи для середнього. Хоча таблиця Template:index не містить значення для t (0,05, 99), ми можемо наблизити його значення, використовуючи значення для t (0,05, 60) та t (0,05, 100) та припускаючи лінійну зміну його значення.
\[t(0.05, 99) = t(0.05, 60) - \frac {39} {40} \left\{ t(0.05, 60) - t(0.05, 100\} \right) \nonumber\]
\[t(0.05, 99) = 2.000 - \frac {39} {40} \left\{ 2.000 - 1.984 \right\} = 1.9844 \nonumber\]
Довірчий інтервал 95% для копійок становить
\[3.095 \pm \frac {1.9844 \times 0.0346} {\sqrt{100}} = 3.095 \text{ g} \pm 0.007 \text{ g} \nonumber\]
З прикладу Template:index, 95% довірчі інтервали для двох зразків у таблиці Template:index складають 3.117 г ± 0,047 г і 3,081 г ± 0,046 г Як і очікувалося, довірчий інтервал для вибірки 100 копійок набагато менший, ніж для двох менших зразки копійок. Зверніть увагу, а також, що довірчий інтервал для більшої вибірки вписується в довірчі інтервали для двох менших зразків.
Застережливе твердження
Виникає спокуса, коли ми аналізуємо дані просто для того, щоб підключити числа до рівняння, провести розрахунок і повідомити про результат. Це ніколи не є гарною ідеєю, і ви повинні виробити звичку переглядати та оцінювати свої дані. Наприклад, якщо ви проаналізуєте п'ять зразків і повідомите про середню концентрацію аналіта як 0,67 проміле зі стандартним відхиленням 0,64 проміле, то 95% довірчий інтервал дорівнює
\[\mu = 0.67 \text{ ppm} \pm \frac {2.776 \times 0.64 \text{ ppm}} {\sqrt{5}} = 0.67 \text{ ppm} \pm 0.79 \text{ ppm} \nonumber\]
Цей довірчий інтервал оцінює, що справжня концентрація аналіту становить від —0,12 проміле до 1,46 проміле. Включення негативної концентрації в межах довірчого інтервалу повинно привести вас до переоцінки ваших даних або висновків. Більш детальне вивчення ваших даних може переконати вас, що стандартне відхилення більше, ніж очікувалося, що робить довірчий інтервал занадто широким, або ви можете зробити висновок, що концентрація аналіта занадто мала, щоб повідомляти з упевненістю.
Ми повернемося до теми меж виявлення в кінці цієї глави.
Ось другий приклад того, чому ви повинні уважно вивчити свої дані: результати, отримані на зразках, отриманих випадковим чином з нормально розподіленої популяції, повинні бути випадковими. Якщо результати для послідовності вибірки показують регулярну закономірність або тенденцію, то базова сукупність або не розподіляється нормально, або існує залежна від часу визначена помилка. Наприклад, якщо ми випадковим чином виберемо 20 копійок і виявимо, що маса кожного пенні більше, ніж за попередню копійку, то ми можемо підозрювати, що наш баланс дрейфує з калібрування.
