Skip to main content
LibreTexts - Ukrayinska

4.4: Розподіл вимірювань та результатів

  • Page ID
    24871
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Раніше ми повідомляли про результати визначення маси циркулюючої американської копійки, отримавши середнє значення 3,117 г і стандартне відхилення 0,051 м Таблиця Template:index показує результати за секунду, незалежне визначення маси копійки, а також дані першого експерименту. Хоча засоби і стандартні відхилення для двох експериментів схожі, вони не ідентичні. Різниця між двома експериментами викликає кілька цікавих питань. Чи є результати для одного експерименту кращими, ніж результати для іншого експерименту? Чи дають два експерименти еквівалентні оцінки для середнього та стандартного відхилення? Яка наша найкраща оцінка очікуваної маси копійки? Щоб відповісти на ці питання, нам потрібно зрозуміти, як ми можемо передбачити властивості всіх копійок, використовуючи результати аналізу невеликої вибірки копійок. Ми починаємо з розрізнення між популяціями та зразками.

    Таблиця Template:index: Результати двох визначень маси циркулюючої У.С.Пенні
    Перший експеримент Другий експеримент
    Пенні Маса (г) Пенні Маса (г)
    1 3.080 1 3.052
    2 3.094 2 3.141
    3 3.107 3 3.083
    4 3.056 4 3.083
    5 3.112 5 3.048
    6 3.174
    7 3.198
    \(\overline{X}\) 3.117 3.081
    \(s\) 0,051 0,037

    Популяції та зразки

    Популяція - це сукупність усіх об'єктів у досліджуваній нами системі. Для даних у таблиці Template:index, населення становить всі гроші США в обігу. Це населення настільки велике, що ми не можемо проаналізувати кожного члена населення. Замість цього ми вибираємо та аналізуємо обмежену підмножину або вибірку населення. Дані в таблиці Template:index, наприклад, показують результати для двох таких вибірок, взятих з більшої кількості всіх циркулюючих США копійок.

    Розподіл ймовірностей для популяцій

    Таблиця Template:index надає засоби та стандартні відхилення для двох зразків циркулюючих копійок США. Що ж говорять нам ці зразки про населення копійки? Яка найбільша можлива маса за копійки? Яка найменша можлива маса? Чи всі маси однаково вірогідні, або деякі маси більш поширені?

    Щоб відповісти на ці питання, нам потрібно знати, як розподіляються маси окремих копійок щодо середньої маси населення. Ми представляємо розподіл сукупності шляхом побудови ймовірності або частоти отримання конкретного результату в залежності від можливих результатів. Такі ділянки називаються розподілами ймовірностей.

    Існує багато можливих розподілів ймовірностей; насправді розподіл ймовірностей може мати будь-яку форму залежно від характеру населення. На щастя, багато хімічних систем відображають один з декількох поширених розподілів ймовірностей. Два з цих розподілів, біноміальний розподіл і нормальний розподіл, розглядаються в цьому розділі.

    Біноміальний розподіл

    Біноміальний розподіл описує сукупність, в якій результатом є кількість разів, коли відбувається певна подія під час фіксованої кількості випробувань. Математично біноміальний розподіл визначається як

    \[P(X, N) = \frac {N!} {X!(N - X)!} \times p^X \times (1 - p)^{N - X} \nonumber\]

    де P (X, N) - ймовірність того, що подія відбудеться X разів під час N випробувань, а p - ймовірність події для одного випробування. Якщо ви перевернете монету п'ять разів, P (2,5) є ймовірність, що монета з'явиться «голови» рівно в два рази.

    Термін N! читається як N -факторіал і є продуктом\(N \times (N – 1) \times (N – 2) \times \cdots \times 1\). Наприклад, 4! є\(4 \times 3 \times 2 \times 1 = 24\). Ваш калькулятор, ймовірно, має ключ для обчислення факторіалів.

    Біноміальний розподіл має чітко визначені показники центральної тенденції та поширення. Очікуване середнє значення

    \[\mu = Np \nonumber\]

    і очікуваний спред задається дисперсією

    \[\sigma^2 = Np(1 - p) \nonumber\]

    або стандартне відхилення.

    \[\sigma = \sqrt{Np(1 - p)} \nonumber\]

    Біноміальний розподіл описує сукупність, члени якої мають лише конкретні, дискретні значення. Наприклад, коли ви котите матрицю, можливі значення 1, 2, 3, 4, 5 або 6. Рулон 3,45 неможливий. Як показано у прикладі роботи Template:index, одним із прикладів хімічної системи, яка підпорядковується біноміальному розподілу, є ймовірність знаходження певного ізотопу в молекулі.

    Приклад Template:index

    Вуглець має два стабільних, нерадіоактивних ізотопу, 12 С і 13 С, з відносною ізотопною кількістю відповідно 98,89% і 1,11%.

    (а) Яке середнє і стандартне відхилення для кількості атомів 13 С в молекулі холестерину (C 27 H 44 O)?

    (б) Яка ймовірність того, що молекула холестерину не має атомів 13 С?

    Рішення

    Імовірність знаходження атома 13 С в молекулі холестерину слід за біноміальним розподілом, де X - число 13 атомів С, N - число атомів вуглецю в молекулі холестерину, а р - ймовірність того, що атом вуглець в 13 С.

    Для (а) середня кількість атомів 13 С в молекулі холестерину становить

    \[\mu = Np = 27 \times 0.0111 = 0.300 \nonumber\]

    зі стандартним відхиленням

    \[\sigma = \sqrt{Np(1 - p)} = \sqrt{27 \times 0.0111 \times (1 - 0.0111)} = 0.544 \nonumber\]

    Для (б) ймовірність знаходження молекули холестерину без атома 13 С становить

    \[P(0, 27) = \frac {27!} {0! \: (27 - 0)!} \times (0.0111)^0 \times (1 - 0.0111)^{27 - 0} = 0.740 \nonumber\]

    Існує 74,0% ймовірність того, що молекула холестерину не матиме атома 13 С, результат узгоджується з спостереженням, що середня кількість атомів 13 С на молекулу холестерину, 0,300, менше одиниці.

    Частина біноміального розподілу атомів 13 С в холестерин показана на малюнку Template:index. Відзначимо, зокрема, що існує невелика ймовірність знайти більше двох атомів по 13 С в будь-якій молекулі холестерину.

    Рисунок Template:index: Частина біноміального розподілу кількості природних атомів 13 С в молекулі холестерину. Лише 3,6% молекул холестерину містять більше одного атома 13 С, і тільки 0,33% містять більше двох атомів по 13 С.

    Нормальний розподіл

    Біноміальний розподіл описує сукупність, члени якої мають лише певні дискретні значення. Так відбувається з кількістю 13 атомів С в холестерин. Молекула холестерину, наприклад, може мати два атома 13 С, але вона не може мати 2,5 атома 13 С. Популяція є безперервною, якщо її члени можуть приймати будь-яке значення. Ефективність вилучення холестерину з зразка, наприклад, може приймати будь-яке значення між 0% (холестерин не витягується) і 100% (весь холестерин витягується).

    Найбільш поширеним безперервним розподілом є гауссове, або нормальний розподіл, рівняння для якого

    \[f(X) = \frac {1} {\sqrt{2 \pi \sigma^2}} e^{- \frac {(X - \mu)^2} {2 \sigma^2}} \nonumber\]

    де\(\mu\) очікуване середнє значення для населення з n членами

    \[\mu = \frac {\sum_{i = 1}^n X_i} {n} \nonumber\]

    і\(\sigma^2\) є дисперсією населення.

    \[\sigma^2 = \frac {\sum_{i = 1}^n (X_i - \mu)^2} {n} \label{4.1}\]

    Приклади трьох нормальних розподілів, кожен з яких має очікуване середнє значення 0 і з відхиленнями 25, 100 або 400 відповідно, наведено на рисунку Template:index. Заслуговують на увагу дві особливості цих нормальних кривих розподілу. По-перше, зверніть увагу, що кожен нормальний розподіл має єдиний максимум, який відповідає\(\mu\), і що розподіл симетричний щодо цього значення. По-друге, збільшення дисперсії населення збільшує розкид розподілу та зменшує його висоту; однак площа під кривою однакова для всіх трьох розподілів.

    Рисунок Template:index: Звичайні криві розподілу для: (a)\(\mu\)\(\sigma^2\) = 0; = 25 (b)\(\mu\)\(\sigma^2\) = 0; = 100 (c)\(\mu\) = 0;\(\sigma^2\) = 400.

    Площа під нормальною кривою розподілу є важливою і корисною властивістю, оскільки вона дорівнює ймовірності знаходження члена населення в межах певного діапазону значень. Наприклад, на малюнку Template:index}, наприклад, 99,99% населення, показаної на кривій (a), мають значення X між —20 і +20. Для кривої (c) 68,26% членів населення мають значення X між —20 і +20.

    Оскільки нормальний розподіл залежить виключно від\(\mu\) і\(\sigma^2\), ймовірність знаходження члена населення між будь-якими двома межами однакова для всіх нормально розподілених популяцій. Наприклад, на малюнку Template:index} показано, що 68,26% членів нормального розподілу мають значення в межах діапазону\(\mu \pm 1 \sigma\), а 95,44% членів населення мають значення в межах діапазону\(\mu \pm 2 \sigma\). Лише 0,27% членів населення мають значення, які перевищують очікуване середнє більш ніж на ± 3\(\sigma\). Додаткові діапазони та ймовірності зібрані разом в таблиці ймовірностей, включеній в Додаток 3. Як показано в прикладі Template:index, якщо ми знаємо середнє значення і стандартне відхилення для нормально розподіленої сукупності, то ми можемо визначити відсоток популяції між будь-якими визначеними межами.

    Рисунок Template:index: Нормальна крива розподілу, що показує площу під кривою для декількох різних діапазонів значень X.
    Приклад Template:index

    Відомо, що кількість аспірину в таблетках знеболюючого від конкретного виробника дотримується нормального розподілу при\(\mu\) = 250 мг і\(\sigma\) = 5. У випадковому зразку таблеток з виробничої лінії, який відсоток, як очікується, буде містити від 243 до 262 мг аспірину?

    Рішення

    Ми не визначаємо безпосередньо відсоток таблеток між 243 мг і 262 мг аспірину. Натомість ми спочатку знаходимо відсоток таблеток з менше 243 мг аспірину та відсоток таблеток, що містять понад 262 мг аспірину. Віднімаючи ці результати від 100%, дає відсоток таблеток, які містять від 243 мг до 262 мг аспірину.

    Щоб знайти відсоток таблеток, що містять менше 243 мг аспірину або більше 262 мг аспірину, обчислюємо відхилення, z, кожної межі з\(\mu\) точки зору стандартного відхилення населення,\(\sigma\)

    \[z = \frac {X - \mu} {\sigma} \nonumber\]

    де X - межа, про яку йде мова. Відхилення для нижньої межі дорівнює

    \[z_{lower} = \frac {243 - 250} {5} = -1.4 \nonumber\]

    і відхилення для верхньої межі дорівнює

    \[z_{upper} = \frac {262 - 250} {5} = +2.4 \nonumber\]

    Використовуючи таблицю в Додатку 3, ми виявляємо, що відсоток таблеток, що містять менше 243 мг аспірину, становить 8,08%, а відсоток таблеток з більш ніж 262 мг аспірину становить 0,82%. Тому відсоток таблеток, що містять від 243 до 262 мг аспірину, становить

    \[100.00 \% - 8.08 \% - 0.82 \% = 91.10 \% \nonumber\]

    Рисунок Template:index показує розподіл прагнення в таблетках, причому область синього кольору показує відсоток таблеток, що містять між 243 мг і 262 мг аспірину.

    Рисунок Template:index: Нормальний розподіл для популяції таблеток аспірину у прикладі Template:index. Середнє значення популяції і стандартне відхилення - 250 мг і 5 мг відповідно. Затінена область показує відсоток таблеток, що містять між 243 мг і 262 мг аспірину.
    Вправа Template:index

    Який відсоток таблеток аспірину буде містити від 240 мг до 245 мг аспірину, якщо середній показник населення становить 250 мг, а стандартне відхилення населення - 5 мг.

    Відповідь

    Щоб знайти відсоток таблеток, які містять менше 245 мг аспірину, спочатку обчислюємо відхилення, z,

    \[z = \frac {245 - 250} {5} = -1.00 \nonumber\]

    а потім шукайте відповідну ймовірність в Додатку 3, отримавши значення 15,87%. Щоб знайти відсоток таблеток, які містять менше 240 мг аспірину, ми виявляємо, що

    \[z = \frac {240 - 250} {5} = -2.00 \nonumber\]

    що відповідає 2,28%. Відсоток таблеток, що містять від 240 до 245 мг прагнучих, становить 15,87% - 2,28% = 13,59%.

    Довірчі інтервали для населення

    Якщо ми вибираємо випадковим чином одного члена з популяції, яке його найімовірніше значення? Це важливе питання, і в тій чи іншій формі воно лежить в основі будь-якого аналізу, в якому ми хочемо екстраполювати з вибірки на материнську популяцію вибірки. Однією з найважливіших особливостей розподілу ймовірності населення є те, що він дає можливість відповісти на це питання.

    Рисунок Template:index показує, що для нормального розподілу 68,26% членів населення мають значення в межах діапазону\(\mu \pm 1\sigma\). Заявляючи це іншим способом, існує 68,26% ймовірності того, що результат для однієї вибірки, взятої з нормально розподіленої популяції, знаходиться в інтервалі\(\mu \pm 1\sigma\). Загалом, якщо ми виберемо один зразок, ми очікуємо його значення, X i знаходиться в діапазоні

    \[X_i = \mu \pm z \sigma \label{4.2}\]

    де значення z - наскільки ми впевнені в присвоєнні цього діапазону. Значення, про які повідомляється таким чином, називаються довірчими інтервалами. Наприклад, рівняння\ ref {4.2} є довірчим інтервалом для одного члена популяції. Таблиця Template:index дає довірчі інтервали для декількох значень z. З причин, розглянутих пізніше в розділі, 95% рівень довіри є загальним вибором в аналітичній хімії.

    Коли z = 1, ми називаємо це 68.26% довірчий інтервал.

    Таблиця Template:index: Довірчі інтервали для нормального розподілу
    z Довірчий інтервал
    0,50 38.30
    1.00 68.26
    1,50 86.64
    1.96 95.00
    2.00 95.44
    2.50 98.76
    3.00 99.73
    3.50 99.95
    Приклад Template:index

    Який 95% довірчий інтервал для кількості аспірину в одній таблетці знеболюючого, взятого з населення, для\(\mu\) якої 250 мг, а для\(\sigma\) якої 5?

    Рішення

    Використовуючи таблицю Template:index, ми виявимо, що z дорівнює 1,96 для 95% довірчого інтервалу. Заміна цього в Equation\ ref {4.2} дає довірчий інтервал для однієї таблетки як

    \[X_i = \mu \pm 1.96\sigma = 250 \text{ mg} \pm (1.96 \times 5) = 250 \text{ mg} \pm 10 \text{mg} \nonumber\]

    Довірчий інтервал 250 мг ± 10 мг означає, що 95% таблеток у населення містять від 240 до 260 мг аспірину.

    Крім того, ми можемо переписати Equation\ ref {4.2} так, щоб воно давало довірчий інтервал на\(\mu\) основі стандартного відхилення населення та значення одного члена, отриманого з популяції.

    \[\mu = X_i \pm z \sigma \label{4.3}\]

    Приклад Template:index

    Стандартне відхилення населення для кількості аспірину в партії знеболюючих таблеток, як відомо, становить 7 мг аспірину. Якщо випадковим чином вибрати і проаналізувати одну таблетку і виявити, що вона містить 245 мг аспірину, який 95% довірчий інтервал для населення середній?

    Рішення

    95% довірчий інтервал для середнього населення наведено як

    \[\mu = X_i \pm z \sigma = 245 \text{ mg} \pm (1.96 \times 7) \text{ mg} = 245 \text{ mg} \pm 14 \text{ mg} \nonumber\]

    Тому, виходячи з цієї однієї вибірки, ми оцінюємо, що існує 95% ймовірність того\(\mu\), що середнє значення популяції лежить в межах від 231 мг до 259 мг аспірину.

    Зверніть увагу на кваліфікацію, для якої прогноз\(\mu\) базується на одній вибірці; інша вибірка, ймовірно, дасть інший 95% довірчий інтервал. Таким чином, наш результат - це оцінка на\(\mu\) основі цього зразка.

    Незвично прогнозувати очікуване середнє значення популяції з аналізу однієї вибірки; натомість ми збираємо n зразків, взятих із відомої популяції\(\sigma\), і повідомляємо середнє значення X. Стандартне відхилення середнього\(\sigma_{\overline{X}}\), яке також відоме як стандартна похибка середнього, становить

    \[\sigma_{\overline{X}} = \frac {\sigma} {\sqrt{n}} \nonumber\]

    Довірчий інтервал для середнього показника населення, отже, становить

    \[\mu = \overline{X} \pm \frac {z \sigma} {\sqrt{n}} \nonumber\]

    Приклад Template:index

    Який 95% довірчий інтервал для таблеток анальгетика в прикладі Template:index, якщо аналіз п'яти таблеток дає середнє значення 245 мг аспірину?

    Рішення

    У цьому випадку довірчий інтервал дорівнює

    \[\mu = 245 \text{ mg} \pm \frac {1.96 \times 7} {\sqrt{5}} \text{ mg} = 245 \text{ mg} \pm 6 \text{ mg} \nonumber\]

    Ми оцінюємо 95% ймовірність того, що середнє значення населення становить від 239 мг до 251 мг аспірину. Як і очікувалося, довірчий інтервал при використанні середнього показника п'яти зразків менше, ніж для одного зразка.

    Вправа Template:index

    Аналіз семи таблеток аспірину від населення, яке, як відомо, має стандартне відхилення 5, дає наступні результати в мг аспірину на таблетку:

    \(246 \quad 249 \quad 255 \quad 251 \quad 251 \quad 247 \quad 250\)

    Який 95% довірчий інтервал для очікуваного середнього рівня населення?

    Відповідь

    Середній показник становить 249.9 мг аспірину/таблетки для цього зразка з семи таблеток. Для 95% довірчого інтервалу значення z дорівнює 1,96, що робить довірчий інтервал

    \[249.9 \pm \frac {1.96 \times 5} {\sqrt{7}} = 249.9 \pm 3.7 \approx 250 \text{ mg} \pm 4 \text { mg} \nonumber\]

    Розподіли ймовірностей для зразків

    У прикладах Template:indexTemplate:index ми припустили, що кількість аспірину в анальгетичних таблетках зазвичай розподіляється. Не аналізуючи кожного члена населення, як ми можемо виправдати це припущення? У ситуації, коли ми не можемо вивчити всю сукупність або коли ми не можемо передбачити математичну форму розподілу ймовірностей населення, ми повинні вивести розподіл з обмеженої вибірки її членів.

    Вибіркові розподіли та центральна гранична теорема

    Повернемося до проблеми визначення маси копійки, щоб далі дослідити взаємозв'язок між розподілом населення та розподілом вибірки, взятої з цієї популяції. Два набори даних у таблиці Template:index занадто малі, щоб забезпечити корисну картину розподілу зразка, тому ми будемо використовувати більший зразок 100 копійок, показаний у таблиці Template:index. Середнє і стандартне відхилення для цієї проби складають 3,095 г і 0,0346 г відповідно.

    Таблиця Template:index: Маси для вибірки 100 циркулюючих U.S.
    Пенні Вага (г) Пенні Вага (г) Пенні Вага (г) Пенні Вага (г)
    1 3.126 26 3.073 51 3.101 76 3.086
    2 3.140 27 3.084 52 3.049 77 3.123
    3 3.092 28 3.148 53 3.082 78 3.15
    4 3.095 29 3.047 54 3.142 79 3.055
    5 3.080 30 3.121 55 3.082 80 3.057
    6 3.065 31 3.116 56 3.066 81 3.097
    7 3.117 32 3.005 57 3.128 82 3.066
    8 3.034 33 3.15 58 3.112 83 3.113
    9 3.126 34 3.103 59 3.085 84 3.102
    10 3.057 35 3.086 60 3.086 85 3.033
    11 3.053 36 3.103 61 3.084 86 3.112
    12 3.099 37 3.049 62 3.104 87 3.103
    13 3.065 38 2.998 63 3.107 88 3.198
    14 3.059 39 3.063 64 3.093 89 3.103
    15 3.068 40 3.055 65 3.126 90 3.126
    16 3.060 41 3.181 66 3.138 91 3.111
    17 3.078 42 3.108 67 3.131 92 3.126
    18 3.125 43 3.114 68 3.120 93 3.052
    19 3.090 44 3.121 69 3.100 94 3.113
    20 3.100 45 3.105 70 3.099 95 3.085
    21 3.055 46 3.078 71 3.097 96 3.117
    22 3.105 47 3.147 72 3.091 97 3.142
    23 3.063 48 3.104 73 3.077 98 3.031
    24 3.083 49 3.146 74 3.178 99 3.083
    25 3.065 50 3.095 75 3.054 100 3.104

    Гістограма (Рисунок Template:index) є корисним способом вивчення даних у таблиці Template:index. Для створення гістограми ми ділимо зразок на інтервали, по масі, і визначаємо відсоток копійок в межах кожного інтервалу (Table Template:index). Зауважте, що середнє значення зразка є середньою точкою гістограми.

    Таблиця Template:index: Частотний розподіл даних у таблиці 4.4.3
    Масовий інтервал Частота (в% від зразка) Масовий інтервал Частота (в% від зразка)
    2.91 — 3.09 2 3.105 — 3.123 19
    3.010 — 3.028 0 3.124 — 3.142 12
    3.029 — 3.047 4 3.143 — 3.161 3
    3.048 — 3.066 19 3.162 — 3.180 1
    3.067 — 3.085 14 3.181 — 3.199 2
    3.086 — 3,14 24 3.200 — 3.218 0
    Рисунок Template:index: Сині смуги показують гістограму даних у таблиці Template:index. Висота кожного бару відповідає відсоткам копійок в межах одного з інтервалів маси в таблиці Template:index. Накладається на гістограму нормальна крива розподілу, заснована на припущенні, що\(\mu\) і\(\sigma^2\) для популяції еквівалентні\(\overline{X}\) і\(\sigma^2\) для вибірки. Загальна площа смуг гістограми та площа під нормальною кривою розподілу рівні.

    Рисунок Template:index також включає нормальну криву розподілу для населення копійки, виходячи з припущення, що середнє значення та дисперсія для вибірки є відповідними оцінками для середнього та дисперсії популяції. Хоча гістограма не ідеально симетрична за формою, вона забезпечує хороше наближення нормальної кривої розподілу, припускаючи, що зразок 100 копійок нормально розподілений. Легко уявити, що гістограма наближається більш точно до нормального розподілу, якщо ми включимо додаткові копійки в наш зразок.

    Ми не будемо пропонувати формального доказу того, що вибірка копійок у таблиці Template:index та населення всіх циркулюючих американських копійок зазвичай розподіляються; однак докази на малюнку Template:index настійно свідчать про це. Хоча ми не можемо стверджувати, що результати всіх експериментів зазвичай розподілені, в більшості випадків наші дані зазвичай розподіляються. Відповідно до центральної граничної теореми, коли вимірювання піддається різним невизначеним похибкам, результати цього вимірювання наближаються до нормального розподілу [Mark, H.; Workman, J Spectroscopy 1988, 3, 44—48]. Центральна гранична теорема істинна, навіть якщо окремі джерела невизначеної похибки нормально не розподілені. Головне обмеження центральної граничної теореми полягає в тому, що джерела невизначеної помилки повинні бути незалежними та подібної величини, щоб жодне джерело помилки не домінувало над остаточним розподілом.

    Додатковою особливістю центральної граничної теореми є те, що розподіл середніх для зразків, взятих з популяції з будь-яким розподілом, наближається до нормального розподілу, якщо розмір кожної вибірки досить великий. Наприклад, на малюнку Template:index показано розподіл двох зразків 10 000, отриманих з рівномірного розподілу, в якому кожне значення між 0 і 1 відбувається з однаковою частотою. Для зразків розміром n = 1 отриманий розподіл тісно наближає рівномірний розподіл популяції. Розподіл середніх для зразків розміром n = 10, однак, тісно наближає нормальний розподіл.

    Рисунок Template:index: Гістограми для (a) 10 000 зразків розміром n = 1, проведені з рівномірного розподілу з мінімальним значенням 0 і максимальним значенням 1, і (b) середнє значення для 10000 зразків розміром n = 10, отриманих з того ж рівномірного розподілу. Для (а) середнє значення 10 000 зразків становить 0,5042, а для (б) середнє значення 10 000 зразків становить 0,5006. Зауважте, що для (a) розподіл тісно наближається до рівномірного розподілу, в якому кожен можливий результат однаково вірогідний, і що для (b) розподіл тісно наближається до нормального розподілу.

    Ви можете розумно запитати, чи важливий цей аспект центральної граничної теореми, оскільки навряд чи ми виконаємо 10 000 аналізів, кожен з яких є середнім показником 10 індивідуальних випробувань. Це обманює. Коли ми купуємо зразок грунту, наприклад, він складається з безлічі окремих частинок, кожна з яких є індивідуальним зразком грунту. Наш аналіз цього зразка, таким чином, дає середнє значення для цієї великої кількості окремих частинок грунту. Через це актуальна центральна гранична теорема. Для обговорення обставин, коли центральна гранична теорема може не застосовуватися, див. «Чи вважаєте ви, що вона нормально розподілена?» , Повне посилання на який є Маєвський, М.; Вагнер, М.; Фарлін, Дж. наук. Загальна Environ. 2016, 548—549, 408—409.

    Ступені свободи

    Ви помітили відмінності між рівнянням дисперсії сукупності та дисперсією вибірки? Якщо ні, то ось два рівняння:

    \[\sigma^2 = \frac {\sum_{i = 1}^n (X_i - \mu)^2} {n} \nonumber\]

    \[s^2 = \frac {\sum_{i = 1}^n (X_i - \overline{X})^2} {n - 1} \nonumber\]

    Обидва рівняння вимірюють дисперсію навколо середнього, використовуючи\(\mu\) для популяції та\(\overline{X}\) для вибірки. Хоча рівняння використовують різні заходи для середнього, намір однаковий як для вибірки, так і для популяції. Більш цікава відмінність - між знаменниками двох рівнянь. Коли ми обчислюємо дисперсію популяції, ми ділимо чисельник на розмір популяції n; однак для дисперсії вибірки ділимо на n — 1, де n — розмір вибірки. Чому ми ділимо на n — 1, коли обчислюємо дисперсію вибірки?

    Дисперсія - це середнє квадратне відхилення окремих результатів щодо середнього. Коли ми обчислюємо середнє значення, ми ділимо суму на кількість незалежних вимірювань, або ступеня свободи, в розрахунку. Для дисперсії населення ступені свободи дорівнюють чисельності населення, п. Коли ми вимірюємо кожного члена населення, ми маємо повну інформацію про населення.

    Однак, коли ми обчислюємо дисперсію вибірки, ми\(\mu\) замінюємо на\(\overline{X}\), яку ми також обчислюємо, використовуючи ті ж дані. Якщо у вибірці є n членів, ми можемо вивести значення n -го члена з решти n — 1 членів і середнє значення. Наприклад, якщо\(n = 5\) і ми знаємо, що перші чотири зразки - це 1, 2, 3 і 4, і що середнє значення дорівнює 3, то п'ятий член зразка повинен бути

    \[X_5 = (\overline{X} \times n) - X_1 - X_2 - X_3 - X_4 = (3 \times 5) - 1 - 2 - 3 - 4 = 5 \nonumber\]

    Оскільки ми маємо лише чотири незалежні вимірювання, ми втратили один ступінь свободи. Використання n — 1 замість n, коли ми обчислюємо дисперсію вибірки, гарантує, що\(s^2\) це неупереджена оцінка\(\sigma^2\).

    Ось ще один спосіб подумати про ступені свободи. Ми аналізуємо зразки, щоб зробити прогнози щодо основної популяції. Коли наша вибірка складається з n вимірювань, ми не можемо зробити більше, ніж n незалежних прогнозів щодо населення. Кожен раз, коли ми оцінюємо такий параметр, як середнє значення населення, ми втрачаємо ступінь свободи. Якщо для обчислення середнього зразка існує n ступенів свободи, то при обчисленні дисперсії вибірки залишається n — 1 ступінь свободи.

    Довірчі інтервали для зразків

    Раніше ми ввели довірчий інтервал як спосіб повідомити про найбільш ймовірне значення середнього значення популяції,\(\mu\)

    \[\mu = \overline{X} \pm \frac {z \sigma} {\sqrt{n}} \label{4.4}\]

    де\(\overline{X}\) - середнє значення для вибірки розміром n, і\(\sigma\) є стандартним відхиленням популяції. Для більшості аналізів ми не знаємо стандартного відхилення населення. Однак ми все ще можемо обчислити довірчий інтервал, якщо ми внесемо дві зміни до Equation\ ref {4.4}.

    Перша модифікація проста - ми замінюємо стандартне відхилення населення\(\sigma\), стандартним відхиленням вибірки, s. Друга модифікація не така очевидна. Значення z у таблиці Template:index призначені для нормального розподілу, який є функцією\(sigma^2\), а не s 2. Хоча дисперсія вибірки, s 2, є неупередженою оцінкою дисперсії популяції\(\sigma^2\), значення s 2 рідко дорівнюватиме\(\sigma^2\). Для врахування цієї невизначеності при\(\sigma^2\) оцінюванні замінено змінну z в Equation\ ref {4.4} на змінну t, де t визначається таким чином, що\(t \ge z\) на всіх рівнях довіри.

    \[\mu = \overline{X} \pm \frac {t s} {\sqrt{n}} \label{4.5}\]

    Значення для t на рівні довіри 95% наведені в таблиці Template:index. Зауважте, що t стає меншим із збільшенням кількості ступенів свободи, і що вона наближається до z, коли n наближається до нескінченності. Чим більше вибірка, тим ближче її довірчий інтервал для вибірки (Equation\ ref {4.5}) наближається до довірчого інтервалу для популяції (Equation\ ref {4.3}). Додаток 4 містить додаткові значення t для інших рівнів довіри.

    Таблиця Template:index: Значення t для 95% довірчого інтервалу
    Ступені свободи т Ступені свободи т Ступені свободи т Ступені свободи т
    1 12.706 6 2.447 12 2.179 30 2.042
    2 4.303 7 2.365 14 2.145 40 2.021
    3 3.181 8 2.306 16 2.120 60 2.000
    4 2.776 9 2.262 18 2.101 100 1,984
    5 2.571 10 2.228 20 2.086 \ (\ infty 1,960
    Приклад Template:index

    Які 95% довірчі інтервали для двох зразків копійок у таблиці Template:index?

    Рішення

    Середнє значення і стандартне відхилення для першого експерименту складають відповідно 3,117 г і 0,051 м Оскільки зразок складається з семи вимірювань, існує шість ступенів свободи. Значення t з таблиці Template:index, дорівнює 2.447. Підстановка в рівняння\ ref {4.5} дає

    \[\mu = 3.117 \text{ g} \pm \frac {2.447 \times 0.051 \text{ g}} {\sqrt{7}} = 3.117 \text{ g} \pm 0.047 \text{ g} \nonumber\]

    Для другого експерименту середнє і стандартне відхилення складають 3,081 г і 0,073 г відповідно при чотирьох ступенях свободи. Довірчий інтервал 95%

    \[\mu = 3.081 \text{ g} \pm \frac {2.776 \times 0.037 \text{ g}} {\sqrt{5}} = 3.081 \text{ g} \pm 0.046 \text{ g} \nonumber\]

    Виходячи з першого експерименту, 95% довірчий інтервал для середнього популяції становить 3.070—3,164 г Для другого експерименту 95% довірчий інтервал становить 3.035—3,127 м Хоча два довірчих інтервали не однакові - пам'ятайте, кожен довірчий інтервал дає різну оцінку для\(\mu\) — середнє значення для кожного експерименту міститься в межах довірчого інтервалу іншого експерименту. Також спостерігається помітне перекриття двох довірчих інтервалів. Обидва ці спостереження узгоджуються з зразками, взятими з однієї і тієї ж популяції.

    Зверніть увагу, що наше порівняння цих двох довірчих інтервалів на цьому етапі є дещо розпливчастим і незадовільним. До цього моменту ми повернемося в наступному розділі, коли розглянемо статистичний підхід до порівняння результатів експериментів.

    Вправа Template:index

    Який довірчий інтервал 95% для вибірки 100 копійок у таблиці Template:index? Середнє і стандартне відхилення для цієї проби складають 3,095 г і 0,0346 г відповідно. Порівняйте результат з довірчими інтервалами для зразків копійок у таблиці Template:index.

    Відповідь

    Маючи 100 копійок, ми маємо 99 ступенів свободи для середнього. Хоча таблиця Template:index не містить значення для t (0,05, 99), ми можемо наблизити його значення, використовуючи значення для t (0,05, 60) та t (0,05, 100) та припускаючи лінійну зміну його значення.

    \[t(0.05, 99) = t(0.05, 60) - \frac {39} {40} \left\{ t(0.05, 60) - t(0.05, 100\} \right) \nonumber\]

    \[t(0.05, 99) = 2.000 - \frac {39} {40} \left\{ 2.000 - 1.984 \right\} = 1.9844 \nonumber\]

    Довірчий інтервал 95% для копійок становить

    \[3.095 \pm \frac {1.9844 \times 0.0346} {\sqrt{100}} = 3.095 \text{ g} \pm 0.007 \text{ g} \nonumber\]

    З прикладу Template:index, 95% довірчі інтервали для двох зразків у таблиці Template:index складають 3.117 г ± 0,047 г і 3,081 г ± 0,046 г Як і очікувалося, довірчий інтервал для вибірки 100 копійок набагато менший, ніж для двох менших зразки копійок. Зверніть увагу, а також, що довірчий інтервал для більшої вибірки вписується в довірчі інтервали для двох менших зразків.

    Застережливе твердження

    Виникає спокуса, коли ми аналізуємо дані просто для того, щоб підключити числа до рівняння, провести розрахунок і повідомити про результат. Це ніколи не є гарною ідеєю, і ви повинні виробити звичку переглядати та оцінювати свої дані. Наприклад, якщо ви проаналізуєте п'ять зразків і повідомите про середню концентрацію аналіта як 0,67 проміле зі стандартним відхиленням 0,64 проміле, то 95% довірчий інтервал дорівнює

    \[\mu = 0.67 \text{ ppm} \pm \frac {2.776 \times 0.64 \text{ ppm}} {\sqrt{5}} = 0.67 \text{ ppm} \pm 0.79 \text{ ppm} \nonumber\]

    Цей довірчий інтервал оцінює, що справжня концентрація аналіту становить від —0,12 проміле до 1,46 проміле. Включення негативної концентрації в межах довірчого інтервалу повинно привести вас до переоцінки ваших даних або висновків. Більш детальне вивчення ваших даних може переконати вас, що стандартне відхилення більше, ніж очікувалося, що робить довірчий інтервал занадто широким, або ви можете зробити висновок, що концентрація аналіта занадто мала, щоб повідомляти з упевненістю.

    Ми повернемося до теми меж виявлення в кінці цієї глави.

    Ось другий приклад того, чому ви повинні уважно вивчити свої дані: результати, отримані на зразках, отриманих випадковим чином з нормально розподіленої популяції, повинні бути випадковими. Якщо результати для послідовності вибірки показують регулярну закономірність або тенденцію, то базова сукупність або не розподіляється нормально, або існує залежна від часу визначена помилка. Наприклад, якщо ми випадковим чином виберемо 20 копійок і виявимо, що маса кожного пенні більше, ніж за попередню копійку, то ми можемо підозрювати, що наш баланс дрейфує з калібрування.