35.1: Оцінка аналітичних даних
Матеріал у цьому додатку адаптований з підручника Chemometrics Using R, який доступний через LibreTexts за цим посиланням. Крім матеріалу тут, підручник містить інструкції про те, як використовувати статистичну мову програмування R для проведення розрахунків.
Типи даних
В основі будь-якого аналізу лежать дані. Іноді наші дані описують категорію, а іноді вони числові; іноді наші дані передають порядок, а іноді - ні; іноді наші дані мають абсолютне посилання, а іноді вони мають довільне посилання; і іноді наші дані набувають дискретних значень, а іноді вони набувають безперервних значень. Незалежно від його форми, коли ми збираємо дані, наша мета полягає в тому, щоб витягти з них інформацію, яка може допомогти нам вирішити проблему.
Способи опису даних
Якщо ми розглянемо, як описувати дані, то нам потрібні деякі дані, з якими ми можемо працювати. В ідеалі нам потрібні дані, які легко збирати та легко зрозуміти. Це також корисно, якщо ви можете зібрати подібні дані самостійно, щоб ви могли повторити те, що ми тут висвітлюємо. Проста система, яка відповідає цим критеріям, полягає в аналізі вмісту мішків M&Ms Хоча ця система може здатися тривіальною, майте на увазі, що повідомлення про відсоток жовтих M&Ms у мішку аналогічно повідомленню про концентрацію Cu 2 + у зразку руди або води: обидва виражають кількість аналіта, присутнього в одиниці його матриці.
На початку цієї глави ми визначили чотири контрастні способи опису даних: категоричний проти числового, впорядкований проти невпорядкованого, абсолютне посилання проти довільного посилання та дискретне проти безперервного. Щоб надати значення цим описовим термінам, розглянемо дані в таблиці35.1.1, яка включає рік придбання та аналізу сумки, вага, вказану на упаковці, тип M & Ms, кількість жовтих M & Ms в сумці, відсоток M & Ms, які були червоними, загальна кількість M&Ms в сумці та їх відповідні ряди.
ідентифікатор сумки | рік | вага (унція) | тип | номер жовтий | % червоний | Всього M&Ms | ранг (за підсумками) |
---|---|---|---|---|---|---|---|
a | 2006 | 1.74 | арахісу | 2 | 27.8 | 18 | шостий |
б | 2006 | 1.74 | арахісу | 3 | 4.35 | 23 | четвертий |
c | 2000 | 0,80 | рівнина | 1 | 22.7 | 22 | п'ятий |
d | 2000 | 0,80 | рівнина | 5 | 20.8 | 24 | третій |
е | 1994 | 10.0 | рівнина | 56 | 23,0 | 331 | другий |
f | 1994 | 10.0 | рівнина | 63 | 21.9 | 333 | перший |
Записи в таблиці35.1.1 упорядковані за стовпчиками та рядками. Перший рядок, який іноді називають рядком заголовка, визначає змінні, що складають дані. Кожен додатковий рядок є записом для одного зразка, а кожен запис у записі зразка надає інформацію про одну зі змінних; таким чином, дані в таблиці перераховують результат для кожної змінної та для кожного зразка.
Категоричні проти числових даних
Зі змінних, включених в Таблицю35.1.1, деякі є категоріальними, а деякі числовими. Категорична змінна надає якісну інформацію, яку ми можемо використовувати для опису зразків відносно один одного, або яку ми можемо використовувати для організації зразків у групи (або категорії). Для даних у таблиці ідентифікатор мішка35.1.1, тип та ранг є категоріальними змінними.
Числова змінна надає кількісну інформацію, яку ми можемо використовувати у значущому обчисленні; наприклад, ми можемо використовувати кількість жовтих M&Ms та загальну кількість M & Ms для обчислення нової змінної, яка повідомляє відсоток M&Ms, які є жовтими. Для даних у таблиці35.1.1, рік, вага (унція), кількість жовтого,% червоного M&Ms та загальна кількість M & Ms є числовими змінними.
Ми також можемо використовувати числову змінну для призначення зразків групам. Наприклад, ми можемо розділити прості M&Ms у таблиці на35.1.1 дві групи на основі ваги зразка. Однак те, що робить числову змінну цікавішою, полягає в тому, що ми можемо використовувати її для кількісних порівнянь між зразками; таким чином, ми можемо повідомити, що в 10-унційній сумці14.4× стільки ж простих M & Ms, скільки в мішку 0,8 унції.
333+33124+22=66446=14.4
Хоча ми могли б класифікувати рік як категоріальну змінну - не необгрунтований вибір, оскільки він може служити корисним способом групування зразків - ми перераховуємо її тут як числову змінну, оскільки вона може служити корисною прогностичною змінною в регресійному аналізі. З іншого боку, ранг не є числовою змінною, навіть якщо ми перепишемо ряди як числівники - оскільки немає значущих обчислень, які ми можемо виконати за допомогою цієї змінної.
Номінальні проти порядкових даних
Категоричні змінні описуються як іменні або порядкові. Номінальна категорична змінна не передбачає певного порядку; порядкова категорична змінна, з іншого боку, передає значуще почуття порядку. Для категоріальних змінних у таблиці35.1.1 ідентифікатор та тип bag є номінальними змінними, а ранг - порядковою змінною.
Співвідношення проти інтервальних даних
Числова змінна описується як відношення або інтервал залежно від того, чи має вона (відношення) або не має (інтервал) абсолютного посилання. Хоча ми можемо виконати значущі обчислення за допомогою будь-якої числової змінної, тип обчислення, який ми можемо виконати, залежить від того, чи мають значення змінної абсолютне посилання.
Числова змінна має абсолютне посилання, якщо вона має значущий нуль - тобто нуль, що означає виміряну кількість жодного - проти якого ми посилаємося на всі інші вимірювання цієї змінної. Для числових змінних у таблиці35.1.1 вага (oz), число жовте,% червоне та загальне M&Ms є змінними співвідношення, оскільки кожна з них має значущий нуль; рік є змінною інтервалу, оскільки її масштаб посилається на довільний момент часу, 1 до н.е., а не на початок часу.
Для змінної коефіцієнта ми можемо зробити значущі абсолютні та відносні порівняння між двома результатами, але лише значущі абсолютні порівняння для змінної інтервалу. Наприклад, розглянемо зразок e, який був зібраний у 1994 році і має 331 M&Ms, і зразок d, який був зібраний у 2000 році і має 24 M&Ms. Ми можемо повідомити про значне абсолютне порівняння для обох змінних: зразок e на шість років старше зразка d, а зразок e має на 307 більше M & Ms, ніж зразок d може повідомити про значуще відносне порівняння загальної кількості M & MS - є
33124=13.8×
стільки ж M & Ms у зразку e, як у зразку d, але ми не можемо повідомити про значуще відносне порівняння за рік, оскільки зразок, зібраний у 2000 році, не є
20001994=1.003×
старше зразка, зібраного в 1994 році.
Дискретні проти безперервних даних
Нарешті, деталізація числової змінної надає ще один спосіб опису наших даних. Наприклад, ми можемо описати числову змінну як дискретну або безперервну. Числова змінна є дискретною, якщо вона може приймати лише конкретні значення - зазвичай, але не завжди, ціле значення - між її межами; безперервна змінна може приймати будь-яке можливе значення в межах своїх меж. Для числових даних у таблиці35.1.1, рік, число жовте та загальне M&Ms дискретні тим, що кожен обмежений цілими значеннями. Чисельні змінні вага (унція) і% червоного кольору, з іншого боку, є безперервними змінними. Зверніть увагу, що вага є безперервною змінною, навіть якщо пристрій, який ми використовуємо для вимірювання ваги, дає дискретні значення.
Візуалізація даних
Стара приказка про те, що «картинка коштує 1000 слів», може бути не універсально вірною, але вона вірна, коли мова йде про аналіз даних. Наприклад, хороша візуалізація даних дозволяє нам бачити закономірності та зв'язки, які менш очевидні, коли ми дивимось на дані, розташовані в таблиці, і це забезпечує потужний спосіб розповісти історію наших даних. Припустимо, ми хочемо вивчити склад 1,69 унцій (47,9 г) пакетів простих M&Ms. Ми отримуємо 30 мішків M&Ms (по десять з кожного з трьох магазинів) і видаляємо M&Ms з кожного пакета один за іншим, записуючи кількість синіх, коричневих, зелених, помаранчевих, червоних і жовтих M&Ms. M&Ms у перших п'яти цукерок, витягнутих з кожного мішка, і записують фактичну вагу нетто M & Ms в кожному мішку. Таблиця35.1.2 узагальнює дані, зібрані на цих зразках. Ідентифікатор мішка визначає порядок, в якому мішки були відкриті та проаналізовані.
сумка | магазин | блакитний | коричневий | зелений | помаранчевий | червоний | жовтий | жовтий_перший_п'ять | нетто_вага |
---|---|---|---|---|---|---|---|---|---|
1 | CVS | 3 | 18 | 1 | 5 | 7 | 23 | 2 | 49.287 |
2 | CVS | 3 | 14 | 9 | 7 | 8 | 15 | 0 | 48.870 |
3 | Цільова | 4 | 14 | 5 | 10 | 10 | 16 | 1 | 51.250 |
4 | Крогер | 3 | 13 | 5 | 4 | 15 | 16 | 0 | 48.692 |
5 | Крогер | 3 | 16 | 5 | 7 | 8 | 18 | 1 | 48.777 |
6 | Крогер | 2 | 12 | 6 | 10 | 17 | 7 | 1 | 46.405 |
7 | CVS | 13 | 11 | 2 | 8 | 6 | 17 | 1 | 49.693 |
8 | CVS | 13 | 12 | 7 | 10 | 7 | 8 | 2 | 49.391 |
9 | Крогер | 6 | 17 | 5 | 4 | 8 | 16 | 1 | 48.196 |
10 | Крогер | 8 | 13 | 2 | 5 | 10 | 17 | 1 | 47.326 |
11 | Цільова | 9 | 20 | 1 | 4 | 12 | 13 | 3 | 50.974 |
12 | Цільова | 11 | 12 | 0 | 8 | 4 | 23 | 0 | 50.081 |
13 | CVS | 3 | 15 | 4 | 6 | 14 | 13 | 2 | 47.841 |
14 | Крогер | 4 | 17 | 5 | 6 | 14 | 10 | 2 | 48.377 |
15 | Крогер | 9 | 13 | 3 | 8 | 14 | 8 | 0 | 47.004 |
16 | CVS | 8 | 15 | 1 | 10 | 9 | 15 | 1 | 50.037 |
17 | CVS | 10 | 11 | 5 | 10 | 7 | 13 | 2 | 48.599 |
18 | Крогер | 1 | 17 | 6 | 7 | 11 | 14 | 1 | 48.625 |
19 | Цільова | 7 | 17 | 2 | 8 | 4 | 18 | 1 | 48.395 |
20 | Крогер | 9 | 13 | 1 | 8 | 7 | 22 | 1 | 51.730 |
21 | Цільова | 7 | 17 | 0 | 15 | 4 | 15 | 3 | 50.405 |
22 | CVS | 12 | 14 | 4 | 11 | 9 | 5 | 2 | 47.305 |
23 | Цільова | 9 | 19 | 0 | 5 | 12 | 12 | 0 | 49.477 |
24 | Цільова | 5 | 13 | 3 | 4 | 15 | 16 | 0 | 48.027 |
25 | CVS | 7 | 13 | 0 | 4 | 15 | 16 | 2 | 48.212 |
26 | Цільова | 6 | 15 | 1 | 13 | 10 | 14 | 1 | 51.682 |
27 | CVS | 5 | 17 | 6 | 4 | 8 | 19 | 1 | 50.802 |
28 | Крогер | 1 | 21 | 6 | 5 | 10 | 14 | 0 | 49.055 |
29 | Цільова | 4 | 12 | 6 | 5 | 13 | 14 | 2 | 46.577 |
30 | Цільова | 15 | 8 | 9 | 6 | 10 | 8 | 1 | 48.317 |
Зібравши наші дані, ми далі вивчаємо їх на предмет можливих проблем, таких як відсутні значення (Чи забули ми записати кількість коричневих M & Ms в будь-якому з наших зразків?) , для помилок, що вводяться, коли ми записували дані (Чи неправильно записана десяткова крапка для будь-якої з чистих ваг?) , або для незвичайних результатів (Це дійсно так, що ця сумка має тільки жовтий M & M?). Ми також вивчаємо наші дані, щоб виявити цікаві спостереження, які ми, можливо, забажаємо вивчити (Здається, що більшість ваги нетто більше, ніж вага нетто, вказана на окремих упаковках. Чому це може бути? Чи суттєва різниця?) Коли наш набір даних невеликий, ми зазвичай можемо виявити можливі проблеми та цікаві спостереження без особливих труднощів; однак для великого набору даних це стає проблемою. Замість того, щоб намагатися досліджувати окремі цінності, ми можемо подивитися на наші результати візуально. Хоча може бути важко знайти одну, непарну точку даних, коли нам доводиться індивідуально переглядати 1000 зразків, вона часто вискакує, коли ми дивимося на дані, використовуючи один або кілька підходів, які ми вивчимо в цьому розділі.
Точкові ділянки
Точковий графік відображає дані для однієї змінної, причому значення кожного зразка побудовано на осі x. Окремі точки організовані вздовж осі y з першим зразком внизу і останнім зразком вгорі. 35.1.1На малюнку показаний точковий графік для кількості коричневих M & Ms у 30 мішках M & Ms з табл35.1.2. Розподіл точок виглядає випадковим, оскільки немає кореляції між ідентифікатором вибірки та кількістю коричневих M & Ms. Ми були б здивовані, якби виявили, що точки були розташовані від нижнього лівого до верхнього правого, оскільки це означає, що порядок, в якому ми відкриваємо мішки, визначає, чи вони мають багато або кілька коричневих M & Ms.

Стріп-діаграми
Точковий графік забезпечує швидкий спосіб дати нам впевненість у тому, що наші дані вільні від незвичайних закономірностей, але ціною простору, оскільки ми використовуємо вісь y, щоб включити ідентифікатор зразка як змінну. Stripchart використовує ту саму вісь x, як точковий графік, але не використовує вісь y для розрізнення зразків. Оскільки всі зразки з однаковою кількістю коричневих M & Ms з'являться в одному місці, що робить неможливим відрізнити їх один від одного, ми складаємо точки вертикально, щоб розкласти їх, як показано на малюнку35.1.2.

Як точковий графік на малюнку, так35.1.1 і смугаста діаграма на малюнку35.1.2 припускають, що існує менша щільність точок на нижній межі та верхня межа наших результатів. Ми бачимо, наприклад, що є лише одна сумка з 8, 16, 18, 19, 20 та 21 коричневим M&Ms, але є шість сумок з 13 та 17 коричневими M & Ms.
Оскільки stripchart не використовує вісь y для надання значущої категоріальної інформації, ми можемо легко відобразити кілька stripcharts одночасно. Рисунок35.1.3 показує це для даних у табл35.1.2. Замість того, щоб укладати окремі точки, ми перехитюємо їх, застосовуючи невелике випадкове зміщення до кожної точки. Серед речей, які ми дізнаємося з цієї смугової діаграми, є те, що лише коричневі та жовті M & Ms мають кількість більше 20 і що лише сині та зелені M & Ms мають кількість трьох або менше M & Ms.

Коробка і вуса ділянки
Стріп-діаграму на малюнку нам35.1.3 легко вивчити, оскільки кількість зразків, 30 мішків та кількість M & Ms на мішок досить мала, щоб ми могли бачити окремі точки. У міру того, як щільність точок стає більшою, смужкова діаграма стає менш корисною. Графік коробки та вусів забезпечує подібний вигляд, але фокусується на даних з точки зору діапазону значень, що охоплюють середні 50% даних.
35.1.4На малюнку показано графік коробки та вуса для коричневих M&Ms, використовуючи дані в табл35.1.2. 30 окремих зразків накладаються як смугаста діаграма. Центральна коробка ділить вісь x на три області: мішки з менш ніж 13 коричневими M & Ms (сім зразків), мішки з 13 і 17 коричневими M & Ms (19 зразків) та мішки з більш ніж 17 коричневими M & Ms (чотири зразки). Обмеження коробки встановлені таким чином, щоб він включав принаймні середні 50% наших даних. У цьому випадку коробка містить 19 із 30 зразків (63%) мішків, оскільки переміщення будь-якого кінця коробки до середини призводить до коробки, яка включає менше 50% зразків. Різниця між верхньою межею коробки (19) та її нижньою межею (13) називається інтерквартильним діапазоном (IQR). Товста лінія в коробці - це медіана, або середнє значення (докладніше про це і IQR в наступному розділі). Пунктирні лінії в будь-якому кінці коробки називаються вусами, і вони поширюються на найбільший або найменший результат, який знаходиться в межах±1.5×IQR правого або лівого краю коробки відповідно.

Оскільки графік коробки та вусів не використовує вісь y для надання значущої категоріальної інформації, ми можемо легко відобразити кілька графіків у одному кадрі. Рисунок35.1.5 показує це для даних у табл35.1.2. Зауважте, що коли значення потрапляє за межі вуса, як це відбувається тут для жовтих M & Ms, воно позначається відображенням його як відкритого кола.

Одним із застосувань ділянки коробки та вусів є вивчення розподілу окремих зразків, особливо щодо симетрії. За винятком одиничного зразка, який потрапляє за межі вусів, розподіл жовтих M&Ms виглядає симетричним: медіана знаходиться поблизу центру коробки, а вуса простягаються однаково в обидві сторони. Розподіл помаранчевих M&Ms асиметричний: половина зразків має 4—7 M&Ms (лише чотири можливі результати), а половина - 7—15 M&Ms (дев'ять можливих результатів), що дозволяє припустити, що розподіл нахилений у бік більшої кількості помаранчевих M&Ms (див. Розділ 5 для отримання додаткової інформації про розподіл зразків).
35.1.6На малюнку показані ділянки коробки та вусів для жовтих M&Ms, згруповані відповідно до магазину, де були придбані мішки M&Ms. Хоча ділянки коробки та вусів досить різні з точки зору відносних розмірів коробок та відносної довжини вусів, точкові ділянки припускають, що розподіл базових даних відносно аналогічний тим, що більшість мішків містять 12-18 жовтих M & Ms і лише кілька мішків відхиляються від ці межі. Ці спостереження обнадіюють, оскільки ми не очікуємо, що вибір магазину вплине на склад мішків M&Ms. якби ми побачили докази того, що вибір магазину вплинув на наші результати, то ми б більш уважно подивилися на самі сумки для доказів погано контрольованої змінної, наприклад типу (Чи були ми випадково придбати пакетики арахісового масла M&Ms з одного магазину?) або номер партії товару (Чи змінив виробник склад кольорів між партіями?).

Барні ділянки
Хоча точковий графік, смугова діаграма та графік коробки та вуса дають деякі якісні докази того, як розподіляються значення змінної - нам доведеться більше сказати про розподіл даних у розділі 5 - вони менш корисні, коли нам потрібна більш кількісна картина розподілу. Для цього ми можемо використовувати смуговий графік, який відображає кількість кожного дискретного результату. 35.1.7На малюнку показані штрихові графіки для помаранчевого та жовтого M&Ms, використовуючи дані в таблиці35.1.2.

Тут ми бачимо, що найпоширеніша кількість помаранчевих M & Ms на мішок становить чотири, що також є найменшою кількістю помаранчевих M & Ms на мішок, і що спостерігається загальне зменшення кількості мішків у міру збільшення кількості помаранчевих M & M на мішок. Для жовтих M & Ms найпоширеніша кількість M & Ms на мішок становить 16, що падає поблизу середини діапазону жовтих M & Ms.
Гістограми
Графік смуги є корисним способом подивитися на розподіл дискретних результатів, таких як кількість помаранчевих або жовтих M&Ms, але це не корисно для безперервних даних, де кожен результат унікальний. Гістограма, в якій ми показуємо кількість результатів, які потрапляють у послідовність однаково розташованих контейнерів, забезпечує вигляд, подібний до вигляду штрихового графіка, але який працює з безперервними даними. На малюнку35.1.8, наприклад, показана гістограма для чистих ваг 30 мішків M&Ms в табл35.1.2. Окремі значення відображаються вертикальними хеш-мітками внизу гістограми.

Узагальнення даних
В останньому розділі ми використовували дані, зібрані з 30 мішків M&Ms, для вивчення різних способів візуалізації даних. У цьому розділі ми розглянемо кілька способів узагальнення даних за допомогою ваги нетто тих самих мішків M&Ms. Ось необроблені дані.
49.287 | 48.870 | 51.250 | 48.692 | 48.777 | 46.405 |
49.693 | 49.391 | 48.196 | 47.326 | 50.974 | 50.081 |
47.841 | 48.377 | 47.004 | 50.037 | 48.599 | 48.625 |
48.395 | 51.730 | 50.405 | 47.305 | 49.477 | 48.027 |
48.212 | 51.682 | 50.802 | 49.055 | 46.577 | 48.317 |
Не виконуючи жодних розрахунків, які висновки ми можемо зробити, просто подивившись на ці дані? Ось кілька:
- Всі ваги нетто більше 46 г і менше 52 г.
- Як ми бачимо на малюнку35.1.9, графік коробки та вуса (накладені смужковою діаграмою) та гістограма припускають, що розподіл ваг нетто є досить симетричним.
- Відсутність будь-яких точок за вусами ділянки «коробочка і вуса» говорить про те, що незвично великих або незвично дрібних ваг нетто немає.

Обидві візуалізації забезпечують хорошу якісну картину даних, припускаючи, що окремі результати розкидані навколо якогось центрального значення з більшою кількістю результатів, ближче до того центрального значення, що на відстані від нього. Однак жодна візуалізація не описує дані кількісно. Нам потрібен зручний спосіб узагальнити дані, повідомляючи, де дані зосереджені та наскільки різноманітні індивідуальні результати навколо цього центру.
Де знаходиться Центр?
Існує два поширені способи звітування про центр набору даних: середній і медіанний.
Середнє,¯Y, - числове середнє, отримане шляхом складання результатів для всіх n спостережень і ділення на кількість спостережень
¯Y=∑ni=1Yin=49.287+48.870+⋯+48.31730=48.980 g
Медіана - це середнє значення після того˜Y, як ми замовляємо наші спостереження від найменшого до найбільшого, як ми показуємо тут для наших даних.
46.405 | 46.577 | 47.004 | 47.305 | 47.326 | 47.841 |
48.027 | 48.196 | 48.212 | 48.317 | 48.377 | 48.395 |
48.599 | 48.625 | 48.692 | 48.777 | 48.870 | 49.055 |
49.287 | 49.391 | 49.477 | 49.693 | 50.037 | 50.081 |
50.405 | 50.802 | 50.974 | 51.250 | 51.682 | 51.730 |
Якщо ми маємо непарну кількість зразків, то медіана - це просто середнє значення, або
˜Y=Yn+12
де n - кількість зразків. Якщо, як і тут, n парне, то
˜Y=Yn2+Yn2+12=48.692+48.7772=48.734 g
Коли наші дані мають симетричний розподіл, як ми вважаємо тут, то середнє і медіана матимуть подібні значення.
Що таке варіація даних про центр?
Існує п'ять загальних заходів варіації даних про його центр: дисперсія, стандартне відхилення, діапазон, інтерквартильний діапазон та середнє середнє значення різниці.
Дисперсія, s 2, являє собою середнє квадратне відхилення окремих спостережень щодо середнього
s2=∑ni=1(Yi−¯Y)2n−1=(49.287−48.980)2+⋯+(48.317−48.980)230−1=2.052
і стандартне відхилення, s, - квадратний корінь дисперсії, що дає йому ті ж одиниці, що і середнє.
s=√∑ni=1(Yi−¯Y)2n−1=√(49.287−48.980)2+⋯+(48.317−48.980)230−1=1.432
Діапазон w - це різниця між найбільшим і найменшим значенням в нашому наборі даних.
w=51.730 g−46.405 g=5.325 g
Інтерквартильний діапазон, IQR, - це різниця між медіаною нижніх 25% спостережень та медіаною верхніх 25% спостережень; тобто він забезпечує міру діапазону значень, що охоплює середні 50% спостережень. Єдиної, стандартної формули розрахунку IQR не існує, а різні алгоритми дають дещо інші результати. Ми візьмемо описаний тут алгоритм:
1. Розділіть відсортований набір даних навпіл; якщо є непарна кількість значень, то видаліть медіану для повного набору даних. За нашими даними нижня половина
46.405 | 46.577 | 47.004 | 47.305 | 47.326 |
47.841 | 48.027 | 48.196 | 48.212 | 48.317 |
48.377 | 48.395 | 48.599 | 48.625 | 48.692 |
а верхня половина
48.777 | 48.870 | 49.055 | 49.287 | 49.391 |
49.477 | 49.693 | 50.037 | 50.081 | 50.405 |
50.802 | 50.974 | 51.250 | 51.682 | 51.730 |
2. Знайдіть F L, медіану для нижньої половини даних, яка для наших даних становить 48,196 г.
3. Знайдіть F U, медіану для верхньої половини даних, яка для наших даних становить 50.037 г.
4. IQR - це різниця між F U і F L.
FU−FL=50.037 g−48.196 g=1.841 g
Медіана абсолютного відхилення, MAD, є медіаною абсолютних відхилень кожного спостереження від медіани всіх спостережень. Щоб знайти MAD для нашого набору 30 нетто ваг, спочатку віднімаємо медіану з кожного зразка в табл35.1.3.
0,5525 | 0,135 | 2.5155 | -0.0425 | 0.0425 | -2.3295 |
0,9585 | 0,6565 | -0.5385 | -1.4085 | 2.2395 | 1,3465 |
-0.8935 | -0.3575 | -1.7305 | 1,3025 | -0.1355 | -0.1095 |
-0.3395 | 2.955 | 1.6705 | -1.4295 | 0,7425 | -0.7075 |
-0.5225 | 2.9475 | 2.0675 | 0,3205 | -2.1575 | -0.4175 |
Далі беремо абсолютне значення кожної різниці і сортуємо їх від найменшого до великого.
0.0425 | 0.0425 | 0,1095 | 0,135 | 0,135 | 0,3205 |
0,3395 | 0,3575 | 0,4175 | 0,5225 | 0,5385 | 0,5525 |
0,6565 | 0,7075 | 0,7425 | 0.8935 | 0,9585 | 1,3025 |
1,3465 | 1,4085 | 1.4295 | 1.6705 | 1.7305 | 2.0675 |
2.1575 | 2.2395 | 2.3295 | 2.5155 | 2.9475 | 2.955 |
Нарешті, ми повідомляємо медіану для цих відсортованих значень як
0.7425+0.89352=0.818
Робіцні проти неробастних заходів центру та варіації про центр
Хороше запитання полягає в тому, чому ми можемо захотіти більше одного способу повідомити про центр наших даних та зміну наших даних про центр. Припустимо, що результат для останнього з наших 30 зразків був повідомлений як 483.17 замість 48,317. Незалежно від того, чи це випадкове зміщення десяткової крапки чи справжній результат, не має значення для нас тут; важливо його вплив на те, що ми повідомляємо. Ось короткий виклад впливу цього одного значення на кожен з наших способів узагальнення наших даних.
статистичні | оригінальні дані | нові дані |
---|---|---|
маю на увазі | 48.980 | 63.475 |
медіана | 48.734 | 48.824 |
дисперсія | 2.052 | 6285.938 |
стандартне відхилення | 1.433 | 79.280 |
діапазон | 5.325 | 436.765 |
IQR | 1.841 | 1,885 |
БОЖЕВІЛЬНИЙ | 0,818 | 0.926 |
Зверніть увагу, що середнє значення, дисперсія, стандартне відхилення та діапазон дуже чутливі до зміни останнього результату, але медіана, IQR та MAD - ні. Медіана, IQR та MAD вважаються надійною статистикою, оскільки вони менш чутливі до незвичайного результату; інші, звичайно, не надійні статистичні дані. Обидва типи статистики мають для нас цінність, до якої ми будемо повертатися час від часу.
Розподіл даних
Коли ми вимірюємо щось, наприклад відсоток жовтих M & Ms у мішку M&Ms, ми очікуємо двох речей:
- що існує основне «справжнє» значення, яке наші вимірювання повинні наблизити, і
- що результати індивідуальних вимірювань показуватимуть деяку зміну щодо цього «істинного» значення
Візуалізації даних, таких як точкові графіки, смугові діаграми, графіки коробки та вусів, гістограми, гістограми та розсіювачі, часто свідчать про наявність базової структури для наших даних. Наприклад, ми бачили, що розподіл жовтих M & Ms у мішках M & Ms більш-менш симетричний навколо його медіани, тоді як розподіл помаранчевих M & Ms був перекошений у бік більш високих значень. Ця основна структура або розподіл наших даних, оскільки вона впливає на те, як ми вирішимо аналізувати наші дані. У цьому розділі ми докладніше розглянемо кілька способів поширення даних.
Термінологія
Перш ніж розглядати різні типи дистрибутивів, давайте визначимося з деякими ключовими термінами. Ви також можете переглянути обговорення різних типів даних у розділі 2.
Популяції та зразки
Сукупність включає всі можливі вимірювання, які ми могли б зробити в системі, тоді як вибірка - це підмножина населення, на якій ми насправді проводимо вимірювання. Ці визначення є рідинними. Один мішок M&Ms - це населення, якщо нас цікавить лише ця конкретна сумка, але це лише один зразок з коробки, який містить брутто (144) окремих мішків. Ця коробка сама по собі може бути населенням, або це може бути один зразок з набагато більшої виробничої партії. І так далі.
Дискретні розподіли та безперервні розподіли
При дискретному розподілі можливі результати набувають обмеженого набору конкретних значень, які не залежать від того, як ми робимо наші вимірювання. Коли ми визначаємо кількість жовтих M & Ms в мішку, результати обмежуються цілими значеннями. Ми можемо знайти 13 жовтих M & Ms або 24 жовтих M & Ms, але ми не можемо отримати результат 15,43 жовтих M & Ms.
Для безперервного розподілу результат вимірювання може приймати будь-яке можливе значення між нижньою та верхньою межею, навіть якщо наш вимірювальний прилад має обмежену точність; таким чином, коли ми зважуємо мішок M&Ms на тризначному балансі і отримуємо результат 49,287 г, ми знаємо, що його справжня маса більше 49,2865... г і менше 49,2875... г.
Теоретичні моделі розподілу даних
Існує чотири важливі типи розподілів, які ми розглянемо в цьому розділі: рівномірний розподіл, біноміальний розподіл, розподіл Пуассона та нормальний, або Гауссоновий, розподіл. У попередніх розділах ми використовували аналіз мішків M&Ms для вивчення способів візуалізації даних та узагальнення даних. Тут ми будемо використовувати той самий набір даних для вивчення розподілу даних.
Рівномірний розподіл
При рівномірному розподілі всі результати однаково вірогідні. Припустимо, населення M&Ms має рівномірний розподіл. Якщо це так, то з шістьма кольорами ми очікуємо, що кожен колір з'явиться з ймовірністю 1/6 або 16,7%. 35.1.10На малюнку показано порівняння теоретичних результатів, якщо ми намалюємо 1699 M&Ms - загальна кількість M & Ms у нашій вибірці з 30 мішків - від популяції з рівномірним розподілом (зліва) до фактичного розподілу 1699 M&Ms у нашому зразку (праворуч). Здається малоймовірним, що населення M&Ms має рівномірний розподіл кольорів!

Біноміальний розподіл
Біноміальний розподіл показує ймовірність отримання певного результату у фіксованій кількості випробувань, де відомі шанси того результату, що відбувається в одному дослідженні. Математично біноміальний розподіл визначається рівнянням
P(X,N)=N!X!(N−X)!×pX×(1−p)N−X
де P (X, N) - ймовірність того, що подія відбудеться X разів у N випробуваннях, а де p - ймовірність того, що подія відбудеться в одному дослідженні. Біноміальний розподіл має теоретичне середнєμ, і теоретичнуσ2 дисперсію,
μ=Npσ2=Np(1−p)
Рисунок35.1.11 порівнює очікуваний біноміальний розподіл для малювання 0, 1, 2, 3, 4 або 5 жовтих M & Ms у перших п'яти M&MS - припускаючи, що ймовірність нанесення жовтого M & M становить 435/1699, співвідношення кількості жовтих M & Ms та загальної кількості M & MS - до фактичного розподілу результати. Подібність між теоретичними та фактичними результатами здається очевидною; в наступному розділі ми розглянемо способи перевірки цього твердження.

Розподіл Пуассона
Біноміальний розподіл корисний, якщо ми хочемо змоделювати ймовірність знаходження фіксованої кількості жовтих M & Ms у вибірці M & Ms фіксованого розміру - таких як перші п'ять M & Ms, які ми витягуємо з мішка, але не ймовірність знайти фіксовану кількість жовтих M & Ms в одній сумці, оскільки є деяка мінливість у загальній кількості M & Ms на мішок.
Розподіл Пуассона дає ймовірність того, що задана кількість подій відбудеться за фіксований проміжок часу або простору, якщо подія має відомий середній показник і якщо кожна нова подія не залежить від попередньої події. Математично розподіл Пуассона визначається рівнянням
P(X,λ)=e−λλXX!
деP(X,λ) - ймовірність того, що подія трапиться X разів, враховуючи середню швидкість події,λ. Розподіл Пуассона маєμ теоретичне середнє значення та теоретичну дисперсіюσ2, які кожен дорівнюєλ.
Графік бару на малюнку35.1.12 показує фактичний розподіл зелених M & Ms у 35 маленьких мішках M&Ms (як повідомляє М.А. Сю-Фрідман «Ілюстрація концепцій квантового аналізу з інтуїтивною моделлю класу», адв. Physiol. Едук. 2013, 37, 112—116). На смугу накладається теоретичний розподіл Пуассона, заснований на їх повідомленій середній швидкості 3.4 зелених M & Ms за мішок. Подібність між теоретичними та фактичними результатами здається очевидною; у розділі 6 ми розглянемо способи перевірки цього твердження.

Нормальний розподіл
Рівномірний розподіл, біноміальний розподіл та розподіл Пуассона прогнозують ймовірність дискретної події, такої як ймовірність знаходження рівно двох зелених M&Ms у наступному мішку M&Ms, який ми відкриваємо. Не всі дані, які ми збираємо, є дискретними. Вага нетто мішків M&Ms є прикладом безперервних даних, оскільки маса окремого мішка не обмежується дискретним набором дозволених значень. У багатьох випадках ми можемо моделювати неперервні дані за допомогою нормального (або гаусового) розподілу, що дає ймовірність отримання певного результату, P (x), від популяції з відомим середнім значенням та відомою дисперсієюσ2.μ Математично нормальний розподіл визначається рівнянням
P(x)=1√2πσ2e−(x−μ)2/(2σ2)
35.1.13На малюнку показано очікуваний нормальний розподіл ваги нетто нашої вибірки з 30 мішків M & Ms, якщо припустити¯X, що їх середнє значення 48,98 г і стандартне відхилення, с, 1.433 г є хорошими предикторами середнього показника популяції та стандартного відхилення,μ σ. Враховуючи невеликий зразок із 30 мішків, угода між моделлю та даними здається розумною.

Центральна гранична теорема
Припустимо, у нас є популяція, для якої одна з її властивостей має рівномірний розподіл, де кожен результат між 0 і 1 однаково вірогідний. Якщо ми проаналізуємо 10 000 зразків, ми не повинні дивуватися, виявивши, що розподіл цих 10000 результатів виглядає рівномірним, як показано гістограмою в лівій частині малюнка35.1.14. Якщо ми збираємо 1000 об'єднаних зразків, кожен з яких складається з 10 окремих зразків для загальної кількості 10 000 окремих зразків - і повідомити про середні результати для цих 1000 об'єднаних зразків, ми побачимо щось цікаве, оскільки їх розподіл, як показано на гістограмі праворуч, виглядає чудово як нормальний дистрибутив. Коли ми малюємо окремі зразки з рівномірного розподілу, кожен можливий результат однаково вірогідний, тому ми бачимо розподіл ліворуч. Однак, коли ми малюємо об'єднаний зразок, який складається з 10 окремих зразків, середні значення, швидше за все, знаходяться поблизу середини діапазону розподілу, як ми бачимо праворуч, оскільки об'єднана вибірка, ймовірно, включає значення, отримані як з нижньої половини, так і з верхньої половини рівномірного розподілу. .

Ця тенденція до нормального розподілу виникає, коли ми об'єднуємо зразки, відома як центральна гранична теорема. Як показано на малюнку35.1.15, ми бачимо подібний ефект з популяціями, які слідують за біноміальним розподілом або розподілом Пуассона.

Ви можете розумно запитати, чи важлива центральна гранична теорема, оскільки навряд чи ми виконаємо 1000 аналізів, кожен з яких є середнім показником 10 індивідуальних випробувань. Це обманює. Коли ми купуємо зразок грунту, наприклад, він складається з безлічі окремих частинок, кожна з яких є індивідуальним зразком грунту. Отже, наш аналіз цього зразка є середнім значенням для великої кількості окремих частинок ґрунту. Через це актуальна центральна гранична теорема.
Невизначеність даних
В останньому розділі ми розглянули чотири способи розподілу окремих зразків, які ми збираємо та аналізуємо, щодо центрального значення: рівномірний розподіл, біноміальний розподіл, розподіл Пуассона та нормальний розподіл. Ми також дізналися, що незалежно від того, як розподіляються окремі вибірки, розподіл середніх для декількох вибірок часто слідує нормальному розподілу. Ця тенденція до нормального розподілу виникає, коли ми повідомляємо середні значення для декількох зразків, відома як центральна гранична теорема. У цьому розділі ми більш уважно розглянемо нормальний розподіл - вивчаючи деякі його властивості, і розглянемо, як ми можемо використовувати ці властивості, щоб сказати щось більш значуще про наші дані, ніж просто повідомляти про середнє і стандартне відхилення.
Властивості нормального розподілу
Математично нормальний розподіл визначається рівнянням
P(x)=1√2πσ2e−(x−μ)2/(2σ2)
деP(x) - ймовірність отримання результатуx, від популяції з відомим середнім значеннямμ, і відомим стандартним відхиленням,σ. 35.1.16На малюнку показані нормальні криві розподілу дляμ=0 стандартних відхилень 5, 10 і 20.

Оскільки рівняння для нормального розподілу залежить виключно від середнього значення популяції та її стандартного відхилення, ймовірність тогоσ, що вибірка, отримана з популяції, має значення між будь-якими двома довільними межами, однакова для всіх популяцій.μ Наприклад, малюнок35.1.17 показує, що 68,26% всіх зразків, взятих із нормально розподіленої сукупності, мають значення в межах діапазонуμ±1σ, і лише 0,14% мають значення більшеμ+3σ.

Ця особливість нормального розподілу - що площа під кривою однакова для всіх значеньσ —дозволяє нам створити таблицю ймовірностей (див. Додаток 2) на основі відносного відхилення між межею, x та середнім значенням,μ.z
z=x−μσ
Значенняz дає площу під кривою між цією межею та найближчим хвостом розподілу, як показано на малюнку35.1.18.

Припустимо, ми знаємо, щоμ це 5.5833 ppb Pb іσ це 0.0558 ppb Pb для конкретного стандартного довідкового матеріалу (SRM). Яка ймовірність того, що ми отримаємо результат, який перевищує 5.650 ppb, якщо проаналізувати одну випадкову вибірку, взяту з SRM?
Рішення
35.1.19На малюнку показана нормальна крива розподілу, задані значення 5,5833 ppb Pb дляμ і 0,0558 ppb Pbσ. Затінена область на малюнках - це ймовірність отримання зразка з концентрацією Pb більше 5,650 проміле. Для визначення ймовірності спочатку обчислюємоz
z=x−μσ=5.650−5.58330.0558=1.195
Далі ми шукаємо ймовірність в Додатку 2 для цього значенняz, яке є середнім значенням 0.1170 (forz=1.19) і 0.1151 (дляz=1.20), або ймовірність 0.1160; таким чином, ми очікуємо, що 11,60% зразків нададуть результат більше 5.650 ppb.

У прикладі35.1.1 розглядається одна межа — ймовірність того, що результат перевищує одне значення. Але що робити, якщо ми хочемо визначити ймовірність того, що зразок має між 5,580 г Pb і 5.625 г Pb?
Рішення
В даному випадку нас цікавить затінена область, показана на малюнку35.1.20. Спочатку розраховуємоz для верхньої межі
z=5.625−5.58330.0558=0.747
а потім розраховуємоz для нижньої межі
z=5.580−5.58330.0558=−0.059
Потім ми шукаємо ймовірність у Додатку 2, що результат перевищить нашу верхню межу 5.625, що становить 0.2275, або 22,75%, і ймовірність того, що результат буде меншим за нашу нижню межу 5.580, що становить 0.4765, або 47,65%. Загальна незаштрихована площа становить 71,4% від загальної площі, тому затінена область відповідає ймовірності
100.00−22.75−47.65=100.00−71.40=29.6%

Довірчі інтервали
У попередньому розділі ми навчилися прогнозувати ймовірність отримання того чи іншого результату, якщо наші дані нормально розподіляються з відомимμ і відомимσ. Наприклад, ми підрахували, що 11,60% зразків, взятих випадковим чином із стандартного еталонного матеріалу, матимуть концентрацію Pb більше 5,650 ppb, враховуючи 5,5833 ppb та aσ 0,0558 ppb.μ По суті, ми визначили, від якої кількості стандартних відхилень становить 5,650,μ і використали це для визначення ймовірності заданої стандартної площі при нормальній кривій розподілу.
Ми можемо поглянути на це по-іншому, задаючи наступне питання: Якщо ми збираємо одну вибірку навмання з популяції з відомимμ і відомимσ, в якому діапазоні значень ми можемо обґрунтовано очікувати, щоб знайти результат вибірки 95% часу? Перестановка рівняння
z=x−μσ
і рішення дляx дарує
x=μ±zσ=5.5833±(1.96)(0.0558)=5.5833±0.1094
де az 1,96 відповідає 95% площі під кривою; ми називаємо це 95% довірчим інтервалом для однієї вибірки.
Як правило, погано робити висновок з результату одного експерименту; натомість ми зазвичай збираємо кілька зразків і задаємо питання таким чином: якщо ми збираємоn випадкові зразки з популяції з відомимμ і відомимσ, в якому діапазоні значень ми могли б розумно розраховувати знайти середнє значення цих зразків 95% часу?
Ми можемо обґрунтовано очікувати, що стандартне відхилення для середнього значення декількох зразків менше, ніж стандартне відхилення для набору окремих зразків; насправді це так, і воно дається як
σˉx=σ√n
деσ√n називається стандартною похибкою середнього. Наприклад, якщо ми зберемо три зразки зі стандартного довідкового матеріалу, описаного вище, то ми очікуємо, що середнє значення для цих трьох зразків буде потрапляти в діапазон
ˉx=μ±zσˉX=μ±zσ√n=5.5833±(1.96)(0.0558)√3=5.5833±0.0631
тобто±0.0631 ppb навколоμ, діапазон, який менший, ніж у±0.1094 ppb, коли ми аналізуємо окремі зразки. Зверніть увагу, що відносне значення для нас збільшення розміру вибірки зменшується зіn збільшенням через квадратний кореневий термін, як показано на малюнку35.1.21.

Наше лікування поки що передбачає, що ми знаємоμ іσ для материнського населення, але ми рідко знаємо ці значення; натомість ми вивчаємо зразки, взяті з батьківської популяції,ˉx і задаємо наступне питання: Враховуючи середнє значення вибірки та її стандартне відхиленняs, що таке наше найкраща оцінка середнього чисельності населенняμ, і його стандартного відхилення,σ.
Щоб зробити цю оцінку, ми замінюємо стандартне відхилення населенняσ, на стандартне відхиленняs, для наших зразків, замінюємо середнє значення популяціїμ, на середнєˉx, для наших зразківt,z замінюємо на, де значенняt залежить від кількість зразків,n
ˉx=μ±ts√n
а потім переставити рівняння для вирішенняμ.
μ=ˉx±ts√n
Ми називаємо це довірчим інтервалом. Значення дляt доступні в таблицях (див. Додаток 3) і залежать від рівня ймовірностіα, де(1−α)×100 рівень довіри, і ступеня свободиn−1; зверніть увагу, що для будь-якого рівня ймовірності,t⟶z якn⟶∞.
Потрібно приділити особливу увагу тому, що означає цей довірчий інтервал і що він не означає:
- Це не означає, що існує 95% ймовірність того, що середнє значення населення знаходиться в діапазоні,μ=ˉx±ts оскільки наші вимірювання можуть бути упередженими або нормальний розподіл може бути неприйнятним для нашої системи.
- Це забезпечує нашу найкращу оцінку середнього рівня популяції,μ враховуючи наш аналізn зразків, взятих випадковим чином з материнської популяції; однак інша вибірка дасть інший довірчий інтервал і, отже, іншу оцінку дляμ.
Тестування значущості даних
Довірчий інтервал є корисним способом повідомити про результат аналізу, оскільки він встановлює обмеження на очікуваний результат. За відсутності детермінантної похибки або зміщення довірчий інтервал, заснований на середньому вибірці, вказує діапазон значень, в якому ми очікуємо знайти середнє значення популяції. Коли ми повідомляємо 95% довірчий інтервал для маси копійки як 3,117 г ± 0,047 г, наприклад, ми заявляємо, що існує лише 5% ймовірність того, що очікувана маса копійки менше 3,070 г або більше 3,164 г.
Оскільки довірчий інтервал - це твердження ймовірності, він дозволяє нам розглянути порівняльні питання, такі як:
«Чи значно відрізняються результати для недавно розробленого методу визначення холестерину в крові від отриманих стандартним методом?»
«Чи є значні зміни в складі дощової води, зібраної на різних ділянках за вітром від вугільної комунальної установки?»
У цьому розділі ми представляємо загальний підхід, який використовує експериментальні дані для задавання та відповіді на такі питання, підхід, який ми називаємо тестуванням значущості.
Надійність тестування значущості останнім часом приділяла велику увагу - див. Nuzzo, R. «Науковий метод: статистичні помилки», Nature, 2014, 506, 150-152 для загального обговорення питань - тому доцільно розпочати цю главу з відзначаючи необхідність забезпечення того, щоб наші дані та наше дослідження питання сумісні, так що ми не читаємо більше статистичного аналізу, ніж наші дані дозволяють; див. Leek, J. T; Peng, RD «Що таке питання? Наука, 2015, 347, 1314-1315 для корисного обговорення шести загальних дослідницьких питань.
У контексті аналітичної хімії тестування значущості часто супроводжує розвідувальний аналіз даних
«Чи є підстави підозрювати, що існує різниця між цими двома аналітичними методами при застосуванні до загальної вибірки?»
або аналіз інференційних даних.
«Чи є підстави підозрювати, що між цими двома незалежними вимірами існує взаємозв'язок?»
Статистично значущий результат для цих типів питань аналітичного дослідження, як правило, призводить до розробки додаткових експериментів, які краще підходять для прогнозування або пояснення основної причинно-наслідкової зв'язку. Тест на значущість - це перший крок до побудови більшого розуміння аналітичної проблеми, а не остаточної відповіді на цю проблему!
Тестування значущості
Розглянемо наступну проблему. Щоб визначити, чи ефективний препарат для зниження концентрації глюкози в крові, ми збираємо два набори зразків крові у пацієнта. Ми збираємо один набір зразків безпосередньо перед введенням ліків, а другий набір зразків збираємо через кілька годин. Після того, як ми проаналізуємо зразки, ми повідомляємо про їх відповідні засоби та відхилення. Як ми вирішуємо, чи успішно препарат знижував концентрацію глюкози в крові у пацієнта?
Одним із способів відповісти на це питання є побудова нормальної кривої розподілу для кожного зразка та порівняння двох кривих між собою. Три можливих результату показані на малюнку35.1.22. На малюнку35.1.22a є повне поділ двох нормальних кривих розподілу, що говорить про те, що два зразки значно відрізняються один від одного. На малюнку35.1.22b нормальні криві розподілу для двох зразків майже повністю перекривають один одного, що говорить про те, що різниця між зразками незначна. Малюнок35.1.22c, однак, ставить перед нами дилему. Хоча засоби для двох зразків здаються різними, перекриття їх нормальних кривих розподілу свідчить про те, що значна кількість можливих результатів може належати до будь-якого розподілу. У цьому випадку найкраще, що ми можемо зробити, - це зробити заяву про ймовірність того, що зразки значно відрізняються один від одного.

Процес, за допомогою якого ми визначаємо ймовірність того, що між двома зразками існує значна різниця, називається тестуванням значущості або тестуванням гіпотез. Перш ніж обговорити конкретні приклади, давайте спочатку встановимо загальний підхід до проведення та інтерпретації тесту на значущість.
Побудова тесту на значущість
Мета тесту на значущість - визначити, чи є різниця між двома або більше результатами достатньо великою, щоб нам було зручно заявити, що різниця не може бути пояснена невизначеними помилками. Першим кроком у побудові тесту на значущість є констатація проблеми як питання так чи ні, наприклад
«Чи ефективний цей препарат для зниження рівня глюкози в крові пацієнта?»
Нульова гіпотеза та альтернативна гіпотеза визначають дві можливі відповіді на наше запитання «так» чи «ні». Нульова гіпотеза, H 0, полягає в тому, що невизначені помилки достатні для пояснення будь-яких відмінностей між нашими результатами. Альтернативна гіпотеза H A полягає в тому, що відмінності в наших результатах занадто великі, щоб пояснюватися випадковою помилкою, і що вони повинні мати визначальний характер. Ми перевіряємо нульову гіпотезу, яку ми або зберігаємо, або відхиляємо. Якщо відкинути нульову гіпотезу, то треба прийняти альтернативну гіпотезу і зробити висновок, що різниця істотна.
Нездатність відхилити нульову гіпотезу - це не те саме, що прийняти її. Ми зберігаємо нульову гіпотезу, оскільки у нас недостатньо доказів, щоб довести її неправильну. Неможливо довести, що нульова гіпотеза вірна. Це важливий момент і той, який легко забути. Щоб оцінити цей момент, давайте використаємо ці дані для маси 100 циркулюючих копійок США.
Пенні | Вага (г) | Пенні | Вага (г) | Пенні | Вага (г) | Пенні | Вага (г) |
---|---|---|---|---|---|---|---|
1 | 3.126 | 26 | 3.073 | 51 | 3.101 | 76 | 3.086 |
2 | 3.140 | 27 | 3.084 | 52 | 3.049 | 77 | 3.123 |
3 | 3.092 | 28 | 3.148 | 53 | 3.082 | 78 | 3.15 |
4 | 3.095 | 29 | 3.047 | 54 | 3.142 | 79 | 3.055 |
5 | 3.080 | 30 | 3.121 | 55 | 3.082 | 80 | 3.057 |
6 | 3.065 | 31 | 3.116 | 56 | 3.066 | 81 | 3.097 |
7 | 3.117 | 32 | 3.005 | 57 | 3.128 | 82 | 3.066 |
8 | 3.034 | 33 | 3.15 | 58 | 3.112 | 83 | 3.113 |
9 | 3.126 | 34 | 3.103 | 59 | 3.085 | 84 | 3.102 |
10 | 3.057 | 35 | 3.086 | 60 | 3.086 | 85 | 3.033 |
11 | 3.053 | 36 | 3.103 | 61 | 3.084 | 86 | 3.112 |
12 | 3.099 | 37 | 3.049 | 62 | 3.104 | 87 | 3.103 |
13 | 3.065 | 38 | 2.998 | 63 | 3.107 | 88 | 3.198 |
14 | 3.059 | 39 | 3.063 | 64 | 3.093 | 89 | 3.103 |
15 | 3.068 | 40 | 3.055 | 65 | 3.126 | 90 | 3.126 |
16 | 3.060 | 41 | 3.181 | 66 | 3.138 | 91 | 3.111 |
17 | 3.078 | 42 | 3.108 | 67 | 3.131 | 92 | 3.126 |
18 | 3.125 | 43 | 3.114 | 68 | 3.120 | 93 | 3.052 |
19 | 3.090 | 44 | 3.121 | 69 | 3.100 | 94 | 3.113 |
20 | 3.100 | 45 | 3.105 | 70 | 3.099 | 95 | 3.085 |
21 | 3.055 | 46 | 3.078 | 71 | 3.097 | 96 | 3.117 |
22 | 3.105 | 47 | 3.147 | 72 | 3.091 | 97 | 3.142 |
23 | 3.063 | 48 | 3.104 | 73 | 3.077 | 98 | 3.031 |
24 | 3.083 | 49 | 3.146 | 74 | 3.178 | 99 | 3.083 |
25 | 3.065 | 50 | 3.095 | 75 | 3.054 | 100 | 3.104 |
Подивившись на дані, ми можемо запропонувати наступні нульові та альтернативні гіпотези.
H 0: Маса циркулюючого американського пенні становить від 2.900 г до 3.200 г
H A: Маса циркулюючої американської копійки може бути менше 2.900 г або більше 3.200 г
Для перевірки нульової гіпотези знаходимо копійку і визначаємо її масу. Якщо маса копійки дорівнює 2,512 г, то можна відкинути нульову гіпотезу і прийняти альтернативну гіпотезу. Припустимо, що маса копійки дорівнює 3.162 м Хоча цей результат підвищує нашу впевненість у нульовій гіпотезі, він не доводить, що нульова гіпотеза правильна, оскільки наступна копійка, яку ми вибірку, може важити менше 2.900 г або більше 3.200 г.
Після того, як ми викладемо null та альтернативні гіпотези, другим кроком є вибір рівня довіри для аналізу. Рівень довіри визначає ймовірність того, що ми неправильно відкинемо нульову гіпотезу, коли вона, по суті, істинна. Ми можемо висловити це як нашу впевненість у тому, що ми правильні у відкиданні нульової гіпотези (наприклад, 95%), або як ймовірність того, що ми неправильні у відхиленні нульової гіпотези. Для останніх рівень довіри дається якα, де
α=1−confidence interval (%)100
Для 95% рівня довіри,α це 0,05.
Третій крок - розрахувати відповідну статистику тесту і порівняти її з критичним значенням. Критичне значення тестової статистики визначає точку розриву між значеннями, які призводять нас до відхилення або збереження нульової гіпотези, яка є четвертим і останнім кроком тесту на значущість. Як ми побачимо в наступних розділах, як ми обчислюємо статистику тесту, залежить від того, що ми порівнюємо.
Чотири кроки для статистичного аналізу даних за допомогою тесту на значущість:
- Поставте питання і викласти нульову гіпотезу, H 0, і альтернативну гіпотезу, H A.
- Виберіть рівень довіри для статистичного аналізу.
- Розрахуйте відповідну статистику тесту і порівняйте її з критичним значенням.
- Або збережіть нульову гіпотезу, або відкиньте її і прийміть альтернативну гіпотезу.
Однохвостий і двохвіст значущості тести
Припустимо, ми хочемо оцінити точність нового аналітичного методу. Ми можемо використовувати цей метод для аналізу стандартного довідкового матеріалу, який містить відому концентрацію аналіту,μ. Ми аналізуємо стандарт кілька разів, отримуючи середнє значення¯X, для концентрації аналіта. Наша нульова гіпотеза полягає в тому, що немає різниці між¯X іμ
H0: ¯X=μ
Якщо ми проводимо тест на значущістьα=0.05, то ми зберігаємо нульову гіпотезу, якщо 95% довіри інтервал навколо¯X міститьμ. Якщо альтернативна гіпотеза
HA: ¯X≠μ
то відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу, якщоμ лежить в затінених областях в будь-якому кінці кривої розподілу ймовірності вибірки (рис.35.1.23a). На кожну з затінених областей припадає 2,5% площі під кривою розподілу ймовірностей, загалом 5%. Це двоххвостий тест на значущість, оскільки ми відхиляємо нульову гіпотезу для значеньμ на будь-якому екстремальному рівні кривої розподілу ймовірності вибірки.

Ми можемо написати альтернативну гіпотезу двома додатковими способами
HA: ¯X>μ
HA: ¯X<μ
відхилення нульової гіпотези, якщоμ потрапляє в затінені області35.1.23c, показані на малюнку35.1.23b або малюнку відповідно. У кожному випадку затінена область становить 5% площі під кривою розподілу ймовірностей. Це приклади однохвостого тесту на значущість.
Для фіксованого рівня довіри тест на значення з двома хвостами є більш консервативним тестом, оскільки відкидання нульової гіпотези вимагає більшої різниці між результатами, які ми порівнюємо. У більшості ситуацій у нас немає особливих підстав очікувати, що один результат повинен бути більшим (або повинен бути меншим), ніж інший результат. Так відбувається, наприклад, коли ми оцінюємо точність нового аналітичного методу. Отже, двоххвостий тест на значущість, як правило, є відповідним вибором.
Ми залишаємо однохвостий тест на значущість для ситуації, коли ми конкретно зацікавлені в тому, чи один результат більший (або менший), ніж інший результат. Наприклад, однохвостий тест на значущість підходить, якщо ми оцінюємо здатність ліків знижувати рівень глюкози в крові. У цьому випадку нас цікавить лише те, чи рівень глюкози після введення препарату менше рівня глюкози до початку лікування. Якщо рівень глюкози в крові пацієнта більший після введення ліків, то ми знаємо відповідь - ліки не працювали - і нам не потрібно проводити статистичний аналіз.
Помилки при перевірці значущості
Оскільки тест на значущість спирається на ймовірність, його інтерпретація піддається помилці. У тесті на значущістьα визначає ймовірність відхилення нульової гіпотези, яка є істинною. Коли ми проводимо тест на значущістьα=0.05, існує 5% ймовірність того, що ми неправильно відхилимо нульову гіпотезу. Це відомо як помилка типу 1, і її ризик завжди еквівалентнийα. Помилка типу 1 у двоххвостому або однохвостому тестах на значущість відповідає затіненим ділянкам під кривими розподілу ймовірностей на малюнку35.1.23.
Другий тип помилки виникає, коли ми зберігаємо нульову гіпотезу, навіть якщо вона помилкова. Це помилка 2 типу, і ймовірність її виникнення єβ. На жаль, в більшості випадків ми не можемо обчислити або оцінити значення дляβ. Імовірність помилки типу 2, однак, обернено пропорційна ймовірності помилки типу 1.
Мінімізація помилки типу 1 за рахунок зменшенняα збільшує ймовірність помилки типу 2. Коли ми вибираємо значення дляα ми повинні йти на компроміс між цими двома типами помилок. Більшість прикладів у цьому тексті використовують 95% рівня довіри (α=0.05), оскільки це зазвичай розумний компроміс між помилками типу 1 та 2 для аналітичної роботи. Однак незвично використовувати більш жорсткий (наприкладα=0.01) або більш м'який (наприкладα=0.10) рівень довіри, коли ситуація цього вимагає.
Тести значущості для нормальних розподілів
Звичайний розподіл - це найпоширеніший розподіл даних, які ми збираємо. Оскільки площа між будь-якими двома межами нормальної кривої розподілу чітко визначена, легко побудувати та оцінити тести на значущість.
Порівняння¯X зμ
Одним із способів перевірки нового аналітичного методу є аналіз зразка, який містить відому кількість аналіту,μ. Щоб судити про точність методу, ми аналізуємо кілька частин зразка, визначаємо середню кількість аналіту у зразку та використовуємо тест на значущість¯X для порівнянняμ.¯X Нульова гіпотеза полягає в тому, що різниця між¯X іμ пояснюється невизначеними помилками, які впливають на наше визначення¯X. Альтернативна гіпотеза полягає в тому, що різниця між¯X іμ занадто велика, щоб пояснюватися невизначеною помилкою.
H0: ¯X=μ
HA: ¯X≠μ
Тестова статистика - t exp, яку ми підставляємо в довірчий інтервал дляμ
μ=¯X±texps√n
Перевпорядкування цього рівняння і рішення дляtexp
texp=|μ−¯X|√ns
дає значення,texp колиμ знаходиться на правому краю або на лівому краї довірчого інтервалу зразка (рис.35.1.24a).

Щоб визначити, чи слід зберігати або відхиляти нульову гіпотезу, ми порівняємо значення t exp з критичним значеннямt(α,ν), деα рівень довіри таν ступені свободи для вибірки. Критичне значенняt(α,ν) визначає найбільший довірчий інтервал, пояснений невизначеною помилкою. Якщоtexp>t(α,ν), то довірчий інтервал нашої вибірки більше, ніж той, що пояснюється невизначеними помилками (рис.35.1.24 b). У цьому випадку ми відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу. Якщоtexp≤t(α,ν), то довірчий інтервал нашої вибірки менше, ніж пояснюється невизначеною помилкою, і ми зберігаємо нульову гіпотезу (рис.35.1.24 С). Приклад35.1.24 дає типове застосування цього тесту значущості, який відомий як t -тест¯X toμ. Значення для ви знайдетеt(α,ν) в Додатку 3.
Перш ніж визначити кількість Na 2 CO 3 в зразку, ви вирішили перевірити свою процедуру, проаналізувавши стандартний зразок, який становить 98,76% w/w Na 2 CO 3. П'ять реплікацій визначення% w/w Na 2 CO 3 в стандарті дають наступні результати
98.71%98.59%98.62%98.44%98.58%
Використовуючиα=0.05, чи є якісь докази того, що аналіз дає неточні результати?
Рішення
Середнє і стандартне відхилення для п'яти випробувань
¯X=98.59s=0.0973
Оскільки немає підстав вважати, що результати для стандарту повинні бути більшими або меншимиμ, ніж, доречний двохвіст t -тест. Нульова гіпотеза та альтернативна гіпотеза
H0: ¯X=μHA: ¯X≠μ
Тестова статистика, t exp, є
texp=|μ−¯X|√n2=|98.76−98.59|√50.0973=3.91
Критичне значення для t (0,05, 4) з додатка 3 - 2,78. Оскільки t exp більше t (0,05, 4), відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу. На рівні довіри 95% різниця між¯X іμ є занадто великою, щоб пояснюватися невизначені джерела помилки, що говорить про наявність визначеного джерела помилки, що впливає на аналіз.
Є ще один спосіб інтерпретації результату цього t -тесту. Знаючи, що t exp дорівнює 3,91 і що існує 4 ступені свободи, ми використовуємо Додаток 3, щоб оцінити значення,α яке відповідає t (α, 4) з 3.91. З додатка 3, т (0,02, 4) дорівнює 3,75, а т (0,01, 4) дорівнює 4,60. Хоча ми можемо відхилити нульову гіпотезу на рівні довіри 98%, ми не можемо відхилити її на рівні довіри 99%. Для обговорення переваг цього підходу див. Дж. С. Стерн і Г.Д. Сміт «Просіювання доказів - що не так з тестами значущості?» БМЖ 2001, 322, 226—231.
Раніше ми говорили про те, що ми повинні проявляти обережність, інтерпретуючи результат статистичного аналізу. Ми будемо продовжувати повертатися до цього моменту, оскільки це важливий. Визначивши, що результат неточний, як ми це робили в прикладі35.1.3, наступним кроком є виявлення і виправлення помилки. Однак перш ніж витрачати час і гроші на це, ми спочатку повинні критично вивчити наші дані. Наприклад, чим менше значення s, тим більше значення t exp. Якщо стандартне відхилення для нашого аналізу нереально мало, то ймовірність помилки 2 типу зростає. Включення декількох додаткових повторюваних аналізів стандарту та переоцінка t -тесту може посилити наші докази щодо визначеної помилки, або це може показати нам, що немає доказів для визначеної помилки.
Порівнянняs2 зσ2
Якщо ми регулярно аналізуємо певну вибірку, ми можемо встановити очікувану дисперсію для аналізу.σ2 Це часто трапляється, наприклад, у клінічній лабораторії, яка щодня аналізує сотні зразків крові. Кілька повторюваних аналізів одного зразка дають дисперсію зразка, s 2, значення якої може або не може суттєво відрізнятися відσ2.
Ми можемо використовувати F -тест, щоб оцінити, чи є різниця між s 2 іσ2 є значною. Нульова гіпотеза єH0: s2=σ2 і альтернативна гіпотеза єHA: s2≠σ2. Тестова статистика для оцінки нульової гіпотези - F exp, яка дається як
Fexp=s2σ2 if s2>σ2 or Fexp=σ2s2 if σ2>s2
в залежності від того, чи є s 2 більше або менше, ніжσ2. Цей спосіб визначення F exp гарантує, що його значення завжди більше або дорівнює одиниці.
Якщо нульова гіпотеза вірна, то F exp повинна дорівнювати одиниці; однак через невизначені помилки F exp, як правило, більше одиниці. Критичне значення є найбільшим значенням F expF(α,νnum,νden), яке ми можемо віднести до невизначеної помилкиα, враховуючи заданий рівень значущості, і ступені свободи для дисперсії в чисельникуνnum, і дисперсія в знаменнику,νden. Ступінь свободи для s 2 дорівнює n — 1, де n - кількість реплікацій, що використовуються для визначення дисперсії вибірки, а ступінь свободи дляσ2 визначається як нескінченність,∞. Критичні значення F дляα=0.05 перераховані в Додатку 4 як для однохвостих, так і для двохвостих F -тестів.
Процес виробника для аналізу таблеток аспірину має відому дисперсію 25. Вибірка з 10 таблеток аспірину відбирається і аналізується на кількість аспірину, даючи наступні результати в мг аспірину/таблетці.
254249252252249249250247251252
Визначте, чи є докази значної різниці між дисперсією вибірки та очікуваною дисперсією приα=0.05.
Рішення
Дисперсія для проби 10 таблеток становить 4,3. Нульова гіпотеза та альтернативні гіпотези
H0: s2=σ2HA: s2≠σ2
і значення для F exp дорівнює
Fexp=σ2s2=254.3=5.8
Критичне значення для F (0,05,∞, 9) з додатка 4 - 3,333. Оскільки F exp більше F (0,05,, 9)∞, ми відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу про те, що існує значна різниця між дисперсією вибірки та очікуваною дисперсією. Одним з пояснень різниці може бути те, що таблетки аспірину не були обрані випадковим чином.
Порівняння відхилень для двох зразків
Ми можемо розширити F -тест, щоб порівняти дисперсії для двох зразків, A і B, переписавши наше рівняння для F exp як
Fexp=s2As2B
визначення A і B таким чином, щоб значення F exp було більше або дорівнювало 1.
У таблиці нижче наведені результати двох експериментів з визначення маси циркулюючої американської пенні. Визначте, чи є різниця в дисперсіях цих аналізів наα=0.05.
Перший експеримент | Другий експеримент | ||
---|---|---|---|
Пенні | Маса (г) | Пенні | Маса (г) |
1 | 3.080 | 1 | 3.052 |
2 | 3.094 | 2 | 3.141 |
3 | 3.107 | 3 | 3.083 |
4 | 3.056 | 4 | 3.083 |
5 | 3.112 | 5 | 3.048 |
6 | 3.174 | ||
7 | 3.198 |
Рішення
Стандартні відхилення для двох експериментів складають 0,051 для першого експерименту (А) і 0,037 для другого експерименту (B). Нульова та альтернативна гіпотези
H0: s2A=s2BHA: s2A≠s2B
і значення F exp дорівнює
Fexp=s2As2B=(0.051)2(0.037)2=0.002600.00137=1.90
З Додатка 4 критичне значення для F (0,05, 6, 4) дорівнює 9.197. Оскільки F exp < F (0,05, 6, 4), ми зберігаємо нульову гіпотезу. Немає жодних доказів,α=0.05 щоб припустити, що різниця в дисперсіях є значною.
Порівняння засобів для двох зразків
На результат аналізу впливають три фактори: метод, вибірка та аналітик. Ми можемо вивчити вплив цих факторів, проводячи експерименти, в яких ми змінюємо один фактор, утримуючи постійними інші фактори. Наприклад, для порівняння двох аналітичних методів ми можемо мати одного і того ж аналітика застосувати кожен метод до одного і того ж зразка, а потім вивчити отримані кошти. Подібним чином ми можемо розробляти експерименти для порівняння двох аналітиків або порівняння двох зразків.
Перш ніж розглядати тести на значущість для порівняння засобів двох вибірок, нам потрібно зрозуміти різницю між непарними даними і парними даними. Це критична відмінність, і важливо навчитися розрізняти ці два типи даних. Ось два простих приклади, які підкреслюють різницю між непарними даними та парними даними. У кожному прикладі мета полягає в тому, щоб порівняти два залишки, зважуючи копійки.
- Приклад 1: Ми збираємо 10 копійок і зважуємо кожну копійку на кожному балансі. Це приклад парних даних, оскільки ми використовуємо ті ж 10 копійок для оцінки кожного балансу.
- Приклад 2: Ми збираємо 10 копійок і ділимо їх на дві групи по п'ять копійок кожна. Зважуємо копійки в першій групі на одному балансі і зважуємо другу групу копійок на іншому балансі. Зверніть увагу, що жодна копійка не зважується на обох залишках. Це приклад непарних даних, оскільки ми оцінюємо кожен баланс, використовуючи різну вибірку копійок.
В обох прикладах вибірки 10 копійок були взяті з однієї і тієї ж популяції; різниця полягає в тому, як ми відбирали цю популяцію. Ми дізнаємося, чому ця відмінність важлива, коли ми переглядаємо тест на значущість для парних даних; однак спочатку ми представляємо тест на значущість для непарних даних.
Один простий тест для визначення того, чи є дані парними або непарними, - це подивитися на розмір кожної вибірки. Якщо зразки мають різний розмір, то дані повинні бути непарними. Зворотне не відповідає дійсності. Якщо два зразки однакового розміру, вони можуть бути парними або непарними.
Непарні дані
Розглянемо два аналізи, A і B, із засобами¯XA і¯XB, і стандартні відхилення s A і s B. Довірчі інтервали дляμA іμB для
μA=¯XA±tsA√nA
μB=¯XB±tsB√nB
де n A і n B - розміри вибірки для A і для B. Наша нульова гіпотеза полягає в томуH0: μA=μB, що будь-яка різниця міжμA іμB є результатом невизначеної помилки, які впливають на аналіз. Альтернативна гіпотеза полягає в томуHA: μA≠μB, що різниця міжμA іμB занадто велика, щоб пояснюватися невизначеною помилкою.
Щоб вивести рівняння для t exp, ми вважаємо, щоμA дорівнюєμB, і об'єднаємо рівняння для двох довірчих інтервалів
¯XA±texpsA√nA=¯XB±texpsB√nB
Розв'язування|¯XA−¯XB| та використання поширення невизначеності, дає
|¯XA−¯XB|=texp×√s2AnA+s2BnB
Нарешті, ми вирішуємо для t exp
texp=|¯XA−¯XB|√s2AnA+s2BnB
і порівняти його з критичним значеннямt(α,ν), деα ймовірність помилки типу 1, аν це ступені свободи.
Поки що наша розробка цього t -тесту схожа на те, що¯X для порівняння зμ, і все ж ми не маємо достатньої інформації для оцінки t -тесту. Бачите проблему? З двома незалежними наборами даних незрозуміло, скільки ступенів свободи ми маємо.
Припустимо, щоs2As2B розбіжності і дають оцінки однаковіσ2. У цьому випадку ми можемо замінитиs2A іs2B з об'єднаною дисперсієюs2pool, що є кращою оцінкою для дисперсії. Таким чином, наше рівняння дляtexp стає
texp=|¯XA−¯XB|spool×√1nA+1nB=|¯XA−¯XB|spool×√nAnBnA+nB
де басейн, об'єднане стандартне відхилення, є
spool=√(nA−1)s2A+(nB−1)s2BnA+nB−2
Знаменник цього рівняння показує нам, що ступені свободи для об'єднаного стандартного відхилення єnA+nB−2, яке також є ступенями свободи для t -тесту. Зверніть увагу, що ми втрачаємо два ступені свободи, тому що розрахунки дляs2A іs2B вимагають попереднього розрахунку¯XA амд¯XB.
Отже, як ви визначаєте, якщо це нормально, щоб об'єднати дисперсії? Використовуйте F-тест.
Якщоs2A і значноs2B відрізняються, то обчислюємо t exp, використовуючи наступне рівняння. У цьому випадку ми знаходимо ступені свободи, використовуючи наступне нав'язуюче рівняння.
ν=(s2AnA+s2BnB)2(s2AnA)2nA+1+(s2BnB)2nB+1−2
Оскільки ступені свободи повинні бути цілим числом, ми округляємо до найближчого цілого числа значенняν отриманого з цього рівняння.
Рівняння вище для ступенів свободи взято з Міллера, J.C.; Міллер, J.N. статистика аналітичної хімії, 2-е видання, Елліс-Хорвард: Чичестер, Великобританія, 1988. У 6-му виданні автори відзначають, що запропоновано кілька різних рівнянь для числа ступенів свободи для t, коли s A і s B відрізняються, відображаючи той факт, що визначення ступенів свободи і наближення. Альтернативним рівнянням, яке використовується статистичними програмними пакетами, такими як R, Minitab, Excel, є
ν=(s2AnA+s2BnB)2(s2AnA)2nA−1+(s2BnB)2nB−1=(s2AnA+s2BnB)2s4An2A(nA−1)+s4Bn2B(nB−1)
Для типових задач в аналітичній хімії обчислені ступені свободи досить нечутливі до вибору рівняння.
Незалежно від того, як ми обчислюємо t exp, ми відкидаємо нульову гіпотезу, якщо t exp більше,t(α,ν) і зберігаємо нульову гіпотезу, якщо t exp менше або дорівнюєt(α,ν).
Приклад35.1.3 дає результати двох експериментів для визначення маси циркулюючої американської пенні. Визначте, чи є різниця в засобах цих аналізів наα=0.05.
Рішення
Спочатку ми використовуємо F -тест, щоб визначити, чи можемо ми об'єднати відхилення. Ми завершили цей аналіз на прикладі35.1.5, не знайшовши доказів істотної різниці, а це означає, що ми можемо об'єднати стандартні відхилення, отримавши
spool=√(7−1)(0.051)2+(5−1)(0.037)27+5−2=0.0459
з 10 ступенями свободи. Для порівняння засобів використовуємо наступну нульову гіпотезу і альтернативні гіпотези:
H0: μA=μBHA: μA≠μB
Оскільки ми використовуємо об'єднане стандартне відхилення, ми обчислюємо t exp як
texp=|3.117−3.081|0.0459×√7×57+5=1.34
Критичне значення для t (0,05, 10), з додатка 3, дорівнює 2,23. Оскільки t exp менше t (0,05, 10), ми зберігаємо нульову гіпотезу. Бо уα=0.05 нас немає доказів того, що два набори копійок істотно відрізняються.
Одним із методів визначення %w/w Na 2 CO 3 в кальцинованій соді є використання кислотно-основного титрування. Коли два аналітики аналізують один і той же зразок кальцинованої соди, вони отримують результати, показані тут.
Аналітик А:86.82%87.04%86.93%87.01%86.20%87.00%
Аналітик B:81.01%86.15%81.73%83.19%80.27%83.93%
Визначте, чи значна різниця в середніх значеннях приα=0.05.
Рішення
Ми починаємо з звітності про середнє і стандартне відхилення для кожного аналітика.
¯XA=86.83%sA=0.32%
¯XB=82.71%sB=2.16%
Щоб визначити, чи можемо ми використовувати об'єднане стандартне відхилення, ми спочатку завершуємо F-тест, використовуючи наступні нульові та альтернативні гіпотези.
H0: s2A=s2BHA: s2A≠s2B
Розрахувавши F exp, отримаємо значення
Fexp=(2.16)2(0.32)2=45.6
Оскільки F exp більше критичного значення 7.15 для F (0,05, 5, 5) з Додатка 4, ми відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу про те, що існує значна різниця між дисперсіями; таким чином, ми не можемо обчислити об'єднаний стандарт відхилення.
Для порівняння засобів для двох аналітиків ми використовуємо наступні нульові та альтернативні гіпотези.
H0: ¯XA=¯XBHA: ¯XA≠¯XB
Оскільки ми не можемо об'єднати стандартні відхилення, ми обчислюємо t exp як
texp=|86.83−82.71|√(0.32)26+(2.16)26=4.62
і обчислити ступені свободи як
ν=((0.32)26+(2.16)26)2((0.32)26)26+1+((2.16)26)26+1−2=5.3≈5
З додатка 3 критичне значення для t (0,05, 5) дорівнює 2,57. Оскільки t exp більше, ніж t (0,05, 5), ми відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу про те, що засоби для двох аналітиків значно відрізняютьсяα=0.05.
Парні дані
Припустимо, ми оцінюємо новий метод контролю концентрації глюкози в крові у пацієнтів. Важливою частиною оцінки нового методу є порівняння його з усталеним методом. Який найкращий спосіб зібрати дані для цього дослідження? Оскільки різниця в рівні глюкози в крові серед пацієнтів велика, ми можемо не виявити невелику, але істотну різницю між методами, якщо ми використовуємо різних пацієнтів для збору даних для кожного методу. Використання парних даних, в яких ми аналізуємо кров кожного пацієнта за допомогою обох методів, запобігає значній дисперсії всередині популяції від негативного впливу на t -тест засобів.
Типові рівні глюкози в крові для більшості людей, які не мають діабету, коливається між 80-120 мг/дл (4.4—6.7 мМ), підвищуючись до 140 мг/дл (7,8 мМ) незабаром після їжі. Більш високі рівні є загальними для осіб, які є попередньо діабетичної або діабетичної.
Коли ми використовуємо парні дані, ми спочатку обчислюємо індивідуальні відмінності, d i, між парними реакціями кожного зразка. Використовуючи ці індивідуальні відмінності, ми потім обчислюємо середню різницю¯d, і стандартне відхилення відмінностей, s d. Нульова гіпотеза полягає в томуH0: d=0, що немає різниці між двома зразками та альтернативною гіпотезою полягає в томуHA: d≠0, що різниця між двома зразками є значною.
Тестова статистика, t exp, походить від довірчого інтервалу навколо¯d
texp=|¯d|√nsd
де n - кількість парних зразків. Як і для інших форм t -тесту, ми порівнюємо t exp доt(α,ν), де ступені свободиν, є n — 1. Якщо t exp більшеt(α,ν), то відкидаємо нульову гіпотезу і приймаємо альтернативну гіпотезу. Ми зберігаємо нульову гіпотезу, якщо t exp менше або дорівнює t (a, o). Це відоме як парний t-тест.
Marecek et. al. розробили новий електрохімічний метод швидкого визначення концентрації антибіотика моненсін у чанах бродіння [Marecek, V.; Janchenova, H.; Brezina, M; Betti, M. Чим. Акт 1991, 244, 15—19]. Стандартним методом аналізу є тест на мікробіологічну активність, який є одночасно складним для завершення і трудомістким. Зразки збирали з ферментаційних чанів в різний час під час виробництва і аналізували на концентрацію моненсіна обома методами. Результати, у частках на тисячу (ppt), наведені в наступній таблиці.
Зразок | Мікробіологічні | електрохімічний |
---|---|---|
1 | 129.5 | 132.3 |
2 | 89.6 | 91.0 |
3 | 76.6 | 73.6 |
4 | 52.2 | 58.2 |
5 | 110.8 | 104.2 |
6 | 50.4 | 49.9 |
7 | 72.4 | 82.1 |
8 | 141.4 | 154.1 |
9 | 75.0 | 73.4 |
10 | 34.1 | 38.1 |
11 | 60.3 | 60.1 |
Чи є суттєва різниця між методами приα=0.05?
Рішення
Придбання зразків протягом тривалого періоду часу вводить значну залежну від часу зміну концентрації монензину. Оскільки варіація концентрації між зразками настільки велика, ми використовуємо парний t -тест з наступними нульовими та альтернативними гіпотезами.
H0: ¯d=0HA: ¯d≠0
Визначення різниці між методами як
di=(Xelect)i−(Xmicro)i
обчислюємо різницю для кожного зразка.
зразок | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
di | 2.8 | 1.4 | —3.0 | 6.0 | —6.6 | —0,5 | 9.7 | 12,7 | —1.6 | 4.0 | —0.2 |
Середнє і стандартне відхилення для відмінностей складають відповідно 2,25 ppt і 5.63 ppt. Значення t exp дорівнює
texp=|2.25|√115.63=1.33
що менше критичного значення 2,23 для t (0,05, 10) з додатка 3. Ми зберігаємо нульову гіпотезу і не знаходимо доказів істотної різниці в методах наα=0.05.
Однією з важливих вимог до парного t -тесту є те, що детермінантні та невизначені помилки, які впливають на аналіз, повинні бути незалежними від концентрації аналіта. Якщо це не так, то проба з незвично високою концентрацією аналіту матиме незвично великий d i. Включення цієї вибірки в розрахунок¯d і s d дає упереджену оцінку для очікуваного середнього і стандартного відхилення. Це рідко є проблемою для зразків, які охоплюють обмежений діапазон концентрацій аналітів, таких як у прикладі35.1.6 або вправи35.1.8. Коли парні дані охоплюють широкий діапазон концентрацій, однак, величина детермінантних і невизначений джерел похибки не може бути незалежною від концентрації аналіта; коли це правда, парний t -тест може дати оманливі результати, оскільки парні дані з найбільшим абсолютним домінують визначальні та невизначені помилки¯d. У цій ситуації регресійний аналіз, який є предметом наступної глави, є більш підходящим методом порівняння даних.
Важливість розрізнення парних і непарних даних варто вивчити уважніше. Нижче наведені дані з деякої роботи, яку я завершив з колегою, в якій ми розглядали концентрацію Zn в озері Ері на інтерфейсі повітря-вода та інтерфейс осадок-вода.
зразок сайту | ppm Zn і інтерфейс повітря-вода | ppm Zn на межі межі осадо-вода |
1 | 0,430 | 0,415 |
2 | 0,266 | 0,238 |
3 | 0,457 | 0,390 |
4 | 0.531 | 0,410 |
5 | 0,707 | 0.605 |
6 | 0,716 | 0,609 |
Середнє значення і стандартне відхилення для ppm Zn на межі розділу повітря-вода становлять 0,5178 ppm і 0,01732 ppm, а середнє і стандартне відхилення для ppm Zn на межі осадок-вода складають 0,4445 ppm і 0,1418 ppm. Ми можемо використовувати ці значення, щоб намалювати нормальні розподіли як для відпускаючи середні та стандартні відхилення для вибірки, так¯X іs, служити оцінками для засобів і стандартних відхилень для популяції,μ іσ. Як ми бачимо на наступному малюнку
два розподіли сильно перекриваються, припускаючи, що t -тест їх засобів навряд чи знайде докази різниці. І все ж, ми також бачимо, що для кожної ділянки концентрація Zn на межі осаду - вода менше, ніж на межі розділу повітря-вода. При цьому різниця між концентрацією Zn на окремих ділянках досить велика, що маскує нашу здатність бачити різницю між двома інтерфейсами.
Якщо взяти відмінності між інтерфейсами «повітря-вода» і «осад - вода», то маємо значення 0,015, 0,028, 0,067, 0,121, 0,102 і 0,107 проміле Zn, із середнім значенням 0,07333 ppm Zn і стандартним відхиленням 0,04410 ppm Zn. Накладення всіх трьох нормальних розподілів
показує чітко, що більша частина нормального розподілу відмінностей лежить вище нуля, припускаючи, що t -тест може показати докази того, що різниця є значною.
Виділення
Таблиця35.1.11 містить ще один набір даних, що дає маси за вибірку копійок. Ви помічаєте щось незвичайне в цих даних? З 100 копійок, включених в нашу більш ранню таблицю, жоден пенні не має маси менше 3 м У цій таблиці, однак маса однієї копійки менше 3 м Ми могли б запитати, чи настільки ця копійка відрізняється від інших копійок, що вона помилкова.
3.067 | 2.514 | 3.094 |
3.049 | 3.048 | 3.109 |
3.039 | 3.079 | 3.102 |
Вимірювання, яке не відповідає іншим вимірам, називається викидом. Викид може існувати з багатьох причин: викид може належати іншій популяції
Це канадська копійка?
або викид може бути забрудненим або іншим чином зміненим зразком
Копійка пошкоджена або незвично брудна?
або викид може бути наслідком помилки в аналізі
Ми забули тарувати залишок?
Незалежно від його джерела, наявність викидів компрометує будь-який змістовний аналіз наших даних. Є багато значущих тестів, які ми можемо використовувати для виявлення потенційних викидів, три з яких ми представляємо тут.
Q -Тест Діксона
Одним з найпоширеніших тестів значущості для виявлення викидів є Q-тест Діксона. Нульова гіпотеза полягає в тому, що немає викидів, а альтернативна гіпотеза полягає в тому, що існує викид. Q -тест порівнює розрив між підозрюваним викидом і його найближчим числовим сусідом з діапазоном всього набору даних (рис.35.1.25).

Статистика тесту, Q exp, становить
Qexp=gaprange=|outlier's value−nearest value|largest value−smallest value
Це рівняння підходить для оцінки одного викиду. Інші форми Q -тесту Діксона дозволяють його розширення для виявлення декількох викидів [Rorabacher, D.B. анал. Хім. 1991, 63, 139—146].
Значення Q exp порівнюється з критичним значеннямQ(α,n), деα є ймовірність того, що ми відхилимо допустиму точку даних (помилка типу 1) і n - загальна кількість точок даних. Щоб захистити від відхилення дійсної точки даних, зазвичай ми застосовуємо більш консервативний двоххвостий Q-тест, хоча можливий викид є найменшим або найбільшим значенням у наборі даних. Якщо Q exp більшеQ(α,n), то ми відхиляємо нульову гіпотезу і можемо виключити викиди. Ми зберігаємо можливий викид, коли Q exp менше або дорівнюєQ(α,n). Таблиця35.1.12 містить значенняQ(α,n) для набору даних, який має 3—10 значень. Більш велика таблиця знаходиться в Додатку 5. Значення дляQ(α,n) припускають базовий нормальний розподіл.
п | Q (0,05, н) |
---|---|
3 | 0,970 |
4 | 0,829 |
5 | 0,710 |
6 | 0,625 |
7 | 0.568 |
8 | 0.526 |
9 | 0,493 |
10 | 0,466 |
Тест Грубба
Хоча Q -тест Діксона є загальним методом оцінки викидів, він більше не підтримується Міжнародною організацією зі стандартизації (ISO), яка рекомендує тест Грубба. Існує кілька версій тесту Грубба в залежності від кількості потенційних викидів. Тут ми розглянемо випадок, коли є єдиний підозрюваний викид.
Детальніше про цю рекомендацію див. Міжнародні стандарти ISO Guide 5752-2 «Точність (правдивість і точність) методів вимірювання та результатів - частина 2: основні методи визначення повторюваності та відтворюваності стандартного методу вимірювання» 1994.
Статистика тесту для тесту Грубба, G exp, - це відстань між середнім значенням зразка та потенційним викидомXout, з точки зору стандартного відхилення зразка, с.¯X
Gexp=|Xout−¯X|s
Порівнюємо значення G exp з критичним значеннямG(α,n), деα є ймовірність того, що ми відхилимо дійсну точку даних, а n - кількість точок даних у вибірці. Якщо G exp більшеG(α,n), то ми можемо відхилити точку даних як викид, інакше ми збережемо точку даних як частину вибірки. Таблиця35.1.13 містить значення G (0,05, n) для зразка, що містить 3—10 значень. Більш велика таблиця знаходиться в додатку 6. Значення дляG(α,n) припускають базовий нормальний розподіл.
п | Г (0,05, н) |
---|---|
3 | 1.15 |
4 | 1.481 |
5 | 1.715 |
6 | 1.887 |
7 | 2.020 |
8 | 2.126 |
9 | 2.215 |
10 | 2.290 |
Критерій Шовене
Наш остаточний метод виявлення викиду - критерій Шовене. На відміну від Q -Test Діксона та тесту Грубба, ви можете застосувати цей метод до будь-якого розподілу, якщо ви знаєте, як обчислити ймовірність для конкретного результату. Критерій Шовене стверджує, що ми можемо відхилити точку даних, якщо ймовірність отримання значення точки даних менше(2n−1), де n - розмір вибірки. Наприклад, якщо n = 10, результат з ймовірністю менше(2×10)−1, або 0,05, вважається викидом.
Для обчислення ймовірності потенційного викиду спочатку обчислимо його стандартизоване відхилення, z
z=|Xout−¯X|s
деXout потенційний викид,¯X - середнє значення зразка, а s - стандартне відхилення зразка. Зауважте, що це рівняння ідентично рівнянню для G exp у тесті Грубба. Для нормального розподілу можна знайти ймовірність отримання значення z за допомогою таблиці ймовірностей в Додатку 2.
Таблиця35.1.11 містить маси за дев'ять циркулюючих США копійки. Один запис, 2,514 г, здається, є викидом. Визначте, чи є цей пенні викидом, використовуючи Q -тест, тест Грубба та критерій Шовене. Для Q -тесту і тесту Grubb, давайтеα=0.05.
Рішення
Для Q -тесту значення дляQexp дорівнює
Qexp=|2.514−3.039|3.109−2.514=0.882
З таблиці35.1.12 критичне значення для Q (0,05, 9) дорівнює 0,493. Оскільки Q exp більше Q (0,05, 9), ми можемо припустити, що копійка з масою 2,514 г, ймовірно, є викидом.
Для тесту Грубба спочатку потрібні середнє значення і стандартне відхилення, які складають 3,011 г і 0,188 г відповідно. Значення для G exp дорівнює
Gexp=|2.514−3.011|0.188=2.64
Використовуючи Таблицю35.1.13, знаходимо, що критичне значення для G (0,05, 9) дорівнює 2,215. Оскільки G exp більше G (0,05, 9), можна припустити, що копійка з масою 2,514 г, ймовірно, є викидом.
Для критерію Шовене критична ймовірність дорівнює(2×9)−1, або 0,0556. Значення z таке ж, як G exp, або 2,64. Використовуючи додаток 1, ймовірність для z = 2.64 дорівнює 0,00415. Оскільки ймовірність отримання маси 0,2514 г менше критичної ймовірності, можна припустити, що копійка з масою 2,514 г, швидше за все, є викидом.
Ви повинні проявляти обережність при використанні тесту на значущість для викидів, оскільки є ймовірність, що ви відхилите дійсний результат. Крім того, слід уникати відхилення викиду, якщо це призводить до точності, яка набагато краща, ніж очікувалося, на основі поширення невизначеності. Враховуючи ці побоювання, не дивно, що деякі статистики застерігають проти видалення викидів [Демінг, У.Е. Статистичний аналіз даних; Wiley: Нью-Йорк, 1943 (перевидано Dover: Нью-Йорк, 1961); стор. 171].
Ви також можете прийняти більш сувору вимогу щодо відхилення даних. Наприклад, при використанні тесту Грубба, настанови ISO 5752 пропонують зберегти значення, якщо ймовірність відхилення його більшеα=0.05, ніж, і позначити значення як «відсторонювач», якщо ймовірність відхилення від нього знаходиться міжα=0.05 іα=0.01. «Відхилення» зберігається, якщо немає вагомих причин для його відхилення. Керівні принципи рекомендують використовуватиα=0.01 як мінімальний критерій для відхилення можливого викиду.
З іншого боку, тестування на викиди може надати корисну інформацію, якщо ми спробуємо зрозуміти джерело підозрюваного викиду. Наприклад, викид в таблиці35.1.11 являє собою значну зміну маси копійки (приблизно на 17% зменшення маси), що є результатом зміни складу американського пенні. У 1982 році склад американського пенні змінився з латунного сплаву, який становив 95% w/w Cu і 5% w/w Zn (з номінальною масою 3,1 г), до чистого цинкового сердечника, покритого міддю (номінальною масою 2,5 г) [Richardson, T.H. J. Chem. Едук. 1991, 68, 310—311]. Копійки в таблиці35.1.11, таким чином, були залучені з різних популяцій.
Калібрування даних
Калібрувальна крива є одним з найважливіших інструментів аналітичної хімії, оскільки вона дозволяє нам визначити концентрацію аналіту у зразку шляхом вимірювання сигналу, який він генерує при розміщенні в приладі, наприклад спектрофотометрі. Щоб визначити концентрацію аналіта, ми повинні знати взаємозв'язок між сигналом, який ми вимірюємоS, та концентрацією аналітаCA, яку ми можемо записати як
S=kACA+Sblank
деkA - чутливість калібрувальної кривої іSblank сигнал при відсутності аналіту.
Як ми знаходимо найкращу оцінку для цього співвідношення між сигналом та концентрацією аналіту? Коли калібрувальна крива є прямолінійною, ми представляємо її за допомогою наступної математичної моделі
y=β0+β1x
де y - виміряний сигнал аналіта, S, а x - відома концентрація аналіта в серії стандартних розчинів.CA Константиβ0 іβ1 є, відповідно, очікуваним y -перехопленням калібрувальної кривої та очікуваним нахилом. Через невизначеність наших вимірювань найкраще, що ми можемо зробити, це оцінити значення дляβ0 іβ1, які ми представляємо як b 0 і b 1. Метою лінійного регресійного аналізу є визначення найкращих оцінок для b 0 та b 1.
Незважена лінійна регресія з помилками у y
Найбільш поширений метод завершення лінійної регресії робить три припущення:
- різниця між нашими експериментальними даними та обчисленою лінією регресії є результатом невизначеної помилки, що впливають на y
- будь-які невизначені помилки, які впливають на y, зазвичай розподіляються
- що невизначені помилки в y не залежать від значення x
Оскільки ми припускаємо, що невизначені помилки однакові для всіх стандартів, кожен стандарт однаково вносить свій внесок у нашу оцінку нахилу та y -перехоплення. З цієї причини результат вважається незваженою лінійною регресією.
Друге припущення, як правило, вірно через центральну граничну теорему, яку ми розглядали раніше. Обґрунтованість двох інших припущень менш очевидна, і ви повинні оцінити їх, перш ніж приймати результати лінійної регресії. Зокрема, перше припущення завжди підозрюється, оскільки, безумовно, є певна невизначена похибка вимірювання x. Коли ми готуємо калібрувальну криву, однак, незвично виявити, що невизначеність у сигналі, S, значно більша, ніж невизначеність концентрації аналітаCA. За таких обставин перше припущення зазвичай є розумним.
Як працює лінійна регресія
Щоб зрозуміти логіку лінійної регресії, розглянемо приклад на малюнку35.1.26, який показує три точки даних і дві можливі прямі лінії, які можуть обґрунтовано пояснити дані. Як ми вирішуємо, наскільки добре ці прямі лінії підходять до даних, і як ми можемо визначити, яка, якщо так, є найкращою прямою лінією?

Давайте зосередимося на суцільній лінії на малюнку35.1.26. Рівняння для цього рядка
ˆy=b0+b1x
де b 0 і b 1 - оцінки для y -перехоплення та нахилу, іˆy є прогнозованим значенням y для будь-якого значення x. Оскільки ми припускаємо, що вся невизначеність є результатом невизначеної помилки у, різниця між y іˆy для кожного значення x є залишковою похибкою, r, в нашій математичній моделі.
ri=(yi−ˆyi)
35.1.27На малюнку показані залишкові помилки для трьох точок даних. Чим менше загальна залишкова помилка, R, яку ми визначаємо як
R=n∑i=1(yi−ˆyi)2
тим краще прилягання між прямою лінією і даними. У лінійному регресійному аналізі ми шукаємо значення b 0 та b 1, які дають найменшу загальну залишкову похибку.
Причина квадратизації окремих залишкових помилок полягає в тому, щоб запобігти позитивній залишковій помилку від скасування негативної залишкової помилки. Ви бачили це раніше в рівняннях для вибірки і популяції стандартних відхилень, введені в главі 4. З цього рівняння також видно, чому лінійну регресію іноді називають методом найменших квадратів.

Пошук нахилу та y -перехоплення для регресійної моделі
Хоча формально ми не будемо розробляти математичні рівняння для лінійного регресійного аналізу, ви можете знайти похідні в багатьох стандартних статистичних текстах [Див., наприклад, Draper, Н.Р.; Smith, H. прикладний регресійний аналіз, 3-е видання; Wiley: Нью-Йорк, 1998]. Отримане рівняння для ухилу, b 1, дорівнює
b_1 = \frac {n \sum_{i = 1}^{n} x_i y_i - \sum_{i = 1}^{n} x_i \sum_{i = 1}^{n} y_i} {n \sum_{i = 1}^{n} x_i^2 - \left( \sum_{i = 1}^{n} x_i \right)^2} \nonumber
і рівняння для y -перехоплення, b 0, дорівнює
b_0 = \frac {\sum_{i = 1}^{n} y_i - b_1 \sum_{i = 1}^{n} x_i} {n} \nonumber
Хоча ці рівняння здаються грізними, необхідно лише оцінити наступні чотири підсумовування
\sum_{i = 1}^{n} x_i \quad \sum_{i = 1}^{n} y_i \quad \sum_{i = 1}^{n} x_i y_i \quad \sum_{i = 1}^{n} x_i^2 \nonumber
Багато калькуляторів, електронних таблиць та інших статистичних програмних пакетів здатні виконувати лінійний регресійний аналіз на основі цієї моделі; докладніше про завершення лінійного регресійного аналізу за допомогою R. наступний приклад.
Використовуючи дані калібрування в наступній таблиці, визначте взаємозв'язок між сигналом та концентрацією аналітаx_i, використовуючи незважену лінійну регресію.y_i
Рішення
Ми починаємо з налаштування таблиці, яка допоможе нам організувати розрахунок.
x_i | y_i | x_i y_i | x_i^2 |
---|---|---|---|
\ (x_i\) ">0.000 | \ (y_i\) ">0.00 | \ (x_i y_i\) ">0.000 | \ (x_i ^ 2\) ">0.000 |
\ (x_i\) ">0.100 | \ (y_i\) ">12,36 | \ (x_i\) ">1.236 | \ (x_i^2\) ">0,010 |
\ (x_i\) ">0,200 | \ (y_i\) ">24.83 | \ (x_i\) ">4.966 | \ (x_i^2\) ">0.040 |
\ (x_i\) ">0,300 | \ (y_i\) ">35.91 | \ (x_i\) ">10.773 | \ (x_i^2\) ">0,090 |
\ (x_i\) ">0,400 | \ (y_i\) ">48.79 | \ (x_i\) ">19.516 | \ (x_i^2\) ">0.160 |
\ (x_i\) ">0,500 | \ (y_i\) ">60.42 | \ (x_i\) ">30.210 | \ (x_i^2\) ">0,250 |
Додавання значень у кожному стовпці дає
\sum_{i = 1}^{n} x_i = 1.500 \quad \sum_{i = 1}^{n} y_i = 182.31 \quad \sum_{i = 1}^{n} x_i y_i = 66.701 \quad \sum_{i = 1}^{n} x_i^2 = 0.550 \nonumber
Підставляючи ці значення в рівняння для нахилу і y -перехоплення дає
b_1 = \frac {(6 \times 66.701) - (1.500 \times 182.31)} {(6 \times 0.550) - (1.500)^2} = 120.706 \approx 120.71 \nonumber
b_0 = \frac {182.31 - (120.706 \times 1.500)} {6} = 0.209 \approx 0.21 \nonumber
Взаємозв'язок міжS сигналом та концентрацією аналітаC_A, отже, становить
S = 120.71 \times C_A + 0.21 \nonumber
Наразі ми зберігаємо два знака після коми, щоб відповідати кількості десяткових знаків у сигналі. Отримана калібрувальна крива показана на малюнку\PageIndex{28}.

Невизначеність у регресійній моделі
Як ми бачимо на малюнку\PageIndex{28}, через невизначені помилки в сигналі лінія регресії не проходить через точний центр кожної точки даних. Сукупне відхилення наших даних від лінії регресії - загальна залишкова похибка - пропорційно невизначеності в регресії. Ми називаємо цю невизначеність стандартним відхиленням про регресію, s r, яка дорівнює
s_r = \sqrt{\frac {\sum_{i = 1}^{n} \left( y_i - \hat{y}_i \right)^2} {n - 2}} \nonumber
де y i - i експериментальне значення, і\hat{y}_i відповідне значення, передбачене рівнянням регресії\hat{y} = b_0 + b_1 x. Зауважте, що знаменник вказує на те, що наш регресійний аналіз має n - 2 ступеня свободи - ми втрачаємо два ступені свободи, оскільки використовуємо два параметри, нахил і y -перехоплення, для обчислення\hat{y}_i.
Більш корисним поданням невизначеності в нашому регресійному аналізі є врахування впливу невизначених помилок на нахил, b 1, і y -перехоплення, b 0, який ми виражаємо як стандартні відхилення.
s_{b_1} = \sqrt{\frac {n s_r^2} {n \sum_{i = 1}^{n} x_i^2 - \left( \sum_{i = 1}^{n} x_i \right)^2}} = \sqrt{\frac {s_r^2} {\sum_{i = 1}^{n} \left( x_i - \overline{x} \right)^2}} \nonumber
s_{b_0} = \sqrt{\frac {s_r^2 \sum_{i = 1}^{n} x_i^2} {n \sum_{i = 1}^{n} x_i^2 - \left( \sum_{i = 1}^{n} x_i \right)^2}} = \sqrt{\frac {s_r^2 \sum_{i = 1}^{n} x_i^2} {n \sum_{i = 1}^{n} \left( x_i - \overline{x} \right)^2}} \nonumber
Ми використовуємо ці стандартні відхилення для встановлення довірчих інтервалів для очікуваного нахилу\beta_1, і очікуваного y -перехоплення,\beta_0
\beta_1 = b_1 \pm t s_{b_1} \nonumber
\beta_0 = b_0 \pm t s_{b_0} \nonumber
де виділено t для рівня значущості,\alpha а для n — 2 ступенів свободи. Зауважте, що ці рівняння не містять коефіцієнта(\sqrt{n})^{-1} видимого в довірчих інтервалах,\mu оскільки довірчий інтервал тут базується на одній лінії регресії.
Обчисліть 95% довірчих інтервалів для нахилу та y -перехоплення з Прикладу\PageIndex{10}.
Рішення
Почнемо з розрахунку стандартного відхилення про регресію. Для цього ми повинні обчислити передбачені сигнали\hat{y}_i, використовуючи нахил і y -перехоплення з Прикладу\PageIndex{10}, і квадрати залишкової похибки,(y_i - \hat{y}_i)^2. Використовуючи останній стандарт як приклад, ми виявимо, що прогнозований сигнал
\hat{y}_6 = b_0 + b_1 x_6 = 0.209 + (120.706 \times 0.500) = 60.562 \nonumber
і що квадрат залишкової помилки
(y_i - \hat{y}_i)^2 = (60.42 - 60.562)^2 = 0.2016 \approx 0.202 \nonumber
Наступна таблиця відображає результати для всіх шести рішень.
x_i | y_i | \hat{y}_i | \left( y_i - \hat{y}_i \right)^2 |
---|---|---|---|
\ (x_i\) ">0.000 | \ (y_i\) ">0.00 | \ (\ hat {y} _i\) ">0.209 | \ (\ ліворуч (y_i -\ hat {y} _i\ праворуч) ^2\) ">0.0437 |
\ (x_i\) ">0.100 | \ (y_i\) ">12,36 | \ (\ hat {y} _i\) ">12.280 | \ (\ ліворуч (y_i -\ hat {y} _i\ праворуч) ^2\) ">0.0064 |
\ (x_i\) ">0,200 | \ (y_i\) ">24.83 | \ (\ hat {y} _i\) ">24.350 | \ (\ ліворуч (y_i -\ hat {y} _i\ праворуч) ^2\) ">0.2304 |
\ (x_i\) ">0,300 | \ (y_i\) ">35.91 | \ (\ hat {y} _i\) ">36.421 | \ (\ ліворуч (y_i -\ hat {y} _i\ праворуч) ^2\) ">0.2611 |
\ (x_i\) ">0,400 | \ (y_i\) ">48.79 | \ (\ hat {y} _i\) ">48.491 | \ (\ ліворуч (y_i -\ hat {y} _i\ праворуч) ^2\) ">0.0894 |
\ (x_i\) ">0,500 | \ (y_i\) ">60.42 | \ (\ hat {y} _i\) ">60.562 | \ (\ ліворуч (y_i -\ hat {y} _i\ праворуч) ^2\) ">0.0202 |
Складання даних в останньому стовпці дає чисельник у рівнянні для стандартного відхилення про регресію; таким чином
s_r = \sqrt{\frac {0.6512} {6 - 2}} = 0.4035 \nonumber
Далі обчислюємо стандартні відхилення для ухилу і y -перехоплення. Значення термінів підсумовування взяті з Приклад\PageIndex{10}.
s_{b_1} = \sqrt{\frac {6 \times (0.4035)^2} {(6 \times 0.550) - (1.500)^2}} = 0.965 \nonumber
s_{b_0} = \sqrt{\frac {(0.4035)^2 \times 0.550} {(6 \times 0.550) - (1.500)^2}} = 0.292 \nonumber
Нарешті, 95% довірчих інтервалів (\alpha = 0.05, 4 ступеня свободи) для нахилу та y -перехоплення
\beta_1 = b_1 \pm ts_{b_1} = 120.706 \pm (2.78 \times 0.965) = 120.7 \pm 2.7 \nonumber
\beta_0 = b_0 \pm ts_{b_0} = 0.209 \pm (2.78 \times 0.292) = 0.2 \pm 0.80 \nonumber
де t (0,05, 4) з додатка 3 дорівнює 2.78. Стандартне відхилення щодо регресії, s r, говорить про те, що сигнал, S std, точний до одного знака після коми. З цієї причини ми повідомляємо нахил і y -перехоплення до одного знака після коми.
Використання моделі регресії для визначення значення для x, заданого значення для y
Після того, як ми отримаємо наше рівняння регресії, легко визначити концентрацію аналіту в зразку. Наприклад, коли ми використовуємо нормальну калібрувальну криву, ми вимірюємо сигнал для нашого зразка, S samp, і обчислюємо концентрацію аналіта, C A, використовуючи рівняння регресії.
C_A = \frac {S_{samp} - b_0} {b_1} \nonumber
Менш очевидним є те, як повідомити про довірчий інтервал для C A, який виражає невизначеність в нашому аналізі. Для обчислення довірчого інтервалу нам потрібно знати стандартне відхилення в концентрації аналітаs_{C_A}, яке задається наступним рівнянням
s_{C_A} = \frac {s_r} {b_1} \sqrt{\frac {1} {m} + \frac {1} {n} + \frac {\left( \overline{S}_{samp} - \overline{S}_{std} \right)^2} {(b_1)^2 \sum_{i = 1}^{n} \left( C_{std_i} - \overline{C}_{std} \right)^2}} \nonumber
де m - кількість реплікацій, які ми використовуємо для встановлення середнього сигналу зразка, S samp, n - кількість калібрувальних стандартів, S std - середній сигнал для калібрування стандарти,C_{std_i} і\overline{C}_{std} є індивідуальними та середніми концентраціями для стандартів калібрування. Знаючи значенняs_{C_A}, довірчий інтервал для концентрації аналіта становить
\mu_{C_A} = C_A \pm t s_{C_A} \nonumber
де\mu_{C_A} - очікуване значення С А при відсутності детермінантних похибок, а при значенні t базується на бажаному рівні довіри і n — 2 ступеня свободи.
Ретельне вивчення цих рівнянь повинно переконати вас, що ми можемо зменшити невизначеність прогнозованої концентрації аналіту,C_A якщо ми збільшимо кількість стандартівn, збільшимо кількість повторюваних зразків, які ми аналізуємоm, і якщо середній сигнал зразка, \overline{S}_{samp}, дорівнює середньому сигналу за стандартами,\overline{S}_{std}. Коли це практично, слід спланувати калібрувальну криву так, щоб S samp потрапляла посередині калібрувальної кривої. Для отримання додаткової інформації про ці рівняння регресії див. (а) Міллер, Дж. Аналітик 1991, 116, 3—14; (б) Шараф, М.А.; Іллман, Д.; Ковальський, Б.Р. Хемометрія, Wiley-Interscience: Нью-Йорк, 1986, стор. 126-127; (c) Комітет з аналітичних методів» Невизначеність концентрацій, оцінених в результаті калібрувальних експериментів», Технічний бриф КУА, березень 2006.
Рівняння стандартного відхилення в концентрації аналіта записано в терміні калібрувального експерименту. Тут наведено більш загальну форму рівняння, записаного через x і y.
s_{x} = \frac {s_r} {b_1} \sqrt{\frac {1} {m} + \frac {1} {n} + \frac {\left( \overline{Y} - \overline{y} \right)^2} {(b_1)^2 \sum_{i = 1}^{n} \left( x_i - \overline{x} \right)^2}} \nonumber
Три репліковані аналізи для зразка, який містить невідому концентрацію аналіту, дає значення для S samp 29,32, 29.16 та 29.51 (довільні одиниці). Використовуючи результати з\PageIndex{10} Example and Example\PageIndex{11}, визначити концентрацію аналіта, C A та його 95% довірчий інтервал.
Рішення
Середній сигнал становить 29.33, який, використовуючи нахил і y -перехоплення з Прикладу\PageIndex{10}, дає концентрацію аналіта як\overline{S}_{samp}
C_A = \frac {\overline{S}_{samp} - b_0} {b_1} = \frac {29.33 - 0.209} {120.706} = 0.241 \nonumber
Щоб розрахувати стандартне відхилення для концентрації аналіта, ми повинні визначити значення для\overline{S}_{std} і за\sum_{i = 1}^{2} (C_{std_i} - \overline{C}_{std})^2. Перший - це якраз середній сигнал по нормам калібрування, який, використовуючи дані в таблиці\PageIndex{10}, дорівнює 30.385. Обчислення\sum_{i = 1}^{2} (C_{std_i} - \overline{C}_{std})^2 виглядає грізним, але ми можемо спростити його обчислення, визнавши, що ця сума квадратів є чисельником у рівнянні стандартного відхилення; таким чином,
\sum_{i = 1}^{n} (C_{std_i} - \overline{C}_{std})^2 = (s_{C_{std}})^2 \times (n - 1) \nonumber
деs_{C_{std}} - стандартне відхилення для концентрації аналіту в нормах калібрування. Використовуючи дані в таблиці,\PageIndex{10} ми знаходимо, щоs_{C_{std}} це 0.1871 і
\sum_{i = 1}^{n} (C_{std_i} - \overline{C}_{std})^2 = (0.1872)^2 \times (6 - 1) = 0.175 \nonumber
Підставляємо відомі значення в рівняння дляs_{C_A} дач
s_{C_A} = \frac {0.4035} {120.706} \sqrt{\frac {1} {3} + \frac {1} {6} + \frac {(29.33 - 30.385)^2} {(120.706)^2 \times 0.175}} = 0.0024 \nonumber
Нарешті, 95% довірчий інтервал для 4 ступенів свободи
\mu_{C_A} = C_A \pm ts_{C_A} = 0.241 \pm (2.78 \times 0.0024) = 0.241 \pm 0.007 \nonumber
\PageIndex{29}На малюнку показана калібрувальна крива з кривими, що показують 95% довірчий інтервал для C A.

Оцінка регресійної моделі
Ніколи не слід приймати результат лінійного регресійного аналізу без оцінки достовірності моделі. Мабуть, найпростішим способом оцінки регресійного аналізу є вивчення залишкових помилок. Як ми бачили раніше, залишкова похибка для єдиного стандарту калібрування, r i, дорівнює
r_i = (y_i - \hat{y}_i) \nonumber
Якщо модель регресії дійсна, то залишкові помилки повинні розподілятися випадковим чином щодо середньої залишкової похибки нуля, без видимої тенденції до менших або більших залишкових помилок (рис.\PageIndex{30a}). Такі тенденції, як у малюнку\PageIndex{30b} та малюнку,\PageIndex{30c} свідчать про те, що принаймні одне з припущень моделі є неправильним. Наприклад, тенденція до більших залишкових помилок при більш високих концентраціях, Рисунок\PageIndex{30b}, свідчить про те, що невизначені помилки, що впливають на сигнал, не залежать від концентрації аналіта. На малюнку\PageIndex{30c} залишкові помилки не є випадковими, що говорить про те, що ми не можемо моделювати дані за допомогою прямолінійного співвідношення. Регресійні методи для останніх двох випадків розглядаються в наступних розділах.

Використовуйте свої результати з вправи,\PageIndex{10} щоб побудувати залишковий сюжет і пояснити його значення.
Рішення
Для створення залишкової ділянки нам потрібно обчислити залишкову похибку для кожного стандарту. Наступна таблиця містить відповідну інформацію.
x_i | y_i | \hat{y}_i | y_i - \hat{y}_i |
---|---|---|---|
\ (x_i\) ">0.000 | \ (y_i\) ">0.000 | \ (\ hat {y} _i\) ">0.0015 | \ (y_i -\ hat {y} _i\) ">—0.0015 |
\ (x_i\) ">1.55 \times 10^{-3} | \ (y_i\) ">0,050 | \ (\ hat {y} _i\) ">0.0473 | \ (y_i -\ hat {y} _i\) ">0.0027 |
\ (x_i\) ">3.16 \times 10^{-3} | \ (y_i\) ">0,093 | \ (\ hat {y} _i\) ">0.0949 | \ (y_i -\ hat {y} _i\) ">—0.0019 |
\ (x_i\) ">4.74 \times 10^{-3} | \ (y_i\) ">0.143 | \ (\ hat {y} _i\) ">0.1417 | \ (y_i -\ hat {y} _i\) ">0.0013 |
\ (x_i\) ">6.34 \times 10^{-3} | \ (y_i\) ">0.188 | \ (\ hat {y} _i\) ">0.1890 | \ (y_i -\ hat {y} _i\) ">—0,0010 |
\ (x_i\) ">7.92 \times 10^{-3} | \ (y_i\) ">0,236 | \ (\ hat {y} _i\) ">0.2357 | \ (y_i -\ hat {y} _i\) ">0.0003 |
На малюнку нижче показана схема отриманих залишкових помилок. Залишкові помилки виявляються випадковими, хоча вони чергуються за знаком, і вони не виявляють значної залежності від концентрації аналіта. Разом ці спостереження свідчать про те, що наша регресійна модель є доречною.
Зважена лінійна регресія з помилками у y
Наша обробка лінійної регресії до цього моменту передбачає, що будь-які невизначені помилки, які впливають на y, не залежать від значення x. Якщо це припущення помилкове, то ми повинні включити дисперсію для кожного значення y в наше визначення y -перехоплення, b 0, і нахилу, b 1; таким чином
b_0 = \frac {\sum_{i = 1}^{n} w_i y_i - b_1 \sum_{i = 1}^{n} w_i x_i} {n} \nonumber
b_1 = \frac {n \sum_{i = 1}^{n} w_i x_i y_i - \sum_{i = 1}^{n} w_i x_i \sum_{i = 1}^{n} w_i y_i} {n \sum_{i =1}^{n} w_i x_i^2 - \left( \sum_{i = 1}^{n} w_i x_i \right)^2} \nonumber
де w i - ваговий коефіцієнт, який враховує дисперсію в y i
w_i = \frac {n (s_{y_i})^{-2}} {\sum_{i = 1}^{n} (s_{y_i})^{-2}} \nonumber
іs_{y_i} є стандартним відхиленням для y i. У зваженій лінійній регресії внесок кожної xy -пари в лінію регресії обернено пропорційний точності y i; тобто чим точніше значення y, тим більший її внесок у регресію.
Тут наведені дані для зовнішньої стандартизації, в якій s std є стандартним відхиленням для трьох реплікаційних визначення сигналу.
C_{std}(довільні одиниці) | S_{std}(довільні одиниці) | s_{std} |
---|---|---|
\ (C_ {std}\) (довільні одиниці виміру) ">0.000 | \ (S_ {std}\) (довільні одиниці виміру) ">0.00 | \ (s_ {std}\) ">0.02 |
\ (C_ {std}\) (довільні одиниці виміру) ">0.100 | \ (S_ {std}\) (довільні одиниці виміру) ">12.36 | \ (s_ {std}\) ">0.02 |
\ (C_ {std}\) (довільні одиниці виміру) ">0.200 | \ (S_ {std}\) (довільні одиниці виміру) ">24.83 | \ (s_ {std}\) ">0.07 |
\ (C_ {std}\) (довільні одиниці виміру) ">0.300 | \ (S_ {std}\) (довільні одиниці виміру) ">35.91 | \ (s_ {std}\) ">0.13 |
\ (C_ {std}\) (довільні одиниці виміру) ">0.400 | \ (S_ {std}\) (довільні одиниці виміру) ">48.79 | \ (s_ {std}\) ">0.22 |
\ (C_ {std}\) (довільні одиниці виміру) ">0.500 | \ (S_ {std}\) (довільні одиниці виміру) ">60.42 | \ (s_ {std}\) ">0.33 |
Визначте рівняння калібрувальної кривої за допомогою зваженої лінійної регресії. Коли ви працюєте над цим прикладом, пам'ятайте, що x відповідає C std, а що y відповідає S std.
Рішення
Ми починаємо з налаштування таблиці, яка допоможе в обчисленні вагових коефіцієнтів.
C_{std}(довільні одиниці) | S_{std}(довільні одиниці) | s_{std} | (s_{y_i})^{-2} | w_i |
---|---|---|---|---|
\ (C_ {std}\) (довільні одиниці виміру) ">0.000 | \ (S_ {std}\) (довільні одиниці виміру) ">0.00 | \ (s_ {std}\) ">0.02 | \ (s_ {y_i}) ^ {-2}\) ">2500.00 | \ (w_i\) ">2.8339 |
\ (C_ {std}\) (довільні одиниці виміру) ">0.100 | \ (S_ {std}\) (довільні одиниці виміру) ">12.36 | \ (s_ {std}\) ">0.02 | \ (s_ {y_i}) ^ {-2}\) ">250.00 | \ (w_i\) ">2.8339 |
\ (C_ {std}\) (довільні одиниці виміру) ">0.200 | \ (S_ {std}\) (довільні одиниці виміру) ">24.83 | \ (s_ {std}\) ">0.07 | \ (s_ {y_i}) ^ {-2}\) ">204.08 | \ (w_i\) ">0.2313 |
\ (C_ {std}\) (довільні одиниці виміру) ">0.300 | \ (S_ {std}\) (довільні одиниці виміру) ">35.91 | \ (s_ {std}\) ">0.13 | \ (s_ {y_i}) ^ {-2}\) ">59,17 | \ (w_i\) ">0.0671 |
\ (C_ {std}\) (довільні одиниці виміру) ">0.400 | \ (S_ {std}\) (довільні одиниці виміру) ">48.79 | \ (s_ {std}\) ">0.22 | \ (s_ {y_i}) ^ {-2}\) ">20.66 | \ (w_i\) ">0.0234 |
\ (C_ {std}\) (довільні одиниці виміру) ">0.500 | \ (S_ {std}\) (довільні одиниці виміру) ">60.42 | \ (s_ {std}\) ">0.33 | \ (s_ {y_i}) ^ {-2}\) ">9.18 | \ (w_i\) ">0.0104 |
Складання значень у четвертому стовпці дає
\sum_{i = 1}^{n} (s_{y_i})^{-2} \nonumber
які ми використовуємо для обчислення окремих ваг в останньому стовпці. Як перевірки на ваших розрахунках сума окремих ваг повинна дорівнювати числу калібрувальних нормативів, n. Сума записів в останньому стовпці дорівнює 6.0000, тому все добре. Після того, як ми обчислимо окремі ваги, ми використовуємо другу таблицю, щоб допомогти в обчисленні чотирьох термінів підсумовування в рівняннях для нахилуb_1, і y -перехоплення,b_0.
x_i | y_i | w_i | w_i x_i | w_i y_i | w_i x_i^2 | w_i x_i y_i |
---|---|---|---|---|---|---|
\ (x_i\) ">0.000 | \ (y_i\) ">0.00 | \ (w_i\) ">2.8339 | \ (w_i x_i\) ">0,0000 | \ (w_i y_i\) ">0,0000 | \ (w_i x_i^2\) ">0,0000 | \ (w_i x_i y_i\) ">0,0000 |
\ (x_i\) ">0.100 | \ (y_i\) ">12,36 | \ (w_i\) ">2.8339 | \ (w_i x_i\) ">0.2834 | \ (w_i\) ">35.0270 | \ (w_i x_i^2\) ">0.0283 | \ (w_i x_i\) ">3.5027 |
\ (x_i\) ">0,200 | \ (y_i\) ">24.83 | \ (w_i\) ">0.2313 | \ (w_i x_i\) ">0.0463 | \ (w_i\) ">5.7432 | \ (w_i x_i^2\) ">0,0093 | \ (w_i x_i\) ">1.1486 |
\ (x_i\) ">0,300 | \ (y_i\) ">35.91 | \ (w_i\) ">0.0671 | \ (w_i x_i\) ">0.0201 | \ (w_i\) ">2.4096 | \ (w_i x_i^2\) ">0,0060 | \ (w_i x_i\) ">0.7229 |
\ (x_i\) ">0,400 | \ (y_i\) ">48.79 | \ (w_i\) ">0.0234 | \ (w_i x_i\) ">0,0094 | \ (w_i\) ">1.1417 | \ (w_i x_i^2\) ">0.0037 | \ (w_i x_i\) ">0,4567 |
\ (x_i\) ">0,500 | \ (y_i\) ">60.42 | \ (w_i\) ">0.0104 | \ (w_i x_i\) ">0,0052 | \ (w_i\) ">0.6284 | \ (w_i x_i^2\) ">0,0026 | \ (w_i x_i\) ">0.3142 |
Додавання значень в останніх чотирьох стовпцях дає
\sum_{i = 1}^{n} w_i x_i = 0.3644 \quad \sum_{i = 1}^{n} w_i y_i = 44.9499 \quad \sum_{i = 1}^{n} w_i x_i^2 = 0.0499 \quad \sum_{i = 1}^{n} w_i x_i y_i = 6.1451 \nonumber
який дає розрахунковий ухил і розрахунковий y -перехоплення як
b_1 = \frac {(6 \times 6.1451) - (0.3644 \times 44.9499)} {(6 \times 0.0499) - (0.3644)^2} = 122.985 \nonumber
b_0 = \frac{44.9499 - (122.985 \times 0.3644)} {6} = 0.0224 \nonumber
Рівняння калібрування
S_{std} = 122.98 \times C_{std} + 0.2 \nonumber
\PageIndex{31}На малюнку показана калібрувальна крива для зваженої регресії, визначеної тут, і калібрувальна крива для незваженої регресії. Хоча дві калібрувальні криві дуже схожі, є невеликі відмінності в нахилі та у -перехопленні. Найбільш примітно, що y -перехоплення для зваженої лінійної регресії ближче до очікуваного значення нуля. Оскільки стандартне відхилення для сигналу, S std, менше для менших концентрацій аналіту, C STD, зважена лінійна регресія надає більше уваги цим стандартам, що дозволяє краще оцінити y -перехоплення.

Рівняння для обчислення довірчих інтервалів для нахилу, y -перехоплення та концентрації аналіту при використанні зваженої лінійної регресії визначити не так просто, як для незваженої лінійної регресії [Bonate, P.J. Anal. Хім. 1993, 65, 1367—1372]. Однак довірчий інтервал для концентрації аналіта знаходиться на оптимальному значенні, коли сигнал аналіта знаходиться поблизу зважених центроїдів, y c, калібрувальної кривої.
y_c = \frac {1} {n} \sum_{i = 1}^{n} w_i x_i \nonumber
Зважена лінійна регресія з помилками в x та y
Якщо ми приберемо наше припущення, що невизначені помилки, що впливають на калібрувальну криву, присутні тільки в сигналі (y), то ми також повинні враховувати в регресійній моделі невизначені помилки, які впливають на концентрацію аналіта в стандартах калібрування (x). Рішення для результуючої лінії регресії більш задіяно, ніж для незважених або зважених ліній регресії. Хоча ми не будемо розглядати деталі в цьому підручнику, ви повинні знати, що нехтування наявністю невизначеної помилки в x може змістити результати лінійної регресії.
Див., наприклад, Комітет з аналітичних методів, «Встановлення лінійного функціонального зв'язку до даних з помилкою обох змінних», Технічний бриф КУА, березень 2002), а також додаткові ресурси цієї глави.
Криволінійна, багатоваріантна та багатоваріантна регресія
Прямолінійна регресійна модель, незважаючи на її очевидну складність, є найпростішим функціональним зв'язком між двома змінними. Що ми робимо, якщо наша калібрувальна крива криволінійна - тобто, якщо це крива, а не пряма? Один з підходів полягає в тому, щоб спробувати перетворити дані в пряму лінію. Таким чином були використані логарифми, експоненціальні, зворотні, квадратні корені та тригонометричні функції. Типовим прикладом є графік log (y) проти x. Такі перетворення не позбавлені ускладнень, з яких найбільш очевидним є те, що дані з рівномірною дисперсією в y не збережуть цю рівномірну дисперсію після її перетворення.
Тут варто відзначити, що термін «лінійний» не означає пряму. Лінійна функція може містити більше одного адитивного члена, але кожен такий термін має один і тільки один регульований мультиплікативний параметр. Функція
y = ax + bx^2 \nonumber
є прикладом лінійної функції, оскільки терміни x та x 2 містять один мультиплікативний параметр, a та b відповідно. Функція
y = x^b \nonumber
є нелінійним, оскільки b не є мультиплікативним параметром; це, натомість, потужність. Ось чому ви можете використовувати лінійну регресію, щоб пристосувати поліноміальне рівняння до ваших даних.
Іноді вдається перетворити нелінійну функцію в лінійну функцію. Наприклад, взяття журналу обох сторін нелінійної функції вище дає лінійну функцію.
\log(y) = b \log(x) \nonumber
Іншим підходом до розробки моделі лінійної регресії є пристосування поліноміального рівняння до даних, таких якy = a + b x + c x^2. Ви можете використовувати лінійну регресію для обчислення параметрів a, b та c, хоча рівняння відрізняються від рівнянь для лінійної регресії прямої. Якщо ви не можете вмістити дані за допомогою одного поліноміального рівняння, можливо, можна встановити окремі поліноміальні рівняння до коротких відрізків калібрувальної кривої. Результатом є одна безперервна калібрувальна крива, відома як сплайн-функція. Використання R для криволінійної регресії включено в главу 8.5.
Детальніше про криволінійну регресію див. (а) Шараф, М.А.; Іллман, Д.Л.; Ковальський, Б.Р. хемометрика, Wiley-Interscience: Нью-Йорк, 1986; (б) Демінг, С.Н.; Морган, С.Л. Експериментальний дизайн: Хемометричний підхід, Elsevier: Амстердам, 1987.
Регресійні моделі в цьому розділі застосовуються лише до функцій, які містять одну залежну змінну та єдину незалежну змінну. Одним із прикладів є найпростіша форма закону БеераA, в якій поглинання зразка на одній\lambda довжині хвилі залежить від концентрації одного аналіту,C_A
A_{\lambda} = \epsilon_{\lambda, A} b C_A \nonumber
де\epsilon_{\lambda, A} - молярна поглинання аналіта на обраній довжині хвилі таb довжина шляху через зразок. При наявності інтерферента, однакI, сигнал може залежати від концентрацій як аналіту, так і інтерферентного
A_{\lambda} = \epsilon_{\lambda, A} b C_A + \epsilon_{\lambda, I} b C_I \nonumber
де\epsilon_{\lambda, I} - молярна абсорбційна здатність інтерферента, а C I - концентрація інтерферента. Це приклад багатоваріантної регресії, яка більш детально висвітлюється в Главі 9, коли ми розглянемо оптимізацію експериментів, де є одна залежна змінна і дві або більше незалежних змінних.
У багатоваріантній регресії ми маємо як кілька залежних змінних, таких як поглинання зразків на двох або більше довжині хвиль, так і кілька незалежних змінних, таких як концентрації двох або більше аналітів у зразках. Як обговорювалося в розділі 0.2, ми можемо представити це за допомогою матричних позначень
\begin{bmatrix} \cdots & \cdots & \cdots \\ \vdots & A & \vdots \\ \cdots & \cdots & \cdots \end{bmatrix}_{r \times c} = \begin{bmatrix} \cdots & \cdots & \cdots \\ \vdots & \epsilon b & \vdots \\ \cdots & \cdots & \cdots \end{bmatrix}_{r \times n} \times \begin{bmatrix} \cdots & \cdots & \cdots \\ \vdots & C & \vdots \\ \cdots & \cdots & \cdots \end{bmatrix}_{n \times c} \nonumber
де єr довжини хвиль,c зразки таn аналіти. Наприклад, кожен стовпець\epsilon b матриці містить\epsilon b значення для іншого аналіту на одній зr довжин хвиль, а кожен рядокC матриці - це концентрація одного зn аналітів в одному ізc зразків. Більш докладно цей підхід ми розглянемо в главі 11.
Для приємного обговорення різниці між багатоваріантною регресією та багатоваріантною регресією див. Ідальго, Б.; Гудман, М. «Багатоваріантна або багатоваріантна регресія» Am. Громадська охорона здоров'я, 2013, 103, 39-40.