8.4: Криволінійна, багатоваріантна та багатоваріантна регресія

$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$

$\newcommand{\id}{\mathrm{id}}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\kernel}{\mathrm{null}\,}$

$\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$

$\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$

$\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\id}{\mathrm{id}}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\kernel}{\mathrm{null}\,}$

$\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$

$\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$

$\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$

Прямолінійна регресійна модель, незважаючи на її очевидну складність, є найпростішим функціональним зв'язком між двома змінними. Що ми робимо, якщо наша калібрувальна крива криволінійна - тобто, якщо це крива, а не пряма? Один з підходів полягає в тому, щоб спробувати перетворити дані в пряму лінію. Таким чином були використані логарифми, експоненціальні, зворотні, квадратні корені та тригонометричні функції. Типовим прикладом є графік log (y) проти x. Такі перетворення не позбавлені ускладнень, з яких найбільш очевидним є те, що дані з рівномірною дисперсією в y не збережуть цю рівномірну дисперсію після її перетворення.

Примітка

Тут варто відзначити, що термін «лінійний» не означає пряму. Лінійна функція може містити більше одного адитивного члена, але кожен такий термін має один і тільки один регульований мультиплікативний параметр. Функція

$y = ax + bx^2 \nonumber$

є прикладом лінійної функції, оскільки терміни x та x ² містять один мультиплікативний параметр, a та b відповідно. Функція

$y = x^b \nonumber$

є нелінійним, оскільки b не є мультиплікативним параметром; натомість це потужність. Ось чому ви можете використовувати лінійну регресію, щоб пристосувати поліноміальне рівняння до ваших даних.

Іноді можливе перетворення нелінійної функції в лінійну функцію. Наприклад, взяття журналу обох сторін нелінійної функції вище дає лінійну функцію.

$\log(y) = b \log(x) \nonumber$

Іншим підходом до розробки моделі лінійної регресії є пристосування поліноміального рівняння до даних, таких як $y = a + b x + c x^2$ . Ви можете використовувати лінійну регресію для обчислення параметрів a, b та c, хоча рівняння відрізняються від рівнянь для лінійної регресії прямої. Якщо ви не можете вмістити дані за допомогою одного поліноміального рівняння, можливо, можна встановити окремі поліноміальні рівняння до коротких відрізків калібрувальної кривої. Результатом є одна безперервна калібрувальна крива, відома як сплайн-функція. Використання R для криволінійної регресії включено до розділу 8.5.

Примітка

Детальніше про криволінійну регресію див. (а) Шараф, М.А.; Іллман, Д.Л.; Ковальський, Б.Р. хемометрика, Wiley-Interscience: Нью-Йорк, 1986; (б) Демінг, С.Н.; Морган, С.Л. Експериментальний дизайн: Хемометричний підхід, Elsevier: Амстердам, 1987.

Регресійні моделі в цьому розділі застосовуються лише до функцій, які містять одну залежну змінну та єдину незалежну змінну. Одним із прикладів є найпростіша форма закону Біра $A$ , в якій поглинання зразка на одній $\lambda$ довжині хвилі залежить від концентрації одного аналіту, $C_A$

$A_{\lambda} = \epsilon_{\lambda, A} b C_A \nonumber$

де $\epsilon_{\lambda, A}$ - молярна поглинання аналіта на обраній довжині хвилі та $b$ довжина шляху через зразок. При наявності інтерферента, однак $I$ , сигнал може залежати від концентрацій як аналіту, так і інтерферентного

$A_{\lambda} = \epsilon_{\lambda, A} b C_A + \epsilon_{\lambda, I} b C_I \nonumber$

де $\epsilon_{\lambda, I}$ - молярна абсорбційна здатність інтерферента, а C _I - концентрація інтерферента. Це приклад багатоваріантної регресії, яка більш детально розглядається в Главі 9, коли ми розглянемо оптимізацію експериментів, де є одна залежна змінна і дві або більше незалежних змінних.

Примітка

Детальніше про закон Пива див. Розділ 10 аналітичної хімії 2.1.

У багатоваріантній регресії ми маємо як кілька залежних змінних, таких як поглинання зразків на двох або більше довжині хвиль, так і кілька незалежних змінних, таких як концентрації двох або більше аналітів у зразках. Як обговорювалося в розділі 0.2, ми можемо представити це за допомогою матричних позначень

$\begin{bmatrix} \cdots & \cdots & \cdots \\ \vdots & A & \vdots \\ \cdots & \cdots & \cdots \end{bmatrix}_{r \times c} = \begin{bmatrix} \cdots & \cdots & \cdots \\ \vdots & \epsilon b & \vdots \\ \cdots & \cdots & \cdots \end{bmatrix}_{r \times n} \times \begin{bmatrix} \cdots & \cdots & \cdots \\ \vdots & C & \vdots \\ \cdots & \cdots & \cdots \end{bmatrix}_{n \times c} \nonumber$

де є $r$ довжини хвиль, $c$ зразки та $n$ аналіти. Наприклад, кожен стовпець $\epsilon b$ матриці містить $\epsilon b$ значення для іншого аналіту на одній з $r$ довжин хвиль, а кожен рядок $C$ матриці - це концентрація одного з $n$ аналітів в одному із $c$ зразків. Більш детально цей підхід ми розглянемо в главі 11.

Примітка

Для приємного обговорення різниці між багатоваріантною регресією та багатоваріантною регресією див. Ідальго, Б.; Гудман, М. «Багатоваріантна або багатоваріантна регресія» Am. Громадська охорона здоров'я, 2013, 103, 39-40.