5.6: Використання Excel і R для лінійної регресії
- Page ID
- 24953
Хоча розрахунки в цьому розділі відносно прості - складаються, як вони роблять, в основному з підсумовувань - важко працювати через проблеми, використовуючи не що інше, як калькулятор. І Excel, і R включають функції для завершення лінійного регресійного аналізу та візуальної оцінки отриманої моделі.
Excel
Давайте використаємо Excel для розміщення наступної прямолінійної моделі до даних у прикладі 5.4.1.
\[y = \beta_0 + \beta_1 x \nonumber\]
Введіть дані в електронну таблицю, як показано на малюнку Template:index. Залежно від ваших потреб, існує багато способів використання Excel для завершення лінійного регресійного аналізу. Тут ми розглянемо три підходи.
Використання вбудованих функцій Excel
Якщо все, що вам потрібно, це значення для нахилу\(\beta_1\), і y -перехоплення\(\beta_0\), ви можете скористатися наступними функціями:
= перехоплення (відомий_у, відомий_х)
= нахил (відомий_у, відомий_х)
де known_y's - діапазон комірок, що містять сигнали (y), а known_x - діапазон комірок, що містять концентрації (x). Наприклад, якщо натиснути на порожню клітинку і ввести
= нахил (B2: B7, A2: A7)
Excel повертає точний розрахунок для нахилу (120.705 714 3).
Використання інструментів аналізу даних Excel
Для отримання нахилу і y -перехоплення, поряд з додатковими статистичними деталями, ви можете використовувати інструменти аналізу даних в Data Analysis ToolPak. ToolPak не є стандартною частиною закапування Excel. Щоб дізнатися, чи є у вас доступ до Analysis ToolPak на вашому комп'ютері, виберіть Інструменти в рядку меню та знайдіть аналіз даних... варіант. Якщо ви не бачите Аналіз даних... , виберіть Надбудови... з меню Інструменти. Поставте прапорець для Analysis ToolPak і натисніть кнопку OK, щоб встановити їх.
Виберіть Аналіз даних... з меню Інструменти, яке відкриває вікно Аналіз даних. Прокрутіть вікно, виберіть пункт «Регресія» з доступних параметрів і натисніть OK. Помістіть курсор у поле для вхідного діапазону Y, а потім клацніть і перетягніть на комірки B1: B7. Помістіть курсор у поле для вхідного діапазону X і клацніть і перетягніть на комірки A1: A7. Оскільки комірки A1 та B1 містять мітки, встановіть прапорець Мітки.
Включення етикеток - хороша ідея. Підсумковий висновок Excel використовує мітку осі x для ідентифікації нахилу.
Виберіть перемикач для Діапазон виводу та натисніть будь-яку порожню комірку; саме тут Excel розмістить результати. Натискання кнопки OK генерує інформацію, показану на малюнку Template:index.
Існує три частини резюме регресійного аналізу Excel. У верхній частині Figure Template:index знаходиться таблиця статистики регресії. Стандартна похибка - це стандартне відхилення про регресію, s r. Також інтерес представляє значення для Multiple R, який є коефіцієнтом кореляції моделі, r, термін, з яким ви, можливо, вже знайомі. Коефіцієнт кореляції є мірою ступеня, в якій регресійна модель пояснює варіацію у. Значення r знаходяться в діапазоні від —1 до +1. Чим ближче коефіцієнт кореляції до ± 1, тим краще модель пояснює дані. Коефіцієнт кореляції 0 означає відсутність зв'язку між x і y. При розробці розрахунків для лінійної регресії ми не розглядали коефіцієнт кореляції. Для цього є причина. Для більшості прямолінійних калібрувальних кривих коефіцієнт кореляції дуже близький до +1, як правило, 0,99 або вище. Існує тенденція, однак, занадто багато віри в значення коефіцієнта кореляції, і припустити, що r більше 0,99 означає, що лінійна регресійна модель є доречною. Рисунок Template:index надає корисний приклад лічильника. Хоча лінія регресії має коефіцієнт кореляції 0,993, дані явно криволінійні. Заняття на дому тут просте: не закохуйтеся в коефіцієнт кореляції!
Друга таблиця на рисунку Template:index має назву ANOVA, що розшифровується як аналіз дисперсії. Ми детальніше розглянемо ANOVA в главі 14. Наразі достатньо зрозуміти, що ця частина резюме Excel надає інформацію про те, чи пояснює модель лінійної регресії значну частину варіації значень y. Значення для F є результатом F -тесту наступних нульових і альтернативних гіпотез.
H 0: регресійна модель не пояснює варіації у
H A: регресійна модель пояснює варіацію у
Значення в стовпці Значення F - це ймовірність збереження нульової гіпотези. У цьому прикладі ймовірність є\(2.5 \times 10^{-6}\%\), що є вагомим доказом для прийняття регресійної моделі. Як і у випадку з коефіцієнтом кореляції, невелике значення ймовірності є ймовірним результатом для будь-якої калібрувальної кривої, навіть коли модель недоречна. Імовірність збереження нульової гіпотези для даних на рисунку Template:index, наприклад, є\(9.0 \times 10^{-7}\%\).
Див. Розділ 4.6 для огляду F-тесту.
Третя таблиця на рисунку Template:index містить резюме самої моделі. Значення коефіцієнтів моделі - нахил та y -перехоплення\(\beta_1\),\(\beta_0\) - ідентифікуються як перехоплення та з вашою міткою для даних осі x, що у цьому прикладі є C std. Стандартні відхилення для коефіцієнтів,\(s_{b_0}\) а\(s_{b_1}\), знаходяться в графі з маркуванням Стандартна похибка. Стовпець t Stat і стовпчик P-значення призначені для наступних t -тестів.
нахил:\(H_0 \text{: } \beta_1 = 0 \quad H_A \text{: } \beta_1 \neq 0\)
y -перехоплення:\(H_0 \text{: } \beta_0 = 0 \quad H_A \text{: } \beta_0 \neq 0\)
Результати цих t -тестів дають переконливі докази того, що нахил не дорівнює нулю, але немає доказів того, що y -перехоплення істотно відрізняється від нуля. Також показані 95% довірчих інтервалів для нахилу та перехоплення y (нижні 95% та верхні 95%).
Див. Розділ 4.6 для огляду на t -тест.
Програмування формул самостійно
Третій підхід до завершення регресійного аналізу полягає в програмуванні електронної таблиці за допомогою вбудованої формули Excel для підсумовування
= сума (перша комірка: остання комірка)
і його здатність аналізувати математичні рівняння. Отриману електронну таблицю показано на рисунку Template:index.
Використання Excel для візуалізації моделі регресії
Ви можете використовувати Excel для вивчення даних та лінії регресії. Почніть з побудови графіка даних. Організуйте свої дані у два стовпці, розміщуючи значення x у крайньому лівому стовпці. Клацніть і перетягніть вказівник миші на дані і виберіть Діаграми на стрічці. Виберіть Scatter, вибравши опцію без ліній, що з'єднують точки. Щоб додати лінію регресії до діаграми, натисніть на дані діаграми та виберіть Діаграма: Додати лінію тренду... від головних чоловіків. Виберіть модель прямолінійної лінії та натисніть кнопку OK, щоб додати лінію до діаграми. За замовчуванням Excel відображає лінію регресії від першої точки до останньої точки. Рисунок Template:index показує результат для даних на малюнку Template:index.
Excel також створить графік залишкових помилок моделі регресії. Щоб створити графік, побудуйте регресійну модель за допомогою програми Analysis ToolPak, як описано раніше. Натискання на опцію Залишкові ділянки створює графік, показаний на малюнку Template:index.
Обмеження використання Excel для регресійного аналізу
Найбільше обмеження Excel для регресійного аналізу полягає в тому, що він не надає функції для обчислення невизначеності при прогнозуванні значень x. З точки зору цієї глави, Excel не може обчислити невизначеність для концентрації аналіта, C A, враховуючи сигнал для зразка, S samp. Ще одне обмеження полягає в тому, що Excel не має вбудованої функції для зваженої лінійної регресії. Однак ви можете запрограмувати електронну таблицю для обробки цих розрахунків.
Використовуйте Excel для завершення регресійного аналізу у вправі 5.4.1.
- Відповідь
-
Почніть з введення даних в електронну таблицю Excel, дотримуючись формату, показаного на малюнку Template:index. Оскільки інструменти аналізу даних Excel надають більшу частину необхідної нам інформації, ми будемо використовувати її тут. Отриманий результат, який показаний нижче, забезпечує нахил і y -перехоплення разом з відповідними 95% довірчих інтервалів.
Excel не надає функції для обчислення невизначеності в концентрації аналіта, C A, враховуючи сигнал для зразка, S samp. Ви повинні виконати ці розрахунки вручну. З S samp 0,114, ми знаходимо, що C A
\[C_A = \frac {S_{samp} - b_0} {b_1} = \frac {0.114 - 0.0014} {29.59 \text{ M}^{-1}} = 3.80 \times 10^{-3} \text{ M} \nonumber\]
Стандартне відхилення в С А дорівнює
\[s_{C_A} = \frac {1.996 \times 10^{-3}} {29.59} \sqrt{\frac {1} {3} + \frac {1} {6} + \frac {(0.114 - 0.1183)^2} {(29.59)^2 \times 4.408 \times 10^{-5})}} = 4.772 \times 10^{-5} \nonumber\]
і 95% довіри інтервал
\[\mu = C_A \pm ts_{C_A} = 3.80 \times 10^{-3} \pm \{2.78 \times (4.772 \times 10^{-5}) \} \nonumber\]
\[\mu = 3.80 \times 10^{-3} \text{ M} \pm 0.13 \times 10^{-3} \text{ M} \nonumber\]
Р
Давайте використаємо R, щоб пристосувати наступну прямолінійну модель до даних у прикладі 5.4.1.
\[y = \beta_0 + \beta_1 x \nonumber\]
Введення даних і створення регресійної моделі
Для початку створіть об'єкти, які містять концентрацію стандартів і відповідні їм сигнали.
> конц = с (0, 0,1, 0,2, 0,3, 0,4, 0,5)
> сигнал = c (0, 12.36, 24.83, 35.91, 48.79, 60.42)
Командою для прямолінійної лінійної моделі регресії є
лм (у ~ х)
де y і x - об'єкти об'єктів наших даних. Щоб отримати доступ до результатів регресійного аналізу, ми присвоюємо їх об'єкту за допомогою наступної команди
> модель = лм (сигнал ~ конк)
де model - назва, яку ми присвоюємо об'єкту.
Як неважко здогадатися, lm є коротким для лінійної моделі.
Ви можете вибрати будь-яку назву об'єкта, який містить результати регресійного аналізу.
Оцінка моделі лінійної регресії
Для оцінки результатів лінійної регресії нам потрібно вивчити дані та лінію регресії, а також переглянути статистичне резюме моделі. Для вивчення наших даних і рядка регресії ми використовуємо команду plot, яка приймає наступний загальний вигляд
сюжет (x, y, необов'язкові аргументи для керування стилем)
де x і y - об'єкти, які містять наші дані, і команда abline
abline (об'єкт, необов'язкові аргументи для керування стилем)
де об'єкт - об'єкт, який містить результати лінійної регресії. введення команд
> сюжет (conc, сигнал, pch = 19, col = «синій», cex = 2)
> abline (модель, col = «червоний»)
створює графік, показаний на малюнку Template:index.
Для перегляду статистичного зведення регресійної моделі ми використовуємо команду summary.
> резюме (модель)
Отриманий результат, показаний на рисунку Template:index, містить три розділи.
У першому розділі резюме R регресійної моделі наведено залишкові помилки. Щоб вивчити графік залишкових помилок, скористайтеся командою
> сюжет (модель, яка = 1)
який дає результат, показаний на малюнку Template:index. Зауважте, що R відображає залишки відносно прогнозованих (пристосованих) значень y замість відомих значень x. Вибір способу побудови залишків не є критичним, як ви можете бачити, порівнявши рисунок Template:index з рисунком Template:index. Рядок на рисунку Template:index є згладженим приляганням залишків.
Причина включення аргументу, який = 1, очевидна не відразу. Коли ви використовуєте команду графіка R на об'єкті, створеному командою lm, за замовчуванням створюється чотири діаграми, що підсумовують придатність моделі. Першою з цих діаграм є залишковий графік; таким чином, який = 1 обмежує вихід на цей графік.
Другий розділ Figure Template:index надає коефіцієнти моделі - нахил\(\beta_1\), і y -перехоплення,\(\beta_0\) - разом з відповідними стандартними відхиленнями (Std. Помилка). Значення стовпця t та стовпчик Pr (>|t|) призначені для наступних t -тестів.
нахил:\(H_0 \text{: } \beta_1 = 0 \quad H_A \text{: } \beta_1 \neq 0\)
y -перехоплення:\(H_0 \text{: } \beta_0 = 0 \quad H_A \text{: } \beta_0 \neq 0\)
Результати цих t-тестів дають переконливі докази того, що нахил не дорівнює нулю, але немає доказів того, що y -перехоплення значно відрізняється від нуля.
Останній розділ регресійного резюме містить стандартне відхилення щодо регресії (залишкова стандартна похибка), квадрат коефіцієнта кореляції (кратний R-квадрат) та результат F -тесту на здатність моделі пояснити варіацію Y значення. Для обговорення коефіцієнта кореляції та F -тесту регресійної моделі, а також їх обмежень зверніться до розділу, присвяченого використанню інструментів аналізу даних Excel.
Прогнозування невизначеності в\(C_A\) заданому\(S_{samp}\)
На відміну від Excel, R включає команду для прогнозування невизначеності в концентрації аналіта, C A, враховуючи сигнал для зразка, S samp. Ця команда не є частиною стандартної установки R. Для використання команди потрібно встановити пакет «ChemCal», ввівши наступну команду (зверніть увагу: для завантаження пакета вам знадобиться підключення до Інтернету).
> встановити.пакети («ChemCal»)
Після установки пакета потрібно завантажити функції в R за допомогою наступної команди. (Примітка: вам потрібно буде робити цей крок кожного разу, коли ви починаєте новий сеанс R, оскільки пакет не завантажується автоматично при запуску R).
> бібліотека («ChemCal»)
Вам потрібно встановити пакет один раз, але завантажувати пакет потрібно кожен раз, коли ви плануєте його використовувати. Існують способи налаштувати R так, щоб він автоматично завантажував певні пакунки; див. розділ Вступ до R для отримання додаткової інформації (натисніть тут, щоб переглянути PDF-версію цього документа).
Команда прогнозування невизначеності в C A є inverse.predict, яка приймає наступний вигляд для незваженої лінійної регресії
inverse.predict (об'єкт, нові дані, альфа = значення)
де об'єкт - об'єкт, який містить результати регресійної моделі, new-data - це об'єкт, який містить значення для S samp, а значення - числове значення рівня значущості. Давайте використаємо цю команду для завершення Приклад 5.4.3. Спочатку ми створюємо об'єкт, який містить значення S samp
> зразок = с (29.32, 29.16, 29.51)
а потім ми завершуємо обчислення за допомогою наступної команди
> inverse.predict (модель, зразок, альфа = 0,05)
отримання результату, показаного на малюнку Template:index. Концентрація аналіта, C A, задається значенням $Прогнозування, а його стандартне відхилення показано як $`Standard Error`.\(s_{C_A}\) Значенням $Confidence є довірчий інтервал\(\pm t s_{C_A}\), для концентрації аналіта, а $`Confidence Limits` забезпечує нижню і верхню межу довірчого інтервалу для C A.
Використання R для зважених лінійних регресій
Команда R для незваженої лінійної регресії також дозволяє зважену лінійну регресію, якщо ми включимо додатковий аргумент, ваги, значення якого є об'єктом, який містить ваги.
лм (у ~ х, ваги = об'єкт)
Давайте використаємо цю команду для завершення Приклад 5.4.4. Спочатку нам потрібно створити об'єкт, який містить ваги, які в R є зворотними стандартними відхиленнями у y,\((s_{y_i})^{-2}\). Використовуючи дані з прикладу 5.4.4, вводимо
> syi=c (0,02, 0,02, 0,07, 0,13, 0,22, 0,33)
> ш = 1/syi^2
для створення об'єкта, що містить ваги. Команди
> modelw = лм (сигнал ~ conc, ваги = w)
> резюме (моделі)
згенерувати результат, показаний на малюнку Template:index. Будь-яка різниця між показаними тут результатами та результатами, показаними в прикладі 5.4.4, є результатом помилок округлення в наших попередніх розрахунках.
Можливо, ви помітили, що цей спосіб визначення ваг відрізняється від того, який показаний у Рівнянні 5.4.15. При отриманні рівнянь для зваженої лінійної регресії ви можете вибрати нормалізацію суми ваг так, щоб вона дорівнювала кількості точок, або ви можете вибрати не так — алгоритм у R не нормалізує ваги.
Використовуйте R для завершення регресійного аналізу у вправі 5.4.1.
- Відповідь
-
На малюнку нижче показано сеанс R для цієї проблеми, включаючи завантаження пакета ChemCal, створення об'єктів для зберігання значень для C std, S std та S samp. Зверніть увагу, що для S samp у нас немає фактичних значень для трьох повторюваних вимірювань. На місці фактичних вимірювань просто три рази вводимо середній сигнал. Це нормально, тому що розрахунок залежить від середнього сигналу і кількості реплікацій, а не від окремих вимірювань.