Skip to main content
LibreTexts - Ukrayinska

5.6: Використання Excel і R для лінійної регресії

  • Page ID
    24953
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Хоча розрахунки в цьому розділі відносно прості - складаються, як вони роблять, в основному з підсумовувань - важко працювати через проблеми, використовуючи не що інше, як калькулятор. І Excel, і R включають функції для завершення лінійного регресійного аналізу та візуальної оцінки отриманої моделі.

    Excel

    Давайте використаємо Excel для розміщення наступної прямолінійної моделі до даних у прикладі 5.4.1.

    \[y = \beta_0 + \beta_1 x \nonumber\]

    Введіть дані в електронну таблицю, як показано на малюнку Template:index. Залежно від ваших потреб, існує багато способів використання Excel для завершення лінійного регресійного аналізу. Тут ми розглянемо три підходи.

    Таблиця читається наступним чином: для порядку від А1 до А7 значення становлять Cstd, 0.000, 0.100, 0.200, 0.300, 0.400 і 0.500. Для порядку від В1 до В7 значення Sstd, 0,00, 12,36, 24,83, 35,91, 48,79 та 60,42.
    Рисунок Template:index: Частина електронної таблиці, що містить дані з прикладу 5.4.1 (Cstd = C std; Sstd = S std).

    Використання вбудованих функцій Excel

    Якщо все, що вам потрібно, це значення для нахилу\(\beta_1\), і y -перехоплення\(\beta_0\), ви можете скористатися наступними функціями:

    = перехоплення (відомий_у, відомий_х)

    = нахил (відомий_у, відомий_х)

    де known_y's - діапазон комірок, що містять сигнали (y), а known_x - діапазон комірок, що містять концентрації (x). Наприклад, якщо натиснути на порожню клітинку і ввести

    = нахил (B2: B7, A2: A7)

    Excel повертає точний розрахунок для нахилу (120.705 714 3).

    Використання інструментів аналізу даних Excel

    Для отримання нахилу і y -перехоплення, поряд з додатковими статистичними деталями, ви можете використовувати інструменти аналізу даних в Data Analysis ToolPak. ToolPak не є стандартною частиною закапування Excel. Щоб дізнатися, чи є у вас доступ до Analysis ToolPak на вашому комп'ютері, виберіть Інструменти в рядку меню та знайдіть аналіз даних... варіант. Якщо ви не бачите Аналіз даних... , виберіть Надбудови... з меню Інструменти. Поставте прапорець для Analysis ToolPak і натисніть кнопку OK, щоб встановити їх.

    Виберіть Аналіз даних... з меню Інструменти, яке відкриває вікно Аналіз даних. Прокрутіть вікно, виберіть пункт «Регресія» з доступних параметрів і натисніть OK. Помістіть курсор у поле для вхідного діапазону Y, а потім клацніть і перетягніть на комірки B1: B7. Помістіть курсор у поле для вхідного діапазону X і клацніть і перетягніть на комірки A1: A7. Оскільки комірки A1 та B1 містять мітки, встановіть прапорець Мітки.

    Включення етикеток - хороша ідея. Підсумковий висновок Excel використовує мітку осі x для ідентифікації нахилу.

    Виберіть перемикач для Діапазон виводу та натисніть будь-яку порожню комірку; саме тут Excel розмістить результати. Натискання кнопки OK генерує інформацію, показану на малюнку Template:index.

    Малюнок 5.16 PNG
    Рисунок Template:index: Вивід команди регресії Excel в інструментарій аналізу. Дивіться текст для обговорення того, як інтерпретувати інформацію в цих таблицях.

    Існує три частини резюме регресійного аналізу Excel. У верхній частині Figure Template:index знаходиться таблиця статистики регресії. Стандартна похибка - це стандартне відхилення про регресію, s r. Також інтерес представляє значення для Multiple R, який є коефіцієнтом кореляції моделі, r, термін, з яким ви, можливо, вже знайомі. Коефіцієнт кореляції є мірою ступеня, в якій регресійна модель пояснює варіацію у. Значення r знаходяться в діапазоні від —1 до +1. Чим ближче коефіцієнт кореляції до ± 1, тим краще модель пояснює дані. Коефіцієнт кореляції 0 означає відсутність зв'язку між x і y. При розробці розрахунків для лінійної регресії ми не розглядали коефіцієнт кореляції. Для цього є причина. Для більшості прямолінійних калібрувальних кривих коефіцієнт кореляції дуже близький до +1, як правило, 0,99 або вище. Існує тенденція, однак, занадто багато віри в значення коефіцієнта кореляції, і припустити, що r більше 0,99 означає, що лінійна регресійна модель є доречною. Рисунок Template:index надає корисний приклад лічильника. Хоча лінія регресії має коефіцієнт кореляції 0,993, дані явно криволінійні. Заняття на дому тут просте: не закохуйтеся в коефіцієнт кореляції!

    Рисунок Template:index: Приклад підгонки прямої лінії (червоним кольором) до криволінійних даних (синім кольором).

    Друга таблиця на рисунку Template:index має назву ANOVA, що розшифровується як аналіз дисперсії. Ми детальніше розглянемо ANOVA в главі 14. Наразі достатньо зрозуміти, що ця частина резюме Excel надає інформацію про те, чи пояснює модель лінійної регресії значну частину варіації значень y. Значення для F є результатом F -тесту наступних нульових і альтернативних гіпотез.

    H 0: регресійна модель не пояснює варіації у

    H A: регресійна модель пояснює варіацію у

    Значення в стовпці Значення F - це ймовірність збереження нульової гіпотези. У цьому прикладі ймовірність є\(2.5 \times 10^{-6}\%\), що є вагомим доказом для прийняття регресійної моделі. Як і у випадку з коефіцієнтом кореляції, невелике значення ймовірності є ймовірним результатом для будь-якої калібрувальної кривої, навіть коли модель недоречна. Імовірність збереження нульової гіпотези для даних на рисунку Template:index, наприклад, є\(9.0 \times 10^{-7}\%\).

    Див. Розділ 4.6 для огляду F-тесту.

    Третя таблиця на рисунку Template:index містить резюме самої моделі. Значення коефіцієнтів моделі - нахил та y -перехоплення\(\beta_1\),\(\beta_0\) - ідентифікуються як перехоплення та з вашою міткою для даних осі x, що у цьому прикладі є C std. Стандартні відхилення для коефіцієнтів,\(s_{b_0}\) а\(s_{b_1}\), знаходяться в графі з маркуванням Стандартна похибка. Стовпець t Stat і стовпчик P-значення призначені для наступних t -тестів.

    нахил:\(H_0 \text{: } \beta_1 = 0 \quad H_A \text{: } \beta_1 \neq 0\)

    y -перехоплення:\(H_0 \text{: } \beta_0 = 0 \quad H_A \text{: } \beta_0 \neq 0\)

    Результати цих t -тестів дають переконливі докази того, що нахил не дорівнює нулю, але немає доказів того, що y -перехоплення істотно відрізняється від нуля. Також показані 95% довірчих інтервалів для нахилу та перехоплення y (нижні 95% та верхні 95%).

    Див. Розділ 4.6 для огляду на t -тест.

    Програмування формул самостійно

    Третій підхід до завершення регресійного аналізу полягає в програмуванні електронної таблиці за допомогою вбудованої формули Excel для підсумовування

    = сума (перша комірка: остання комірка)

    і його здатність аналізувати математичні рівняння. Отриману електронну таблицю показано на рисунку Template:index.

    Знімок екрана 2019-01-21 о 13.24.09 PM.png
    Рисунок Template:index: Електронна таблиця, що показує формули для обчислення нахилу та перехоплення y для даних у прикладі 5.4.1. Затінені комірки містять формули, які ви повинні ввести. Введіть формули в осередки C3 до C7, а комірки від D3 до D7. Далі вводимо формули для осередків від А9 до D9. Нарешті, введіть формули в комірки F2 та F3. При введенні формули Excel замінює її отриманим розрахунком. Значення в цих комірках повинні узгоджуватися з результатами в прикладі 5.4.1. Спростити введення формул можна шляхом копіювання і вставки. Наприклад, введіть формулу в осередок C2. Виберіть Редагувати: Скопіювати, клацніть і перетягніть курсор на клітинки C3 до C7 і виберіть Редагувати: Вставити. Excel автоматично оновлює посилання на комірки.

    Використання Excel для візуалізації моделі регресії

    Ви можете використовувати Excel для вивчення даних та лінії регресії. Почніть з побудови графіка даних. Організуйте свої дані у два стовпці, розміщуючи значення x у крайньому лівому стовпці. Клацніть і перетягніть вказівник миші на дані і виберіть Діаграми на стрічці. Виберіть Scatter, вибравши опцію без ліній, що з'єднують точки. Щоб додати лінію регресії до діаграми, натисніть на дані діаграми та виберіть Діаграма: Додати лінію тренду... від головних чоловіків. Виберіть модель прямолінійної лінії та натисніть кнопку OK, щоб додати лінію до діаграми. За замовчуванням Excel відображає лінію регресії від першої точки до останньої точки. Рисунок Template:index показує результат для даних на малюнку Template:index.

    Рисунок Template:index: Приклад графіка розсіювання Excel, що показує дані та лінію регресії.

    Excel також створить графік залишкових помилок моделі регресії. Щоб створити графік, побудуйте регресійну модель за допомогою програми Analysis ToolPak, як описано раніше. Натискання на опцію Залишкові ділянки створює графік, показаний на малюнку Template:index.

    Рисунок Template:index: Приклад графіка Excel залишкових помилок регресійної моделі.

    Обмеження використання Excel для регресійного аналізу

    Найбільше обмеження Excel для регресійного аналізу полягає в тому, що він не надає функції для обчислення невизначеності при прогнозуванні значень x. З точки зору цієї глави, Excel не може обчислити невизначеність для концентрації аналіта, C A, враховуючи сигнал для зразка, S samp. Ще одне обмеження полягає в тому, що Excel не має вбудованої функції для зваженої лінійної регресії. Однак ви можете запрограмувати електронну таблицю для обробки цих розрахунків.

    Вправа Template:index

    Використовуйте Excel для завершення регресійного аналізу у вправі 5.4.1.

    Відповідь

    Почніть з введення даних в електронну таблицю Excel, дотримуючись формату, показаного на малюнку Template:index. Оскільки інструменти аналізу даних Excel надають більшу частину необхідної нам інформації, ми будемо використовувати її тут. Отриманий результат, який показаний нижче, забезпечує нахил і y -перехоплення разом з відповідними 95% довірчих інтервалів.

    Excel не надає функції для обчислення невизначеності в концентрації аналіта, C A, враховуючи сигнал для зразка, S samp. Ви повинні виконати ці розрахунки вручну. З S samp 0,114, ми знаходимо, що C A

    \[C_A = \frac {S_{samp} - b_0} {b_1} = \frac {0.114 - 0.0014} {29.59 \text{ M}^{-1}} = 3.80 \times 10^{-3} \text{ M} \nonumber\]

    Стандартне відхилення в С А дорівнює

    \[s_{C_A} = \frac {1.996 \times 10^{-3}} {29.59} \sqrt{\frac {1} {3} + \frac {1} {6} + \frac {(0.114 - 0.1183)^2} {(29.59)^2 \times 4.408 \times 10^{-5})}} = 4.772 \times 10^{-5} \nonumber\]

    і 95% довіри інтервал

    \[\mu = C_A \pm ts_{C_A} = 3.80 \times 10^{-3} \pm \{2.78 \times (4.772 \times 10^{-5}) \} \nonumber\]

    \[\mu = 3.80 \times 10^{-3} \text{ M} \pm 0.13 \times 10^{-3} \text{ M} \nonumber\]

    Р

    Давайте використаємо R, щоб пристосувати наступну прямолінійну модель до даних у прикладі 5.4.1.

    \[y = \beta_0 + \beta_1 x \nonumber\]

    Введення даних і створення регресійної моделі

    Для початку створіть об'єкти, які містять концентрацію стандартів і відповідні їм сигнали.

    > конц = с (0, 0,1, 0,2, 0,3, 0,4, 0,5)

    > сигнал = c (0, 12.36, 24.83, 35.91, 48.79, 60.42)

    Командою для прямолінійної лінійної моделі регресії є

    лм (у ~ х)

    де y і x - об'єкти об'єктів наших даних. Щоб отримати доступ до результатів регресійного аналізу, ми присвоюємо їх об'єкту за допомогою наступної команди

    > модель = лм (сигнал ~ конк)

    де model - назва, яку ми присвоюємо об'єкту.

    Як неважко здогадатися, lm є коротким для лінійної моделі.

    Ви можете вибрати будь-яку назву об'єкта, який містить результати регресійного аналізу.

    Оцінка моделі лінійної регресії

    Для оцінки результатів лінійної регресії нам потрібно вивчити дані та лінію регресії, а також переглянути статистичне резюме моделі. Для вивчення наших даних і рядка регресії ми використовуємо команду plot, яка приймає наступний загальний вигляд

    сюжет (x, y, необов'язкові аргументи для керування стилем)

    де x і y - об'єкти, які містять наші дані, і команда abline

    abline (об'єкт, необов'язкові аргументи для керування стилем)

    де об'єкт - об'єкт, який містить результати лінійної регресії. введення команд

    > сюжет (conc, сигнал, pch = 19, col = «синій», cex = 2)

    > abline (модель, col = «червоний»)

    створює графік, показаний на малюнку Template:index.

    Графік, що показує лінійне збільшення сигналу при збільшенні концентрації.
    Рисунок Template:index: Приклад графіка регресії в R, що показує дані (синім кольором) та лінію регресії (червоним кольором). Ви можете налаштувати графік, скоригувавши необов'язкові аргументи команди plot. Наприклад, аргумент pch керує символом, який використовується для побудови точок, аргумент col дозволяє вибрати колір для точок або лінії, а аргумент cex встановлює розмір для точок. Ви можете скористатися командою help (plot), щоб дізнатися більше про варіанти побудови даних в R.

    Для перегляду статистичного зведення регресійної моделі ми використовуємо команду summary.

    > резюме (модель)

    Отриманий результат, показаний на рисунку Template:index, містить три розділи.

    Рисунок Template:index: Підсумок регресійного аналізу R. Дивіться текст для обговорення того, як інтерпретувати інформацію в трьох розділах вихідних даних.

    У першому розділі резюме R регресійної моделі наведено залишкові помилки. Щоб вивчити графік залишкових помилок, скористайтеся командою

    > сюжет (модель, яка = 1)

    який дає результат, показаний на малюнку Template:index. Зауважте, що R відображає залишки відносно прогнозованих (пристосованих) значень y замість відомих значень x. Вибір способу побудови залишків не є критичним, як ви можете бачити, порівнявши рисунок Template:index з рисунком Template:index. Рядок на рисунку Template:index є згладженим приляганням залишків.

    Причина включення аргументу, який = 1, очевидна не відразу. Коли ви використовуєте команду графіка R на об'єкті, створеному командою lm, за замовчуванням створюється чотири діаграми, що підсумовують придатність моделі. Першою з цих діаграм є залишковий графік; таким чином, який = 1 обмежує вихід на цей графік.

    Графік, що показує встановлені значення lm (signal~conc) на горизонтальній осі та залишки на вертикальній осі.
    Рисунок Template:index: Приклад, що показує графік R залишкової помилки регресійної моделі.

    Другий розділ Figure Template:index надає коефіцієнти моделі - нахил\(\beta_1\), і y -перехоплення,\(\beta_0\) - разом з відповідними стандартними відхиленнями (Std. Помилка). Значення стовпця t та стовпчик Pr (>|t|) призначені для наступних t -тестів.

    нахил:\(H_0 \text{: } \beta_1 = 0 \quad H_A \text{: } \beta_1 \neq 0\)

    y -перехоплення:\(H_0 \text{: } \beta_0 = 0 \quad H_A \text{: } \beta_0 \neq 0\)

    Результати цих t-тестів дають переконливі докази того, що нахил не дорівнює нулю, але немає доказів того, що y -перехоплення значно відрізняється від нуля.

    Останній розділ регресійного резюме містить стандартне відхилення щодо регресії (залишкова стандартна похибка), квадрат коефіцієнта кореляції (кратний R-квадрат) та результат F -тесту на здатність моделі пояснити варіацію Y значення. Для обговорення коефіцієнта кореляції та F -тесту регресійної моделі, а також їх обмежень зверніться до розділу, присвяченого використанню інструментів аналізу даних Excel.

    Прогнозування невизначеності в\(C_A\) заданому\(S_{samp}\)

    На відміну від Excel, R включає команду для прогнозування невизначеності в концентрації аналіта, C A, враховуючи сигнал для зразка, S samp. Ця команда не є частиною стандартної установки R. Для використання команди потрібно встановити пакет «ChemCal», ввівши наступну команду (зверніть увагу: для завантаження пакета вам знадобиться підключення до Інтернету).

    > встановити.пакети («ChemCal»)

    Після установки пакета потрібно завантажити функції в R за допомогою наступної команди. (Примітка: вам потрібно буде робити цей крок кожного разу, коли ви починаєте новий сеанс R, оскільки пакет не завантажується автоматично при запуску R).

    > бібліотека («ChemCal»)

    Вам потрібно встановити пакет один раз, але завантажувати пакет потрібно кожен раз, коли ви плануєте його використовувати. Існують способи налаштувати R так, щоб він автоматично завантажував певні пакунки; див. розділ Вступ до R для отримання додаткової інформації (натисніть тут, щоб переглянути PDF-версію цього документа).

    Команда прогнозування невизначеності в C A є inverse.predict, яка приймає наступний вигляд для незваженої лінійної регресії

    inverse.predict (об'єкт, нові дані, альфа = значення)

    де об'єкт - об'єкт, який містить результати регресійної моделі, new-data - це об'єкт, який містить значення для S samp, а значення - числове значення рівня значущості. Давайте використаємо цю команду для завершення Приклад 5.4.3. Спочатку ми створюємо об'єкт, який містить значення S samp

    > зразок = с (29.32, 29.16, 29.51)

    а потім ми завершуємо обчислення за допомогою наступної команди

    > inverse.predict (модель, зразок, альфа = 0,05)

    отримання результату, показаного на малюнку Template:index. Концентрація аналіта, C A, задається значенням $Прогнозування, а його стандартне відхилення показано як $`Standard Error`.\(s_{C_A}\) Значенням $Confidence є довірчий інтервал\(\pm t s_{C_A}\), для концентрації аналіта, а $`Confidence Limits` забезпечує нижню і верхню межу довірчого інтервалу для C A.

    R екран, який говоритьinverse.predict (модель, зразок, альфа = 0.05); $ Прогноз; [1] 0.2412597; $ `Стандартна помилка`; [1] 0.002363588; $ Впевненість; [1] 0.006562373; $ `межі довіри`; [1] 0.2346974 0.2478221.» стиль = «ширина: 328px; висота: 243px;» ширина = «328px» висота = «243px» src =»/@api /деки/файли/162725/малюнок 5.24.png «>
    Рисунок Template:index: Вивід команди R для прогнозування концентрації аналіта, C A, з сигналу зразка, S samp.

    Використання R для зважених лінійних регресій

    Команда R для незваженої лінійної регресії також дозволяє зважену лінійну регресію, якщо ми включимо додатковий аргумент, ваги, значення якого є об'єктом, який містить ваги.

    лм (у ~ х, ваги = об'єкт)

    Давайте використаємо цю команду для завершення Приклад 5.4.4. Спочатку нам потрібно створити об'єкт, який містить ваги, які в R є зворотними стандартними відхиленнями у y,\((s_{y_i})^{-2}\). Використовуючи дані з прикладу 5.4.4, вводимо

    > syi=c (0,02, 0,02, 0,07, 0,13, 0,22, 0,33)

    > ш = 1/syi^2

    для створення об'єкта, що містить ваги. Команди

    > modelw = лм (сигнал ~ conc, ваги = w)

    > резюме (моделі)

    згенерувати результат, показаний на малюнку Template:index. Будь-яка різниця між показаними тут результатами та результатами, показаними в прикладі 5.4.4, є результатом помилок округлення в наших попередніх розрахунках.

    Можливо, ви помітили, що цей спосіб визначення ваг відрізняється від того, який показаний у Рівнянні 5.4.15. При отриманні рівнянь для зваженої лінійної регресії ви можете вибрати нормалізацію суми ваг так, щоб вона дорівнювала кількості точок, або ви можете вибрати не так — алгоритм у R не нормалізує ваги.

    Рисунок Template:index: Підсумок регресійного аналізу R для зваженої лінійної регресії. Типи інформації, наведені тут, ідентичні типам незваженої лінійної регресії на рисунку Template:index.
    Вправа Template:index

    Використовуйте R для завершення регресійного аналізу у вправі 5.4.1.

    Відповідь

    На малюнку нижче показано сеанс R для цієї проблеми, включаючи завантаження пакета ChemCal, створення об'єктів для зберігання значень для C std, S std та S samp. Зверніть увагу, що для S samp у нас немає фактичних значень для трьох повторюваних вимірювань. На місці фактичних вимірювань просто три рази вводимо середній сигнал. Це нормально, тому що розрахунок залежить від середнього сигналу і кількості реплікацій, а не від окремих вимірювань.