Skip to main content
LibreTexts - Ukrayinska

14.1: Вступ до лінійної регресії

Цілі навчання

  • Визначити похибки прогнозування на розсіяному графіку з лінією регресії

У простій лінійній регресії ми прогнозуємо бали по одній змінній з балів на другій змінній. Змінна, яку ми прогнозуємо, називається змінною критерію і називаєтьсяY. Змінна, на якій ми базуємо наші прогнози, називається змінною предиктора і називаєтьсяX. Коли є тільки одна змінна предиктора, метод прогнозування називається простою регресією. У простій лінійній регресії, тема цього розділу, передбачення того,Y коли побудована як функціяX утворюють пряму лінію.

Приклади даних у таблиці14.1.1 побудовані на рисунку14.1.1. Можна помітити, що міжX і є позитивний зв'язокY. Якщо ви збиралися передбачитиY відX, чим вище значенняX, тим вище ваш прогнозY.

Таблиця14.1.1: Приклад даних
Х У
1.00 1.00
2.00 2.00
3.00 1.30
4.00 3.75
5.00 2.25
points_only.gif
Малюнок14.1.1: Графік розкиду прикладів даних

Лінійна регресія полягає у знаходженні найбільш підходящої прямої лінії через точки. Найкраще підігнана лінія називається лінією регресії. Чорна діагональна лінія на малюнку14.1.2 є лінією регресії і складається з прогнозованоїY оцінки для кожного можливого значенняX. Вертикальні лінії від точок до лінії регресії представляють похибки прогнозування. Як бачите, червона точка знаходиться дуже близько лінії регресії; похибка її прогнозування невелика. На відміну від цього, жовта точка набагато вище лінії регресії і тому її похибка прогнозування велика.

reg_error.gif
Малюнок14.1.2: Графік розкиду прикладів даних. Чорна лінія складається з прогнозів, точки - фактичні дані, а вертикальні лінії між точками і чорною лінією представляють помилки прогнозування

Похибкою прогнозування для точки вважається значення точки мінус прогнозоване значення (значення на прямій). Таблиця14.1.2 показує прогнозовані значення (Y) і похибки прогнозування (YY). Наприклад, перша точка має aY of1.00 і передбаченийY (називаєтьсяY) of1.21. Тому його похибка прогнозування є0.21.

Таблиця14.1.2: Приклад даних
Х У Y' Y-Y' (Y-Y') 2
1.00 1.00 1.210 -0.210 0,044
2.00 2.00 1,635 0,365 0.133
3.00 1.30 2.060 -0.760 0,578
4.00 3.75 2.485 1.265 1.600
5.00 2.25 2.910 -0.660 0,436

Можливо, ви помітили, що ми не уточнили, що мається на увазі під «найкращою лінією». На сьогоднішній день найбільш часто використовуваним критерієм для оптимального підгонки лінії є лінія, яка мінімізує суму квадратних похибок прогнозування. Це критерій, який використовувався для пошуку рядка на малюнку14.1.2. Останній стовпець таблиці14.1.2 показує квадрат похибки прогнозування. Сума квадратних похибок прогнозування, показаних у таблиці14.1.2, нижча, ніж для будь-якої іншої лінії регресії.

Формула для лінії регресії

Y=bX+A

деY передбачуваний рахунок,b - нахил лінії, іA єY перехоплення. Рівняння для прямої на14.1.2 малюнку

Y=0.425X+0.785

ДляX=1,

Y=(0.425)(1)+0.785=1.21

ДляX=2,

Y=(0.425)(2)+0.785=1.64

Обчислення лінії регресії

У століття комп'ютерів лінія регресії зазвичай обчислюється статистичним програмним забезпеченням. Однак розрахунки відносно легкі, і наведені тут для всіх, хто цікавиться. Розрахунки проводяться на основі статистики, наведеної в табл14.1.3. MXце середнє значенняX,MY є середнімY,sX є стандартним відхиленнямX,sY є стандартним відхиленнямY, іr є кореляцією міжX іY.

Формула стандартного відхилення

Формула кореляції

Таблиця14.1.3: Статистика для обчислення лінії регресії
М Х М У S X S Y р
3 2.06 1.581 1.072 0.627

Ухил (b) можна розрахувати наступним чином:

b=rsYsX

і перехоплення (A) можна обчислити як

A=MYbMX

Для цих даних,

b=(0.627)(1.072)1.581=0.425

A=2.06(0.425)(3)=0.785

Зверніть увагу, що всі розрахунки були показані з точки зору вибіркової статистики, а не параметрів населення. Формули однакові; просто використовуйте значення параметрів для засобів, стандартних відхилень та кореляції.

Стандартизовані змінні

Рівняння регресії простіше, якщо змінні стандартизовані так, щоб їх середні значення дорівнювали0 і стандартні відхилення дорівнювали1, для потімb=r іA=0. Це робить лінію регресії:

ZY=(r)(ZX)

деZY передбачуваний стандартний бал дляY,r це кореляція, іZX стандартизований бал дляX. Зверніть увагу, що нахил рівняння регресії для стандартизованих змінних єr.

Реальний приклад

Тематичне дослідження «SAT і College GPA» містить середні та університетські оцінки для105 інформатики спеціальностей в місцевій державній школі. Зараз ми розглянемо, як ми могли б передбачити середній бал студента, якби ми знали його середній бал школи.

Малюнок14.1.3 показує розкид графік університетського GPA як функції середньої школи GPA. З малюнка видно, що існує міцна позитивна взаємозв'язок. Кореляція є0.78. Рівняння регресії таке:

University GPA'=(0.675)(High School GPA)+1.097

Тому студенту з середнім середнім балом школи3 буде передбачено мати університетський бал

University GPA'=(0.675)(3)+1.097=3.12

gpa.jpg
Малюнок14.1.3: Університет GPA як функція середньої школи GPA

припущення

Це може вас здивувати, але розрахунки, наведені в цьому розділі, не містять припущень. Звичайно, якби відносини міжX і неY були лінійними, функція іншої форми могла б краще відповідати даними. Вихідні статистичні дані в регресії ґрунтуються на кількох припущеннях, і ці припущення представлені в більш пізньому розділі цієї глави.