Loading [MathJax]/jax/output/HTML-CSS/jax.js
Skip to main content
LibreTexts - Ukrayinska

14.3: Розбиття сум квадратів

Цілі навчання

  • Обчислити суму квадратівY
  • Перетворення необроблених балів у бали відхилення
  • Обчислити прогнозовані бали з рівняння регресії
  • Розбиття суми квадратівY на суму прогнозованих квадратів та суму похибки квадратів
  • r2Визначте через суму квадратів, пояснюваних і суму квадратівY

Одним із корисних аспектів регресії є те, що вона може розділити варіацію на дві частини: варіацію прогнозованих балів та варіацію помилок прогнозування.Y ВаріаціяY називається сумою квадратівY і визначається як сума квадратів відхиленьY від середньогоY. У популяції формула така

SSY=(YμY)2

деSSY - сума квадратівY,Y є індивідуальним значеннямY, іμy є середнім значеннямY. Простий приклад наведено в табл14.3.1. Середнє значенняY є2.06 іSSY є сумою значень в третьому стовпці і дорівнює4.597.

Таблиця14.3.1: Приклад SSY
У Y-М у (Y-М у) 2
1.00 -1.06 1.1236
2.00 -0.06 0,0036
1.30 -0.76 0.5776
3.75 1.69 2.8561
2.25 0,19 0.0361

При обчисленні в вибірці слід використовувати середнє значення вибіркиM, замість популяції означають:

SSY=(YMY)2

Іноді зручно використовувати формули, які використовують бали відхилення, а не сирі бали. Показники відхилення - це просто відхилення від середнього. За умовністю для балів відхилення використовуються маленькі літери, а не великі літери. Тому оцінкаy вказує на різницю між середнімY і середнім значеннямY. У таблиці14.3.2 показано використання даного позначення. Цифри такі ж, як в табл14.3.1.

Таблиця14.3.2: ПрикладSSY використання балів відхилення
Y у на 2
1.00 -1.06 1.1236
2.00 -0.06 0,0036
1.30 -0.76 0.5776
3.75 1.69 2.8561
2.25 0,19 0.0361

Дані в таблиці14.3.3 відтворюються зі вступного розділу. СтовпецьX містить значення змінної предиктора, а стовпецьY має змінну критерію. Третій стовпець містить відмінності між стовпцемY і середнім значеннямY.y

Таблиця14.3.4: Приклад даних (Останній рядок містить суми стовпців)
X Y у на 2 Y' y' y' 2 Y-Y' (Y-Y') 2
1.00 1.00 -1.06 1.1236 1.210 -0.850 0,7225 -0.210 0,044
2.00 2.00 -0.06 0,0036 1,635 -0.425 0.1806 0,365 0.133
3.00 1.30 -0.76 0.5776 2.060 0.000 0,0000 -0.760 0,578
4.00 3.75 1.69 2.8561 2.485 0,425 0.1806 1.265 1.600
5.00 2.25 0,19 0.0361 2.910 0.850 0,7225 -0.660 0,436
Суми
15.00 10.30 0.00 4.597 10.300 0.000 1.806 0.000 2.791

Четвертий стовпецьy2, - це просто квадратy колони. СтовпецьY містить прогнозовані значенняY. У вступному розділі було показано, що рівняння для лінії регресії для цих даних

Y=0.425X+0.785.

ЗначенняY були обчислені відповідно до цього рівняння. Колонкаy містить відхиленняY від середнього значенняY іy2 є квадратом цього стовпця. Наступний до останнього стовпця містить фактичні оцінки (Y) за вирахуванням прогнозованих балів (Y).YY Останній стовпець містить квадрати цих помилок прогнозування.

Зараз ми в змозі побачити, якSSY розділено. Нагадаємо, щоSSY це сума квадратів відхилень від середнього. Тому це сумаy2 стовпця і дорівнює4.597. SSYможна розділити на дві частини: суму квадратів передбаченого (SSY) та суму квадратів похибки (SSE). Сума прогнозованих квадратів - це сума квадратів відхилень прогнозованих балів від середнього прогнозованого балу. Іншими словами, це сумаy2 стовпця і дорівнює1.806. Похибка суми квадратів - це сума квадратів похибок прогнозування. Тому це сума(YY)2 стовпця і дорівнює2.791. Це можна підсумувати як:

SSY=SSY+SSE

4.597=1.806+2.791

Є кілька інших помітних особливостей про таблицю14.3.3. По-перше, зверніть увагу, що сумаy і сума обохy дорівнює нулю. Це завжди буде так, оскільки ці змінні були створені шляхом віднімання відповідних засобів від кожного значення. Крім того, зверніть увагу, що середнє значенняYY є0. Це вказує на те, що хоча деякіY значення вище, ніж їх відповідні передбаченіY значення, а деякі нижчі, середня різниця дорівнює нулю.

SSYЦе загальна варіація,SSY то варіація пояснюється, а варіація незрозуміла.SSE Тому пояснену частку варіації можна обчислити як:

Proportion explained=SSYSSY

Аналогічно, пропорція, яка не пояснюється, є:

Proportion not explained=SSESSY

Існує важливий зв'язок між поясненою часткою варіації та кореляцією Пірсона:r2 пояснюється пропорція варіації. Тому, якщоr=1, то, природно, пропорція варіації пояснюється є1; якщоr=0, то пропорція пояснюється є0. Останній приклад: дляr=0.4, частка варіації пояснюється0.16.

Оскільки дисперсія обчислюється шляхом ділення варіації наN (для популяції) абоN1 (для вибірки), співвідношення, прописані вище з точки зору варіації, також мають значення дисперсії. Наприклад,

σ2total=σ2Y+σ2e

де перший член є загальною дисперсією, другий член - дисперсіяY, а останній член - дисперсія помилок прогнозування (YY). Аналогічноr2 пояснюється пропорція дисперсії, а також частка варіації пояснюється.

Зведена таблиця

Часто зручно підсумувати розбиття даних в таблиці. Колонка «Ступені свободи» (df) показує ступені свободи для кожного джерела варіації. Ступінь свободи для поясненої суми квадратів дорівнює кількості змінних предиктора. Це завжди буде1 в простій регресії. Похибка ступенів свободи дорівнює загальному числу спостережень мінус2. У цьому прикладі вона є52=3. Сумарні ступені свободи - це загальна кількість спостережень мінус1.

Таблиця14.3.4: Зведена таблиця для прикладу даних
Джерело Сума квадратів дф Середній квадрат
Пояснив 1.806 1 1.806
Помилка 2.791 3 0,930
Всього 4.597 4

Дописувач