14.3: Розбиття сум квадратів
Цілі навчання
- Обчислити суму квадратівY
- Перетворення необроблених балів у бали відхилення
- Обчислити прогнозовані бали з рівняння регресії
- Розбиття суми квадратівY на суму прогнозованих квадратів та суму похибки квадратів
- r2Визначте через суму квадратів, пояснюваних і суму квадратівY
Одним із корисних аспектів регресії є те, що вона може розділити варіацію на дві частини: варіацію прогнозованих балів та варіацію помилок прогнозування.Y ВаріаціяY називається сумою квадратівY і визначається як сума квадратів відхиленьY від середньогоY. У популяції формула така
SSY=∑(Y−μY)2
деSSY - сума квадратівY,Y є індивідуальним значеннямY, іμy є середнім значеннямY. Простий приклад наведено в табл14.3.1. Середнє значенняY є2.06 іSSY є сумою значень в третьому стовпці і дорівнює4.597.
У | Y-М у | (Y-М у) 2 |
---|---|---|
1.00 | -1.06 | 1.1236 |
2.00 | -0.06 | 0,0036 |
1.30 | -0.76 | 0.5776 |
3.75 | 1.69 | 2.8561 |
2.25 | 0,19 | 0.0361 |
При обчисленні в вибірці слід використовувати середнє значення вибіркиM, замість популяції означають:
SSY=∑(Y−MY)2
Іноді зручно використовувати формули, які використовують бали відхилення, а не сирі бали. Показники відхилення - це просто відхилення від середнього. За умовністю для балів відхилення використовуються маленькі літери, а не великі літери. Тому оцінкаy вказує на різницю між середнімY і середнім значеннямY. У таблиці14.3.2 показано використання даного позначення. Цифри такі ж, як в табл14.3.1.
Y | у | на 2 |
---|---|---|
1.00 | -1.06 | 1.1236 |
2.00 | -0.06 | 0,0036 |
1.30 | -0.76 | 0.5776 |
3.75 | 1.69 | 2.8561 |
2.25 | 0,19 | 0.0361 |
Дані в таблиці14.3.3 відтворюються зі вступного розділу. СтовпецьX містить значення змінної предиктора, а стовпецьY має змінну критерію. Третій стовпець містить відмінності між стовпцемY і середнім значеннямY.y
X | Y | у | на 2 | Y' | y' | y' 2 | Y-Y' | (Y-Y') 2 |
---|---|---|---|---|---|---|---|---|
1.00 | 1.00 | -1.06 | 1.1236 | 1.210 | -0.850 | 0,7225 | -0.210 | 0,044 |
2.00 | 2.00 | -0.06 | 0,0036 | 1,635 | -0.425 | 0.1806 | 0,365 | 0.133 |
3.00 | 1.30 | -0.76 | 0.5776 | 2.060 | 0.000 | 0,0000 | -0.760 | 0,578 |
4.00 | 3.75 | 1.69 | 2.8561 | 2.485 | 0,425 | 0.1806 | 1.265 | 1.600 |
5.00 | 2.25 | 0,19 | 0.0361 | 2.910 | 0.850 | 0,7225 | -0.660 | 0,436 |
Суми | ||||||||
15.00 | 10.30 | 0.00 | 4.597 | 10.300 | 0.000 | 1.806 | 0.000 | 2.791 |
Четвертий стовпецьy2, - це просто квадратy колони. СтовпецьY′ містить прогнозовані значенняY. У вступному розділі було показано, що рівняння для лінії регресії для цих даних
Y′=0.425X+0.785.
ЗначенняY′ були обчислені відповідно до цього рівняння. Колонкаy′ містить відхиленняY′ від середнього значенняY′ іy′2 є квадратом цього стовпця. Наступний до останнього стовпця містить фактичні оцінки (Y) за вирахуванням прогнозованих балів (Y′).Y−Y′ Останній стовпець містить квадрати цих помилок прогнозування.
Зараз ми в змозі побачити, якSSY розділено. Нагадаємо, щоSSY це сума квадратів відхилень від середнього. Тому це сумаy2 стовпця і дорівнює4.597. SSYможна розділити на дві частини: суму квадратів передбаченого (SSY′) та суму квадратів похибки (SSE). Сума прогнозованих квадратів - це сума квадратів відхилень прогнозованих балів від середнього прогнозованого балу. Іншими словами, це сумаy′2 стовпця і дорівнює1.806. Похибка суми квадратів - це сума квадратів похибок прогнозування. Тому це сума(Y−Y′)2 стовпця і дорівнює2.791. Це можна підсумувати як:
SSY=SSY′+SSE
4.597=1.806+2.791
Є кілька інших помітних особливостей про таблицю14.3.3. По-перше, зверніть увагу, що сумаy і сума обохy′ дорівнює нулю. Це завжди буде так, оскільки ці змінні були створені шляхом віднімання відповідних засобів від кожного значення. Крім того, зверніть увагу, що середнє значенняY−Y′ є0. Це вказує на те, що хоча деякіY значення вище, ніж їх відповідні передбаченіY значення, а деякі нижчі, середня різниця дорівнює нулю.
SSYЦе загальна варіація,SSY′ то варіація пояснюється, а варіація незрозуміла.SSE Тому пояснену частку варіації можна обчислити як:
Proportion explained=SSY′SSY
Аналогічно, пропорція, яка не пояснюється, є:
Proportion not explained=SSESSY
Існує важливий зв'язок між поясненою часткою варіації та кореляцією Пірсона:r2 пояснюється пропорція варіації. Тому, якщоr=1, то, природно, пропорція варіації пояснюється є1; якщоr=0, то пропорція пояснюється є0. Останній приклад: дляr=0.4, частка варіації пояснюється0.16.
Оскільки дисперсія обчислюється шляхом ділення варіації наN (для популяції) абоN−1 (для вибірки), співвідношення, прописані вище з точки зору варіації, також мають значення дисперсії. Наприклад,
σ2total=σ2Y′+σ2e
де перший член є загальною дисперсією, другий член - дисперсіяY′, а останній член - дисперсія помилок прогнозування (Y−Y′). Аналогічноr2 пояснюється пропорція дисперсії, а також частка варіації пояснюється.
Зведена таблиця
Часто зручно підсумувати розбиття даних в таблиці. Колонка «Ступені свободи» (df) показує ступені свободи для кожного джерела варіації. Ступінь свободи для поясненої суми квадратів дорівнює кількості змінних предиктора. Це завжди буде1 в простій регресії. Похибка ступенів свободи дорівнює загальному числу спостережень мінус2. У цьому прикладі вона є5−2=3. Сумарні ступені свободи - це загальна кількість спостережень мінус1.
Джерело | Сума квадратів | дф | Середній квадрат |
---|---|---|---|
Пояснив | 1.806 | 1 | 1.806 |
Помилка | 2.791 | 3 | 0,930 |
Всього | 4.597 | 4 |