14.3: Розбиття сум квадратів
- Page ID
- 98187
Цілі навчання
- Обчислити суму квадратів\(Y\)
- Перетворення необроблених балів у бали відхилення
- Обчислити прогнозовані бали з рівняння регресії
- Розбиття суми квадратів\(Y\) на суму прогнозованих квадратів та суму похибки квадратів
- \(r^2\)Визначте через суму квадратів, пояснюваних і суму квадратів\(Y\)
Одним із корисних аспектів регресії є те, що вона може розділити варіацію на дві частини: варіацію прогнозованих балів та варіацію помилок прогнозування.\(Y\) Варіація\(Y\) називається сумою квадратів\(Y\) і визначається як сума квадратів відхилень\(Y\) від середнього\(Y\). У популяції формула така
\[ SSY = \sum (Y-\mu_Y)^2\]
де\(SSY\) - сума квадратів\(Y\),\(Y\) є індивідуальним значенням\(Y\), і\(μ_y\) є середнім значенням\(Y\). Простий приклад наведено в табл\(\PageIndex{1}\). Середнє значення\(Y\) є\(2.06\) і\(SSY\) є сумою значень в третьому стовпці і дорівнює\(4.597\).
| У | Y-М у | (Y-М у) 2 |
|---|---|---|
| 1.00 | -1.06 | 1.1236 |
| 2.00 | -0.06 | 0,0036 |
| 1.30 | -0.76 | 0.5776 |
| 3.75 | 1.69 | 2.8561 |
| 2.25 | 0,19 | 0.0361 |
При обчисленні в вибірці слід використовувати середнє значення вибірки\(M\), замість популяції означають:
\[ SSY = \sum (Y-M_Y)^2\]
Іноді зручно використовувати формули, які використовують бали відхилення, а не сирі бали. Показники відхилення - це просто відхилення від середнього. За умовністю для балів відхилення використовуються маленькі літери, а не великі літери. Тому оцінка\(y\) вказує на різницю між середнім\(Y\) і середнім значенням\(Y\). У таблиці\(\PageIndex{2}\) показано використання даного позначення. Цифри такі ж, як в табл\(\PageIndex{1}\).
| Y | у | на 2 |
|---|---|---|
| 1.00 | -1.06 | 1.1236 |
| 2.00 | -0.06 | 0,0036 |
| 1.30 | -0.76 | 0.5776 |
| 3.75 | 1.69 | 2.8561 |
| 2.25 | 0,19 | 0.0361 |
Дані в таблиці\(\PageIndex{3}\) відтворюються зі вступного розділу. Стовпець\(X\) містить значення змінної предиктора, а стовпець\(Y\) має змінну критерію. Третій стовпець містить відмінності між стовпцем\(Y\) і середнім значенням\(Y\).\(y\)
| X | Y | у | на 2 | Y' | y' | y' 2 | Y-Y' | (Y-Y') 2 |
|---|---|---|---|---|---|---|---|---|
| 1.00 | 1.00 | -1.06 | 1.1236 | 1.210 | -0.850 | 0,7225 | -0.210 | 0,044 |
| 2.00 | 2.00 | -0.06 | 0,0036 | 1,635 | -0.425 | 0.1806 | 0,365 | 0.133 |
| 3.00 | 1.30 | -0.76 | 0.5776 | 2.060 | 0.000 | 0,0000 | -0.760 | 0,578 |
| 4.00 | 3.75 | 1.69 | 2.8561 | 2.485 | 0,425 | 0.1806 | 1.265 | 1.600 |
| 5.00 | 2.25 | 0,19 | 0.0361 | 2.910 | 0.850 | 0,7225 | -0.660 | 0,436 |
| Суми | ||||||||
| 15.00 | 10.30 | 0.00 | 4.597 | 10.300 | 0.000 | 1.806 | 0.000 | 2.791 |
Четвертий стовпець\(y^2\), - це просто квадрат\(y\) колони. Стовпець\(Y'\) містить прогнозовані значення\(Y\). У вступному розділі було показано, що рівняння для лінії регресії для цих даних
\[Y' = 0.425X + 0.785.\]
Значення\(Y'\) були обчислені відповідно до цього рівняння. Колонка\(y'\) містить відхилення\(Y'\) від середнього значення\(Y'\) і\(y'^2\) є квадратом цього стовпця. Наступний до останнього стовпця містить фактичні оцінки (\(Y\)) за вирахуванням прогнозованих балів (\(Y'\)).\(Y-Y'\) Останній стовпець містить квадрати цих помилок прогнозування.
Зараз ми в змозі побачити, як\(SSY\) розділено. Нагадаємо, що\(SSY\) це сума квадратів відхилень від середнього. Тому це сума\(y^2\) стовпця і дорівнює\(4.597\). \(SSY\)можна розділити на дві частини: суму квадратів передбаченого (\(SSY'\)) та суму квадратів похибки (\(SSE\)). Сума прогнозованих квадратів - це сума квадратів відхилень прогнозованих балів від середнього прогнозованого балу. Іншими словами, це сума\(y'^2\) стовпця і дорівнює\(1.806\). Похибка суми квадратів - це сума квадратів похибок прогнозування. Тому це сума\((Y-Y')^2\) стовпця і дорівнює\(2.791\). Це можна підсумувати як:
\[SSY = SSY' + SSE\]
\[4.597 = 1.806 + 2.791\]
Є кілька інших помітних особливостей про таблицю\(\PageIndex{3}\). По-перше, зверніть увагу, що сума\(y\) і сума обох\(y'\) дорівнює нулю. Це завжди буде так, оскільки ці змінні були створені шляхом віднімання відповідних засобів від кожного значення. Крім того, зверніть увагу, що середнє значення\(Y-Y'\) є\(0\). Це вказує на те, що хоча деякі\(Y\) значення вище, ніж їх відповідні передбачені\(Y\) значення, а деякі нижчі, середня різниця дорівнює нулю.
\(SSY\)Це загальна варіація,\(SSY'\) то варіація пояснюється, а варіація незрозуміла.\(SSE\) Тому пояснену частку варіації можна обчислити як:
\[\text{Proportion explained} = \dfrac{SSY'}{SSY}\]
Аналогічно, пропорція, яка не пояснюється, є:
\[\text{Proportion not explained} = \dfrac{SSE}{SSY}\]
Існує важливий зв'язок між поясненою часткою варіації та кореляцією Пірсона:\(r^2\) пояснюється пропорція варіації. Тому, якщо\(r = 1\), то, природно, пропорція варіації пояснюється є\(1\); якщо\(r = 0\), то пропорція пояснюється є\(0\). Останній приклад: для\(r = 0.4\), частка варіації пояснюється\(0.16\).
Оскільки дисперсія обчислюється шляхом ділення варіації на\(N\) (для популяції) або\(N-1\) (для вибірки), співвідношення, прописані вище з точки зору варіації, також мають значення дисперсії. Наприклад,
\[\sigma_{total}^2 = \sigma_{Y'}^2 + \sigma_e^2\]
де перший член є загальною дисперсією, другий член - дисперсія\(Y'\), а останній член - дисперсія помилок прогнозування (\(Y-Y'\)). Аналогічно\(r^2\) пояснюється пропорція дисперсії, а також частка варіації пояснюється.
Зведена таблиця
Часто зручно підсумувати розбиття даних в таблиці. Колонка «Ступені свободи» (\(df\)) показує ступені свободи для кожного джерела варіації. Ступінь свободи для поясненої суми квадратів дорівнює кількості змінних предиктора. Це завжди буде\(1\) в простій регресії. Похибка ступенів свободи дорівнює загальному числу спостережень мінус\(2\). У цьому прикладі вона є\(5 - 2 = 3\). Сумарні ступені свободи - це загальна кількість спостережень мінус\(1\).
| Джерело | Сума квадратів | дф | Середній квадрат |
|---|---|---|---|
| Пояснив | 1.806 | 1 | 1.806 |
| Помилка | 2.791 | 3 | 0,930 |
| Всього | 4.597 | 4 |
