Skip to main content
LibreTexts - Ukrayinska

14.3: Розбиття сум квадратів

  • Page ID
    98187
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Цілі навчання

    • Обчислити суму квадратів\(Y\)
    • Перетворення необроблених балів у бали відхилення
    • Обчислити прогнозовані бали з рівняння регресії
    • Розбиття суми квадратів\(Y\) на суму прогнозованих квадратів та суму похибки квадратів
    • \(r^2\)Визначте через суму квадратів, пояснюваних і суму квадратів\(Y\)

    Одним із корисних аспектів регресії є те, що вона може розділити варіацію на дві частини: варіацію прогнозованих балів та варіацію помилок прогнозування.\(Y\) Варіація\(Y\) називається сумою квадратів\(Y\) і визначається як сума квадратів відхилень\(Y\) від середнього\(Y\). У популяції формула така

    \[ SSY = \sum (Y-\mu_Y)^2\]

    де\(SSY\) - сума квадратів\(Y\),\(Y\) є індивідуальним значенням\(Y\), і\(μ_y\) є середнім значенням\(Y\). Простий приклад наведено в табл\(\PageIndex{1}\). Середнє значення\(Y\) є\(2.06\) і\(SSY\) є сумою значень в третьому стовпці і дорівнює\(4.597\).

    Таблиця\(\PageIndex{1}\): Приклад SSY
    У Y-М у (Y-М у) 2
    1.00 -1.06 1.1236
    2.00 -0.06 0,0036
    1.30 -0.76 0.5776
    3.75 1.69 2.8561
    2.25 0,19 0.0361

    При обчисленні в вибірці слід використовувати середнє значення вибірки\(M\), замість популяції означають:

    \[ SSY = \sum (Y-M_Y)^2\]

    Іноді зручно використовувати формули, які використовують бали відхилення, а не сирі бали. Показники відхилення - це просто відхилення від середнього. За умовністю для балів відхилення використовуються маленькі літери, а не великі літери. Тому оцінка\(y\) вказує на різницю між середнім\(Y\) і середнім значенням\(Y\). У таблиці\(\PageIndex{2}\) показано використання даного позначення. Цифри такі ж, як в табл\(\PageIndex{1}\).

    Таблиця\(\PageIndex{2}\): Приклад\(SSY\) використання балів відхилення
    Y у на 2
    1.00 -1.06 1.1236
    2.00 -0.06 0,0036
    1.30 -0.76 0.5776
    3.75 1.69 2.8561
    2.25 0,19 0.0361

    Дані в таблиці\(\PageIndex{3}\) відтворюються зі вступного розділу. Стовпець\(X\) містить значення змінної предиктора, а стовпець\(Y\) має змінну критерію. Третій стовпець містить відмінності між стовпцем\(Y\) і середнім значенням\(Y\).\(y\)

    Таблиця\(\PageIndex{4}\): Приклад даних (Останній рядок містить суми стовпців)
    X Y у на 2 Y' y' y' 2 Y-Y' (Y-Y') 2
    1.00 1.00 -1.06 1.1236 1.210 -0.850 0,7225 -0.210 0,044
    2.00 2.00 -0.06 0,0036 1,635 -0.425 0.1806 0,365 0.133
    3.00 1.30 -0.76 0.5776 2.060 0.000 0,0000 -0.760 0,578
    4.00 3.75 1.69 2.8561 2.485 0,425 0.1806 1.265 1.600
    5.00 2.25 0,19 0.0361 2.910 0.850 0,7225 -0.660 0,436
    Суми
    15.00 10.30 0.00 4.597 10.300 0.000 1.806 0.000 2.791

    Четвертий стовпець\(y^2\), - це просто квадрат\(y\) колони. Стовпець\(Y'\) містить прогнозовані значення\(Y\). У вступному розділі було показано, що рівняння для лінії регресії для цих даних

    \[Y' = 0.425X + 0.785.\]

    Значення\(Y'\) були обчислені відповідно до цього рівняння. Колонка\(y'\) містить відхилення\(Y'\) від середнього значення\(Y'\) і\(y'^2\) є квадратом цього стовпця. Наступний до останнього стовпця містить фактичні оцінки (\(Y\)) за вирахуванням прогнозованих балів (\(Y'\)).\(Y-Y'\) Останній стовпець містить квадрати цих помилок прогнозування.

    Зараз ми в змозі побачити, як\(SSY\) розділено. Нагадаємо, що\(SSY\) це сума квадратів відхилень від середнього. Тому це сума\(y^2\) стовпця і дорівнює\(4.597\). \(SSY\)можна розділити на дві частини: суму квадратів передбаченого (\(SSY'\)) та суму квадратів похибки (\(SSE\)). Сума прогнозованих квадратів - це сума квадратів відхилень прогнозованих балів від середнього прогнозованого балу. Іншими словами, це сума\(y'^2\) стовпця і дорівнює\(1.806\). Похибка суми квадратів - це сума квадратів похибок прогнозування. Тому це сума\((Y-Y')^2\) стовпця і дорівнює\(2.791\). Це можна підсумувати як:

    \[SSY = SSY' + SSE\]

    \[4.597 = 1.806 + 2.791\]

    Є кілька інших помітних особливостей про таблицю\(\PageIndex{3}\). По-перше, зверніть увагу, що сума\(y\) і сума обох\(y'\) дорівнює нулю. Це завжди буде так, оскільки ці змінні були створені шляхом віднімання відповідних засобів від кожного значення. Крім того, зверніть увагу, що середнє значення\(Y-Y'\) є\(0\). Це вказує на те, що хоча деякі\(Y\) значення вище, ніж їх відповідні передбачені\(Y\) значення, а деякі нижчі, середня різниця дорівнює нулю.

    \(SSY\)Це загальна варіація,\(SSY'\) то варіація пояснюється, а варіація незрозуміла.\(SSE\) Тому пояснену частку варіації можна обчислити як:

    \[\text{Proportion explained} = \dfrac{SSY'}{SSY}\]

    Аналогічно, пропорція, яка не пояснюється, є:

    \[\text{Proportion not explained} = \dfrac{SSE}{SSY}\]

    Існує важливий зв'язок між поясненою часткою варіації та кореляцією Пірсона:\(r^2\) пояснюється пропорція варіації. Тому, якщо\(r = 1\), то, природно, пропорція варіації пояснюється є\(1\); якщо\(r = 0\), то пропорція пояснюється є\(0\). Останній приклад: для\(r = 0.4\), частка варіації пояснюється\(0.16\).

    Оскільки дисперсія обчислюється шляхом ділення варіації на\(N\) (для популяції) або\(N-1\) (для вибірки), співвідношення, прописані вище з точки зору варіації, також мають значення дисперсії. Наприклад,

    \[\sigma_{total}^2 = \sigma_{Y'}^2 + \sigma_e^2\]

    де перший член є загальною дисперсією, другий член - дисперсія\(Y'\), а останній член - дисперсія помилок прогнозування (\(Y-Y'\)). Аналогічно\(r^2\) пояснюється пропорція дисперсії, а також частка варіації пояснюється.

    Зведена таблиця

    Часто зручно підсумувати розбиття даних в таблиці. Колонка «Ступені свободи» (\(df\)) показує ступені свободи для кожного джерела варіації. Ступінь свободи для поясненої суми квадратів дорівнює кількості змінних предиктора. Це завжди буде\(1\) в простій регресії. Похибка ступенів свободи дорівнює загальному числу спостережень мінус\(2\). У цьому прикладі вона є\(5 - 2 = 3\). Сумарні ступені свободи - це загальна кількість спостережень мінус\(1\).

    Таблиця\(\PageIndex{4}\): Зведена таблиця для прикладу даних
    Джерело Сума квадратів дф Середній квадрат
    Пояснив 1.806 1 1.806
    Помилка 2.791 3 0,930
    Всього 4.597 4

    Дописувач