Skip to main content
LibreTexts - Ukrayinska

13.4: Рівняння регресії

  • Page ID
    100052
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Регресійний аналіз - це статистичний метод, який може перевірити гіпотезу про те, що змінна залежить від однієї або декількох інших змінних. Далі регресійний аналіз може дати оцінку величини впливу зміни однієї змінної на іншу. Ця остання особливість, звичайно, важлива для прогнозування майбутніх значень.

    Регресійний аналіз заснований на функціональному співвідношенні між змінними і далі, передбачає, що зв'язок лінійний. Таке припущення лінійності є необхідним, оскільки, здебільшого, теоретичні статистичні властивості нелінійного оцінювання ще недостатньо опрацьовані математиками та економетриками. Це викликає у нас певні труднощі в економічному аналізі, оскільки багато наших теоретичних моделей є нелінійними. Наприклад, крива граничних витрат є рішуче нелінійною, як і загальна функція витрат, якщо ми хочемо вірити в ефект спеціалізації праці та Закон зменшення граничного продукту. Існують методи подолання деяких з цих труднощів, наприклад, експоненціальне та логарифмічне перетворення даних, але спочатку ми повинні визнати, що стандартний регресійний аналіз звичайних найменших квадратів (OLS) завжди використовуватиме лінійну функцію для оцінки того, що може бути нелінійним. відносини.

    Загальна лінійна регресійна модель може бути викладена рівнянням:

    \[y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+\varepsilon_{i}\nonumber\]

    де перехоплення,\(\beta_0\)\(\beta_i\) є нахилом між\(Y\) і відповідним\(X_i\), і\(\epsilon\) (вимовляється епсилон), є термін помилки, який фіксує помилки в вимірюванні\(Y\) і вплив на\(Y\) будь-яких змінних, відсутніх з рівняння, що б сприяти поясненню варіацій в\(Y\). Це рівняння є теоретичним рівнянням населення і тому використовує грецькі літери. Рівняння, яке ми оцінимо, матиме символи римського еквівалента. Це паралельно тому, як ми відстежували параметри популяції та параметри вибірки раніше. Символ середнього значення популяції був\(\mu\) і для вибірки середнє,\(\overline{X}\) а для популяції стандартне відхилення було\(\sigma\) і для вибірки стандартне відхилення було\(s\). Рівняння, яке буде оцінено за допомогою вибірки даних для двох незалежних змінних, таким чином, буде:

    \[y_{i}=b_{0}+b_{1} x_{1 i}+b_{2} x_{2 i}+e_{i}\nonumber\]

    Як і в нашій попередній роботі з розподілами ймовірностей, ця модель працює тільки в тому випадку, якщо дотримуються певні припущення. Це те\(Y\), що нормально розподілені, помилки також нормально розподіляються із середнім нулем та постійним стандартним відхиленням, і що терміни похибки не залежать від розміру\(X\) та незалежні один від одного.

    Припущення регресійної моделі звичайних найменших квадратів

    Кожне з цих припущень потребує трохи більшого пояснення. Якщо одне з цих припущень не відповідає дійсності, то це вплине на якість оцінок. Деякі невдачі цих припущень можуть бути виправлені, тоді як інші призводять до оцінок, які досить просто не дають уявлення про питання, на які модель намагається відповісти або гірше, дають упереджені оцінки.

    1. Незалежні\(x_i\) змінні вимірюються без помилок і є фіксованими числами, які не залежать від терміну помилки. Це припущення говорить по суті, що\(Y\) є детермінованим, результатом фіксованого компонента «\(X\)» і випадкової помилки компонента «»\(\epsilon\).
    2. Термін помилки - випадкова величина з середнім нулем і постійною дисперсією. Сенс цього полягає в тому, що дисперсії незалежних змінних не залежать від значення змінної. Розглянемо взаємозв'язок між особистим доходом і кількістю придбаного товару на прикладі випадку, коли дисперсія залежить від вартості незалежної змінної, доходу. Цілком імовірно, що зі збільшенням доходу варіація навколо придбаної суми також збільшиться просто через гнучкість, забезпечену більш високим рівнем доходу. Припущення полягає в постійній дисперсії щодо величини незалежної змінної, яка називається гомосцедастичностью. Якщо припущення не вдається, то воно називається гетеросцедастичностью. На малюнку 13.6 показаний випадок гомоседастичності, де всі три розподіли мають однакову дисперсію навколо прогнозованого значення\(Y\) незалежно від величини\(X\).
    3. Хоча незалежні змінні є фіксованими значеннями, вони походять від розподілу ймовірностей, який зазвичай розподіляється. Це можна побачити на малюнку 13.6 за формою розподілів, розміщених на прогнозованій лінії при очікуваному значенні відповідного значення\(Y\).
    4. Незалежні змінні не залежать від інших змінних\(Y\), але також вважаються незалежними від інших\(X\) змінних. Модель призначена для оцінки впливу незалежних змінних на деяку залежну змінну відповідно до запропонованої теорії. Випадок, коли деякі або більше незалежних змінних співвідносяться, не є незвичайним. Причинно-наслідковий зв'язок між незалежними змінними може бути відсутнім, але тим не менше вони рухаються разом. Візьмемо випадок простої кривої пропозиції, де кількість, що поставляється теоретично пов'язана з ціною продукту та цінами на вхідні матеріали. Може бути кілька входів, які з часом можуть рухатися разом від загального інфляційного тиску. Таким чином, вхідні ціни порушать це припущення регресійного аналізу. Ця умова називається мультиколінеарністю, яка буде детально розглянута пізніше.
    5. Терміни помилки не співвідносяться між собою. Така ситуація виникає внаслідок впливу на один термін помилки від іншого терміну помилки. Хоча не виключно проблема часових рядів, саме тут ми найчастіше бачимо цей випадок. \(X\)Змінна в часовому періоді один впливає на\(Y\) змінну, але цей ефект потім впливає на наступний період часу. Цей ефект породжує зв'язок між термінами помилки. Цей випадок називається автокореляцією, «самокореляційний». Терміни помилки тепер не незалежні один від одного, а скоріше мають власний вплив на наступні терміни помилки.

    Малюнок 13.6 не показує всіх припущень регресійної моделі, але допомагає візуалізувати ці важливі.

    Малюнок 13.6

    Малюнок 13.7

    Це загальна форма, яку найчастіше називають моделлю множинної регресії. Так званий «простий» регресійний аналіз має лише одну незалежну (праву) змінну, а не багато незалежних змінних. Проста регресія - це лише окремий випадок множинної регресії. Існує деяке значення на початку простої регресії: легко графувати в двох вимірах, важко графувати в трьох вимірах і неможливо графувати в більш ніж трьох вимірах. Отже, наші графіки будуть для простого випадку регресії. На малюнку 13.7 представлена задача регресії у вигляді графіка розсіювання множини даних, де висувається гіпотеза, що\(Y\) залежить від єдиної незалежної змінної\(X\).

    Основним співвідношенням макроекономічних принципів є функція споживання. Цей теоретичний зв'язок стверджує, що в міру зростання доходів людини їх споживання зростає, але на меншу суму, ніж зростання доходу. Якщо\(Y\) споживання і\(X\) є доходом у рівнянні нижче Малюнок 13.7, проблема регресії полягає, по-перше, у встановленні цього зв'язку, а по-друге, визначити вплив зміни доходу на споживання людини. Параметр\(\beta_1\) отримав назву гранична схильність до споживання в принципах макроекономіки.

    Кожна «точка» на малюнку 13.7 представляє споживання та дохід різних осіб у певний момент часу. Раніше це називалося даними поперечного перерізу; спостереження за змінними в один момент часу між різними людьми або іншими одиницями вимірювання. Цей аналіз часто проводиться за допомогою даних часових рядів, які були б споживання та дохід однієї людини чи країни в різні моменти часу. Для макроекономічних проблем прийнято використовувати агреговані дані часових рядів по всій країні. Для цієї конкретної теоретичної концепції ці дані легко доступні в річному звіті Ради економічних радників Президента.

    Малюнок 13.8. Регресійний аналіз іноді називають аналізом «найменших квадратів», оскільки метод визначення того, який рядок найкраще «підходить» для даних, полягає в мінімізації суми квадратних залишків лінії, розміщеної через дані.

    Малюнок 13.8 Рівняння
    населення:\(\mathrm{C}=\beta_{0}+\beta_{1} \text{lncome}+\varepsilon\)
    Розрахункове рівняння:\(C=b_{0}+b_{1} \text{lncome}+e\)

    Ця цифра показує передбачувану залежність між споживанням і доходом від макроекономічної теорії. Тут дані побудовані у вигляді розсіяної діаграми і була проведена орієнтовна пряма лінія. З цього графіка ми можемо побачити термін помилки,\(e_1\). Кожна точка даних також має термін помилки. Знову ж таки, термін помилки вводиться в рівняння для фіксації впливу на споживання, які не викликані змінами доходів. Такими іншими наслідками можуть бути заощадження або багатство людини, або періоди безробіття. Ми побачимо, як мінімізуючи суму цих помилок, ми можемо отримати оцінку нахилу і перехоплення цієї лінії.

    Розглянемо графік нижче. Позначення повернулося до цього для більш загальної моделі, а не конкретного випадку функції макроекономічного споживання в нашому прикладі.

    Малюнок 13.9

    \(\hat{\mathrm{y}}\)Читається «\(\bf y\)капелюх» і є оціночним значенням\(\bf y\). (На малюнку 13.8\(\hat{C}\) представляє розрахункове значення споживання, оскільки воно знаходиться на розрахунковій лінії.) Це значення,\(y\) отримане за допомогою лінії регресії. \(\hat{\mathrm{y}}\)взагалі не дорівнює\(y\) з даних.

    Термін\(y_{0}-\hat{y}_{0}=e_{0}\) називається «помилка» або залишкова. Це не помилка в сенсі помилки. Термін помилки був введений в оцінювальне рівняння для захоплення відсутніх змінних і помилок у вимірюванні, які могли виникнути в залежних змінних. Абсолютне значення залишкової величини вимірює вертикальну відстань між фактичним значенням\(y\) і розрахунковим значенням\(y\). Іншими словами, він вимірює вертикальну відстань між фактичною точкою даних і прогнозованою точкою на лінії, як це видно на графіку в точці\(X_0\).

    Якщо спостережувана точка даних лежить над лінією, залишкова є позитивною, а лінія занижує фактичне значення даних для\(y\).

    Якщо спостережувана точка даних лежить нижче лінії, залишкова від'ємна, а лінія завищує фактичне значення даних для\(y\).

    На графіку\(y_{0}-\hat{y}_{0}=e_{0}\) - залишкова для показаної точки. Тут точка лежить над лінією, а залишкова - позитивна. Для кожної точки даних залишки, або помилки, обчислюються\(y_{i}-\hat{y}_{i}=e_{i}\) для того,\(i = 1, 2, 3, ..., n\) де розмір\(n\) вибірки. Кожен\(|e|\) - це відстань по вертикалі.

    Сума помилок у квадраті є терміном, очевидно, називається Сума квадратних помилок (SSE).

    За допомогою обчислення можна визначити пряму лінію, яка має значення параметрів\(b_0\) і\(b_1\) яка мінімізує SSE. Коли ви робите SSE мінімум, ви визначили точки, які знаходяться на лінії найкращого прилягання. Виходить, що лінія найкращого прилягання має рівняння:

    \[\hat{y}=b_{0}+b_{1} x\nonumber\]

    де\(b_{0}=\overline{y}-b_{1} \overline{x}\) і\(b_{1}=\frac{\Sigma(x-\overline{x})(y-\overline{y})}{\Sigma(x-\overline{x})^{2}}=\frac{\operatorname{cov}(x, y)}{s_{x}^{2}}\)

    Вибіркові засоби\(x\) значень і\(y\) значень є\(\overline{x}\) і\(\overline{y}\), відповідно. Краща лінія прилягання завжди проходить через точку (\(\overline{y}\),\(\overline{x}\)), звану точками засобів.

    Ухил також\(b\) можна записати як:

    \[b_{1}=r_{\mathrm{y}, \mathrm{x}}\left(\frac{s_{y}}{s_{x}}\right)\nonumber\]

    де\(s_y\) = стандартне відхилення\(y\) значень і\(s_x\) = стандартне відхилення\(x\) значень і\(r\) є коефіцієнтом кореляції між\(x\) і\(y\).

    Ці рівняння називаються нормальними рівняннями і походять від іншої дуже важливої математичної знахідки, яка називається теоремою Гаусса-Маркова, без якої ми не могли б зробити регресійний аналіз. Теорема Гаусса-Маркова говорить нам, що оцінки, які ми отримуємо від використання методу регресії звичайних найменших квадратів (OLS), призведуть до оцінок, які мають деякі дуже важливі властивості. У теоремі Гаусса-Маркова доведено, що лінія найменших квадратів є СИНЬОЮ, яка є, B est, L лінійним, U n-упередженим, E стиматором. Найкраще статистичне властивість, що оцінювачем є той, з мінімальною дисперсією. Лінійний відноситься до властивості типу оцінюваної лінії. Неупереджений оцінювач - це той, чия оціночна функція має очікуване середнє значення, рівне середньому чисельності населення. (Ви будете пам'ятати, що очікуване значення\(\mu_{\overline{x}}\) дорівнювало середньому чисельності населення\(\mu\) відповідно до Центральної граничної теореми. Це точно таке ж поняття тут).

    І Гаусс, і Марков були гігантами в області математики, і Гаусс у фізиці теж, в XVIII столітті і на початку 19 століття. Вони ледь перетиналися хронологічно і ніколи в географії, але робота Маркова над цією теоремою широко грунтувалася на більш ранній роботі Карла Гаусса. Велике прикладне значення цієї теореми довелося чекати до середини цього минулого століття.

    Використовуючи метод OLS, тепер ми можемо знайти оцінку дисперсії помилки, яка є дисперсією квадратних помилок, e 2. Це іноді називають стандартною похибкою кошторису. (Граматично це, мабуть, найкраще сказати як оцінку дисперсії помилки) Формула для оцінки дисперсії помилки така:

    \[s_{e}^{2}=\frac{\Sigma\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-k}=\frac{\Sigma e_{i}^{2}}{n-k}\nonumber\]

    де\(\hat{y}\) - прогнозоване значення\(y\) і\(y\) - спостережуване значення, і, таким чином, термін\(\left(y_{i}-\hat{y}_{i}\right)^{2}\) - це квадратні помилки, які необхідно мінімізувати, щоб знайти оцінки параметрів лінії регресії. Це дійсно просто дисперсія термінів помилки і слідує нашій регулярній формулі дисперсії. Одне важливе зауваження полягає в тому, що тут ми ділимося на\((n−k)\), яка є ступенями свободи. Ступенями свободи рівняння регресії буде число спостережень\(n\), зменшене на кількість оцінюваних параметрів, що включає в себе перехоплення як параметр.

    Дисперсія помилок є фундаментальною при перевірці гіпотез на регресію. Це говорить нам про те, наскільки «щільно» дисперсія стосується лінії. Як ми побачимо незабаром, чим більша дисперсія щодо лінії, тобто чим більша дисперсія помилок, тим менша ймовірність того, що гіпотезована незалежна змінна матиме значний вплив на залежну змінну. Коротше кажучи, тестується теорія, швидше за все, не вдасться, якщо дисперсія терміну помилки висока. При роздумах це не повинно бути сюрпризом. Коли ми перевіряли гіпотези про середнє значення, ми спостерігали, що великі відхилення зменшують розрахункову статистику тесту, і, таким чином, вона не досягла хвоста розподілу. У цих випадках нульові гіпотези не могли бути відхилені. Якщо ми не можемо відхилити нульову гіпотезу в задачі регресії, ми повинні зробити висновок, що гіпотезована незалежна змінна не впливає на залежну змінну.

    Спосіб візуалізації цієї концепції полягає в тому, щоб намалювати дві ділянки розкиду\(x\) і\(y\) дані вздовж заздалегідь визначеної лінії. Перший матиме невелику дисперсію помилок, а це означає, що всі точки даних будуть рухатися близько до лінії. Тепер зробіть те ж саме, крім точок даних буде мати велику оцінку відхилення похибки, що означає, що точки даних розкидані широко уздовж лінії. Очевидно, що впевненість у зв'язку між\(x\) і\(y\) здійснюється цією різницею між оцінкою дисперсії похибки.

    Тестування параметрів лінії

    Вся мета регресійного аналізу полягала в тому, щоб перевірити гіпотезу про те\(Y\), що залежна змінна насправді залежна від значень незалежних змінних, як стверджується деякою теорією основи, наприклад, прикладом функції споживання. Дивлячись на розрахункове рівняння під малюнком 13.8, ми бачимо, що це дорівнює визначенню значень\(b_0\) і\(b_1\). Зверніть увагу, що ми знову використовуємо конвенцію грецьких букв для параметрів населення та латинські літери для їх оцінок.

    Вихід регресійного аналізу, наданий комп'ютерним програмним забезпеченням, дасть оцінку\(b_0\) і\(b_1\), і будь-які інші\(b\) для інших незалежних змінних, які були включені в оцінюване рівняння. Питання в тому, наскільки хороші ці оцінки? Щоб перевірити гіпотезу щодо будь-якої оцінки, ми виявили, що нам потрібно знати основний розподіл вибірки. На його етапі в курсі не повинно бути несподіванки, що відповідь буде нормальним розподілом. У цьому можна переконатися, пам'ятаючи припущення, що термін помилки в популяції\(\epsilon\), нормально розподіляється. Якщо термін похибки нормально розподілений і дисперсія оцінок параметрів рівняння,\(b_0\) причому\(b_1\), визначаються дисперсією терміна похибки, то випливає, що дисперсії оцінок параметрів також нормально розподілені. І дійсно це якраз так.

    Ми можемо побачити це шляхом створення тестової статистики для перевірки гіпотези для параметра нахилу,\(\beta_1\) в нашому рівнянні функції споживання. Щоб перевірити, чи\(Y\) дійсно залежить чи ні від того\(X\), чи в нашому прикладі, споживання залежить від доходу, нам потрібно лише перевірити гіпотезу, яка\(\beta_1\) дорівнює нулю. Ця гіпотеза буде викладена формально як:

    \[H_{0} : \beta_{1}=0\nonumber\]

    \[H_{a} : \beta_{1} \neq 0\nonumber\]

    Якщо ми не можемо відкинути нульову гіпотезу, ми повинні зробити висновок, що наша теорія не має дійсності. Якщо ми не можемо відхилити нульову гіпотезу\(b_1\), що\(\beta_1 = 0\) тоді, коефіцієнт доходу, дорівнює нулю, а нуль раз нічого дорівнює нулю. Тому вплив доходу на споживання дорівнює нулю. Немає жодних стосунків, як запропонувала наша теорія.

    Зверніть увагу, що ми встановили презумпцію, нульову гіпотезу, як «немає відносин». Це покладає тягар доказів на альтернативну гіпотезу. Іншими словами, якщо ми хочемо підтвердити наше твердження про пошук відносин, ми повинні зробити це з рівнем значущості, що перевищує 90, 95 або 99 відсотків. Статус-кво - це незнання, жодних стосунків не існує, і щоб мати можливість заявити про те, що ми насправді додали до нашого обсягу знань, ми повинні зробити це зі значною ймовірністю бути правильними. Джон Мейнард Кейнс отримав це право і, таким чином, народився кейнсіанська економіка, починаючи з цієї основної концепції в 1936 році.

    Статистика тесту для цього тесту надходить безпосередньо від нашого старого друга формулою стандартизації:

    \[t_{c}=\frac{b_{1}-\beta_{1}}{S_{b_{1}}}\nonumber\]

    де\(b_1\) - розрахункове значення нахилу лінії регресії,\(\beta_1\) є гіпотезованим значенням бета, в даному випадку нульовим, і\(S_{b_1}\) є стандартним відхиленням оцінки\(b_1\). У цьому випадку ми запитуємо, скільки стандартних відхилень становить розрахунковий ухил від гіпотезованого нахилу. Це точно таке ж питання, яке ми задавали раніше щодо гіпотези про середнє: скільки стандартних відхилень оцінюється середнє, середнє вибіркове, від гіпотезованого середнього?

    Статистика тесту пишеться як розподіл t студента, але якщо розмір вибірки достатньо більший, щоб ступені свободи перевищували 30, ми можемо знову використовувати нормальний розподіл. Щоб зрозуміти, чому ми можемо використовувати t студента або нормальний розподіл, нам залишається лише подивитися\(S_{b_1}\), формулу стандартного відхилення оцінки\(b_1\):

    \[S_{b_{1}}=\frac{S_{e}^{2}}{\sqrt{\left(x_{i}-\overline{x}\right)^{2}}}\nonumber\]

    \[\text{or}\nonumber\]

    \[S_{b_{1}}=\frac{S_{e}^{2}}{(n-1) S_{x}^{2}}\nonumber\]

    Де\(S_e\) оцінюється дисперсія похибки і\(S^2_x\) - дисперсія\(x\) значень коефіцієнта перевіряється незалежної змінної.

    Ми бачимо\(S_e\), що, оцінка дисперсії похибки, є частиною обчислення. Оскільки оцінка дисперсії похибки базується на припущенні про нормальність термінів похибки, можна зробити висновок, що розподіл вибірки, коефіцієнти нашої гіпотезованої лінії регресії, також нормально розподілені.\(b\)

    Останнє зауваження стосується ступенів свободи тестової статистики,\(ν=n-k\). Раніше ми віднімали 1 від розміру вибірки, щоб визначити ступінь свободи в задачі студента t. Тут ми повинні відняти один ступінь свободи для кожного параметра, оціненого в рівнянні. Для прикладу функції споживання ми втрачаємо 2 ступеня свободи, один для\(b_0\), перехоплення, а один для\(b_1\), нахил функції споживання. Ступінь свободи буде\(n - k - 1\), де k - кількість незалежних змінних, а додаткова втрачається через перехоплення. Якби ми оцінювали рівняння з трьома незалежними змінними, ми втратили б 4 ступені свободи: три для незалежних змінних і ще одну для перехоплення.\(k\)

    Правило прийняття рішення про прийняття або відхилення нульової гіпотези має точно таку ж форму, як і у всіх наших попередніх випробуваннях гіпотези. А саме, якщо розрахункове значення\(t\) (або\(Z\)) потрапляє в хвости розподілу, де хвости визначаються\(\alpha\), необхідний рівень значущості в тесті, ми не можемо прийняти нульову гіпотезу. Якщо з іншого боку, розраховане значення тестової статистики знаходиться в межах критичної області, ми не можемо відхилити нульову гіпотезу.

    Якщо зробити висновок, що ми не можемо прийняти нульову гіпотезу, ми можемо з\((1−\alpha)\) рівнем впевненості заявити, що нахил лінії задається\(b_1\). Це вкрай важливий висновок. Регресійний аналіз не тільки дозволяє нам перевірити, чи існує причинно-наслідковий зв'язок, ми також можемо визначити величину цього зв'язку, якщо вона існує. Саме ця особливість регресійного аналізу робить його таким цінним. Якщо можуть бути розроблені моделі, які мають статистичну достовірність, ми можемо моделювати наслідки змін змінних, які можуть бути під нашим контролем з певною часткою ймовірності, звичайно. Наприклад, якщо реклама демонструється, щоб вплинути на продажі, ми можемо визначити наслідки зміни рекламного бюджету та вирішити, чи варто збільшені продажі додаткових витрат.

    Мультиколінеарність

    Наше обговорення раніше вказувало на те, що, як і всі статистичні моделі, регресійна модель OLS має важливі припущення. Кожне припущення, якщо воно порушене, впливає на здатність моделі надавати корисні і змістовні оцінки. Теорема Гауса-Маркова запевнила нас, що оцінки OLS є неупередженими і мінімальною дисперсією, але це вірно лише за припущеннями моделі. Тут ми розглянемо вплив на оцінки OLS, якщо незалежні змінні співвідносяться. Інші припущення та методи пом'якшення труднощів, які вони створюють, якщо вони виявляються порушеними, розглядаються на курсах економетрики. Ми беремося за мультиколінеарність, тому що вона так часто поширена в економічних моделям, і це часто призводить до неприємних результатів.

    Модель OLS передбачає, що всі незалежні змінні незалежні один від одного. Це припущення легко перевірити для конкретної вибірки даних з простими коефіцієнтами кореляції. Кореляція, як і багато в статистиці, - справа ступеня: трохи не добре, а багато жахливо.

    Мета регресійної техніки полягає в тому, щоб дражнити незалежні впливи кожної з безлічі незалежних змінних на якусь гіпотезовану залежну змінну. Якщо дві незалежні змінні 2 взаємопов'язані, тобто співвідносяться, то ми не можемо ізолювати ефекти\(Y\) однієї від іншої. В крайньому випадку, коли\(x_1\) йде лінійна комбінація\(x_2\), кореляція дорівнює одиниці, обидві змінні рухаються однаковими способами с\(Y\). У цьому випадку неможливо визначити змінну, яка є справжньою причиною впливу на\(Y\). (Якщо дві змінні насправді були ідеально корельовані, то математично жодних результатів регресії не можна було б обчислити.)

    Нормальні рівняння для коефіцієнтів показують вплив мультиколінеарності на коефіцієнти.

    \[b_{1}=\frac{s_{y}\left(r_{x_{1} y}-r_{x_{1} x_{2}} r_{x_{2} y}\right)}{s_{x_{1}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[b_{2}=\frac{s_{y}\left(r_{x_{2 y}}-r_{x_{1} x_{2}} r_{x_{1} y}\right)}{s_{x_{2}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[b_{0}=\overline{y}-b_{1} \overline{x}_{1}-b_{2} \overline{x}_{2}\nonumber\]

    Кореляція між\(x_1\) і\(x_2\)\(r_{x_{1} x_{2}}^{2}\), з'являється в знаменнику як оціночної формули для\(b_1\) і\(b_2\). Якщо припущення про незалежність тримається, то цей термін дорівнює нулю. Це говорить про відсутність впливу кореляції на коефіцієнт. З іншого боку, у міру збільшення кореляції між двома незалежними змінними знаменник зменшується, і, таким чином, оцінка коефіцієнта збільшується. Кореляція має однаковий вплив на обидва коефіцієнти цих двох змінних. По суті, кожна змінна «приймає» частину ефекту на Y, який слід віднести до колінеарної змінної. Це призводить до необ'єктивних оцінок.

    Мультиколінеарність має подальший згубний вплив на оцінки OLS. Кореляція між двома незалежними змінними також відображається у формулах для оцінки дисперсії для коефіцієнтів.

    \[s_{b_{1}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{1}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[s_{b_{2}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{2}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    Тут ми знову бачимо кореляцію між\(x_1\) і\(x_2\) в знаменнику оцінок дисперсії для коефіцієнтів для обох змінних. Якщо кореляція дорівнює нулю, як передбачається в регресійній моделі, то формула згортається до звичного відношення дисперсії похибок до дисперсії відповідної незалежної змінної. Якщо ж дві незалежні змінні співвідносяться, то дисперсія оцінки коефіцієнта збільшується. Це призводить до меншого\(t\) -значення для перевірки гіпотези коефіцієнта. Коротше кажучи, мультиколінеарність призводить до того, що не вдається відхилити нульову гіпотезу, на яку\(X\) змінна не впливає,\(Y\) коли насправді\(X\) має статистично значущий вплив\(Y\). Інакше кажучи, великі стандартні похибки оцінюваного коефіцієнта, створені мультиколінеарністю, свідчать про статистичну нікчемність навіть тоді, коли гіпотезований зв'язок є сильним.

    Наскільки добре це рівняння?

    В останньому розділі ми займалися тестуванням гіпотези про те, що залежна змінна дійсно залежить від гіпотезованої незалежної змінної або змінних. Можливо, ми знаходимо незалежну змінну, яка має певний вплив на залежну змінну, але вона може бути не єдиною, і вона може бути навіть не найважливішою. Пам'ятайте, що термін помилки був поміщений в модель для захоплення ефектів будь-яких відсутніх незалежних змінних. Звідси випливає, що термін помилки може бути використаний, щоб дати міру «доброти придатності» рівняння, прийнятого в цілому при поясненні варіації залежної змінної,\(Y\).

    Кратний коефіцієнт кореляції, також званий коефіцієнтом кратного визначення або коефіцієнтом детермінації, задається формулою:

    \[R^{2}=\frac{\mathrm{SSR}}{\mathrm{SST}}\nonumber\]

    де SSR - сума регресії квадратів, квадратне відхилення прогнозованого значення\(y\) від середнього значення\(y(\hat{y}-\overline{y})\), а SST - загальна сума Рисунок 13.10 показує, як загальне відхилення залежної змінної, y, розділене на ці дві частини.

    Малюнок 13.10

    На малюнку 13.10 показана розрахункова лінія регресії і єдине спостереження,\(x_1\). Регресійний аналіз намагається пояснити варіацію даних про середнє значення залежної змінної,\(y\). Питання в тому, чому спостереження у змінюються від середнього рівня\(y\)? Значення y при спостереженні\(x_1\) варіюється від середнього\(y\) на різницю\(\left(y_{i}-\overline{y}\right)\). Сума цих різниць у квадраті дорівнює SST, сума квадратів загальна. Фактичне значення\(y\) ат\(x_1\) відхиляється від розрахункової величини\(\hat{y}\), на різницю між розрахунковим і фактичним значенням,\(\left(y_{i}-\hat{y}\right)\). Нагадаємо, що це термін помилки, e, а сума цих помилок - SSE, сума похибок у квадраті. Відхилення прогнозованого значення\(y\)\(\hat y\), від середнього значення\(y\) є\((\hat{y}-\overline{y})\) і є ССР, сума квадратів регресії. Його називають «регресією», оскільки це відхилення, пояснене регресією. (Іноді ССР називають SSM для суми квадратів середнього, оскільки він вимірює відхилення від середнього значення залежної змінної, y, як показано на графіку.).

    Оскільки SST = SSR + SSE ми бачимо, що множинний коефіцієнт кореляції - це відсоток дисперсії, або відхилення\(y\) від його середнього значення, що пояснюється рівнянням при прийнятті в цілому. \(R^2\)буде змінюватися між нулем і 1, при цьому нуль вказує на те, що жодна варіація не\(y\) була пояснена рівнянням і значенням 1, що вказує на те, що 100% варіації\(y\) було пояснено рівнянням. Для досліджень часових рядів очікують високого рівня,\(R^2\) а для даних поперечного перерізу очікують низького рівня\(R^2\).

    Хоча високий\(R^2\) бажаний, пам'ятайте, що саме тести гіпотези щодо існування зв'язку між набором незалежних змінних і певною залежною змінною були мотивуючим фактором у використанні регресійної моделі. Це перевірка причинно-наслідкових зв'язків, розроблених деякою теорією, яка є справжньою причиною того, що ми обрали регресійний аналіз. Збільшення кількості незалежних змінних матиме ефект збільшення\(R^2\). Для обліку цього ефекту належною мірою коефіцієнта детермінації є\(\overline{R}^{2}\), скоригована на ступені свободи, щоб утримати безглузде додавання незалежних змінних.

    Не існує статистичного тесту для\(R^2\) і, таким чином, мало що можна сказати про модель, яка використовує\(R^2\) наш характерний рівень довіри. Дві моделі, які мають однаковий розмір SSE, тобто суму квадратних помилок, можуть мати дуже різні,\(R^2\) якщо конкуруючі моделі мають різну SST, загальну суму квадратних відхилень. Гарність придатності двох моделей однакова; вони обидва мають однакову суму квадратів нез'ясованих, похибки в квадраті, але через більшу загальну суму квадратів на одній з моделей\(R^2\) відрізняється. Знову ж таки, реальне значення регресії як інструменту полягає у вивченні гіпотез, розроблених на основі моделі, яка передбачає певні зв'язки між змінними. Це випробування гіпотез на коефіцієнти моделі, а не гра максимізації\(R^2\).

    Ще одним способом перевірки загальної якості загальної моделі є перевірка коефіцієнтів як групи, а не самостійно. Оскільки це множинна регресія (більше одного X), ми використовуємо F-тест, щоб визначити, чи наші коефіцієнти сукупно впливають на Y. Гіпотеза така:

    \(H_{o} : \beta_{1}=\beta_{2}=\ldots=\beta_{i}=0\)

    \(H_a\): «принаймні один з не\(\beta_i\) дорівнює 0»

    Якщо нульова гіпотеза не може бути відхилена, то робимо висновок, що жодна з незалежних змінних не сприяє поясненню варіації в\(Y\). Переглядаючи рисунок 13.10, ми бачимо, що SSR, пояснена сума квадратів, є мірою того, скільки варіації\(Y\) пояснюється всіма змінними в моделі. SSE, сума помилок у квадраті, вимірює, скільки нез'ясовано. Звідси випливає, що співвідношення цих двох може забезпечити нам статистичний тест моделі в цілому. Пам'ятаючи, що\(F\) розподіл є співвідношенням розподілів Chi в квадраті і що дисперсії розподіляються відповідно до Chi Squared, а сума квадратних помилок і сума квадратів обидва дисперсії, ми маємо тестову статистику для цієї гіпотези як:

    \[F_{c}=\frac{\left(\frac{S S R}{k}\right)}{\left(\frac{S S E}{n-k-1}\right)}\nonumber\]

    де\(n\) - кількість спостережень і\(k\) число незалежних змінних. Можна показати, що це еквівалентно:

    \[F_{c}=\frac{n-k-1}{k} \cdot \frac{R^{2}}{1-R^{2}}\nonumber\]

    Малюнок 13.10 де\(R^2\) - коефіцієнт детермінації, який також є мірою «доброти» моделі.

    Як і у всіх наших тестах гіпотези, ми робимо висновок, порівнюючи обчислену\(F\) статистику з критичним значенням, враховуючи бажаний рівень довіри. Якщо обчислена тестова статистика,\(F\) статистика в даному випадку, знаходиться в хвості розподілу, то ми не можемо прийняти нульову гіпотезу. Не маючи можливості прийняти нульові гіпотези, ми робимо висновок, що дана специфікація цієї моделі має обґрунтованість, оскільки принаймні один з оціночних коефіцієнтів значно відрізняється від нуля.

    Альтернативним способом дійти такого висновку є використання правила порівняння p-значень. \(p\)Значення -це площа в хвості, враховуючи обчислену\(F\) статистику. По суті, комп'ютер знаходить\(F\) значення в таблиці для нас. Вихід комп'ютерної регресії для обчисленої\(F\) статистики, як правило, знаходиться в розділі таблиці ANOVA з міткою «значущість F». Як прочитати висновок регресії Excel, представлено нижче. Це ймовірність НЕ прийняти помилкову нульову гіпотезу. Якщо ця ймовірність менше нашої заздалегідь визначеної альфа-помилки, то висновок полягає в тому, що ми не можемо прийняти нульову гіпотезу.

    Манекен Змінні

    До теперішнього часу аналіз методу регресії OLS припускав, що незалежні змінні в тестованих моделям були неперервними випадковими величинами. Однак у моделі регресії немає обмежень щодо незалежних змінних, які є двійковими. Це відкриває регресійну модель для перевірки гіпотез щодо категоріальних змінних, таких як стать, раса, регіон країни, перед певними даними, після певної дати та незліченних інших. Ці категоріальні змінні приймають лише два значення, 1 та 0, успіх чи невдача, з біноміального розподілу ймовірностей. Форма рівняння стає:

    \[\hat{y}=b_{0}+b_{2} x_{2}+b_{1} x_{1}\nonumber\]

    Малюнок 13.11

    де\(x_2=0\). \(X_2\)є фіктивною змінною і\(X_1\) є деякою безперервною випадковою величиною. Константа\(b_0\), - це перехоплення y, значення, де лінія перетинає\(y\) вісь -. Коли значення\(X_2 = 0\), розрахункова лінія перетинається на\(b_0\). Коли значення\(X_2 = 1\) то розрахункова лінія перетинається на\(b_0 + b_2\). По суті, фіктивна змінна змушує оцінену лінію зміщуватися або вгору, або вниз на розмір ефекту характеристики, захопленої фіктивною змінною. Зверніть увагу, що це простий паралельний зсув і не впливає на вплив іншої незалежної змінної;\(X_1\) .Ця змінна є безперервною випадковою величиною і прогнозує різні значення\(y\) при різних значеннях\(X_1\) утримання постійної умови фіктивної змінної.

    Прикладом використання фіктивної змінної є робота, яка оцінює вплив статі на заробітну плату. Існує повний обсяг літератури на цю тему, і фіктивні змінні широко використовуються. Для цього прикладу розглядається заробітна плата вчителів початкових і середніх шкіл для конкретної держави. Використання однорідної категорії роботи, шкільних вчителів і для однієї держави зменшує багато варіацій, які природно впливають на заробітні плати, такі як диференціальний фізичний ризик, вартість життя в конкретній державі та інші умови праці. Оцінювальне рівняння у найпростішій формі визначає заробітну плату як функцію різних характеристик вчителя, які, як припускає економічна теорія, може вплинути на заробітну плату. Вони включали б рівень освіти як показник потенційної продуктивності, віку та/або досвіду для захоплення навчання на робочому місці, знову ж таки як показник продуктивності. Оскільки дані призначені для шкільних вчителів, зайнятих у державних шкільних округах, а не для працівників комерційної компанії, середній дохід шкільного округу на середньодобову відвідуваність учнів включається як показник платної здатності. Результати регресійного аналізу з використанням даних про 24 916 шкільних вчителів представлені нижче.

    Змінна Коефіцієнти регресії (b) Стандартні помилки
    оцінок функції заробітку вчителя (сб)
    Перехоплення 4269.9
    Стать (чоловік = 1) 632.38 13.39
    Загальний досвід роботи 52.32 1.10
    Багаторічний досвід роботи в поточному окрузі 29.97 1.52
    Освіта 629.33 13.16
    Загальний дохід за ADA 90.24 3.76
    \(\overline{R}^{2}\) .725
    \(n\) 24 916
    Таблиця 13.1 Оцінка прибутку вчителів початкової та середньої школи

    Коефіцієнти для всіх незалежних змінних значно відрізняються від нуля, на що вказують стандартні похибки. Розділення стандартних похибок кожного коефіцієнта призводить до t-значення більше 1,96, що є необхідним рівнем для 95% значущості. Бінарна змінна, наша фіктивна змінна, що представляє інтерес в цьому аналізі, є стать, де чоловічий дається значення 1, а жінка - значення 0. Коефіцієнт значно відрізняється від нуля при різкій t-статистиці 47 стандартних відхилень. Таким чином, ми не можемо прийняти нульову гіпотезу про те, що коефіцієнт дорівнює нулю. Тому робимо висновок, що існує премія, що виплачується вчителям-чоловікам в розмірі 632$ після проведення постійного досвіду, освіти і багатства шкільного округу, в якому працює вчитель. Важливо зазначити, що ці дані з деякого часу тому, і $632 представляють собою шестивідсоткову надбавку до зарплати на той час. Графік цього прикладу фіктивних змінних представлений нижче.

    Малюнок 13.12

    У двох вимірах зарплата є залежною змінною від вертикальної осі, і загальний багаторічний досвід був обраний для безперервної незалежної змінної на горизонтальній осі. Будь-яка з інших незалежних змінних могла бути обрана для ілюстрації ефекту фіктивної змінної. Взаємозв'язок між загальним багаторічним досвідом має нахил 52,32 доларів на рік досвіду, а розрахункова лінія має перехоплення 4,269 доларів, якщо гендерна змінна дорівнює нулю, для жінок. Якщо гендерна змінна дорівнює 1, для чоловічої статі коефіцієнт для змінної статі додається до перехоплення і таким чином зв'язок між загальним стажем і зарплатою зміщується вгору паралельно, як зазначено на графіку. Також на графіку відзначені різні точки для відліку. Шкільна вчителька з 10-річним стажем отримує зарплату в розмірі 4792 доларів тільки на підставі свого досвіду, але це все одно на 109 доларів менше, ніж вчителька-чоловіча з нульовим стажем.

    Також можна оцінити більш складну взаємодію між фіктивною змінною і залежною змінною. Може бути, що фіктивна змінна має більше, ніж простий ефект зсуву на залежну змінну, але також взаємодіє з однією або декількома іншими безперервними незалежними змінними. Хоча це не перевірено у наведеному вище прикладі, можна висловити гіпотезу, що вплив статі на заробітну плату не був одноразовою зміною, але вплинув на вартість додаткових років досвіду на заробітну плату також. Тобто зарплати вчительки школи були знижені на старті, а далі не росли такими ж темпами від ефекту досвіду, як у вчителів чоловічої школи. Це буде відображатися як інший схил для відносин між загальним багаторічним досвідом для чоловіків, ніж для жінок. Якщо це так, то шкільні вчителі жінок не просто почнуть відставати від своїх колег чоловічої статі (як вимірюється зміщенням у передбачуваній лінії регресії), але відставали б все далі і далі відставали від часу і переживали збільшення.

    На графіку нижче показано, як ця гіпотеза може бути перевірена з використанням фіктивних змінних та змінної взаємодії.

    Малюнок 13.13

    Оцінювальне рівняння показує, як нахил\(X_1\), безперервна випадкова величина досвіду, містить дві частини,\(b_1\) і\(b_3\). Це відбувається через те, що нова змінна\(X_2\)\(X_1\), яка називається змінною взаємодії, була створена, щоб дозволити ефект на нахил\(X_1\) від змін у\(X_2\), двійковій змінній манекену. Зверніть увагу, що коли змінна\(X_2 = 0\) фіктивна, змінна взаємодії має значення 0, але коли\(X_2 = 1\) змінна взаємодії має значення\(X_1\). Коефіцієнт\(b_3\) являє собою оцінку різниці коефіцієнта\(X_1\) коли в\(X_2= 1\) порівнянні з коли\(X_2 = 0\). На прикладі зарплат вчителів, якщо є надбавка, що виплачується вчителям чоловічої статі, яка впливає на\(b_1 + b_3\) темпи підвищення зарплат з досвіду, то ставка, з якою підвищуються зарплати вчителів чоловічої статі, була б просто\(b_1\). Цю гіпотезу можна перевірити за допомогою гіпотези:

    \[H_{0} : \beta_{3}=0 | \beta_{1}=0, \beta_{2}=0\nonumber\]

    \[H_{a} : \beta_{3} \neq 0 | \beta_{1} \neq 0, \beta_{2} \neq 0\nonumber\]

    Це\(t\) -test з використанням тестової статистики для параметра\(\beta_3\). Якщо ми не можемо прийняти нульову гіпотезу, яку\(\beta_3=0\) ми робимо висновок, існує різниця між швидкістю збільшення для групи, для якої значення двійкової змінної встановлено на 1, чоловіки в цьому прикладі. Це оцінювальне рівняння можна поєднати з нашим попереднім малюнком 13.13 для цього випадку зі зміщенням функції заробітку і різницею нахилу функції щодо загального багаторічного досвіду.

    Приклад 13.5

    Випадкова вибірка з 11 студентів статистики дала наступні дані, де x - третій бал іспиту з 80, а y - підсумковий бал іспиту з 200. Чи можете ви передбачити підсумковий бал іспиту випадково обраного студента, якщо ви знаєте третій бал іспиту?

    Таблиця із зазначенням балів підсумкового іспиту на основі балів з третього іспиту.
    \(x\)(третій бал іспиту) \(y\)(підсумковий бал іспиту)
    65 175
    67 133
    71 185
    71 163
    66 126
    75 198
    67 153
    70 163
    71 159
    69 151
    69 159
    Таблиця 13.2
    Це розкидний графік наданих даних. Третій бал іспиту будується на осі х, а підсумковий бал іспиту наноситься на вісь y. Окуляри утворюють сильний, позитивний, лінійний малюнок.

    Малюнок 13.14 Scatter сюжет показує бали на підсумковому іспиті на основі балів з третього іспиту.