Skip to main content
LibreTexts - Ukrayinska

14.6: Впливові спостереження

Цілі навчання

  • Опишіть, що робить точку впливовою
  • Визначте «відстань»

Цілком можливо, що одне спостереження має великий вплив на результати регресійного аналізу. Тому важливо бути пильним до можливості впливових спостережень та враховувати їх при інтерпретації результатів.

Вплив

Вплив спостереження можна подумати з точки зору того, наскільки прогнозовані бали для інших спостережень відрізнялися б, якби розглянуте спостереження не було включено. D Кука є хорошим показником впливу спостереження і пропорційна сумі квадратних відмінностей між прогнозами, зробленими з усіма спостереженнями в аналізі та прогнозами, зробленими, залишаючи розглянуте спостереження. Якщо прогнози однакові з розглянутим спостереженням або без нього, то спостереження не має ніякого впливу на регресійну модель. Якщо прогнози сильно відрізняються, коли спостереження не включається в аналіз, то спостереження є впливовим.

Загальним правилом є те, що спостереження зі значенням D Кука1.0 має занадто великий вплив. Як і у всіх емпіричних правилах, це правило слід застосовувати розсудливо і не бездумно.

Вплив спостереження є функцією двох факторів:

  1. Наскільки значення спостереження на змінній предиктора відрізняється від середнього значення змінної предиктора і
  2. Різниця між прогнозованим балом за спостереження і його фактичним балом.

Колишній фактор називається важелем спостереження. Останній фактор називається відстанню спостереження.

Розрахунок D Кука (необов'язково)

Першим кроком обчислення значення D Кука для спостереження є передбачення всіх балів в даних один раз, використовуючи рівняння регресії на основі всіх спостережень і один раз використання всіх спостережень, крім розглянутого спостереження. Другим кроком є обчислення суми квадратних відмінностей між цими двома наборами прогнозів. Останнім кроком є поділ цього результату на2 рази більшеMSE (див. Розділ про розділення дисперсії).

кредитне плече

Важіль спостереження базується на тому, наскільки значення спостереження на змінній предиктора відрізняється від середнього значення змінної предиктора. Чим більше важелі спостереження, тим більшим потенціалом воно має бути впливовим спостереженням. Наприклад, спостереження зі значенням, рівним середньому на змінній предиктора, не має впливу на нахил лінії регресії незалежно від її значення на змінній критерію. З іншого боку, спостереження, яке є крайнім для змінної предиктора, може сильно вплинути на нахил.

Розрахунок кредитного плеча (h)

Першим кроком є стандартизація змінної предиктора так, щоб вона мала середнє значення0 і стандартне відхилення1. Потім важіль (h) обчислюється шляхом квадратизації значення спостереження на стандартизованій змінній предиктора1, додаючи та діливши на кількість спостережень.

Відстань

Відстань спостереження базується на похибці прогнозування для спостереження: Чим більша похибка прогнозування, тим більша відстань. Найбільш часто використовуваною мірою відстані єstudentized residual. Спостереженняstudentized residual за тісно пов'язане з похибкою прогнозування для цього спостереження, розділеної на стандартне відхилення помилок прогнозування. Однак прогнозований бал походить від рівняння регресії, в якому розглянуте спостереження не враховується. Деталі обчислення a трохиstudentized residual складні і виходять за рамки цієї роботи.

Навіть спостереження з великою відстанню не матиме такого великого впливу, якщо його важелі низькі. Саме поєднання важелів спостереження та відстані визначає його вплив.

Приклад14.6.1

Таблиця14.6.1 показуєstudentized residual важелі та вплив для кожного з п'яти спостережень у невеликому наборі даних.

Таблиця 14.6.1: Приклад даних

ІДЕНТИФІКАТОР Х У ч Р D
A 1 2 0,39 -1.02 0,40
Б 2 3 0,27 -0.56 0,06
C 3 5 0,21 0,89 0,11
D 4 6 0,20 1.22 0,19
Е 8 7 0,73 -1.68 8.86

У наведеній вище таблиціh is the leverage, R is the studentized residual, іD is Cook's measure of influence.

Observation Aмає досить високий рівень кредитного плеча, відносно високий залишковий і помірно високий вплив.

Observation Bмає невеликі важелі і відносно невеликий залишковий. Це має дуже мало впливу.

Observation Cмає невеликі важелі і відносно високий залишковий. Вплив відносно низький.

Observation Dмає найнижчий важель і другий за величиною залишковий. Хоча його залишковий набагато вищеObservation A , його вплив набагато менше через низький важелі.

Observation Eмає на сьогоднішній день найбільший важель і найбільший залишковий. Таке поєднання високого важеля і високого залишкового робить це спостереження надзвичайно впливовим.

14.6.1На малюнку показана лінія регресії для всього набору даних (синя) та лінія регресії, якщо розглянуте спостереження не включено (червоний) для всіх спостережень. Розглянуте спостереження обводиться по колу. Природно, лінія регресії для всього набору даних однакова у всіх панелах. Залишкова обчислюється щодо лінії, для якої розглянуте спостереження не включається в аналіз. Найвпливовішим є спостереження,Observation E для якого дві лінії регресії дуже різні. Це говорить про вплив цього спостереження.

influence.jpg
Малюнок14.6.1: Ілюстрація важеля, залишковий, і вплив. Обведені точки не включаються в розрахунок червоної лінії регресії. Всі точки включаються в розрахунок синьої лінії регресії.