12.7: Виділення
- Page ID
- 98373
У деяких наборах даних є значення (спостережувані точки даних), які називаються викидами. Випадками спостерігаються точки даних, які знаходяться далеко від лінії найменших квадратів. Вони мають великі «похибки», де «помилка» або залишкова - вертикальна відстань від лінії до точки. Виділення потрібно уважно розглядати. Іноді, з тих чи інших причин, їх не варто включати в аналіз даних. Не виключено, що викид є результатом помилкових даних. Інший час викид може містити цінну інформацію про досліджуване населення і повинен залишатися включеним до даних. Ключ полягає в тому, щоб уважно вивчити, що призводить до того, що точка даних є викидом.
Крім викидів, вибірка може містити один або кілька пунктів, які називаються впливовими точками. Впливовими точками спостерігаються точки даних, які знаходяться далеко від інших спостережуваних точок даних в горизонтальному напрямку. Ці точки можуть мати великий вплив на нахил лінії регресії. Щоб почати виявляти впливову точку, можна видалити її з набору даних і подивитися, чи суттєво змінився нахил лінії регресії.
Комп'ютери та багато калькуляторів можуть бути використані для виявлення викидів з даних. Комп'ютерний вихід для регресійного аналізу часто виявляє як викиди, так і впливові точки, щоб ви могли їх вивчити.
Визначення викидів
Ми могли б здогадатися на викиди, дивлячись на графік розкиду графіка і найкраще підходить лінії. Однак ми хотіли б отримати деякі рекомендації щодо того, наскільки далеко повинна бути точка, щоб вважатися викидом. Як грубе емпіричне правило, ми можемо позначити будь-яку точку, яка розташована далі двох стандартних відхилень вище або нижче найкращої лінії, як викид. Використовуване стандартне відхилення - це стандартне відхилення залишків або помилок.
Ми можемо зробити це візуально на графіку розкиду, намалювавши додаткову пару ліній, які є двома стандартними відхиленнями вище та нижче найкращої лінії. Будь-які точки даних, що знаходяться поза цією додатковою парою рядків, позначаються як потенційні викиди. Або ми можемо зробити це чисельно, обчисливши кожен залишковий і порівнявши його з подвійним стандартним відхиленням. На TI-83, 83+ або 84+ графічний підхід простіше. Спочатку показана графічна процедура, а потім числові розрахунки. Як правило, вам потрібно буде використовувати лише один із цих методів.
Приклад\(\PageIndex{1}\)
На третьому прикладі іспиту/випускного іспиту ви можете визначити, чи є викид чи ні. Якщо є викид, як вправа, видаліть його і встановіть решту даних в новий рядок. Для цього прикладу новий рядок повинен відповідати решті даних краще. Це означає, що SSE повинен бути меншим, а коефіцієнт кореляції повинен бути ближче до 1 або -1.
Відповідь
Графічна ідентифікація викидів
За допомогою графічних калькуляторів TI-83, 83+, 84+ легко визначити викиди графічно та візуально. Якби ми вимірювали вертикальну відстань від будь-якої точки даних до відповідної точки на лінії найкращого прилягання, і ця відстань дорівнювала 2 с або більше, то ми вважали б точку даних «занадто далеко» від лінії найкращого прилягання. Нам потрібно знайти і скласти графік лінії, які є двома стандартними відхиленнями нижче і вище лінії регресії. Будь-які точки, що знаходяться поза цими двома лініями, є викидами. Ми будемо називати такі рядки Y2 і Y3:
Як ми зробили з рівнянням лінії регресії і коефіцієнтом кореляції, ми будемо використовувати технологію для обчислення цього стандартного відхилення для нас. Використовуючи LinRegtTest з цими даними, прокрутіть вниз екрани виведення, щоб знайти\(s = 16.412\).
Лінія\(Y2 = -173.5 + 4.83x - 2(16.4)\) і лінія\(Y3 = -173.5 + 4.83x + 2(16.4)\)
\(\hat{y} = -173.5 + 4.83x\)де лінія найкраще підходить. \(Y2\)і\(Y3\) мають такий же ухил, як лінія найкраще підходить.
Графік розсіювання з найкращою лінією у рівнянні\(Y1\), а потім введіть дві додаткові лінії як\(Y2\) і\(Y3\) в редакторі рівнянь\(Y=\) "" і натисніть ZOOM 9. Ви виявите, що єдина точка даних, яка не знаходиться між рядками\(Y2\) і\(Y3\) є точкою\(x = 65\),\(y = 175\). На екрані калькулятора він просто ледь виходить за межі цих рядків. Вихід - це студент, який мав оцінку 65 на третьому іспиті та 175 на підсумковому іспиті; цей момент є далі двох стандартних відхилень від найкращої лінії.
Іноді точка настільки близька до ліній, які використовуються для позначення викидів на графіку, що важко визначити, чи знаходиться точка між лініями або поза ними. На комп'ютері може допомогти збільшення графіка; на невеликому екрані калькулятора масштабування може зробити графік чіткішим. Зверніть увагу, що коли графік не дає достатньо чіткої картини, ви можете використовувати числові порівняння для виявлення викидів.
Вправа\(\PageIndex{1}\)
Визначте потенційний викид на графіку розкиду. Стандартне відхилення залишків або похибок становить приблизно 8,6.
- Відповідь
-
Видається, викид знаходиться на (6, 58). Очікуване\(y\) значення на лінії для точки (6, 58) дорівнює приблизно 82. П'ятдесят вісім - це 24 одиниці з 82. Двадцять чотири - це більше двох стандартних відхилень (\(2s = (2)(8.6) = 17.2\)). Таким чином, 82 - це більше двох стандартних відхилень від 58, що робить\((6, 58)\) потенційний викид.
Чисельна ідентифікація викидів
У таблиці нижче перші дві колонки - це дані третього іспиту та підсумкового іспиту. У третьому стовпчику показані прогнозовані\(\hat{y}\) значення, розраховані з рядка найкращого підгонки:\(\hat{y} = -173.5 + 4.83x\). Залишки, або помилки, обчислено у четвертому стовпчику таблиці: спостережуване\(y\) значення−прогнозоване\(y\) значення\(= y − \hat{y}\).
S - стандартне відхилення всіх\(y - \hat{y} = \varepsilon\) значень, де\(n = \text{the total number of data points}\). Якщо кожен залишок обчислюється і зводиться в квадрат, а результати додаються, то отримаємо\(SSE\). Стандартне відхилення залишків розраховується від\(SSE\) як:
\[s = \sqrt{\dfrac{SSE}{n-2}}\nonumber \]
ПРИМІТКА
Ми ділимо на (\(n – 2\)), оскільки регресійна модель включає дві оцінки.
Замість того, щоб обчислити значення s самі, ми можемо знайти s за допомогою комп'ютера або калькулятора. Для цього прикладу калькуляторна функція LinRegtTest знайдена\(s = 16.4\) як стандартне відхилення залишків 35; —17; 16; —6; —19; 9; 3; —1; —10; —9; —1.
\(x\) | \(y\) | \(\hat{y}\) | \(y – \hat{y}\) |
---|---|---|---|
\ (x\) ">65 | \ (y\) ">175 | \ (\ hat {y}\) ">140 | \ (y —\ hat {y}\) ">175 — 140 = 35 |
\ (x\) ">67 | \ (y\) ">133 | \ (\ hat {y}\) ">150 | \ (y —\ hat {y}\) ">133 — 150= —17 |
\ (x\) ">71 | \ (y\) ">185 | \ (\ hat {y}\) ">169 | \ (y —\ hat {y}\) ">185 — 169 = 16 |
\ (x\) ">71 | \ (y\) ">163 | \ (\ hat {y}\) ">169 | \ (y —\ hat {y}\) ">163 — 169 = —6 |
\ (x\) ">66 | \ (y\) ">126 | \ (\ hat {y}\) ">145 | \ (y —\ hat {y}\) ">126 — 145 = —19 |
\ (x\) ">75 | \ (y\) ">198 | \ (\ hat {y}\) ">189 | \ (y —\ hat {y}\) ">198 — 189 = 9 |
\ (x\) ">67 | \ (y\) ">153 | \ (\ hat {y}\) ">150 | \ (y —\ hat {y}\) ">153 — 150 = 3 |
\ (x\) ">70 | \ (y\) ">163 | \ (\ hat {y}\) ">164 | \ (y —\ hat {y}\) ">163 — 164 = —1 |
\ (x\) ">71 | \ (y\) ">159 | \ (\ hat {y}\) ">169 | \ (y —\ hat {y}\) ">159 — 169 = —10 |
\ (x\) ">69 | \ (y\) ">151 | \ (\ hat {y}\) ">160 | \ (y —\ hat {y}\) ">151 — 160 = —9 |
\ (x\) ">69 | \ (y\) ">159 | \ (\ hat {y}\) ">160 | \ (y —\ hat {y}\) ">159 — 160 = —1 |
Шукаємо всі точки даних, для яких залишкова більше\(2s = 2(16.4) = 32.8\) або менше\(-32.8\). Порівняйте ці значення з залишками у четвертому стовпці таблиці. Єдиним таким пунктом даних є студент, який мав оцінку 65 на третьому іспиті і 175 на підсумковому іспиті; залишковий для цього студента - 35.
Як викид впливає на найкращу лінію підгонки?
Чисельно та графічно ми визначили точку (65, 175) як викид. Ми повинні переглянути дані для цього моменту, щоб побачити, чи є якісь проблеми з даними. Якщо є помилка, ми повинні виправити помилку, якщо це можливо, або видалити дані. Якщо дані правильні, ми залишили б їх у наборі даних. Для цієї проблеми ми припустимо, що ми вивчили дані і виявили, що ці дані викидів були помилкою. Тому ми продовжимо і видалимо викиди, щоб ми могли вивчити, як це впливає на результати, як досвід навчання.
Обчисліть нову оптимальну лінію та коефіцієнт кореляції, використовуючи десять інших точок
На калькуляторах TI-83, TI-83+, TI-84+ видаліть викиди з L1 та L2. Використовуючи LinRegtTest, нова лінія найкращого підгонки та коефіцієнт кореляції:
\[\hat{y} = -355.19 + 7.39x\nonumber \]і\[r = 0.9121\nonumber \]
Нова лінія з\(r = 0.9121\) є більш сильною кореляцією, ніж оригінал (\(r = 0.6631\)),\(r = 0.9121\) тому що ближче до одиниці. Це означає, що новий рядок краще підходить до десяти залишилися значень даних. Лінія може краще передбачити підсумковий бал іспиту, враховуючи третій бал іспиту.
Чисельна ідентифікація викидів: обчислення s та пошук викидів вручну
Якщо у вас немає функції LinRegtTest, то ви можете обчислити викиди в першому прикладі, виконавши наступне.
По-перше, квадрат кожен\(|y – \hat{y}|\)
Квадратів 35 2; 17 2; 16 2; 6 2; 19 2; 9 2; 3 2; 1 2; 10 2; 9 2; 1 2
Потім додайте (сума) всі\(|y – \hat{y}|\) квадратні члени, використовуючи формулу
\[ \sum^{11}_{i = 11} (|y_{i} - \hat{y}_{i}|)^{2} = \sum^{11}_{i - 1} \varepsilon^{2}_{i}\nonumber \]
Нагадаємо, що
\[\begin{align*} y_{i} - \hat{y}_{i} &= \varepsilon_{i} \nonumber \\ &= 35^{2} + 17^{2} + 16^{2} + 6^{2} + 19^{2} + 9^{2} + 3^{2} + 1^{2} + 10^{2} + 9^{2} + 1^{2} \nonumber \\ &= 2440 = SSE. \nonumber \end{align*} \]
Результатом\(SSE\) є сума квадратних помилок.
Далі обчислюємо s, стандартне відхилення всіх\(y - \hat{y} = \varepsilon\) значень де\(n = \text{the total number of data points}\).
Розрахунок є
\[s = \sqrt{\dfrac{SSE}{n-2}}.\nonumber \]
Для третьої задачі екзамену/випускного іспиту:
\[s = \sqrt{\dfrac{2440}{11 - 2}} = 16.47.\nonumber \]
Далі множимо\(s\) на\(2\):
\[(2)(16.47) = 32.94\nonumber \]
\(32.94\)це\(2\) стандартні відхилення від середнього\(y - \hat{y}\) значення.
Якби ми вимірювали вертикальну відстань від будь-якої точки даних до відповідної точки на лінії найкращого прилягання, і ця відстань принаймні\(2s\), тоді ми вважали б точку даних «занадто далеко» від лінії найкращого прилягання. Ми називаємо цю точку потенційним викидом.
Наприклад, якщо будь-яке із\(|y – \hat{y}|\) значень не менше 32.94, відповідна точка даних (\(x, y\)) є потенційним викидом.
Для третьої задачі іспиту/випускного\(|y – \hat{y}|\) іспиту все менше 31.29, за винятком першої, яка становить 35.
\(35 > 31.29\)Тобто,\(|y – \hat{y}| \geq (2)(s)\)
Точка, яка відповідає\(|y – \hat{y}| = 35\) є\((65, 175)\). Тому точка даних\((65,175)\) є потенційним викидом. Для цього прикладу ми його видалимо. (Пам'ятайте, ми не завжди видаляємо викиди.)
ПРИМІТКА
Коли викиди видаляються, дослідник повинен або записати, що дані були видалені, і чому, або дослідник повинен надати результати як з видаленими даними, так і без них. Якщо дані помилкові і правильні значення відомі (наприклад, студент насправді набрав 70 замість 65), то ця корекція може бути внесена до даних.
Наступним кроком є обчислення нової лінії, яка найкраще підходить, використовуючи десять точок, що залишилися. Нова лінія найкращого підгонки та коефіцієнт кореляції:
\[\hat{y} = -355.19 + 7.39x\nonumber \]і\[r = 0.9121\nonumber \]
Приклад\(\PageIndex{2}\)
Використовуючи цю нову лінію найкраще підходить (на основі решти десяти точок даних у третьому прикладі іспиту/випускного іспиту), що б студент, який отримує 73 на третьому іспиті, очікує отримати на підсумковому іспиті? Це те саме, що прогноз, зроблений за допомогою оригінальної лінії?
Відповідь
Використання нової лінійки найкраще підходить,\(\hat{y} = -355.19 + 7.39(73) = 184.28\). Студент, який набрав 73 бали на третьому іспиті, розраховував би заробити 184 бали на підсумковому іспиті.
Первісна лінія\(\hat{y} = -173.51 + 4.83(73) = 179.08\) передбачена таким чином передбачення з використанням нового рядка з усунутим викидом відрізняється від початкового прогнозу.
Вправа\(\PageIndex{2}\)
Дані для дослідження, яке було зроблено, такі: (1, 5), (2, 7), (2, 6), (3, 9), (4, 12), (4, 13), (5, 18), (6, 19), (7, 12) та (7, 21). Видаліть відхилення та перерахуйте лінію найкращого прилягання. Знайти значення, коли х = 10.
- Відповідь
-
\(\hat{y} = 1.04 + 2.96x; 30.64\)
Приклад\(\PageIndex{3}\): The Consumer Price Index
Індекс споживчих цін (ІСЦ) вимірює середню зміну з часом цін, що сплачуються міськими споживачами за споживчі товари та послуги. ІСЦ впливає майже на всіх американців через багато способів його використання. Одне з найбільших його застосувань - це показник інфляції. Надаючи інформацію про зміни цін в економіці країни уряду, бізнесу та праці, ІСЦ допомагає їм приймати економічні рішення. Президент, Конгрес та Рада Федеральної резервної системи використовують тенденції ІСЦ для формування монетарної та фіскальної політики. У наступній таблиці,\(x\) це рік і\(y\) є ІСЦ.
\(x\) | \(y\) | \(x\) | \(y\) |
---|---|---|---|
\ (х\) ">1915 | \ (y\) ">10.1 | \ (x\) ">1969 | \ (y\) ">36.7 |
\ (x\) ">1926 | \ (y\) ">17.7 | \ (x\) ">1975 | \ (y\) ">49,3 |
\ (х\) ">1935 | \ (y\) ">13.7 | \ (х\) ">1979 | \ (y\) ">72,6 |
\ (х\) ">1940 | \ (y\) ">14.7 | \ (x\) ">1980 | \ (y\) ">82,4 |
\ (x\) ">1947 | \ (y\) ">24.1 | \ (х\) ">1986 | \ (y\) ">109.6 |
\ (х\) ">1952 | \ (y\) ">26.5 | \ (x\) ">1991 | \ (y\) ">130.7 |
\ (x\) ">1964 | \ (y\) ">31.0 | \ (х\) ">1999 | \ (y\) ">166,6 |
- Намалюйте розсіювальний графік даних.
- Обчисліть лінію найменших квадратів. Запишіть рівняння у вигляді = a + bx.
- Намалюйте лінію на розсіювальному графіку.
- Знайдіть коефіцієнт кореляції. Чи значуще це?
- Який середній ІСЦ за рік 1990?
Відповідь
- Див. Малюнок.
- \(\hat{y} = -3204 + 1.662x\)це рівняння лінії найкращого прилягання.
- \(r = 0.8694\)
- Кількість точок даних дорівнює\(n = 14\). Використовуйте 95% критичних значень таблиці коефіцієнтів кореляції вибірки в кінці глави 12. \(n - 2 = 12\). Відповідне критичне значення - 0,532. Починаючи з 0.8694 > 0.532, r є значним.
\[\hat{y} = -3204 + 1.662(1990) = 103.4 \text{CPI}\nonumber \]
- Використовуючи калькулятор LinRegtTest, ми знаходимо, що\(s = 25.4\); графіки ліній\(Y2 = -3204 + 1.662X – 2(25.4)\) і\(Y3 = -3204 + 1.662X + 2(25.4)\) показує, що жодні значення даних не знаходяться поза цими лініями, не ідентифікуючи ніяких викидів. (Зверніть увагу, що 1999 рік був дуже близький до верхньої лінії, але все ще всередині неї.)
ПРИМІТКА
У прикладі зверніть увагу на візерунок точок в порівнянні з лінією. Хоча коефіцієнт кореляції є значним, візерунок у розсіювальному графіку вказує на те, що крива буде більш підходящою моделлю для використання, ніж лінія. У цьому прикладі статистик повинен віддавати перевагу іншим методам, щоб пристосувати криву до цих даних, а не моделювати дані за допомогою знайденої нами лінії. Крім виконання розрахунків, завжди важливо дивитися на розсіювач, вирішуючи, чи підходить лінійна модель.
Якщо ви зацікавлені в тому, щоб побачити більше років даних, відвідайте Бюро статистики праці CPI веб-сайт ftp://ftp.bls.gov/pub/special.requests/cpi/cpiai.txt; наші дані взяті зі стовпця під назвою «Річний середній». (Третя колонка праворуч). Наприклад, ви можете додати більше даних за поточні роки. Спробуйте додати останні роки: 2004:\(\text{CPI} = 188.9\); 2008:\(\text{CPI} = 215.3\); 2011:\(\text{CPI} = 224.9\). Подивіться, як це впливає на модель. (Перевірити:\(\hat{y} = -4436 + 2.295x\);\(r = 0.9018\). Чи є\(r\) значущим? Чи краще підходить з додаванням нових очок?)
Вправа\(\PageIndex{3}\)
Наступна таблиця показує економічний розвиток, виміряний у доході на душу населення PCINC.
Рік | PCINC | Рік | PCINC |
---|---|---|---|
1870 | 340 | 1920 | 1050 |
1880 | 499 | 1930 | 1170 |
1890 | 592 | 1940 | 1364 |
1900 | 757 | 1950 | 1836 |
1910 | 927 | 1960 | 2132 |
- Що таке незалежні і залежні змінні?
- Намалюйте розсіяну ділянку.
- Використовуйте регресію, щоб знайти лінію найкращого прилягання та коефіцієнт кореляції.
- Інтерпретувати значення коефіцієнта кореляції.
- Чи існує лінійна залежність між змінними?
- Знайдіть коефіцієнт визначення і інтерпретуйте його.
- Який нахил рівняння регресії? Що це означає?
- Використовуйте лінію найкраще підходить для оцінки PCINC на 1900 рік, для 2000.
- Визначте, чи є якісь викиди.
- Відповідь на
-
Незалежна змінна (x) - рік, а залежна змінна (y) - дохід на душу населення.
- Відповідь б
-
Малюнок 12.7.4.
- Відповідь c
-
\(\hat{y} = 18.61x – 34574\);\(r = 0.9732\)
- Відповідь d
-
При\(df = 8\), критичне значення є\(0.632\). \(r\)Значення є значним, оскільки воно більше критичного значення.
- Відповідь e
-
Здається, існує лінійна залежність між змінними.
- Відповідь f
-
Коефіцієнт визначення є\(0.947\), що означає, що 94,7% варіації PCINC пояснюється варіацією в роках.
- Відповідь g і h
-
Нахил рівняння регресії становить 18,61, і це означає, що дохід на душу населення збільшується на $18,61 за кожен рік, що минає. \(\hat{y} = 785\)коли рік 1900, а\(\hat{y} = 2,646\) коли рік 2000.
- Відповідь я
-
Там, здається, немає ніяких викидів.
95% критичних значень таблиці коефіцієнтів кореляції вибірки
Ступені свободи:\(n – 2\) | Критичні значення: (+ і —) |
---|---|
\ (n — 2\) ">1 | 0,997 |
\ (n — 2\) ">2 | 0,950 |
\ (n — 2\) ">3 | 0,878 |
\ (n — 2\) ">4 | 0,811 |
\ (n — 2\) ">5 | 0,754 |
\ (n — 2\) ">6 | 0,707 |
\ (n — 2\) ">7 | 0.666 |
\ (n — 2\) ">8 | 0.632 |
\ (n — 2\) ">9 | 0.602 |
\ (n — 2\) ">10 | 0,576 |
\ (n — 2\) ">11 | 0.555 |
\ (n — 2\) ">12 | 0.532 |
\ (n — 2\) ">13 | 0.514 |
\ (n — 2\) ">14 | 0,497 |
\ (n — 2\) ">15 | 0,482 |
\ (n — 2\) ">16 | 0,468 |
\ (n — 2\) ">17 | 0,456 |
\ (n — 2\) ">18 | 0,444 |
\ (n — 2\) ">19 | 0,433 |
\ (n — 2\) ">20 | 0,423 |
\ (n — 2\) ">21 | 0,413 |
\ (n — 2\) ">22 | 0,404 |
\ (n — 2\) ">23 | 0,396 |
\ (n — 2\) ">24 | 0,388 |
\ (n — 2\) ">25 | 0,381 |
\ (n — 2\) ">26 | 0,374 |
\ (n — 2\) ">27 | 0,367 |
\ (n — 2\) ">28 | 0,361 |
\ (n — 2\) ">29 | 0,355 |
\ (n — 2\) ">30 | 0,349 |
\ (n — 2\) ">40 | 0,304 |
\ (n — 2\) ">50 | 0,273 |
\ (n — 2\) ">60 | 0,250 |
\ (n — 2\) ">70 | 0,232 |
\ (n — 2\) ">80 | 0,217 |
\ (n — 2\) ">90 | 0,205 |
\ (n — 2\) ">100 | 0,195 |
Резюме
Щоб визначити, чи є точка викидом, виконайте одну з таких дій:
- Введіть наступні рівняння в TI 83, 83+,84, 84+:
\[y_{1} = a + bx\nonumber \]
\[y_{2} = a + bx +2s\nonumber \]
\[y_{3} = a + bx - 2s\nonumber \]
де\(s\) стандартне відхилення залишків
Якщо будь-яка точка вище\(y_{2}\) або нижче\(y_{3}\) тоді точка вважається викидом. - Використовуйте залишки і порівняйте їх абсолютні значення з\(2s\) тим, де\(s\) знаходиться стандартне відхилення залишків. Якщо абсолютне значення будь-якого залишкового більше або дорівнює\(2s\), то відповідна точка є викидом.
Примітка: Функція калькулятора LinRegtTest (СТАТИСТИКА ТЕСТІВ LinRegtTest) обчислює\(s\).
Посилання
- Дані Комітету з питань шляхів та засобів будинку, Департаменту охорони здоров'я та соціальних служб.
- Дані з книжкової полиці Microsoft.
- Дані Міністерства праці США, Бюро статистики праці.
- Дані з Довідника лікаря, 1990.
- Дані Міністерства праці США, Бюро статистики праці.
Глосарій
- викид
- спостереження, яке не відповідає решті даних