2.2: Заходи розташування даних
Загальними мірами розташування є квартилі та процентилі
Квартилі - це особливі процентилі. Перший квартиль,Q1, такий же, як25th перцентиль, а третій квартиль, такий жеQ3, як і75th процентиль. Медіана, M, називається як другим квартилем, так і 50-м процентилем.
Щоб обчислити квартилі і процентилі, дані повинні бути впорядковані від найменшого до найбільшого. Квартили ділять впорядковані дані на чверті. Процентилі ділять впорядковані дані на соті частки. Забити в90th процентиль іспиту не означає, обов'язково, що ви отримали 90% на тесті. Це означає, що 90% тестових балів збігаються або менше, ніж ваш бал, а 10% балів тесту збігаються або перевищують ваш тестовий бал.
Процентилі корисні для порівняння значень. З цієї причини університети та коледжі широко використовують процентилі. Один із прикладів, коли коледжі та університети використовують процентилі, - це коли результати SAT використовуються для визначення мінімального балу тестування, який буде використовуватися як коефіцієнт прийняття. Наприклад, припустимо, що Дюк приймає оцінки SAT на рівні або вище75th процентиля. Це означає, що оцінка щонайменше 1220.
Перцентилі в основному використовуються з дуже великими популяціями. Тому, якби ви сказали, що 90% тестових балів менше (і не однакові або менше), ніж ваш бал, це було б прийнятно, оскільки видалення одного конкретного значення даних не є значним.
Медіана - це число, яке вимірює «центр» даних. Ви можете думати про медіану як «середнє значення», але насправді вона не повинна бути одним із спостережуваних значень. Це число, яке розділяє впорядковані дані навпіл. Половина значень - це те ж число або менше медіани, а половина значень - це те ж число або більше. Для прикладу розглянемо наступні дані.
1;11.5;6;7.2;4;8;9;10;6.8;8.3;2;2;10;1
Замовлено від найменшого до найбільшого:
1;1;2;2;4;6;6.8;7.2;8;8.3;9;10;10;11.5
Оскільки існує 14 спостережень, медіана знаходиться між сьомим значенням, 6,8, і восьмим значенням - 7,2. Щоб знайти медіану, складіть два значення разом і розділіть на два.
6.8+7.22=7
Медіана дорівнює семи. Половина значень менше семи, а половина значень більше семи.
Квартили - це числа, які розділяють дані на чверті. Квартили можуть бути або не бути частиною даних. Щоб знайти квартилі, спочатку знайдіть медіану або другий квартиль. Перший квартиль - середнє значення нижньої половини даних, а третій квартиль - середнє значенняQ3, або медіана, верхньої половини даних.Q1 Щоб отримати ідею, розглянемо один і той же набір даних:
1; 1; 2; 2; 4; 6; 6,8; 7,2; 8; 8,3; 9; 10; 10; 11.5
Медіана або другий квартиль дорівнює семи. Нижня половина даних - 1, 1, 2, 2, 4, 6, 6,8. Середнє значення нижньої половини дорівнює двом.
1; 1; 2; 2; 4; 6; 6,8
Число два, що входить до складу даних, є першим квартилем. Одна четверта від усіх множин значень збігаються або менше двох і три чверті значень більше двох.
Верхня половина даних - 7,2, 8, 8,3, 9, 10, 10, 11.5. Середнє значення верхньої половини - дев'ять.
Третій квартильQ3, дев'ять. Три чверті (75%) впорядкованого набору даних менше дев'яти. Одна четверта (25%) впорядкованого набору даних більше дев'яти. Третій квартиль є частиною набору даних у цьому прикладі.
Інтерквартильний діапазон - це число, яке вказує на розкид середньої половини або середнього 50% даних. Це різниця між третім квартилем (Q3) і першим квартилем (Q1).
IQR=Q3–Q1
ВониIQR можуть допомогти визначити потенційні викиди. Підозрюється, що значення є потенційним викидом, якщо воно менше, ніж\boldsymbol{\bf{(1.5)(IQR)} нижче першого квартиля або більше, ніж(1.5)(IQR) над третім квартилем. Потенційні викиди завжди вимагають подальшого дослідження.
потенційний викид
Потенційний викид - це точка даних, яка значно відрізняється від інших точок даних. Ці спеціальні точки даних можуть бути помилками або якимось відхиленням, або вони можуть бути ключем до розуміння даних.
Приклад2.2.14
Для наступних 13 цін на нерухомість розрахуйтеIQR та визначте, чи є будь-які ціни потенційними викидами. Ціни вказані в доларах.
389,950;230,500;158,000;479,000;639,000;114,950;5,500,000;387,000;659,000;529,000;575,000;488,800;1,095,000
- Відповідь
-
Рішення 2.14
Замовте дані від найменшого до найбільшого.
114,950;158,000;230,500;387,000;389,950;479,000;488,800;529,000;575,000;639,000;659,000;1,095,000;5,500,000
M=488,800
Q1=230,500+387,0002=308,750
Q3=639,000+659,0002=649,000
IQR=649,000–308,750=340,250
(1.5)(IQR)=(1.5)(340,250)=510,375
Q1–(1.5)(IQR)=308,750–510,375=–201,625
Q3+(1.5)(IQR)=649,000+510,375=1,159,375
Жодна ціна будинку не менше–201,625. Однак5,500,000 це більше, ніж1,159,375. Тому5,500,000 є потенційним викидом.
Приклад2.2.15
Для двох наборів даних у прикладі тестових балів знайдіть наступне:
- Міжквартильний діапазон. Порівняйте два міжквартильні діапазони.
- Будь-які викиди в будь-якому наборі.
- Відповідь
-
Рішення 2.15
Підсумок п'яти чисел для денних і нічних занять
\ (\ Індекс сторінки {21}\) «>Мінімум Q1 Медіана Q3 Максимум День 32 \ (Q_1\)» клас = «lt-статика-4548">56 74.5 \ (Q_3\)» клас = «lt-статика-4548">82.5 99 Ніч 25.5 \ (Q_1\)» клас = «lt-статика-4548">78 81 \ (Q_3\)» клас = «lt-статика-4548">89 98 Таблиця2.2.21 a.IQR для групи дня єQ3–Q1=82.5–56=26.5
IQRДля нічної групи цеQ3–Q1=89–78=11
Міжквартильний діапазон (розкид або мінливість) для денного класу більше нічного класуIQR. Це говорить про те, що більше варіацій буде знайдено в результатах тестування класу денного класу.
b. денні викиди класів знаходять за допомогою правилаIQR times 1.5. Отже,- Q1−IQR(1.5)=56–26.5(1.5)=16.25
- Q3+IQR(1.5)=82.5+26.5(1.5)=122.25
Оскільки мінімальне і максимальне значення для денного класу більше16.25 і менше122.25, викидів немає.
Виділення нічного класу розраховуються як:
- Q1–IQR(1.5)=78–11(1.5)=61.5
- Q3+IQR(1.5)=89+11(1.5)=105.5
Для цього класу будь-який тестовий бал менше, ніж61.5 є викидом. Тому бали45 і25.5 є викидами. Оскільки жоден тестовий бал не перевищує 105.5, немає верхнього кінця викидів.
Приклад2.2.16
П'ятдесят студентів статистики запитали, скільки сну вони отримують за шкільну ніч (округлено до найближчої години). Результати були:
\ (\ Індекс сторінки {22}\) «>Кількість сну за шкільну ніч (години) | Частота | Відносна частота | Накопичувальна відносна частота |
---|---|---|---|
4 | 2 | 0,04 | 0,04 |
5 | 5 | 0,10 | 0,14 |
6 | 7 | 0,14 | 0,28 |
7 | 12 | 0,24 | 0,52 |
8 | 14 | 0,28 | 0,80 |
9 | 7 | 0,14 | 0,94 |
10 | 3 | 0,06 | 1.00 |
Знайдіть 28-й процентиль. Зверніть увагу на 0.28 в стовпці «кумулятивна відносна частота». Двадцять вісім відсотків з 50 значень даних - це 14 значень. Є 14 значень менше, ніж 28-й процентиль. Вони включають в себе два 4s, п'ять 5s, і сім 6s. 28-й процентиль знаходиться між останньою шісткою і першою сімкою. 28-й процентиль дорівнює 6,5.
Знайдіть медіану. Подивіться ще раз на стовпець «кумулятивна відносна частота» і знайдіть 0.52. Медіана - 50-й процентиль або другий квартиль. 50% від 50 дорівнює 25. Є на 25 значень менше медіани. Вони включають в себе два 4s, п'ять 5s, сім 6s, і одинадцять з 7s. Медіана або 50-й процентиль знаходиться між 25-го, або семи, і 26-го, або семи, значень. Медіана дорівнює семи.
Знайдіть третій квартиль. Третій квартиль такий же, як і75th процентиль. Можна «очне яблуко» цю відповідь. Якщо подивитися на стовпець «кумулятивна відносна частота», ви знайдете 0,52 і 0,80. Коли у вас є четвереньки, п'ятірки, шістки і сімки, у вас є 52% даних. Коли ви включаєте всі 8s, у вас є 80% даних. Таким чином,bf75th процентиль повинен бути вісімка. Інший спосіб подивитися на проблему - знайти 75% з 50, що становить 37,5, і округлити до 38. Третій квартиль - це 38-е значення, яке є вісімкою.Q3 Перевірити цю відповідь можна, підрахувавши значення. (Є 37 значень нижче третього квартиля і 12 значень вище.)
Вправа2.2.16
Сорок водіїв автобусів запитали, скільки годин вони проводять щодня, виконуючи свої маршрути (округлені до найближчої години). Знайдіть 65-й процентиль.
\ (\ Індекс сторінки {23}\) «>Кількість часу, витраченого на маршрут (годин) | Частота | Відносна частота | Накопичувальна відносна частота |
---|---|---|---|
2 | 12 | 0,30 | 0,30 |
3 | 14 | 0,35 | 0,65 |
4 | 10 | 0,25 | 0,90 |
5 | 4 | 0,10 | 1.00 |
Приклад2.2.17
Використання таблиці2.2.22:
- Знайдіть80th процентиль.
- Знайдіть90th процентиль.
- Знайдіть перший квартиль. Як ще називають перший квартиль?
- Відповідь
-
Рішення 2.17
Використовуючи дані з таблиці частот, ми маємо:
а80th Процентиль знаходиться між останньою вісімкою і першою дев'ятьма в таблиці (між41st значеннями40th і). Тому нам потрібно взяти середнє41st значення40th an. 80thПроцентиль=8+92=8.5
б90th Процентиль буде значенням45th даних (location is0.90(50)=45), а 45-м значенням даних - дев'ять.
в.Q1 - це також 25-й процентиль. Розрахунок розташування25th процентиля:P25=0.25(50)=12.5≈13 значення13th даних. Таким чином,25th процентиль дорівнює шести.
Формула для знаходження процентиляk
Якби ви зробили невелике дослідження, ви б знайшли кілька формул для обчисленняkth процентиля. Ось один з них.
k=kthпроцентиль. Це може бути, а може і не бути частиною даних.
i=індекс (ранжування або позиція значення даних)
n=загальна кількість точок даних, або спостережень
- Замовте дані від найменшого до найбільшого.
- Обчислітьi=k100(n+1)
- Якщо i - ціле число, тоkth процентиль - це значення даних вith позиції в упорядкованому наборі даних.
- Якщо i не є цілим числом, то округліть i вгору і округліть i до найближчих цілих чисел. Усередніть два значення даних у цих двох позиціях у впорядкованому наборі даних. Це простіше зрозуміти на прикладі.
Приклад2.2.18
Перераховані 29 вік для нагороди Оскар кращих акторів в порядку від найменших до найбільших.
18;21;22;25;26;27;29;30;31;33;36;37;41;42;47;52;55;57;58;62;64;67;69;71;72;73;74;76;77
- Знайдіть70th процентиль.
- Знайдіть83rd процентиль.
- Відповідь
-
Рішення 2.18
1.
- k=70
- i= індекс
- n=29
-
2.
- k=83rdпроцентиль
- i= індекс
- n=29
Вправа2.2.18
Перераховані 29 вік для нагороди Оскар кращих акторів в порядку від найменших до найбільших.
18;21;22;25;26;27;29;30;31;33;36;37;41;42;47;52;55;57;58;62;64;67;69;71;72;73;74;76;77
Обчисліть 20-й процентиль і 55-й процентиль.
Формула для знаходження процентиля значення в наборі даних
- Замовте дані від найменшого до найбільшого.
- x= кількість значень даних, що підраховуються від нижньої частини списку даних до, але не включаючи значення даних, для якого ви хочете знайти процентиль.
- y= кількість значень даних, що дорівнює значенню даних, для якого потрібно знайти процентиль.
- n= загальна кількість даних.
- Розрахуватиx+0.5yn(100). Потім округляємо до найближчого цілого числа.
Приклад2.2.19
Перераховані 29 вік для нагороди Оскар кращих акторів в порядку від найменших до найбільших.
18;21;22;25;26;27;29;30;31;33;36;37;41;42;47;52;55;57;58;62;64;67;69;71;72;73;74;76;77
- Знайти процентиль для 58.
- Знайти процентиль для 25.
- Відповідь
-
Рішення 2.19
1. Підраховуючи знизу списку, є 18 значень даних менше 58. Існує одне значення 58.
x=18аy=1.x+0.5yn(100)=18+0.5(1)29(100)=63.80. 58 -64th процентиль.
2. Відраховуючи знизу списку, є три значення даних менше 25. Існує одне значення 25.x=3іy=1.x+0.5yn(100)=3+0.5(1)29(100)=12.07. Двадцять п'ять -12th процентиль.
Інтерпретація процентилей, квартилей та медіани
Процентиль вказує на відносне стояння значення даних, коли дані сортуються в числовому порядку від найменшого до найбільшого. Відсотки значень даних менше або дорівнює pth процентилю. Наприклад, 15% значень даних менше або дорівнює 15-му процентилю.
- Низькі процентилі завжди відповідають нижчим значенням даних.
- Високі процентилі завжди відповідають більш високим значенням даних.
Процентиль може відповідати або не відповідати ціннісному судженню про те, чи є він «хорошим» чи «поганим». Тлумачення того, чи є певний процентиль «хорошим» чи «поганим», залежить від контексту ситуації, до якої застосовуються дані. У деяких ситуаціях низький процентиль буде вважатися «хорошим»; в інших контекстах високий процентиль може вважатися «хорошим». У багатьох ситуаціях не існує жодного ціннісного судження, яке застосовується.
Розуміння того, як правильно інтерпретувати процентилі, важливо не тільки при описі даних, але і при обчисленні ймовірностей в наступних розділах цього тексту.
ПРИМІТКА
При написанні тлумачення процентиля в розрізі наведених даних пропозиція повинна містити наступну інформацію.
- інформація про контекст розглянутої ситуації
- значення даних (значення змінної), що представляє процентиль
- відсоток фізичних осіб або елементів зі значеннями даних нижче процентиля
- відсоток фізичних осіб або елементів зі значеннями даних вище процентиля.
Приклад2.2.20
На приуроченому математичному тесті перший квартиль за час, який знадобився, щоб закінчити іспит, становив 35 хвилин. Інтерпретуйте перший квартиль в контексті цієї ситуації.
- Відповідь
-
Рішення 2.20
Двадцять п'ять відсотків студентів закінчили іспит за 35 хвилин або менше. Сімдесят п'ять відсотків студентів закінчили іспит за 35 хвилин і більше. Низький процентиль можна вважати хорошим, оскільки бажано закінчити швидше на приурочений іспит. (Якщо ви займете занадто багато часу, ви, можливо, не зможете закінчити.)
Приклад2.2.21
На 20 питаннях математичного тесту 70 процентиль для кількості правильних відповідей становив 16. Інтерпретувати 70-й процентиль в контексті цієї ситуації.
- Відповідь
-
Рішення 2.21
Сімдесят відсотків студентів відповіли на 16 або менше запитань правильно. Тридцять відсотків студентів відповіли на 16 і більше запитань правильно. Більш високий процентиль можна вважати хорошим, оскільки бажано правильно відповідати на більше питань.
Вправа2.2.21
На 60-бальному письмовому завданні80th процентиль за кількість зароблених балів становив 49. Інтерпретувати80th процентиль в контексті даної ситуації.
Приклад2.2.22
У коледжі громади було встановлено, що30th процентиль кредитних одиниць, на які навчаються студенти, становить сім одиниць. Інтерпретувати30th процентиль в контексті даної ситуації.
- Відповідь
-
Рішення 2.22
- Тридцять відсотків студентів зараховані в семи або менше кредитних одиниць.
- Сімдесят відсотків студентів зараховані в семи і більше кредитних одиниць.
- У цьому прикладі немає «хорошого» або «поганого» судження про значення, пов'язаного з вищим або нижчим процентилем. Студенти відвідують коледж громади з різних причин і потреб, і їх курс навантаження змінюється залежно від їх потреб.
Приклад2.2.23
Шарп середньої школи подає заявку на грант, який буде використовуватися для додавання фітнес-обладнання в тренажерний зал. Директор опитав 15 анонімних студентів, щоб визначити, скільки хвилин на день студенти проводять фізичні вправи. Показані результати 15 анонімних студентів.
0 хвилин; 40 хвилин; 60 хвилин; 30 хвилин; 60 хвилин
10 хвилин; 45 хвилин; 30 хвилин; 300 хвилин; 90 хвилин;
30 хвилин; 120 хвилин; 60 хвилин; 0 хвилин; 20 хвилин
Визначте наступні п'ять значень.
- Хв = 0
- Q1=20
- Мед = 40
- Q3=60
- Макс = 300
Якби ви були головним, Ви були б виправдані в придбанні нових тренажерів для фітнесу? Оскільки 75% учнів займаються 60 хвилин або менше щодня, а оскількиIQR це 40 хвилин(60–20=40), ми знаємо, що половина опитаних учнів займаються фізичними вправами від 20 хвилин до 60 хвилин щодня. Це здається розумною кількістю часу, витраченого на тренування, тому принципал буде виправданий при придбанні нового обладнання.
Однак принципал повинен бути обережним. Значення 300, здається, є потенційним викидом.
Q3+1.5(IQR)=60+(1.5)(40)=120.
Значення 300 більше 120, тому це потенційний викид. Якщо видалити його і обчислити п'ять значень, то отримаємо наступні значення:
- Хв = 0
- Q1=20
- Q3=60
- Макс = 120
У нас все ще є 75% студентів, які займаються 60 хвилин або менше щодня, а половина студентів займаються від 20 до 60