2.4: Заходи розташування даних
- Page ID
- 98445
Загальними мірами розташування є квартилі і процентилі. Квартилі - це особливі процентилі. Перший квартиль, Q 1, такий же, як 25-й процентиль, а третій квартиль, Q 3, такий же, як 75-й процентиль. Медіана, M, називається як другим квартилем, так і 50-м процентилем.
Щоб обчислити квартилі і процентилі, дані повинні бути впорядковані від найменшого до найбільшого. Квартили ділять впорядковані дані на чверті. Процентилі ділять впорядковані дані на соті частки. Забити в 90-й процентиль іспиту не означає, обов'язково, що ви отримали 90% на тест. Це означає, що 90% тестових балів збігаються або менше, ніж ваш бал, а 10% балів тесту збігаються або перевищують ваш тестовий бал.
Процентилі корисні для порівняння значень. З цієї причини університети та коледжі широко використовують процентилі. Один із прикладів, коли коледжі та університети використовують процентилі, - це коли результати SAT використовуються для визначення мінімального балу тестування, який буде використовуватися як коефіцієнт прийняття. Наприклад, припустимо, що Дюк приймає оцінки SAT на рівні 75-го процентиля або вище. Це означає, що оцінка щонайменше 1220.
Перцентилі в основному використовуються з дуже великими популяціями. Тому, якби ви сказали, що 90% тестових балів менше (і не однакові або менше), ніж ваш бал, це було б прийнятно, оскільки видалення одного конкретного значення даних не є значним.
Медіана - це число, яке вимірює «центр» даних. Ви можете думати про медіану як «середнє значення», але насправді вона не повинна бути одним із спостережуваних значень. Це число, яке розділяє впорядковані дані навпіл. Половина значень - це те ж число або менше медіани, а половина значень - це те ж число або більше. Для прикладу розглянемо наступні дані.
1; 11.5; 6; 7,2; 4; 8; 9; 10; 10; 6.8; 8.3; 2; 2; 10; 1
Замовлено від найменшого до найбільшого:
1; 1; 2; 2; 4; 6; 6,8; 7,2; 8; 8.3; 9; 10; 10; 11.5
Оскільки існує 14 спостережень, медіана знаходиться між сьомим значенням, 6,8, і восьмим значенням - 7,2. Щоб знайти медіану, складіть два значення разом і розділіть на два.
Медіана дорівнює семи. Половина значень менше семи, а половина значень більше семи.
Квартили - це числа, які розділяють дані на чверті. Квартили можуть бути частиною даних, а можуть і не бути. Щоб знайти квартилі, спочатку знайдіть медіану або другий квартиль. Перший квартиль, Q 1, є середнім значенням нижньої половини даних, а третій квартиль, Q 3, є середнім значенням або медіаною верхньої половини даних. Щоб отримати ідею, розглянемо той же набір даних:
1; 1; 2; 2; 4; 6; 6,8; 7,2; 8; 8.3; 9; 10; 10; 11.5
Медіана або другий квартиль дорівнює семи. Нижня половина даних - 1, 1, 2, 2, 4, 6, 6,8. Середнє значення нижньої половини дорівнює двом.
1; 1; 2; 2; 4; 6; 6,8
Число два, що входить до складу даних, є першим квартилем. Одна четверта від усіх множин значень збігаються або менше двох і три чверті значень більше двох.
Верхня половина даних - 7,2, 8, 8,3, 9, 10, 10, 11.5. Середнє значення верхньої половини - дев'ять.
Третій квартиль, Q 3, дев'ять. Три чверті (75%) впорядкованого набору даних менше дев'яти. Одна четверта (25%) впорядкованого набору даних більше дев'яти. Третій квартиль є частиною набору даних у цьому прикладі.
Інтерквартильний діапазон - це число, яке вказує на розкид середньої половини або середнього 50% даних. Це різниця між третім квартилем (Q 3) і першим квартилем (Q 1).
\[IQR = Q_3 – Q_1 \tag{2.4.1}\]
IQR може допомогти визначити потенційні викиди. Підозрюється, що значення є потенційним викидом, якщо воно менше (1.5) (IQR) нижче першого квартиля або більше (1.5) (IQR) над третім квартилем. Потенційні викиди завжди вимагають подальшого дослідження.
Визначення: Визначення
Потенційний викид - це точка даних, яка значно відрізняється від інших точок даних. Ці спеціальні точки даних можуть бути помилками або якимось відхиленням, або вони можуть бути ключем до розуміння даних.
Приклад 2.4.1
Для наступних 13 цін на нерухомість розрахуйте IQR та визначте, чи є які-небудь ціни потенційними викидами. Ціни вказані в доларах.
389 950; 230 500; 158 000; 479 000; 639 000; 114 950; 5 500 000; 387 000; 659 000; 529 000; 575 000; 488 800; 1 095 000
Відповідь
Замовте дані від найменшого до найбільшого.
114 950; 158 000; 230 500; 387 000; 389 950; 479 000; 488 800; 529 000; 575 000; 639 000; 659 000; 1 095 000; 5 500 000
\[M = 488,800 \nonumber\]
\[Q_{1} = \dfrac{230,500 + 387,000}{2} = 308,750\nonumber\]
\[Q_{3} = \dfrac{639,000 + 659,000}{2} = 649,000\nonumber\]
\[IQR = 649,000 - 308,750 = 340,250\nonumber\]
\[(1.5)(IQR) = (1.5)(340,250) = 510,375\nonumber\]
\[Q_{1} - (1.5)(IQR) = 308,750 - 510,375 = –201,625\nonumber\]
\[Q_{3} + (1.5)(IQR) = 649,000 + 510,375 = 1,159,375\nonumber\]
Жодна ціна будинку не менше —201,625. Однак 5 500 000 - це більше 1 159 375. Таким чином, 5 500 000 є потенційним викидом.
Вправа\(\PageIndex{1}\)
Для наступних 11 зарплат розрахуйте IQR та визначте, чи є якісь зарплати викидами. Заробітна плата вказана в доларах.
$33 000; 64 500$; $28 000; $54 000; $72 000; $68 500; $69 000; $42 000; $54 000; $120 000; $40 500
Відповідь
Замовте дані від найменшого до найбільшого.
$28 000; $33 000; $40 500; $42 000; $54 000; $54 000; $64 500; $68 500; $69 000; $72 000; $120 000
Медіана = $54,000
\[Q_{1} = $40,500\nonumber\]
\[Q_{3} = $69,000\nonumber\]
\[IQR = $69,000 - $40,500 = $28,500\nonumber\]
\[(1.5)(IQR) = (1.5)($28,500) = $42,750\nonumber\]
\[Q_{1} - (1.5)(IQR) = $40,500 - $42,750 = -$2,250\nonumber\]
\[Q_{3} + (1.5)(IQR) = $69,000 + $42,750 = $111,750\nonumber\]
Жодна зарплата не менше —$2,250. Однак 120 000 доларів - це більше 11 750 доларів, тому 120 000 доларів є потенційним викидом.
Приклад 2.4.2
Для двох наборів даних у прикладі тестових балів знайдіть наступне:
- Міжквартильний діапазон. Порівняйте два міжквартильні діапазони.
- Будь-які викиди в будь-якому наборі.
Відповідь
Підсумок п'яти чисел для денних і нічних занять
Мінімум | Q 1 | Медіана | Q 3 | Максимум | |
---|---|---|---|---|---|
День | 32 | 56 | 74.5 | 82.5 | 99 |
Ніч | 25.5 | 78 | 81 | 89 | 98 |
- IQR для денної групи\(Q_{3} - Q_{1} = 82.5 - 56 = 26.5\)
IQR для нічної групи\(Q_{3} - Q_{1} = 89 - 78 = 11\)
Міжквартильний діапазон (розкид або мінливість) для денного класу більше, ніж нічний клас IQR. Це говорить про те, що більше варіацій буде знайдено в результатах тестування класу денного класу.
- Виключення денних класів знаходять за допомогою правила IQR разів 1.5. Отже,
- \(Q_{1} - IQR(1.5) = 56 – 26.5(1.5) = 16.25\)
- \(Q_{3} + IQR(1.5) = 82.5 + 26.5(1.5) = 122.25\)
Оскільки мінімальне і максимальне значення для денного класу більше 16,25 і менше 122,25, викидів немає.
Виділення нічного класу розраховуються як:
- \(Q_{1} - IQR (1.5) = 78 – 11(1.5) = 61.5\)
- \(Q_{3} + IQR(1.5) = 89 + 11(1.5) = 105.5\)
Для цього класу будь-який тестовий бал менше 61.5 є викидом. Тому бали 45 і 25,5 є викидами. Оскільки жоден тестовий бал не перевищує 105.5, немає верхнього кінця викидів.
Вправа\(\PageIndex{2}\)
Знайдіть інтерквартильний діапазон для наступних двох наборів даних та порівняйте їх.
Тестові бали для класу А
69; 96; 81; 79; 65; 76; 83; 99; 89; 67; 90; 77; 85; 98; 66; 91; 77; 69; 80; 94
Тестові бали для класу B
90; 72; 80; 92; 90; 97; 92; 75; 79; 68; 70; 80; 99; 95; 78; 73; 71; 68; 95; 100
Відповідь
Клас А
Замовте дані від найменшого до найбільшого.
65; 66; 67; 69; 69; 76; 77; 77; 79; 80; 81; 83; 85; 89; 90; 91; 94; 96; 98; 99
\(Median = \dfrac{80 + 81}{2}\)= 80,5
\(Q_{1} = \dfrac{69 + 76}{2} = 72.5\)
\(Q_{3} = \dfrac{90 + 91}{2} = 90.5\)
\(IQR = 90.5 - 72.5 = 18\)
Клас B
Замовте дані від найменшого до найбільшого.
68; 68; 70; 71; 72; 73; 75; 78; 79; 80; 80; 90; 90; 92; 92; 95; 95; 97; 99; 100
\(Median = \dfrac{80 + 80}{2} = 80\)
\(Q_{1} = \dfrac{72 + 73}{2} = 72.5\)
\(Q_{3} = \dfrac{92 + 95}{2} = 93.5\)
\(IQR = 93.5 - 72.5 = 21\)
Дані для класу B мають більший IQR, тому оцінки між Q 3 та Q 1 (середні 50%) для даних для класу B більш поширені і не кластеризовані щодо медіани.
Приклад 2.4.3
П'ятдесят студентів статистики запитали, скільки сну вони отримують за шкільну ніч (округлено до найближчої години). Результати були:
КІЛЬКІСТЬ СНУ ЗА ШКІЛЬНУ НІЧ (ГОДИНИ) | ЧАСТОТА | ВІДНОСНА ЧАСТОТА | СУКУПНА ВІДНОСНА ЧАСТОТА |
---|---|---|---|
4 | 2 | 0,04 | 0,04 |
5 | 5 | 0,10 | 0,14 |
6 | 7 | 0,14 | 0,28 |
7 | 12 | 0,24 | 0,52 |
8 | 14 | 0,28 | 0,80 |
9 | 7 | 0,14 | 0,94 |
10 | 3 | 0,06 | 1.00 |
Знайдіть 28-й процентиль. Зверніть увагу на 0.28 в стовпці «кумулятивна відносна частота». Двадцять вісім відсотків з 50 значень даних - це 14 значень. Є 14 значень менше, ніж 28-й процентиль. Вони включають в себе два 4s, п'ять 5s, і сім 6s. 28-й процентиль знаходиться між останньою шісткою і першою сімкою. 28-й процентиль дорівнює 6,5.
Знайдіть медіану. Подивіться ще раз на стовпець «кумулятивна відносна частота» і знайдіть 0.52. Медіана - 50-й процентиль або другий квартиль. 50% від 50 дорівнює 25. Є на 25 значень менше медіани. Вони включають в себе два 4s, п'ять 5s, сім 6s, і одинадцять з 7s. Медіана або 50-й процентиль знаходиться між 25-го, або семи, і 26-го, або семи, значень. Медіана дорівнює семи.
Знайдіть третій квартиль. Третій квартиль такий же, як і 75-й процентиль. Можна «очне яблуко» цю відповідь. Якщо подивитися на стовпець «кумулятивна відносна частота», ви знайдете 0,52 і 0,80. Коли у вас є четвереньки, п'ятірки, шістки і сімки, у вас є 52% даних. Коли ви включаєте всі 8s, у вас є 80% даних. Значить, 75 процентиль повинен бути вісім. Інший спосіб подивитися на проблему - знайти 75% з 50, що становить 37,5, і округлити до 38. Третій квартиль, Q 3, - це 38-е значення, яке є вісімкою. Перевірити цю відповідь можна, підрахувавши значення. (Є 37 значень нижче третього квартиля і 12 значень вище.)
Вправа\(\PageIndex{3}\)
Сорок водіїв автобусів запитали, скільки годин вони проводять щодня, виконуючи свої маршрути (округлені до найближчої години). Знайдіть 65-й процентиль.
Кількість часу, витраченого на маршрут (годин) | Частота | Відносна частота | Накопичувальна відносна частота |
---|---|---|---|
2 | 12 | 0,30 | 0,30 |
3 | 14 | 0,35 | 0,65 |
4 | 10 | 0,25 | 0,90 |
5 | 4 | 0,10 | 1.00 |
Відповідь
65-й процентиль знаходиться між останніми трьома і першими чотирма.
65-й процентиль дорівнює 3,5.
Приклад 2.4.4
Використання таблиці:
- Знайдіть 80-й процентиль.
- Знайдіть 90-й процентиль.
- Знайдіть перший квартиль. Як ще називають перший квартиль?
Рішення
Використовуючи дані з таблиці частот, ми маємо:
- 80-й процентиль знаходиться між останньою вісімкою і першою дев'ятьма в таблиці (між 40-м і 41-м значеннями). Тому потрібно взяти середнє значення 40-го і 41-го значень. 80-й процентиль\(= \dfrac{8+9}{2} = 8.5\)
- 90-й процентиль буде 45-м значенням даних (розташування є\(0.90(50) = 45\)), а 45-е значення даних - дев'ять.
- Q 1 - це також 25-й процентиль. Розрахунок місця розташування 25-го\(P_{25} = 0.25(50) = 12.5 \approx 13\) процентиля: 13-е значення даних. Таким чином, 25-й процентиль дорівнює шести.
Вправа\(\PageIndex{4}\)
Зверніться до таблиці. Знайдіть третій квартиль. Яке ще назва третього квартилі?
Відповідь
Третій квартиль - це 75-й процентиль, який дорівнює чотирьом. 65-й процентиль знаходиться між трьома і чотирма, а 90-й процентиль знаходиться між чотирма і 5.75. Третій квартиль знаходиться між 65 і 90, тому його повинно бути чотири.
СПІЛЬНА СТАТИСТИКА
Ваш інструктор або член класу запитає всіх в класі, скільки светрів вони володіють. Дайте відповідь на наступні питання:
- Скільки було опитано студентів?
- Який вибірку ви робили?
- Побудувати дві різні гістограми. Для кожного початкове значення = _____ кінцеве значення = ____.
- Знайдіть медіану, перший квартиль і третій квартиль.
- Побудуйте таблицю даних, щоб знайти наступне:
- 10-й процентиль
- 70-й процентиль
- відсоток студентів, які володіють менше чотирьох светрів
Формула для знаходження k го процентиля
Якби ви зробили невелике дослідження, ви б знайшли кілька формул для обчислення kth процентиль. Ось один з них.
- \(k =\)k-й процентиль. Це може бути, а може і не бути частиною даних.
- \(i =\)індекс (ранжування або позиція значення даних)
- \(n =\)загальна кількість даних
Замовте дані від найменшого до найбільшого.
Обчисліть\(i = \dfrac{k}{100}(n + 1)\) i
Якщо\(i\) ціле число, то\(k^{th}\) процентиль - це значення даних в\(i^{th}\) позиції в упорядкованому наборі даних.
Якщо\(i\) не ціле число, то округляйте в\(i\) більшу сторону і\(i\) округліть до найближчих цілих чисел. Усередніть два значення даних у цих двох позиціях у впорядкованому наборі даних. Це простіше зрозуміти на прикладі.
Приклад 2.4.5
Перераховані 29 вік для нагороди Оскар кращих акторів в порядку від найменших до найбільших.
18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77- Знайдіть 70-й процентиль.
- Знайдіть 83-й процентиль.
Рішення
-
- \(k = 70\)
- \(i\)= індекс
- \(n = 29\)
-
- \(k\)= 83-й процентиль
- \(i = the index\)
- \(n = 29\)
Вправа\(\PageIndex{5}\)
Перераховані 29 вік для нагороди Оскар кращих акторів в порядку від найменших до найбільших.
18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77
Обчисліть 20-й процентиль і 55-й процентиль.
Відповідь
\(k = 20\). Індекс\(= i = \dfrac{k}{100}(n+1) = \dfrac{20}{100}(29 + 1) = 6\). Вік на шостій позиції - 27. 20-й процентиль - 27 років.
\(k = 55\). Індекс\(= i = \dfrac{k}{100}(n+1) = \dfrac{55}{100}(29 + 1) = 16.5\). Округлити до 16 і до 17. Вік в 16-й позиції - 52, а вік в 17-й позиції - 55. В середньому 52 і 55 - 53,5. 55-й процентиль становить 53,5 року.
Примітка 2.4.2
Розрахувати процентилі можна за допомогою калькуляторів і комп'ютерів. Існують різноманітні онлайн-калькулятори.
Формула для знаходження процентиля значення в наборі даних
- Замовте дані від найменшого до найбільшого.
- \(x =\)кількість значень даних, що підраховуються від нижньої частини списку даних до, але не включаючи значення даних, для якого ви хочете знайти процентиль.
- \(y =\)кількість значень даних, що дорівнює значенню даних, для якого потрібно знайти процентиль.
- \(n =\)загальна кількість даних.
- Розрахувати\(\dfrac{x + 0.5y}{n}(100)\). Потім округляємо до найближчого цілого числа.
Приклад 2.4.6
Перераховані 29 вік для нагороди Оскар кращих акторів в порядку від найменших до найбільших.
18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77- Знайти процентиль для 58.
- Знайти процентиль для 25.
Рішення
- Підраховуючи знизу списку, є 18 значень даних менше 58. Існує одне значення 58.
\(x = 18\)і\(y = 1\). \(\dfrac{x + 0.5y}{n}(100) = \dfrac{18 + 0.5(1)}{29}(100) = 63.80\). 58 - 64-й процентиль.
- Відраховуючи знизу списку, є три значення даних менше 25. Існує одне значення 25.
\(x = 3\)і\(y = 1\). \(\dfrac{x + 0.5y}{n}(100) = \dfrac{3 + 0.5(1)}{29}(100) = 12.07\). Двадцять п'ять - це 12-й процентиль.
Вправа\(\PageIndex{6}\)
Перераховані 30 віку для нагороди Оскар кращих акторів в порядку від найменших до найбільших.
18; 21; 22; 25; 26; 27; 29; 30; 31, 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77
Знайти процентилі для 47 і 31.
Відповідь
Процентиль для 47: Відраховуючи знизу списку, є 15 значень даних менше 47. Існує одне значення 47.
\(x = 15\)і\(y = 1\). \(\dfrac{x + 0.5y}{n}(100) = \dfrac{15 + 0.5(1)}{30}(100) = 51.67\).47 - це 52-й процентиль.
Процентиль для 31: Підраховуючи знизу списку, є вісім значень даних менше 31. Існує два значення 31.
\(x = 8\)і\(y = 2\). \(\dfrac{x + 0.5y}{n}(100) = \dfrac{8 + 0.5(2)}{30}(100) = 30\). 31 - 30-й процентиль.
Інтерпретація процентилей, квартилей та медіани
Процентиль вказує на відносне стояння значення даних, коли дані сортуються в числовому порядку від найменшого до найбільшого. Відсотки значень даних менше або рівні p го процентиля. Наприклад, 15% значень даних менше або дорівнює 15-му процентилю.
- Низькі процентилі завжди відповідають нижчим значенням даних.
- Високі процентилі завжди відповідають більш високим значенням даних.
Процентиль може відповідати або не відповідати ціннісному судженню про те, чи є він «хорошим» чи «поганим». Тлумачення того, чи є певний процентиль «хорошим» чи «поганим», залежить від контексту ситуації, до якої застосовуються дані. У деяких ситуаціях низький процентиль буде вважатися «хорошим»; в інших контекстах високий процентиль може вважатися «хорошим». У багатьох ситуаціях не існує жодного ціннісного судження, яке застосовується.
Розуміння того, як правильно інтерпретувати процентилі, важливо не тільки при описі даних, але і при обчисленні ймовірностей в наступних розділах цього тексту.
НАСТАНОВА
При написанні тлумачення процентиля в контексті наведених даних пропозиція повинна містити наступну інформацію.
- інформація про контекст розглянутої ситуації
- значення даних (значення змінної), що представляє процентиль
- відсоток фізичних осіб або елементів зі значеннями даних нижче процентиля
- відсоток фізичних осіб або елементів зі значеннями даних вище процентиля.
Приклад 2.4.7
На приуроченому математичному тесті перший квартиль за час, який знадобився, щоб закінчити іспит, становив 35 хвилин. Інтерпретуйте перший квартиль в контексті цієї ситуації.
Відповідь
- Двадцять п'ять відсотків студентів закінчили іспит за 35 хвилин або менше.
- Сімдесят п'ять відсотків студентів закінчили іспит за 35 хвилин і більше.
- Низький процентиль можна вважати хорошим, оскільки бажано закінчити швидше на приурочений іспит. (Якщо ви займете занадто багато часу, ви, можливо, не зможете закінчити.)
Вправа\(\PageIndex{7}\)
Для 100-метрового тире третій квартиль за раз для фінішу гонки становив 11,5 секунди. Інтерпретувати третій квартиль в контексті ситуації.
Відповідь
Двадцять п'ять відсотків бігунів закінчили гонку за 11,5 секунди і більше. Сімдесят п'ять відсотків бігунів закінчили гонку за 11,5 секунди або менше. Більш низький процентиль хороший тим, що закінчити гонку швидше бажано.
Приклад 2.4.8
На 20 питаннях математичного тесту 70 процентиль для кількості правильних відповідей становив 16. Інтерпретувати 70-й процентиль в контексті цієї ситуації.
Відповідь
- Сімдесят відсотків студентів відповіли на 16 або менше запитань правильно.
- Тридцять відсотків студентів відповіли на 16 і більше запитань правильно.
- Більш високий процентиль можна вважати хорошим, оскільки бажано правильно відповідати на більше питань.
Вправа\(\PageIndex{8}\)
На 60 балів письмового завдання 80-й процентиль за кількість зароблених балів становив 49. Інтерпретувати 80-й процентиль в контексті цієї ситуації.
Відповідь
Вісімдесят відсотків студентів заробили 49 балів або менше. Двадцять відсотків студентів заробили 49 і більше балів. Більш високий процентиль хороший тим, що отримати більше балів за завдання бажано.
Приклад 2.4.9
У коледжі громади було встановлено, що 30-й процентиль кредитних одиниць, на які навчаються студенти, становить сім одиниць. Інтерпретувати 30-й процентиль в контексті цієї ситуації.
Відповідь
- Тридцять відсотків студентів зараховані в семи або менше кредитних одиниць.
- Сімдесят відсотків студентів зараховані в семи і більше кредитних одиниць.
- У цьому прикладі немає «хорошого» або «поганого» судження про значення, пов'язаного з вищим або нижчим процентилем. Студенти відвідують коледж громади з різних причин і потреб, і їх курс навантаження змінюється залежно від їх потреб.
Вправа\(\PageIndex{9}\)
Протягом сезону 40-й процентиль за очки, набрані на гравця в грі, становить вісім. Інтерпретувати 40-й процентиль в контексті цієї ситуації.
Відповідь
Сорок відсотків гравців набрали вісім очок або менше. Шістдесят відсотків гравців набрали вісім очок і більше. Більш високий процентиль хороший тим, що отримати більше очок у баскетбольному матчі бажано.
Приклад 2.4.10
Шарп середньої школи подає заявку на грант, який буде використовуватися для додавання фітнес-обладнання в тренажерний зал. Директор опитав 15 анонімних студентів, щоб визначити, скільки хвилин на день студенти проводять фізичні вправи. Показані результати 15 анонімних студентів.
0 хвилин; 40 хвилин; 60 хвилин; 30 хвилин; 60 хвилин
10 хвилин; 45 хвилин; 30 хвилин; 300 хвилин; 90 хвилин;
30 хвилин; 120 хвилин; 60 хвилин; 0 хвилин; 20 хвилин
Визначте наступні п'ять значень.
- Хв = 0
- Q 1 = 20
- Мед = 40
- Q 3 = 60
- Макс = 300
Якби ви були головним, Ви були б виправдані в придбанні нових фітнес-обладнання? Оскільки 75% учнів займаються спортом протягом 60 хвилин або менше щодня, а оскільки IQR становить 40 хвилин (60 - 20 = 40), ми знаємо, що половина опитаних студентів вправляється між 20 хвилинами та 60 хвилинами щодня. Це здається розумною кількістю часу, витраченого на тренування, тому принципал буде виправданий при придбанні нового обладнання.
Однак принципал повинен бути обережним. Значення 300, здається, є потенційним викидом.
\[Q_{3} + 1.5(IQR) = 60 + (1.5)(40) = 120\].
Значення 300 більше 120, тому це потенційний викид. Якщо видалити його і обчислити п'ять значень, то отримаємо наступні значення:
- Хв = 0
- Q 1 = 20
- Q 3 = 60
- Макс = 120
У нас все ще 75% студентів займаються 60 хвилин або менше щодня, а половина студентів займається від 20 до 60 хвилин на день. Однак 15 студентів - це невелика вибірка, і директор повинен опитувати більше студентів, щоб бути впевненими в його результатах опитування.
Посилання
- Кошон, Денніс, Пол Оверберг. «Дані перепису населення показують, що меншини зараз більшість народжених в США». США сьогодні, 2012 рік. Доступно в Інтернеті за адресою usatoday30.usatoday.com/news/... sus/55029100/1 (доступ до квітня 3, 2013).
- Дані Міністерства торгівлі США: Бюро перепису населення США. Доступно в Інтернеті за адресою http://www.census.gov/ (доступ до 3 квітня 2013 р.).
- «Перепис 1990 року». Міністерство торгівлі США: Бюро перепису населення США. Доступно в Інтернеті за адресою http://www.census.gov/main/www/cen1990.html (доступ до 3 квітня 2013 р.).
- Дані з San Jose Mercury News.
- Дані журналу Time; опитування Янкелович Партнери, Inc.
Рецензія
Значення, які ділять впорядкований за рангом набір даних на 100 рівних частин, називаються процентилями. Процентилі використовуються для порівняння та інтерпретації даних. Наприклад, спостереження на 50-му процентилі було б більше 50 відсотків інших спостережень у наборі. Квартили ділять дані на чверті. Перший квартиль (Q 1) - 25-й процентиль, другий квартиль (Q 2 або медіана) - 50-й процентиль, а третій квартиль (Q 3) - 75-й процентиль. Інтерквартильний діапазон, або IQR, - це діапазон середніх 50 відсотків значень даних. IQR знаходиться шляхом віднімання Q 1 з Q 3, і може допомогти визначити викиди, використовуючи наступні два вирази.
- \(Q_{3} + IQR(1.5)\)
- \(Q_{1} - IQR(1.5)\)
Огляд формули
\[i = \dfrac{k}{100}(n+1) \nonumber\]
де\(i\) = рейтинг або позиція значення даних,
- \(k\)= k го процентиль,
- \(n\)= загальна кількість даних.
Вираз для знаходження процентиля значення даних:\(\left(\dfrac{x + 0.5y}{n}\right)(100)\)
де\(x =\) кількість значень, що підраховуються знизу списку даних до, але не включаючи значення даних, для якого ви хочете знайти процентиль,
\(y =\)кількість значень даних, що дорівнює значенню даних, для якого потрібно знайти процентиль,
\(n =\)загальна кількість даних
Глосарій
- Міжквартильний діапазон
- або IQR, - це діапазон середніх 50 відсотків значень даних; IQR виявляється шляхом віднімання першого квартиля з третього квартиля.
- викиди
- спостереження, яке не відповідає решті даних
- Процентиль
- число, яке ділить впорядковані дані на соті частки; процентилі можуть бути або не бути частиною даних. Медіана даних - другий квартиль і 50-й процентиль. Перший і третій квартилі - 25-й і 75-й процентилі відповідно.
- Квартілі
- числа, які розділяють дані на чверті; квартилі можуть бути або не бути частиною даних. Другий квартиль - це медіана даних.