Skip to main content
LibreTexts - Ukrayinska

2.2: Заходи розташування даних

  • Page ID
    99829
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Загальними мірами розташування є квартилі та процентилі

    Квартилі - це особливі процентилі. Перший квартиль,\(Q_1\), такий же, як\(25^{th}\) перцентиль, а третій квартиль, такий же\(Q_3\), як і\(75^{th}\) процентиль. Медіана, M, називається як другим квартилем, так і 50-м процентилем.

    Щоб обчислити квартилі і процентилі, дані повинні бути впорядковані від найменшого до найбільшого. Квартили ділять впорядковані дані на чверті. Процентилі ділять впорядковані дані на соті частки. Забити в\(90^{th}\) процентиль іспиту не означає, обов'язково, що ви отримали 90% на тесті. Це означає, що 90% тестових балів збігаються або менше, ніж ваш бал, а 10% балів тесту збігаються або перевищують ваш тестовий бал.

    Процентилі корисні для порівняння значень. З цієї причини університети та коледжі широко використовують процентилі. Один із прикладів, коли коледжі та університети використовують процентилі, - це коли результати SAT використовуються для визначення мінімального балу тестування, який буде використовуватися як коефіцієнт прийняття. Наприклад, припустимо, що Дюк приймає оцінки SAT на рівні або вище\(75^{th}\) процентиля. Це означає, що оцінка щонайменше 1220.

    Перцентилі в основному використовуються з дуже великими популяціями. Тому, якби ви сказали, що 90% тестових балів менше (і не однакові або менше), ніж ваш бал, це було б прийнятно, оскільки видалення одного конкретного значення даних не є значним.

    Медіана - це число, яке вимірює «центр» даних. Ви можете думати про медіану як «середнє значення», але насправді вона не повинна бути одним із спостережуваних значень. Це число, яке розділяє впорядковані дані навпіл. Половина значень - це те ж число або менше медіани, а половина значень - це те ж число або більше. Для прикладу розглянемо наступні дані.
    \(1; 11.5; 6; 7.2; 4; 8; 9; 10; 6.8; 8.3; 2; 2; 10; 1\)
    Замовлено від найменшого до найбільшого:
    \(1; 1; 2; 2; 4; 6; 6.8; 7.2; 8; 8.3; 9; 10; 10; 11.5\)

    Оскільки існує 14 спостережень, медіана знаходиться між сьомим значенням, 6,8, і восьмим значенням - 7,2. Щоб знайти медіану, складіть два значення разом і розділіть на два.

    \[\frac{6.8+7.2}{2}=7\nonumber\]

    Медіана дорівнює семи. Половина значень менше семи, а половина значень більше семи.

    Квартили - це числа, які розділяють дані на чверті. Квартили можуть бути або не бути частиною даних. Щоб знайти квартилі, спочатку знайдіть медіану або другий квартиль. Перший квартиль - середнє значення нижньої половини даних, а третій квартиль - середнє значення\(Q_3\), або медіана, верхньої половини даних.\(Q_1\) Щоб отримати ідею, розглянемо один і той же набір даних:
    1; 1; 2; 2; 4; 6; 6,8; 7,2; 8; 8,3; 9; 10; 10; 11.5

    Медіана або другий квартиль дорівнює семи. Нижня половина даних - 1, 1, 2, 2, 4, 6, 6,8. Середнє значення нижньої половини дорівнює двом.
    1; 1; 2; 2; 4; 6; 6,8

    Число два, що входить до складу даних, є першим квартилем. Одна четверта від усіх множин значень збігаються або менше двох і три чверті значень більше двох.

    Верхня половина даних - 7,2, 8, 8,3, 9, 10, 10, 11.5. Середнє значення верхньої половини - дев'ять.

    Третій квартиль\(Q_3\), дев'ять. Три чверті (75%) впорядкованого набору даних менше дев'яти. Одна четверта (25%) впорядкованого набору даних більше дев'яти. Третій квартиль є частиною набору даних у цьому прикладі.

    Інтерквартильний діапазон - це число, яке вказує на розкид середньої половини або середнього 50% даних. Це різниця між третім квартилем (\(Q_3\)) і першим квартилем (\(Q_1\)).

    \(IQR = Q_3 – Q_1\)

    Вони\(IQR\) можуть допомогти визначити потенційні викиди. Підозрюється, що значення є потенційним викидом, якщо воно менше, ніж\(\bf{(1.5)(IQR)\) нижче першого квартиля або більше, ніж\(\bf{(1.5)(IQR)}\) над третім квартилем. Потенційні викиди завжди вимагають подальшого дослідження.

    потенційний викид

    Потенційний викид - це точка даних, яка значно відрізняється від інших точок даних. Ці спеціальні точки даних можуть бути помилками або якимось відхиленням, або вони можуть бути ключем до розуміння даних.

    Приклад\(\PageIndex{14}\)

    Для наступних 13 цін на нерухомість розрахуйте\(IQR\) та визначте, чи є будь-які ціни потенційними викидами. Ціни вказані в доларах.
    \(389,950; 230,500; 158,000; 479,000; 639,000; 114,950; 5,500,000; 387,000; 659,000; 529,000; 575,000; 488,800; 1,095,000\)

    Відповідь

    Рішення 2.14

    Замовте дані від найменшого до найбільшого.

    \(114,950; 158,000; 230,500; 387,000; 389,950; 479,000; 488,800; 529,000; 575,000; 639,000; 659,000; 1,095,000; 5,500,000\)

    \(M = 488,800\)

    \(Q_{1}=\frac{230,500+387,000}{2}=308,750\)

    \(Q_{3}=\frac{639,000+659,000}{2}=649,000\)

    \(IQR = 649,000 – 308,750 = 340,250\)

    \((1.5)(IQR) = (1.5)(340,250) = 510,375\)

    \(Q_1 – (1.5)(IQR) = 308,750 – 510,375 = –201,625\)

    \(Q_3 + (1.5)(IQR) = 649,000 + 510,375 = 1,159,375\)

    Жодна ціна будинку не менше\(–201,625\). Однак\(5,500,000\) це більше, ніж\(1,159,375\). Тому\(5,500,000\) є потенційним викидом.

    Приклад\(\PageIndex{15}\)

    Для двох наборів даних у прикладі тестових балів знайдіть наступне:

    1. Міжквартильний діапазон. Порівняйте два міжквартильні діапазони.
    2. Будь-які викиди в будь-якому наборі.
    Відповідь

    Рішення 2.15

    Підсумок п'яти чисел для денних і нічних занять

    \ (\ Індекс сторінки {21}\) «>
    Мінімум \(Q_1\) Медіана \(Q_3\) Максимум
    День 32 \ (Q_1\)» клас = «lt-статика-4548">56 74.5 \ (Q_3\)» клас = «lt-статика-4548">82.5 99
    Ніч 25.5 \ (Q_1\)» клас = «lt-статика-4548">78 81 \ (Q_3\)» клас = «lt-статика-4548">89 98
    Таблиця\(\PageIndex{21}\)

    a.\(IQR\) для групи дня є\(Q_3 – Q_1 = 82.5 – 56 = 26.5\)

    \(IQR\)Для нічної групи це\(Q_3 – Q_1 = 89 – 78 = 11\)

    Міжквартильний діапазон (розкид або мінливість) для денного класу більше нічного класу\(IQR\). Це говорить про те, що більше варіацій буде знайдено в результатах тестування класу денного класу.

    b. денні викиди класів знаходять за допомогою правила\(IQR\) times 1.5. Отже,
    • \(Q_1 - IQR(1.5) = 56 – 26.5(1.5) = 16.25\)
    • \(Q_3 + IQR(1.5) = 82.5 + 26.5(1.5) = 122.25\)

    Оскільки мінімальне і максимальне значення для денного класу більше\(16.25\) і менше\(122.25\), викидів немає.

    Виділення нічного класу розраховуються як:

    • \(Q_1 – IQR (1.5) = 78 – 11(1.5) = 61.5\)
    • \(Q_3 + IQR(1.5) = 89 + 11(1.5) = 105.5\)

    Для цього класу будь-який тестовий бал менше, ніж\(61.5\) є викидом. Тому бали\(45\) і\(25.5\) є викидами. Оскільки жоден тестовий бал не перевищує 105.5, немає верхнього кінця викидів.

    Приклад\(\PageIndex{16}\)

    П'ятдесят студентів статистики запитали, скільки сну вони отримують за шкільну ніч (округлено до найближчої години). Результати були:

    \ (\ Індекс сторінки {22}\) «>
    Кількість сну за шкільну ніч (години) Частота Відносна частота Накопичувальна відносна частота
    4 2 0,04 0,04
    5 5 0,10 0,14
    6 7 0,14 0,28
    7 12 0,24 0,52
    8 14 0,28 0,80
    9 7 0,14 0,94
    10 3 0,06 1.00
    Таблиця\(\PageIndex{22}\)

    Знайдіть 28-й процентиль. Зверніть увагу на 0.28 в стовпці «кумулятивна відносна частота». Двадцять вісім відсотків з 50 значень даних - це 14 значень. Є 14 значень менше, ніж 28-й процентиль. Вони включають в себе два 4s, п'ять 5s, і сім 6s. 28-й процентиль знаходиться між останньою шісткою і першою сімкою. 28-й процентиль дорівнює 6,5.

    Знайдіть медіану. Подивіться ще раз на стовпець «кумулятивна відносна частота» і знайдіть 0.52. Медіана - 50-й процентиль або другий квартиль. 50% від 50 дорівнює 25. Є на 25 значень менше медіани. Вони включають в себе два 4s, п'ять 5s, сім 6s, і одинадцять з 7s. Медіана або 50-й процентиль знаходиться між 25-го, або семи, і 26-го, або семи, значень. Медіана дорівнює семи.

    Знайдіть третій квартиль. Третій квартиль такий же, як і\(75^{th}\) процентиль. Можна «очне яблуко» цю відповідь. Якщо подивитися на стовпець «кумулятивна відносна частота», ви знайдете 0,52 і 0,80. Коли у вас є четвереньки, п'ятірки, шістки і сімки, у вас є 52% даних. Коли ви включаєте всі 8s, у вас є 80% даних. Таким чином,\(bf{75^{th}}\) процентиль повинен бути вісімка. Інший спосіб подивитися на проблему - знайти 75% з 50, що становить 37,5, і округлити до 38. Третій квартиль - це 38-е значення, яке є вісімкою.\(Q_3\) Перевірити цю відповідь можна, підрахувавши значення. (Є 37 значень нижче третього квартиля і 12 значень вище.)

    Вправа\(\PageIndex{16}\)

    Сорок водіїв автобусів запитали, скільки годин вони проводять щодня, виконуючи свої маршрути (округлені до найближчої години). Знайдіть 65-й процентиль.

    \ (\ Індекс сторінки {23}\) «>
    Кількість часу, витраченого на маршрут (годин) Частота Відносна частота Накопичувальна відносна частота
    2 12 0,30 0,30
    3 14 0,35 0,65
    4 10 0,25 0,90
    5 4 0,10 1.00
    Таблиця\(\PageIndex{23}\)

    Приклад\(\PageIndex{17}\)

    Використання таблиці\(\PageIndex{22}\):

    1. Знайдіть\(80^{th}\) процентиль.
    2. Знайдіть\(90^{th}\) процентиль.
    3. Знайдіть перший квартиль. Як ще називають перший квартиль?
    Відповідь

    Рішення 2.17

    Використовуючи дані з таблиці частот, ми маємо:

    а\(80^{th}\) Процентиль знаходиться між останньою вісімкою і першою дев'ятьма в таблиці (між\(41^{st}\) значеннями\(40^{th}\) і). Тому нам потрібно взяти середнє\(41^{st}\) значення\(40^{th}\) an. \(80^{th}\)Процентиль\(=\frac{8+9}{2}=8.5\)

    б\(90^{th}\) Процентиль буде значенням\(45^{th}\) даних (location is\(0.90(50) = 45\)), а 45-м значенням даних - дев'ять.

    в.\(Q_1\) - це також 25-й процентиль. Розрахунок розташування\(25^{th}\) процентиля:\(P_{25}=0.25(50)=12.5 \approx 13\) значення\(13^{th}\) даних. Таким чином,\(25^{th}\) процентиль дорівнює шести.

    Формула для знаходження процентиля\(k\)

    Якби ви зробили невелике дослідження, ви б знайшли кілька формул для обчислення\(k^{th}\) процентиля. Ось один з них.

    \(k =\)\(k^{th}\)процентиль. Це може бути, а може і не бути частиною даних.

    \(i =\)індекс (ранжування або позиція значення даних)

    \(n =\)загальна кількість точок даних, або спостережень

    • Замовте дані від найменшого до найбільшого.
    • Обчисліть\(i=\frac{k}{100}(n+1)\)
    • Якщо i - ціле число, то\(k^{th}\) процентиль - це значення даних в\(i^{th}\) позиції в упорядкованому наборі даних.
    • Якщо i не є цілим числом, то округліть i вгору і округліть i до найближчих цілих чисел. Усередніть два значення даних у цих двох позиціях у впорядкованому наборі даних. Це простіше зрозуміти на прикладі.

    Приклад\(\PageIndex{18}\)

    Перераховані 29 вік для нагороди Оскар кращих акторів в порядку від найменших до найбільших.
    \(18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77\)

    1. Знайдіть\(70^{th}\) процентиль.
    2. Знайдіть\(83^{rd}\) процентиль.
    Відповідь

    Рішення 2.18

    1.

    • \(k = 70\)
    • \(i\)= індекс
    • \(n = 29\)
    \(i=\frac{k}{100}(n+1)=\left(\frac{70}{100}\right)(29+1)=21\). Двадцять один - ціле число, а значення даних в 21-й позиції в упорядкованому наборі даних дорівнює 64. 70-й процентиль - 64 роки.

    2.

    • \(k = 83^{rd}\)процентиль
    • \(i\)= індекс
    • \(n = 29\)
    \(i=\frac{k}{100}(n+1)=( \frac{83}{100} )(29+1)=24.9\), яка НЕ є цілим числом. Округлити його до 24 і до 25. Вік в\(24^{th}\) положенні - 71, а вік в\(25^{th}\) положенні - 72. Середні 71 і 72. \(83^{rd}\)Процентиль становить 71,5 року.

    Вправа\(\PageIndex{18}\)

    Перераховані 29 вік для нагороди Оскар кращих акторів в порядку від найменших до найбільших.

    \(18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77\)
    Обчисліть 20-й процентиль і 55-й процентиль.

    Формула для знаходження процентиля значення в наборі даних

    • Замовте дані від найменшого до найбільшого.
    • \(x\)= кількість значень даних, що підраховуються від нижньої частини списку даних до, але не включаючи значення даних, для якого ви хочете знайти процентиль.
    • \(y\)= кількість значень даних, що дорівнює значенню даних, для якого потрібно знайти процентиль.
    • \(n\)= загальна кількість даних.
    • Розрахувати\(\frac{x+0.5 y}{n}(100)\). Потім округляємо до найближчого цілого числа.

    Приклад\(\PageIndex{19}\)

    Перераховані 29 вік для нагороди Оскар кращих акторів в порядку від найменших до найбільших.
    \(18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77\)

    1. Знайти процентиль для 58.
    2. Знайти процентиль для 25.
    Відповідь

    Рішення 2.19

    1. Підраховуючи знизу списку, є 18 значень даних менше 58. Існує одне значення 58.

    \(x = 18\)а\(y=1 . \frac{x+0.5 y}{n}(100)=\frac{18+0.5(1)}{29}(100)=63.80\). 58 -\(64^{th}\) процентиль.

    2. Відраховуючи знизу списку, є три значення даних менше 25. Існує одне значення 25.

    \(x = 3\)і\(y=1 . \frac{x+0.5 y}{n}(100)=\frac{3+0.5(1)}{29}(100)=12.07\). Двадцять п'ять -\(12^{th}\) процентиль.

    Інтерпретація процентилей, квартилей та медіани

    Процентиль вказує на відносне стояння значення даних, коли дані сортуються в числовому порядку від найменшого до найбільшого. Відсотки значень даних менше або дорівнює pth процентилю. Наприклад, 15% значень даних менше або дорівнює 15-му процентилю.

    • Низькі процентилі завжди відповідають нижчим значенням даних.
    • Високі процентилі завжди відповідають більш високим значенням даних.

    Процентиль може відповідати або не відповідати ціннісному судженню про те, чи є він «хорошим» чи «поганим». Тлумачення того, чи є певний процентиль «хорошим» чи «поганим», залежить від контексту ситуації, до якої застосовуються дані. У деяких ситуаціях низький процентиль буде вважатися «хорошим»; в інших контекстах високий процентиль може вважатися «хорошим». У багатьох ситуаціях не існує жодного ціннісного судження, яке застосовується.

    Розуміння того, як правильно інтерпретувати процентилі, важливо не тільки при описі даних, але і при обчисленні ймовірностей в наступних розділах цього тексту.

    ПРИМІТКА

    При написанні тлумачення процентиля в розрізі наведених даних пропозиція повинна містити наступну інформацію.

    • інформація про контекст розглянутої ситуації
    • значення даних (значення змінної), що представляє процентиль
    • відсоток фізичних осіб або елементів зі значеннями даних нижче процентиля
    • відсоток фізичних осіб або елементів зі значеннями даних вище процентиля.

    Приклад\(\PageIndex{20}\)

    На приуроченому математичному тесті перший квартиль за час, який знадобився, щоб закінчити іспит, становив 35 хвилин. Інтерпретуйте перший квартиль в контексті цієї ситуації.

    Відповідь

    Рішення 2.20

    Двадцять п'ять відсотків студентів закінчили іспит за 35 хвилин або менше. Сімдесят п'ять відсотків студентів закінчили іспит за 35 хвилин і більше. Низький процентиль можна вважати хорошим, оскільки бажано закінчити швидше на приурочений іспит. (Якщо ви займете занадто багато часу, ви, можливо, не зможете закінчити.)

    Приклад\(\PageIndex{21}\)

    На 20 питаннях математичного тесту 70 процентиль для кількості правильних відповідей становив 16. Інтерпретувати 70-й процентиль в контексті цієї ситуації.

    Відповідь

    Рішення 2.21

    Сімдесят відсотків студентів відповіли на 16 або менше запитань правильно. Тридцять відсотків студентів відповіли на 16 і більше запитань правильно. Більш високий процентиль можна вважати хорошим, оскільки бажано правильно відповідати на більше питань.

    Вправа\(\PageIndex{21}\)

    На 60-бальному письмовому завданні\(80^{th}\) процентиль за кількість зароблених балів становив 49. Інтерпретувати\(80^{th}\) процентиль в контексті даної ситуації.

    Приклад\(\PageIndex{22}\)

    У коледжі громади було встановлено, що\(30^{th}\) процентиль кредитних одиниць, на які навчаються студенти, становить сім одиниць. Інтерпретувати\(30^{th}\) процентиль в контексті даної ситуації.

    Відповідь

    Рішення 2.22

    • Тридцять відсотків студентів зараховані в семи або менше кредитних одиниць.
    • Сімдесят відсотків студентів зараховані в семи і більше кредитних одиниць.
    • У цьому прикладі немає «хорошого» або «поганого» судження про значення, пов'язаного з вищим або нижчим процентилем. Студенти відвідують коледж громади з різних причин і потреб, і їх курс навантаження змінюється залежно від їх потреб.

    Приклад\(\PageIndex{23}\)

    Шарп середньої школи подає заявку на грант, який буде використовуватися для додавання фітнес-обладнання в тренажерний зал. Директор опитав 15 анонімних студентів, щоб визначити, скільки хвилин на день студенти проводять фізичні вправи. Показані результати 15 анонімних студентів.

    0 хвилин; 40 хвилин; 60 хвилин; 30 хвилин; 60 хвилин

    10 хвилин; 45 хвилин; 30 хвилин; 300 хвилин; 90 хвилин;

    30 хвилин; 120 хвилин; 60 хвилин; 0 хвилин; 20 хвилин

    Визначте наступні п'ять значень.

    • Хв = 0
    • \(Q_1 = 20\)
    • Мед = 40
    • \(Q_3 = 60\)
    • Макс = 300

    Якби ви були головним, Ви були б виправдані в придбанні нових тренажерів для фітнесу? Оскільки 75% учнів займаються 60 хвилин або менше щодня, а оскільки\(IQR\) це 40 хвилин\((60 – 20 = 40)\), ми знаємо, що половина опитаних учнів займаються фізичними вправами від 20 хвилин до 60 хвилин щодня. Це здається розумною кількістю часу, витраченого на тренування, тому принципал буде виправданий при придбанні нового обладнання.

    Однак принципал повинен бути обережним. Значення 300, здається, є потенційним викидом.

    \(Q_3 + 1.5(IQR) = 60 + (1.5)(40) = 120\).

    Значення 300 більше 120, тому це потенційний викид. Якщо видалити його і обчислити п'ять значень, то отримаємо наступні значення:

    • Хв = 0
    • \(Q_1 = 20\)
    • \(Q_3 = 60\)
    • Макс = 120

    У нас все ще є 75% студентів, які займаються 60 хвилин або менше щодня, а половина студентів займаються від 20 до 60