9.4: Міри варіації
- Page ID
- 66302
Розглянемо ці три набори балів вікторини:
Секція А: 5 5 5 5 5 5 5 5 5 5
Секція Б: 0 0 0 0 10 10 10
Секція С: 4 4 4 5 5 5 5 6 6 6
Всі три з цих наборів даних мають середнє значення 5 і медіану 5, але набори балів явно зовсім різні. У розділі А всі мали однаковий бал; у розділі B половина класу не отримала очок, а інша половина отримала ідеальний бал, припускаючи, що це була 10-бальна вікторина. Розділ C не був таким послідовним, як розділ A, але не настільки широко різноманітним, як розділ B.
На додаток до середнього та медіани, які є мірами «типового» або «середнього» значення, нам також потрібна міра того, наскільки «розкинутий» або різноманітний кожен набір даних.
Існує кілька способів вимірювання цього «поширення» даних. Перший є найпростішим і називається діапазоном.
Діапазон - це різниця між максимальним значенням і мінімальним значенням набору даних.
Використовуючи результати вікторини зверху,
Для секції А діапазон дорівнює тому, що як максимальний,\(0\) так і мінімальний є\(5\) і\(5 – 5 = 0\)
Для секції B діапазон становить\(10\) так\(10 – 0 = 10\)
Для розділу C діапазон дорівнює\(2\) тому, що\(6 – 4 = 2\)
В останньому прикладі діапазон, здається, виявляє, наскільки поширені дані. Однак, припустимо, ми додамо четвертий розділ, розділ D, з оцінками
0 5 5 5 5 5 5 5 5 5 10
Цей розділ також має середнє і медіану 5. Діапазон 10, але цей набір даних зовсім інший, ніж розділ B. Щоб краще висвітлити відмінності, нам доведеться звернутися до більш складних заходів варіації.
Стандартне відхилення - це міра варіації, заснована на вимірюванні відстані, яке кожне значення даних відхиляється або відрізняється від середнього. Кілька важливих характеристик:
- Стандартне відхилення завжди позитивне. Стандартне відхилення буде дорівнювати нулю, якщо всі значення даних рівні, і буде збільшуватися в міру поширення даних.
- Стандартне відхилення має ті ж одиниці, що і вихідні дані.
- Стандартне відхилення, як і середнє, може сильно впливати на викиди.
Використовуючи дані з розділу D, ми могли б обчислити для кожного значення даних різницю між значенням даних та середнім значенням:
Значення даних | Відхилення: Значення даних - середнє |
0 | 0-5 = -5 |
5 | 5-5 = 0 |
5 | 5-5 = 0 |
5 | 5-5 = 0 |
5 | 5-5 = 0 |
5 | 5-5 = 0 |
5 | 5-5 = 0 |
5 | 5-5 = 0 |
5 | 5-5 = 0 |
10 | 10-5 = 0 |
Ми хотіли б отримати уявлення про «середнє» відхилення від середнього, але якщо ми знайдемо середнє значення у другому стовпці, негативні та позитивні значення скасовують один одного (це буде завжди), тому, щоб запобігти цьому, ми квадратимо кожне значення у другому стовпці:
Значення даних | Відхилення: Значення даних - середнє | (Відхилення) 2 |
0 | 0-5 = -5 | (-5) 2 = 25 |
5 | 5-5 = 0 | 0 2 = 0 |
5 | 5-5 = 0 | 0 2 = 0 |
5 | 5-5 = 0 | 0 2 = 0 |
5 | 5-5 = 0 | 0 2 = 0 |
5 | 5-5 = 0 | 0 2 = 0 |
5 | 5-5 = 0 | 0 2 = 0 |
5 | 5-5 = 0 | 0 2 = 0 |
5 | 5-5 = 0 | 0 2 = 0 |
10 | 10-5 = 5 | (5) 2 = 25 |
Потім ми додаємо квадратні відхилення вгору, щоб отримати\(25 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 25 = 50\). Зазвичай ми ділимо на кількість балів\(n\), (в даному випадку 10), щоб знайти середнє значення відхилень. Але ми робимо це лише тоді, коли набір даних представляє сукупність; якщо набір даних представляє вибірку (як це майже завжди), ми замість цього ділимо на\(n - 1\) (у цьому випадку\(10 - 1 = 9\)) [4].
Отже, у нашому прикладі, ми б,\(\dfrac{50}{10} = 5\) якщо розділ D представляє сукупність і\(\dfrac{50}{9} =\) про те,\(5.56\) якщо розділ D представляє зразок. Ці значення (\(5\)і\(5.56\)) називаються відповідно дисперсією популяції і дисперсією вибірки для розділу D.
Дисперсія може бути корисною статистичною концепцією, але зауважте, що одиниці дисперсії в цьому випадку будуть квадратними точками, оскільки ми звели всі відхилення в квадраті. Що таке точки-квадрат? Гарне запитання. Ми хотіли б мати справу з одиницями, з яких ми почали (точки в цьому випадку), тому для перетворення назад ми беремо квадратний корінь і отримуємо:
\(\text{Population Standard Deviation } = \sqrt{\dfrac{50}{10}} = \sqrt{5} ≈ 2.2\)
\(\text{Sample Standard Deviation } = \sqrt{\dfrac{50}{9}} ≈ 2.4\)
Що це говорить про розділ D? Можна сказати, що середній бал був 5 дати або взяти 2,4. Частина «дай або візьми» - це префікс для стандартного відхилення. В останньому розділі ми докладніше розповімо про зв'язок між середнім і стандартним відхиленням. Наразі ми можемо інтерпретувати результати як «середнє значення ________ дати або прийняти [стандартне відхилення]».
Якщо ми не впевнені, чи є набір даних вибіркою чи сукупністю, ми зазвичай вважаємо, що це зразок, і ми округляємо відповіді на ще один десятковий знак, ніж вихідні дані, як ми зробили вище.
- Знайдіть відхилення кожного з даних від середнього. Іншими словами, відніміть середнє значення від значення даних.
- Квадрат кожного відхилення.
- Складіть квадратні відхилення.
- Розділити на\(n\), кількість значень даних, якщо дані представляють цілу сукупність; розділити на,\(n – 1\) якщо дані з вибірки. (Цей результат є дисперсією вибірки.)
- Обчислити квадратний корінь результату. (Цей результат є стандартним відхиленням.)
Обчисливши стандартне відхилення для розділу В вище, ми спочатку обчислимо, що середнє значення дорівнює 5. Використання таблиці може допомогти відстежувати ваші обчислення для стандартного відхилення:
Значення даних | Відхилення: Значення даних - середнє | (Відхилення) 2 |
0 | 0-5 = -5 | (-5) 2 = 25 |
0 | 0-5 = -5 | (-5) 2 = 25 |
0 | 0-5 = -5 | (-5) 2 = 25 |
0 | 0-5 = -5 | (-5) 2 = 25 |
0 | 0-5 = -5 | (-5) 2 = 25 |
10 | 10-5 = 5 | (5) 2 = 25 |
10 | 10-5 = 5 | (5) 2 = 25 |
10 | 10-5 = 5 | (5) 2 = 25 |
10 | 10-5 = 5 | (5) 2 = 25 |
10 | 10-5 = 5 | (5) 2 = 25 |
Припускаючи, що ці дані представляють сукупність, ми додамо квадратні відхилення, розділимо на 10, кількість значень даних і обчислимо квадратний корінь:
\(\sqrt{\dfrac{25 + 25 + 25 + 25 + 25 + 25 + 25 + 25 + 25 + 25}{10}} = \sqrt{\dfrac{250}{10}} = 5\)
Зверніть увагу, що стандартне відхилення цього набору даних набагато більше, ніж у розділі D, оскільки дані в цьому наборі більш поширені. Таким чином, середній бал склав 5 дати або взяти 5.
Для порівняння стандартні відхилення всіх чотирьох секцій
Секція А: 5 5 5 5 5 5 5 5 5 5 | Стандартне відхилення: 0 |
Секція Б: 0 0 0 0 10 10 10 | Стандартне відхилення: 5 |
Секція С: 4 4 4 5 5 5 5 6 6 6 | Стандартне відхилення: 0,8 |
Секція Д: 0 5 5 5 5 5 5 5 5 10 | Стандартне відхилення: 2.2 |
Ціна банки арахісового масла в 5 магазинах становила: $3,29, $3,59, $3,79, $3,75 і $3,99. Знайдіть стандартне відхилення цін.
Де стандартне відхилення - це міра варіації, заснована на середньому, квартилі базуються на медіані.
Квартили - це значення, які ділять дані на квартали.
Перший квартиль (Q 1) - це значення, так що 25% значень даних знаходяться нижче нього; третій квартиль (Q 3) - це значення, так що 75% значень даних знаходяться нижче нього. Можливо, ви здогадалися, що другий квартиль такий же, як і медіана, оскільки медіана - це значення, так що 50% значень даних знаходяться нижче неї.
Це ділить дані на чверті; 25% даних - між мінімальним і Q 1, 25% - між Q 1 і медіаною, 25% - між медіаною і Q 3, а 25% - між Q 3 і максимальним значенням
Хоча квартилі не є 1-числовим підсумком варіації, як стандартне відхилення, квартилі використовуються з медіаною, мінімальними та максимальними значеннями для формування 5-числового резюме даних.
Короткий зміст з п'яти чисел набуває такого вигляду
Мінімальний, Q 1, Медіана, Q 3, Максимальний
Щоб знайти перший квартиль, нам потрібно знайти значення даних так, щоб 25% даних знаходилося нижче нього. Якщо\(n\) кількість значень даних, ми обчислюємо локатор, знаходячи 25% від\(n\). Якщо цей локатор є десятковим значенням, ми округляємо і знаходимо значення даних в цій позиції. Якщо локатор є цілим числом, ми знаходимо середнє значення даних у цій позиції та наступне значення даних. Це ідентично процесу, який ми використовували для пошуку медіани, за винятком того, що ми використовуємо 25% значень даних, а не половину значень даних як локатор.
- Почніть з упорядкування даних від найменшого до найбільшого.
- Обчислити локатор:\(L = 0.25n\).
- Якщо\(L\) десяткове значення:
- Округлити до\(L+\)
- Використовувати значення даних в\(L+^{\text{th}}\) позиції.
Якщо\(L\) ціле число:
- Знайдіть середнє значення значень даних в\(L+1^{\text{th}}\) позиціях\(L^{\text{th}}\) і.
Скористайтеся тією ж процедурою, що і для Q 1, але з локатором:\(L = 0.75n\)
Давайте розглянемо кілька прикладів. Ми також можемо обчислити резюме 5-чисел у калькуляторах або деякому науковому програмному забезпеченні, такому як Excel, Minitab або R. Однак, в цьому курсі, ми лише змочуємо ноги статистикою, тому ми можемо швидко обчислити ці значення вручну.
Припустимо, ми виміряли 9 самок і їх висоти (в дюймах), відсортовані від найменшого до найбільшого:
59 60 62 64 66 67 69 70 72
Щоб знайти перший квартиль, ми спочатку обчислюємо локатор: 25% з 9 становить\(L = 0.25(9) = 2.25\). Так як це значення не є цілим числом, округляємо до 3. Перший квартиль буде третім значенням даних: 62 дюйма. Можна сказати, що 25% самок коротше 62 дюймів, а інші 75% - вище 62 дюймів.
Щоб знайти третій квартиль, знову обчислюємо локатор: 75% з 9 дорівнює\(0.75(9) = 6.75\). Так як це значення не є цілим числом, округляємо до 7. Третій квартиль буде сьомим значенням даних: 69 дюймів. Можна сказати, що 75% жінок коротше 69 дюймів, а інші 25% вище 69 дюймів.
Припустимо, ми виміряли 8 самок і їх висоти (в дюймах), відсортовані від найменших до найбільших:
59 60 62 64 66 67 69 70
Щоб знайти перший квартиль, ми спочатку обчислюємо локатор: 25% з 8 становить\(L = 0.25(8) = 2\). Оскільки це значення є цілим числом, ми знайдемо середнє значення 2-го і 3-го значень даних:\(\dfrac{(60+62)}{2} = 61\), Отже, перший квартиль дорівнює 61 дюйму. Можна сказати, що 25% самок коротше 61 дюйма, а інші 75% - вище 61 дюйма.
Третій квартиль обчислюється аналогічно, використовуючи 75% замість 25%. \(L = 0.75(8) = 6\). Це ціле число, тому ми знайдемо середнє значення 6-го і 7-го значень даних:\(\dfrac{(67+69)}{2} = 68\), так Q 3 дорівнює 68 дюймів. Можна сказати, що 75% самок коротше 68 дюймів, а інші 25% вище 68 дюймів.
Зверніть увагу, медіану можна обчислити таким же чином, використовуючи 50% або локатор\(L = 0.5n\)
Підсумок з 5 чисел поєднує перший і третій квартиль з мінімальним, медіанним і максимальним значеннями.
У прикладі з вибіркою з 9 самок медіана дорівнює 66, мінімальна - 59, а максимальна - 72. Отже, резюме з 5 чисел:
59, 62, 66, 69, 72.
У прикладі з вибіркою з 8 жінок медіана дорівнює 65, мінімальна - 59, а максимальна - 70, тому резюме з 5 чисел таке:
59, 61, 65, 68, 70.
Повертаючись до наших даних вікторини. У кожному випадку перший локатор квартилі дорівнює 0,25 (10) = 2,5, тому перший квартиль буде 3-м значенням даних, а третій квартиль буде 8-м значенням даних. Створення резюме з п'яти чисел:
Розділ і дані | Підсумок з 5 номерів |
Секція А: 5 5 5 5 5 5 5 5 5 5 | Стандартне відхилення: 0 |
Секція Б: 0 0 0 0 10 10 10 | Стандартне відхилення: 5 |
Секція С: 4 4 4 5 5 5 5 6 6 6 | Стандартне відхилення: 0,8 |
Секція Д: 0 5 5 5 5 5 5 5 5 10 | Стандартне відхилення: 2.2 |
Звичайно, при відносно невеликому наборі даних знайти резюме з п'яти чисел трохи нерозумно, оскільки резюме містить майже стільки ж значень, скільки вихідних даних.
Загальна вартість підручників за семестр була зібрана з 36 студентів. Знайдіть 5-числове резюме цих даних.
$140 $160 $160 $165 $180 $220 $235 $240 $250 $260 $280 $285
$285 $285 $290 $300 $305 $310 $310 $315 $320
$330 340 $345 $350 $355 $360 $360 $380 $395 $420 $460
Повертаючись до даних про доходи домогосподарств з раніше, створіть резюме з п'яти чисел.
Дохід (тисячі доларів) | Частота |
$15 | 6 |
$20 | 8 |
$25 | 11 |
$30 | 17 |
$35 | 19 |
$40 | 20 |
$45 | 12 |
$50 | 7 |
Додавши частоти, ми можемо побачити, що в таблиці представлені 100 значень даних. У прикладі 9.3.7 ми виявили, що медіана становила $35 тис. Ми бачимо в таблиці, що мінімальний дохід становить 15 тис. Доларів, а максимальний - $50 тис.
Щоб знайти Q 1, обчислюємо локатор:\(L = 0.25(100) = 25\). Це ціле число, тому Q 1 буде середнім значенням 25-го і 26-го даних.
Підрахувавши в даних, як ми робили раніше,
Є 6 значень даних $15, тому значення від 1 до 6 - $15 тис.
Наступні 8 значень даних становлять $20, тому значення 7 до\((6+8)=14\) $20 тис.
Наступні 11 значень даних - $25, тому значення 15 до\((14+11)=25\) $25 тис.
Наступні 17 значень даних - $30, тому значення 26 до\((25+17)=42\) $30 тис.
25-е значення даних становить $25 тис., А 26-е значення даних - $30 тис., Тому Q 1 буде середнім з них:\(\dfrac{(25 + 30)}{2} = $27.5\) тис.
Щоб знайти Q 3, обчислюємо локатор:\(L = 0.75(100) = 75\). Це ціле число, тому Q 3 буде середнім значенням 75-го і 76-го значень даних. Продовжуючи наш відлік від раніше,
Наступні 19 значень даних становлять $35, тому значення 43 до\((42+19)=61\) $35 тис.
Наступні 20 значень даних - $40, тому значення 61 до\((61+20)=81\) $40 тис.
І 75-е, і 76-е значення даних лежать в цій групі, тому Q 3 складе $40 тис.
Склавши ці значення воєдино в п'ятизначне резюме, отримаємо: 15, 27,5, 35, 40, 50.
Зверніть увагу, що зведення з 5 чисел ділить дані на чотири інтервали, кожен з яких буде містити близько 25% даних. У попередньому прикладі близько 25% домогосподарств мають дохід від 40 тисяч до 50 тисяч доларів. Для візуалізації даних існує графічне зображення 5-числового резюме, яке називається графіком коробки, або графом коробки та вусів.
Для візуалізації даних існує графічне зображення 5-числового резюме, яке називається графіком коробки, або графом коробки та вусів.
Коробковий сюжет - це графічне зображення резюме з п'яти чисел.
Для створення графіка коробки спочатку проводиться числова лінія з рівновіддаленими галочками. Від першої квартилі до третього квартилі проводиться коробка, а через коробку проводиться лінія на медіані. «Вуса» витягуються до мінімальних і максимальних значень.
Графік коробки нижче заснований на резюме 5-числа з вибірки 9 жіночих висот:
59, 62, 66, 69, 72
Графік коробки нижче заснований на 5-числовому резюме з вибірки доходів домогосподарств:
15, 27.5, 35, 40, 50
Створіть boxplot на основі даних про ціну підручника з останнього Спробуйте зараз.
Коробкові ділянки особливо корисні для порівняння даних з двох популяцій або зразків. Насправді, коли у нас є два зразки для порівняння, завжди бажано використовувати графіки коробки.
Графік часу обслуговування для двох ресторанів швидкого харчування показаний нижче.
Хоча магазин 2 мав трохи коротший медіанний час обслуговування (2,1 хвилини проти 2.3 хвилини), магазин 2 менш послідовний, з більш широким розповсюдженням даних.
У магазині 1 75% клієнтів обслуговували протягом 2,9 хвилин, а в магазині 2 75% клієнтів обслуговували протягом 5,7 хвилин.
В який магазин варто піти поспіхом? Це залежить від вашої думки про удачу - 25% клієнтів у магазині 2 довелося чекати від 5.7 до 9.6 хвилин.
Наведений нижче графік заснований на вагах народження немовлят з важким ідіопатичним респіраторним дистрес-синдромом (SIRDS) [5]. Ділянка коробки відокремлена, щоб показати ваги народження немовлят, які вижили, і тих, хто цього не зробив.
Порівнюючи дві групи, бокссюжет показує, що вага народження немовлят, які померли, здається, в цілому менше, ніж вага немовлят, які вижили. Насправді ми бачимо, що середня вага при народженні немовлят, які вижили, така ж, як і третій квартиль немовлят, які померли.
Так само ми можемо бачити, що перший квартиль тих, хто вижив, більший за серединну вагу тих, хто загинув, тобто понад 75% тих, хто вижив, мали вагу при народженні більше, ніж середня вага при народженні тих, хто помер.
Дивлячись на максимальне значення для тих, хто загинув, і третій квартиль тих, хто вижив, ми можемо побачити, що понад 25% тих, хто вижив, мали вагу при народженні вище, ніж найважча немовля, яка померла.
Сюжет коробки дає нам швидкий, хоча і неформальний, спосіб визначити, що вага при народженні, швидше за все, пов'язана з виживанням немовлят з SIRDS.
1.
2. Хоча кругова діаграма точно відображає відносний розмір людей, які погоджуються з кожним кандидатом, діаграма заплутана, оскільки зазвичай відсотки на круговій діаграмі представляють відсоток пирога, який представляє фрагмент.
3. Використовуючи інтервали класу розміром 55, ми можемо згрупувати наші дані в шість інтервалів:
Інтервал витрат | Частота |
$140-194 | 5 |
$195-249 | 3 |
$250-304 | 9 |
$305-359 | 12 |
$360-414 | 4 |
$415-469 | 3 |
Ми можемо використовувати частотний розподіл для генерації гістограми.
4. Додавши ціни і діливши на 5, отримуємо середню ціну: $3.682
5. Спочатку ми розміщуємо дані в порядку: $3,29, $3,59, $3,75, $3,79, $3,99. Оскільки існує непарна кількість даних, медіаною буде середнє значення, $3.75.
6. Є 23 рейтинги.
а. середнє значення є\(\dfrac{(1 \cdot 4) + (2 \cdot 8) + (3 \cdot 7) + (4 \cdot 3) + (5 \cdot 1)}{23} ≈ 2.5\)
б. існує 23 значення даних, тому медіаною буде 12-е значення даних. Оцінки 1 - це перші 4 значення, тоді як рейтинг 2 - наступні 8 значень, тому 12-е значення буде оцінкою 2. Медіана дорівнює 2.
c Режим є найбільш частим рейтингом. Рейтинг режиму - 2.
7. Раніше ми виявили, що середнє значення даних становило $3.682.
Значення даних | Відхилення: Значення даних - середнє | Відхилення в квадраті |
3.29 | 3.29 — 3.682 = -0.391 | 0,153664 |
3.59 | 3.59 — 3.682 = -0.092 | 0,008464 |
3.79 | 3.79 — 3.682 = 0,108 | 0.011664 |
3.75 | 3.75 — 3,682 = 0.068 | 0,004624 |
3.99 | 3.99 - 3,682 = 0,308 | 0.094864 |
Ці дані взяті з вибірки, тому ми додамо квадратні відхилення, розділимо на 4, кількість значень даних мінус 1, і обчислимо квадратний корінь:
\(\sqrt{\dfrac{0.153664 + 0.008464 + 0.011664 + 0.004624 + 0.094864}{4}} ≈ $0.261\)
Таким чином, середня ціна арахісового масла становить $3,68 дати або взяти $0,26.
8. Дані вже в порядку, тому нам не потрібно спочатку їх сортувати. Мінімальне значення - 140 доларів, а максимальне - 460 доларів.
Є 36 значень даних так\(n = 36\). \(\dfrac{n}{2} = 18\), який є цілим числом, тому медіана є середнім значенням 18-го і 19-го даних, $305 і $310. Медіана - $307.50.
Щоб знайти перший квартиль, обчислюємо локатор,\(L = 0.25(36) = 9\). Оскільки це ціле число, ми знаємо, що Q 1 є середнім значенням 9-го і 10-го даних, $250 і $260. Q 1 = 255$.
Щоб знайти третій квартиль, обчислюємо локатор,\(L = 0.75(36) = 27\). Оскільки це ціле число, ми знаємо, що Q 3 є середнім значенням 27-го і 28-го даних, $345 і $350. Q 3 = $347,50.
Підсумок цих даних із 5 номерів: 140 доларів, 255 доларів, 307,50, 347,50 доларів, 460 доларів
9. Коробка-сюжет підручника коштує: