4.1: Способи узагальнення даних
- Page ID
- 17611
У розділі 3 ми використовували дані, зібрані з 30 мішків M&Ms, для вивчення різних способів візуалізації даних. У цьому розділі ми розглянемо кілька способів узагальнення даних за допомогою ваги нетто тих самих мішків M&Ms. Ось необроблені дані.
| 49.287 | 48.870 | 51.250 | 48.692 | 48.777 | 46.405 |
| 49.693 | 49.391 | 48.196 | 47.326 | 50.974 | 50.081 |
| 47.841 | 48.377 | 47.004 | 50.037 | 48.599 | 48.625 |
| 48.395 | 51.730 | 50.405 | 47.305 | 49.477 | 48.027 |
| 48.212 | 51.682 | 50.802 | 49.055 | 46.577 | 48.317 |
Не виконуючи жодних розрахунків, які висновки ми можемо зробити, просто подивившись на ці дані? Ось кілька:
- Всі ваги нетто більше 46 г і менше 52 г.
- Як ми бачимо на малюнку\(\PageIndex{1}\), графік коробки та вуса (накладені смужковою діаграмою) та гістограма припускають, що розподіл ваг нетто є досить симетричним.
- Відсутність будь-яких точок за вусами ділянки «коробочка і вуса» говорить про те, що незвично великих або незвично дрібних ваг нетто немає.
Обидві візуалізації забезпечують хорошу якісну картину даних, припускаючи, що окремі результати розкидані навколо якогось центрального значення з більшою кількістю результатів, ближче до того центрального значення, що на відстані від нього. Однак жодна візуалізація не описує дані кількісно. Нам потрібен зручний спосіб узагальнити дані, повідомляючи, де дані зосереджені та наскільки різноманітні індивідуальні результати навколо цього центру.
Де знаходиться Центр?
Існує два поширені способи звітування про центр набору даних: середній і медіанний.
Середнє,\(\overline{Y}\), - числове середнє, отримане шляхом складання результатів для всіх n спостережень і ділення на кількість спостережень
\[\overline{Y} = \frac{ \sum_{i = 1}^n Y_{i} } {n} = \frac{49.287 + 48.870 + \cdots + 48.317} {30} = 48.980 \text{ g} \nonumber\]
Медіана - це середнє значення після того\(\widetilde{Y}\), як ми замовляємо наші спостереження від найменшого до найбільшого, як ми показуємо тут для наших даних.
| 46.405 | 46.577 | 47.004 | 47.305 | 47.326 | 47.841 |
| 48.027 | 48.196 | 48.212 | 48.317 | 48.377 | 48.395 |
| 48.599 | 48.625 | 48.692 | 48.777 | 48.870 | 49.055 |
| 49.287 | 49.391 | 49.477 | 49.693 | 50.037 | 50.081 |
| 50.405 | 50.802 | 50.974 | 51.250 | 51.682 | 51.730 |
Якщо ми маємо непарну кількість зразків, то медіана - це просто середнє значення, або
\[\widetilde{Y} = Y_{\frac{n + 1}{2}} \nonumber\]
де n - кількість проб. Якщо, як і тут, n парне, то
\[\widetilde{Y} = \frac {Y_{\frac{n}{2}} + Y_{\frac{n}{2}+1}} {2} = \frac {48.692 + 48.777}{2} = 48.734 \text{ g} \nonumber\]
Коли наші дані мають симетричний розподіл, як ми вважаємо тут, то середнє і медіана матимуть подібні значення.
Що таке варіація даних про центр?
Існує п'ять загальних заходів варіації даних про його центр: дисперсія, стандартне відхилення, діапазон, інтерквартильний діапазон та середнє середнє значення різниці.
Дисперсія, s 2, являє собою середнє квадратне відхилення окремих спостережень щодо середнього
\[s^{2} = \frac { \sum_{i = 1}^n \big(Y_{i} - \overline{Y} \big)^{2} } {n - 1} = \frac { \big(49.287 - 48.980\big)^{2} + \cdots + \big(48.317 - 48.980\big)^{2} } {30 - 1} = 2.052 \nonumber\]
і стандартне відхилення, s, - квадратний корінь дисперсії, що дає йому ті ж одиниці, що і середнє.
\[s = \sqrt{\frac { \sum_{i = 1}^n \big(Y_{i} - \overline{Y} \big)^{2} } {n - 1}} = \sqrt{\frac { \big(49.287 - 48.980\big)^{2} + \cdots + \big(48.317 - 48.980\big)^{2} } {30 - 1}} = 1.432 \nonumber\]
Діапазон w - це різниця між найбільшим і найменшим значенням в нашому наборі даних.
\[w = 51.730 \text{ g} - 46.405 \text{ g} = 5.325 \text{ g} \nonumber\]
Інтерквартильний діапазон, IQR, - це різниця між медіаною нижніх 25% спостережень та медіаною верхніх 25% спостережень; тобто він забезпечує міру діапазону значень, що охоплює середні 50% спостережень. Єдиної, стандартної формули розрахунку IQR не існує, а різні алгоритми дають дещо інші результати. Ми візьмемо описаний тут алгоритм:
1. Розділіть відсортований набір даних навпіл; якщо є непарна кількість значень, то видаліть медіану для повного набору даних. За нашими даними нижня половина - це
| 46.405 | 46.577 | 47.004 | 47.305 | 47.326 |
| 47.841 | 48.027 | 48.196 | 48.212 | 48.317 |
| 48.377 | 48.395 | 48.599 | 48.625 | 48.692 |
а верхня половина
| 48.777 | 48.870 | 49.055 | 49.287 | 49.391 |
| 49.477 | 49.693 | 50.037 | 50.081 | 50.405 |
| 50.802 | 50.974 | 51.250 | 51.682 | 51.730 |
2. Знайдіть F L, медіану для нижньої половини даних, яка для наших даних становить 48,196 г.
3. Знайдіть F U, медіану для верхньої половини даних, яка для наших даних становить 50.037 г.
4. IQR - це різниця між F U і F L.
\[F_{U} - F_{L} = 50.037 \text{ g} - 48.196 \text{ g} = 1.841 \text{ g} \nonumber\]
Медіана абсолютного відхилення, MAD, є медіаною абсолютних відхилень кожного спостереження від медіани всіх спостережень. Щоб знайти MAD для нашого набору 30 нетто ваг, спочатку віднімаємо медіану з кожного зразка в табл\(\PageIndex{1}\).
| 0,5525 | 0,135 | 2.5155 | -0.0425 | 0.0425 | -2.3295 |
| 0,9585 | 0,6565 | -0.5385 | -1.4085 | 2.2395 | 1,3465 |
| -0.8935 | -0.3575 | -1.7305 | 1,3025 | -0.1355 | -0.1095 |
| -0.3395 | 2.955 | 1.6705 | -1.4295 | 0,7425 | -0.7075 |
| -0.5225 | 2.9475 | 2.0675 | 0,3205 | -2.1575 | -0.4175 |
Далі беремо абсолютне значення кожної різниці і сортуємо їх від найменшого до великого.
| 0.0425 | 0.0425 | 0,1095 | 0,135 | 0,135 | 0,3205 |
| 0,3395 | 0,3575 | 0,4175 | 0,5225 | 0,5385 | 0,5525 |
| 0,6565 | 0,7075 | 0,7425 | 0.8935 | 0,9585 | 1,3025 |
| 1,3465 | 1,4085 | 1.4295 | 1.6705 | 1.7305 | 2.0675 |
| 2.1575 | 2.2395 | 2.3295 | 2.5155 | 2.9475 | 2.955 |
Нарешті, ми повідомляємо медіану для цих відсортованих значень як
\[\frac{0.7425 + 0.8935}{2} = 0.818 \nonumber \]
Робіцні проти неробастних заходів центру та варіації про центр
Хороше запитання полягає в тому, чому ми можемо захотіти більше одного способу повідомити про центр наших даних та зміну наших даних про центр. Припустимо, що результат для останнього з наших 30 зразків був повідомлений як 483.17 замість 48,317. Незалежно від того, чи це випадкове зміщення десяткової крапки чи справжній результат, не має значення для нас тут; важливо його вплив на те, що ми повідомляємо. Ось короткий виклад впливу цього одного значення на кожен з наших способів узагальнення наших даних.
| статистичні | оригінальні дані | нові дані |
|---|---|---|
| маю на увазі | 48.980 | 63.475 |
| медіана | 48.734 | 48.824 |
| дисперсія | 2.052 | 6285.938 |
| стандартне відхилення | 1.433 | 79.280 |
| діапазон | 5.325 | 436.765 |
| IQR | 1.841 | 1,885 |
| БОЖЕВІЛЬНИЙ | 0,818 | 0.926 |
Зверніть увагу, що середнє значення, дисперсія, стандартне відхилення та діапазон дуже чутливі до зміни останнього результату, але медіана, IQR та MAD - ні. Медіана, IQR та MAD вважаються надійною статистикою, оскільки вони менш чутливі до незвичайного результату; інші, звичайно, не надійні статистичні дані. Обидва типи статистики мають для нас цінність, до якої ми будемо повертатися час від часу.
