Skip to main content
LibreTexts - Ukrayinska

4.1: Способи узагальнення даних

  • Page ID
    17611
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    У розділі 3 ми використовували дані, зібрані з 30 мішків M&Ms, для вивчення різних способів візуалізації даних. У цьому розділі ми розглянемо кілька способів узагальнення даних за допомогою ваги нетто тих самих мішків M&Ms. Ось необроблені дані.

    Таблиця\(\PageIndex{1}\): Вага нетто для 30 мішків M & Ms.
    49.287 48.870 51.250 48.692 48.777 46.405
    49.693 49.391 48.196 47.326 50.974 50.081
    47.841 48.377 47.004 50.037 48.599 48.625
    48.395 51.730 50.405 47.305 49.477 48.027
    48.212 51.682 50.802 49.055 46.577 48.317

    Не виконуючи жодних розрахунків, які висновки ми можемо зробити, просто подивившись на ці дані? Ось кілька:

    • Всі ваги нетто більше 46 г і менше 52 г.
    • Як ми бачимо на малюнку\(\PageIndex{1}\), графік коробки та вуса (накладені смужковою діаграмою) та гістограма припускають, що розподіл ваг нетто є досить симетричним.
    • Відсутність будь-яких точок за вусами ділянки «коробочка і вуса» говорить про те, що незвично великих або незвично дрібних ваг нетто немає.
    clipboard_ecb9f4a8ddf6256dc38919ed6a0c2cda2.png
    Рисунок\(\PageIndex{1}\): Дві візуалізації чистих ваг пакетів M&Ms.

    Обидві візуалізації забезпечують хорошу якісну картину даних, припускаючи, що окремі результати розкидані навколо якогось центрального значення з більшою кількістю результатів, ближче до того центрального значення, що на відстані від нього. Однак жодна візуалізація не описує дані кількісно. Нам потрібен зручний спосіб узагальнити дані, повідомляючи, де дані зосереджені та наскільки різноманітні індивідуальні результати навколо цього центру.

    Де знаходиться Центр?

    Існує два поширені способи звітування про центр набору даних: середній і медіанний.

    Середнє,\(\overline{Y}\), - числове середнє, отримане шляхом складання результатів для всіх n спостережень і ділення на кількість спостережень

    \[\overline{Y} = \frac{ \sum_{i = 1}^n Y_{i} } {n} = \frac{49.287 + 48.870 + \cdots + 48.317} {30} = 48.980 \text{ g} \nonumber\]

    Медіана - це середнє значення після того\(\widetilde{Y}\), як ми замовляємо наші спостереження від найменшого до найбільшого, як ми показуємо тут для наших даних.

    Таблиця\(\PageIndex{2}\): Дані з таблиці,\(\PageIndex{1}\) відсортовані від найменшого до найбільшого за значенням.
    46.405 46.577 47.004 47.305 47.326 47.841
    48.027 48.196 48.212 48.317 48.377 48.395
    48.599 48.625 48.692 48.777 48.870 49.055
    49.287 49.391 49.477 49.693 50.037 50.081
    50.405 50.802 50.974 51.250 51.682 51.730

    Якщо ми маємо непарну кількість зразків, то медіана - це просто середнє значення, або

    \[\widetilde{Y} = Y_{\frac{n + 1}{2}} \nonumber\]

    де n - кількість проб. Якщо, як і тут, n парне, то

    \[\widetilde{Y} = \frac {Y_{\frac{n}{2}} + Y_{\frac{n}{2}+1}} {2} = \frac {48.692 + 48.777}{2} = 48.734 \text{ g} \nonumber\]

    Коли наші дані мають симетричний розподіл, як ми вважаємо тут, то середнє і медіана матимуть подібні значення.

    Що таке варіація даних про центр?

    Існує п'ять загальних заходів варіації даних про його центр: дисперсія, стандартне відхилення, діапазон, інтерквартильний діапазон та середнє середнє значення різниці.

    Дисперсія, s 2, являє собою середнє квадратне відхилення окремих спостережень щодо середнього

    \[s^{2} = \frac { \sum_{i = 1}^n \big(Y_{i} - \overline{Y} \big)^{2} } {n - 1} = \frac { \big(49.287 - 48.980\big)^{2} + \cdots + \big(48.317 - 48.980\big)^{2} } {30 - 1} = 2.052 \nonumber\]

    і стандартне відхилення, s, - квадратний корінь дисперсії, що дає йому ті ж одиниці, що і середнє.

    \[s = \sqrt{\frac { \sum_{i = 1}^n \big(Y_{i} - \overline{Y} \big)^{2} } {n - 1}} = \sqrt{\frac { \big(49.287 - 48.980\big)^{2} + \cdots + \big(48.317 - 48.980\big)^{2} } {30 - 1}} = 1.432 \nonumber\]

    Діапазон w - це різниця між найбільшим і найменшим значенням в нашому наборі даних.

    \[w = 51.730 \text{ g} - 46.405 \text{ g} = 5.325 \text{ g} \nonumber\]

    Інтерквартильний діапазон, IQR, - це різниця між медіаною нижніх 25% спостережень та медіаною верхніх 25% спостережень; тобто він забезпечує міру діапазону значень, що охоплює середні 50% спостережень. Єдиної, стандартної формули розрахунку IQR не існує, а різні алгоритми дають дещо інші результати. Ми візьмемо описаний тут алгоритм:

    1. Розділіть відсортований набір даних навпіл; якщо є непарна кількість значень, то видаліть медіану для повного набору даних. За нашими даними нижня половина - це

    Таблиця\(\PageIndex{3}\): Нижня половина даних у табл\(\PageIndex{2}\).
    46.405 46.577 47.004 47.305 47.326
    47.841 48.027 48.196 48.212 48.317
    48.377 48.395 48.599 48.625 48.692

    а верхня половина

    Таблиця\(\PageIndex{4}\): Верхня половина даних у табл\(\PageIndex{2}\).
    48.777 48.870 49.055 49.287 49.391
    49.477 49.693 50.037 50.081 50.405
    50.802 50.974 51.250 51.682 51.730

    2. Знайдіть F L, медіану для нижньої половини даних, яка для наших даних становить 48,196 г.

    3. Знайдіть F U, медіану для верхньої половини даних, яка для наших даних становить 50.037 г.

    4. IQR - це різниця між F U і F L.

    \[F_{U} - F_{L} = 50.037 \text{ g} - 48.196 \text{ g} = 1.841 \text{ g} \nonumber\]

    Медіана абсолютного відхилення, MAD, є медіаною абсолютних відхилень кожного спостереження від медіани всіх спостережень. Щоб знайти MAD для нашого набору 30 нетто ваг, спочатку віднімаємо медіану з кожного зразка в табл\(\PageIndex{1}\).

    Таблиця\(\PageIndex{5}\): Результати віднімання медіани від кожного значення в табл\(\PageIndex{1}\).
    0,5525 0,135 2.5155 -0.0425 0.0425 -2.3295
    0,9585 0,6565 -0.5385 -1.4085 2.2395 1,3465
    -0.8935 -0.3575 -1.7305 1,3025 -0.1355 -0.1095
    -0.3395 2.955 1.6705 -1.4295 0,7425 -0.7075
    -0.5225 2.9475 2.0675 0,3205 -2.1575 -0.4175

    Далі беремо абсолютне значення кожної різниці і сортуємо їх від найменшого до великого.

    Таблиця\(\PageIndex{6}\): Дані в таблиці\(\PageIndex{5}\) після прийняття абсолютного значення.
    0.0425 0.0425 0,1095 0,135 0,135 0,3205
    0,3395 0,3575 0,4175 0,5225 0,5385 0,5525
    0,6565 0,7075 0,7425 0.8935 0,9585 1,3025
    1,3465 1,4085 1.4295 1.6705 1.7305 2.0675
    2.1575 2.2395 2.3295 2.5155 2.9475 2.955

    Нарешті, ми повідомляємо медіану для цих відсортованих значень як

    \[\frac{0.7425 + 0.8935}{2} = 0.818 \nonumber \]

    Робіцні проти неробастних заходів центру та варіації про центр

    Хороше запитання полягає в тому, чому ми можемо захотіти більше одного способу повідомити про центр наших даних та зміну наших даних про центр. Припустимо, що результат для останнього з наших 30 зразків був повідомлений як 483.17 замість 48,317. Незалежно від того, чи це випадкове зміщення десяткової крапки чи справжній результат, не має значення для нас тут; важливо його вплив на те, що ми повідомляємо. Ось короткий виклад впливу цього одного значення на кожен з наших способів узагальнення наших даних.

    Таблиця\(\PageIndex{7}\): Вплив на зведену статистику зміни останнього значення в таблиці\(\PageIndex{1}\) з 48,317 г до 483,17 г
    статистичні оригінальні дані нові дані
    маю на увазі 48.980 63.475
    медіана 48.734 48.824
    дисперсія 2.052 6285.938
    стандартне відхилення 1.433 79.280
    діапазон 5.325 436.765
    IQR 1.841 1,885
    БОЖЕВІЛЬНИЙ 0,818 0.926

    Зверніть увагу, що середнє значення, дисперсія, стандартне відхилення та діапазон дуже чутливі до зміни останнього результату, але медіана, IQR та MAD - ні. Медіана, IQR та MAD вважаються надійною статистикою, оскільки вони менш чутливі до незвичайного результату; інші, звичайно, не надійні статистичні дані. Обидва типи статистики мають для нас цінність, до якої ми будемо повертатися час від часу.