Skip to main content
LibreTexts - Ukrayinska

2.7: Заходи поширення даних

  • Page ID
    99746
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Важливою характеристикою будь-якого набору даних є варіація даних. У деяких наборах даних значення даних зосереджені близько до середнього; в інших наборах даних значення даних більш поширені від середнього. Найпоширенішою мірою варіації, або спреду, є стандартне відхилення. Стандартне відхилення - це число, яке вимірює, наскільки далекі значення даних від їх середнього.

    стандартне відхилення

    • забезпечує числовий показник загальної кількості варіацій у наборі даних, і
    • може використовуватися для визначення того, чи є конкретне значення даних близьким до середнього або далеким від нього.

    Стандартне відхилення забезпечує міру загальної варіації в наборі даних

    Стандартне відхилення завжди позитивне або нульове. Стандартне відхилення невелике, коли всі дані зосереджені близько до середнього, демонструючи незначні зміни або поширення. Стандартне відхилення більше, коли значення даних більш поширені від середнього, проявляючи більше варіацій.

    Припустимо, що ми вивчаємо кількість часу очікування клієнтів в черзі на касі в\(A\) супермаркеті і супермаркеті\(B\). Середній час очікування в обох супермаркетах становить п'ять хвилин. У\(A\) супермаркеті стандартне відхилення часу очікування становить дві хвилини; в супермаркеті\(B\). Стандартне відхилення часу очікування становить чотири хвилини.

    Оскільки супермаркет\(B\) має більш високе стандартне відхилення, ми знаємо, що в супермаркеті більше варіацій часу очікування\(B\). Загалом, час очікування в\(B\) супермаркеті більш розподілений від середнього; час очікування в\(A\) супермаркеті більш концентрований поблизу середнього.

    Розрахунок стандартного відхилення

    Якщо\(x\) це число, то різниця «\(x\)мінус середнє» називається його відхиленням. У наборі даних існує стільки відхилень, скільки елементів у наборі даних. Відхилення використовуються для розрахунку стандартного відхилення. Якщо числа належать сукупності, в символах відхилення є\(x – \mu\). Для вибіркових даних в символах є відхилення\(x – \overline{x}\).

    Процедура обчислення стандартного відхилення залежить від того, чи є цифрами вся сукупність або дані з вибірки. Розрахунки аналогічні, але не ідентичні. Тому символ, який використовується для представлення стандартного відхилення, залежить від того, обчислюється воно за сукупністю або вибіркою. Нижня буква s представляє зразкове стандартне відхилення, а грецька буква\(\sigma\) (сигма, нижній регістр) - стандартне відхилення населення. Якщо вибірка має ті ж характеристики, що і популяція, то s повинна бути хорошою оцінкою\(\sigma\).

    Щоб розрахувати стандартне відхилення, нам потрібно спочатку обчислити дисперсію. Дисперсія - це середнє значення квадратів відхилень (\(x – \overline{x}\)значення для вибірки, або\(x – \mu\) значення для сукупності). Символ\(\sigma^2\) представляє дисперсію популяції; стандартне відхилення населення\(\sigma\) - квадратний корінь дисперсії популяції. Символ\(s^2\) представляє дисперсію зразка; стандартне відхилення вибірки s - квадратний корінь дисперсії вибірки. Ви можете думати про стандартне відхилення як про особливе середнє значення відхилень. Формально дисперсія - це другий момент розподілу або перший момент навколо середнього. Пам'ятайте, що середнє - це перший момент розподілу.

    Якщо цифри виходять з перепису всього населення, а не вибірки, коли ми обчислюємо середнє значення квадратних відхилень, щоб знайти дисперсію, ділимо на\(N\), кількість предметів в популяції. Якщо дані з вибірки, а не сукупності, то при обчисленні середнього значення квадратних відхилень ділимо на\(\bf{n – 1}\), на одиницю менше, ніж кількість пунктів у вибірці.

    Формули для зразка стандартного відхилення

    • \(s=\sqrt{\frac{\Sigma(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\Sigma f(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\left(\sum_{i=1}^{n} x^{2}\right)^{-n x^{2}}}{n-1}}\)
    • Для зразка стандартного відхилення знаменником є\(\bf{n – 1}\), тобто розмір вибірки мінус 1.

    Формули стандартного відхилення населення

    • \(\boldsymbol{\sigma}=\sqrt{\frac{\Sigma(x-\mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\Sigma f(x \mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\sum_{i=1}^{N} x_{i}^{2}}{N}-\mu^{2}}\)
    • Для популяції стандартне відхилення знаменником є\(N\), кількість предметів в популяції.

    У цих формулах\(f\) позначає частоту, з якою з'являється значення. Наприклад, якщо значення з'являється один раз,\(f\) є одиницею. Якщо значення з'являється тричі в наборі даних або населенні,\(f\) дорівнює трьом. Два важливих спостереження, що стосуються дисперсії і стандартного відхилення: відхилення вимірюються від середнього і відхилення - в квадрат. В принципі, відхилення можна виміряти з будь-якої точки, однак наш інтерес - це вимірювання від центральної ваги даних, що є «нормальним» або найбільш звичайним значенням спостереження. Пізніше ми будемо намагатися виміряти «незвичайність» спостереження або зразка середнього і, таким чином, нам потрібна міра від середнього. Друге спостереження полягає в тому, що відхилення мають квадрат. Це робить дві речі: по-перше, це робить відхилення все позитивними, а по-друге, змінює одиниці виміру від одиниць середнього та вихідних спостережень. Якщо дані є вагами, то середнє значення вимірюється в фунтах, але дисперсія вимірюється в фунтах в квадраті. Однією з причин використання стандартного відхилення є повернення до вихідних одиниць вимірювання, взявши квадратний корінь дисперсії. Далі, коли відхилення зведені в квадрат, він вибухає їх значення. Наприклад, відхилення 10 від середнього значення при квадраті дорівнює 100, а ось відхилення на 100 від середнього дорівнює 10 000. Це робить велику вагу на викиди при розрахунку дисперсії.

    Типи мінливості в зразках

    При спробі вивчити популяцію часто використовується вибірка або для зручності, або через те, що доступ до всього населення не представляється можливим. Варіабельність - це термін, який використовується для опису відмінностей, які можуть виникнути в цих результатах. До поширених видів мінливості відносяться наступні:

    • Спостережна або вимірювальна мінливість
    • Природна мінливість
    • Індукована мінливість
    • варіативність зразка

    Ось кілька прикладів для опису кожного типу мінливості.

    Приклад 1: мінливість вимірювання

    Мінливість вимірювань виникає, коли існують відмінності в інструментах, що використовуються для вимірювання, або у людей, які використовують ці інструменти. Якщо ми збираємо дані про те, скільки часу потрібно, щоб м'яч впав з висоти, змусивши студентів вимірювати час падіння секундоміром, ми можемо відчути мінливість вимірювань, якщо два використовуваних секундоміра були зроблені різними виробниками: Наприклад, один секундомір вимірює до найближчої секунди, тоді як інший вимірює найближчу десяту частку секунди. Ми також можемо відчувати мінливість вимірювань, оскільки дві різні люди збирають дані. Час їх реакції при натисканні кнопки на секундомірі може відрізнятися; таким чином, результати будуть змінюватися відповідно. На відмінності результатів може впливати мінливість вимірювань.

    Приклад 2: Природна мінливість

    Природна мінливість виникає через відмінності, які природно виникають через те, що члени популяції відрізняються один від одного. Наприклад, якщо у нас є дві однакові рослини кукурудзи, і ми піддаємо обидві рослини однаковій кількості води та сонячного світла, вони все одно можуть рости різними темпами просто тому, що це дві різні рослини кукурудзи. Різниця в результатах може пояснюватися природною мінливістю.

    Приклад 3: Індукована мінливість

    Індукована мінливість є аналогом природної мінливості; це відбувається тому, що ми штучно індукували елемент варіації (який, за визначенням, не був присутній природно): Наприклад, ми призначаємо людей до двох різних груп для вивчення пам'яті, і ми індукуємо змінну в одній групі, обмежуючи кількість сну вони отримують. На різницю результатів може впливати індукована мінливість.

    Приклад 4: мінливість зразка

    Мінливість вибірки виникає, коли кілька випадкових зразків беруться з однієї і тієї ж популяції. Наприклад, якщо я проводжу чотири опитування 50 людей, випадково відібраних із заданої популяції, різниця в результатах може впливати варіативність вибірки.

    Приклад\(\PageIndex{29}\)

    У п'ятому класі вчительку цікавив середній вік і вибірка стандартного відхилення вікових груп її учнів. Наступні дані - це вік для ЗРАЗКА учнів\(n = 20\) п'ятого класу. Вік округляється до найближчого півроку:

    9; 9,5; 9,5; 10; 10; 10; 10; 10; 10.5; 10,5; 10,5; 11; 11; 11; 11; 11; 11; 11; 11.5; 11.5; 11.5;

    \[\overline{x}=\frac{9+9.5(2)+10(4)+10.5(4)+11(6)+11.5(3)}{20}=10.525\nonumber\]

    Середній вік становить 10,53 року, округлений до двох місць.

    Дисперсію можна обчислити за допомогою таблиці. Потім стандартне відхилення обчислюється, взявши квадратний корінь дисперсії. Ми пояснимо частини таблиці після розрахунку\(s\).

    \ (\ Індекс сторінки {28}\) «>
    Дані Фрек. Відхилення Відхилення 2 (Фрек.) (Відхилення 2)
    \(x\) \(f\) \((x - \overline{x})\) \((x – \overline{x})^2\) \((f)(x – \overline{x})^2\)
    9 1 \(9 – 10.525 = –1.525\) \((–1.525)^2 = 2.325625\) \(1 \times 2.325625 = 2.325625\)
    9.5 2 \(9.5 – 10.525 = –1.025\) \((–1.025)2 = 1.050625\) \(2 \times 1.050625 = 2.101250\)
    10 4 \(10 – 10.525 = –0.525\) \((–0.525)2 = 0.275625\) \(4 \times 0.275625 = 1.1025\)
    10.5 4 \(10.5 – 10.525 = –0.025\) \((–0.025)2 = 0.000625\) \(4 \times 0.000625 = 0.0025\)
    11 6 \(11 – 10.525 = 0.475\) \((0.475)2 = 0.225625\) \(6 \times 0.225625 = 1.35375\)
    11.5 3 \(11.5 – 10.525 = 0.975\) \((0.975)2 = 0.950625\) \(3 \times 0.950625 = 2.851875\)
    Загальна сума становить 9.7375
    Таблиця\(\PageIndex{28}\)

    Вибіркова дисперсія\(s^2\) дорівнює сумі останнього стовпця (9.7375), поділеної на загальну кількість значень даних мінус одиниця\((20 – 1)\):

    \(s^{2}=\frac{9.7375}{20-1}=0.5125\)

    Стандартне відхилення зразка s дорівнює квадратному кореню дисперсії зразка:

    \(s=\sqrt{0.5125}=0.715891\), який округляється до двох знаків після коми,\(s = 0.72\).

    Розшифровка розрахунку стандартного відхилення наведено в таблиці

    Відхилення показують, наскільки розкидані дані про середнє значення. Значення даних 11,5 знаходиться далі від середнього, ніж є значенням даних 11, яке позначається відхиленнями 0,97 і 0,47. Позитивне відхилення виникає, коли значення даних більше середнього, тоді як негативне відхилення виникає, коли значення даних менше середнього. Відхилення становить —1.525 для значення даних дев'ять. Якщо скласти відхилення, сума завжди дорівнює нулю. (Наприклад\(\PageIndex{29}\), є\(n = 20\) відхилення.) Таким чином, ви не можете просто додати відхилення, щоб отримати розкид даних. Склавши відхилення в квадрат, ви робите з них позитивні числа, причому сума теж буде позитивною. Отже, дисперсія - це середнє квадратне відхилення. Квадратуючи відхилення, ми ставимо крайній штраф на спостереження, далекі від середнього; ці спостереження набувають більшої ваги при розрахунках дисперсії. Пізніше ми побачимо, що дисперсія (стандартне відхилення) відіграє вирішальну роль у визначенні наших висновків у статистиці висновків. Ми можемо почати зараз з використання стандартного відхилення як міри «незвичайності». «Як ви зробили на тесті?» «Приголомшливий! Два стандартних відхилення вище середнього». Це, ми побачимо, надзвичайно хороша оцінка іспиту.

    Дисперсія - це квадратна міра і не має тих самих одиниць, що і дані. Взяття квадратного кореня вирішує проблему. Стандартне відхилення вимірює розкид в тих же одиницях, що і дані.

    Зверніть увагу, що замість того\(n = 20\), щоб ділити на, розрахунок ділиться на\(n – 1 = 20 – 1 = 19\) тому, що дані є зразком. Для дисперсії вибірки ділимо на розмір вибірки мінус одиниця\((n – 1)\). Чому б не розділити на\(n\)? Відповідь пов'язана з дисперсією населення. Дисперсія вибірки - це оцінка дисперсії популяції. Ця оцінка вимагає, щоб ми використовували оцінку середнього рівня населення, а не фактичне середнє значення населення. Виходячи з теоретичної математики, яка лежить за цими розрахунками, ділення на\((n – 1)\) дає кращу оцінку дисперсії населення.

    Стандартне відхилення\(\sigma\),\(s\) або, дорівнює нулю або більше нуля. Опис даних з посиланням на спред називається «мінливість». Мінливість даних залежить від методу, за допомогою якого отримані результати; наприклад, шляхом вимірювання або випадкової вибірки. Коли стандартне відхилення дорівнює нулю, розкиду немає; тобто всі значення даних рівні один одному. Стандартне відхилення невелике, коли всі дані зосереджені близько до середнього, і більше, коли значення даних показують більше відмінностей від середнього. Коли стандартне відхилення набагато більше нуля, значення даних дуже розподілені щодо середнього; викиди можуть зробити\(s\) або\(\sigma\) дуже великі.

    Приклад\(\PageIndex{30}\)

    Використовуйте наступні дані (перші бали іспиту) з весняного попереднього обчислення класу Сьюзен Дін:

    \(33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 96; 100\)

    1. Створіть діаграму, що містить дані, частоти, відносні частоти та сукупні відносні частоти до трьох знаків після коми.
    2. Обчисліть наступне до одного знака після коми:
      1. Середнє значення зразка
      2. Вибірка стандартного відхилення
      3. Медіана
      4. Перший квартиль
      5. Третій квартиль
      6. \(IQR\)
    Відповідь

    Рішення 2.30

    a. див. таблицю\(\PageIndex{29}\)

    б.

    1. Середнє значення зразка = 73,5
    2. Вибірка стандартного відхилення = 17,9
    3. Медіана = 73
    4. Перший квартиль = 61
    5. Третій квартиль = 90
    6. \(IQR = 90 – 61 = 29\)
    \ (\ Індекс сторінки {29}\) «>
    Дані Частота Відносна частота Накопичувальна відносна частота
    33 1 0.032 0.032
    42 1 0.032 0.064
    49 2 0.065 0.129
    53 1 0.032 0.161
    55 2 0.065 0,226
    61 1 0.032 0,258
    63 1 0.032 0,29
    67 1 0.032 0,322
    68 2 0.065 0,387
    69 2 0.065 0,452
    72 1 0.032 0,484
    73 1 0.032 0.516
    74 1 0.032 0.548
    78 1 0.032 0,580
    80 1 0.032 0.612
    83 1 0.032 0.644
    88 3 0.097 0,741
    90 1 0.032 0.773
    92 1 0.032 0,805
    94 4 0.129 0,934
    96 1 0.032 0,966
    100 1 0.032 0.998 (Чому це значення не 1? Відповідь: Округлення)
    Таблиця\(\PageIndex{29}\)

    Стандартне відхилення згрупованих таблиць частот

    Нагадаємо, що для згрупованих даних ми не знаємо окремих значень даних, тому ми не можемо описати типове значення даних з точністю. Іншими словами, ми не можемо знайти точне середнє значення, медіану або режим. Однак ми можемо визначити найкращу оцінку мір центру, знайшовши середнє значення згрупованих даних за формулою:\(\text{ Mean of Frequency Table }=\frac{\sum \(f\) m} {\ sum f}\),
    де\(f=\) інтервальні частоти і\(m\) = проміжні середні точки.

    Подібно до того, як ми не змогли знайти точне середнє значення, ми також не можемо знайти точне стандартне відхилення. Пам'ятайте, що стандартне відхилення описує чисельно очікуване відхилення, яке має значення даних від середнього. У простій англійській мові стандартне відхилення дозволяє порівняти, наскільки «незвичайні» окремі дані порівнюються із середнім значенням.

    Приклад\(\PageIndex{31}\)

    Знайдіть стандартне відхилення для даних в табл\(\PageIndex{30}\).

    \ (\ Індекс сторінки {30}\) «>
    Клас Частота,\(f\) Середина,\(m\) \(f\cdot m\) \(f(m−\bar{x})^2\)
    0—2 \ (f\)» клас = "lt-статика-5332">1 \ (m\)» клас = "lt-статика-5332">1 \ (f\ cdot m\)» клас ="lt-стати-532">\(1\cdot 1=1\) \ (f (m −\ bar {x}) ^2\)» клас ="lt-стати-5332">\(1(1−6.88)^2=34.57\)
    3—5 \ (f\)» клас = "lt-статика-5332">6 \ (m\)» клас = "lt-статика-5332">4 \ (f\ cdot m\)» клас ="lt-стати-532">\(6\cdot 4=24\) \ (f (m −\ bar {x}) ^2\)» клас ="lt-стати-5332">\(6(4−6.88)^2=49.77\)
    6-8 \ (f\)» клас = «lt-статистика-5332">10 \ (m\)» клас = "lt-статика-5332">7 \ (f\ cdot m\)» клас ="lt-стати-532">\(10\cdot 7=70\) \ (f (m −\ bar {x}) ^2\)» клас ="lt-стати-5332">\(10(7−6.88)^2=0.14\)
    9-11 \ (f\)» клас = "lt-статика-5332">7 \ (m\)» клас = "lt-статика-5332">10 \ (f\ cdot m\)» клас ="lt-стати-532">\(7\cdot 10=70\) \ (f (m −\ bar {x}) ^2\)» клас ="lt-стати-5332">\(7(10−6.88)^2=68.14\)
    12-14 \ (f\)» клас = "lt-статика-5332">0 \ (m\)» клас = "lt-статика-5332">13 \ (f\ cdot m\)» клас ="lt-стати-532">\(0\cdot 13=0\) \ (f (m −\ bar {x}) ^2\)» клас ="lt-стати-5332">\(0(13−6.88)^2=0\)
    \ (f\)» клас = "lt-статистика-5332">n = 24 \ (m\)» клас = "lt-статика-5332"> \ (f\ cdot m\)» клас ="lt-стати-532">\(\bar{x}=16524=6.88\) \ (f (m −\ bar {x}) ^2\)» клас ="lt-стати-5332">\(s^2=152.6224−1=6.64\)
    Таблиця\(\PageIndex{30}\)

    Для цього набору даних ми маємо середнє,\(\bar{x} = 6.88\) і стандартне відхилення,\(s_x = 2.58\). Це означає, що випадково вибране значення даних, як очікується, становитиме 2,58 одиниць від середнього. Якщо ми подивимося на перший клас, то побачимо, що середина класу дорівнює одиниці. Це майже три стандартних відхилення від середнього. Хоча формула розрахунку стандартного відхилення не складна,

    \[s_x=\sqrt{\frac{Σ(m−\bar{x})^2f}{n−1}}\nonumber\]

    де\(s_x =\) вибірка стандартного відхилення, середнє\(\bar{x} =\) вибірка, розрахунки стомлюючі. Зазвичай найкраще використовувати технологію при виконанні розрахунків.

    Порівняння значень з різних наборів даних

    Стандартне відхилення корисно при порівнянні значень даних, що надходять з різних наборів даних. Якщо набори даних мають різні засоби і стандартні відхилення, то порівняння значень даних безпосередньо може ввести в оману.

    • Для кожного значення даних х обчислити, скільки стандартних відхилень від його середнього значення.
    • Використовуйте формулу: x = середнє + (#of StDevs) (стандартне відхилення); вирішити для #of STDevs.
    • \(\# \text { of } S T D E V s=\frac{x-\text { mean }}{\text { standard deviation }}\)
    • Порівняйте результати цього розрахунку.

    #of StDevs часто називають «z-score»; ми можемо використовувати символ\(z\). У символах формули стають:

    \ (\ Індекс сторінки {31}\) «>
    Зразок \(x=\overline{x}+z s\) \(z=\frac{x-\overline{x}}{s}\)
    Населення \(x=\mu+z \sigma\) \(z=\frac{x-\mu}{\sigma}\)
    Таблиця\(\PageIndex{31}\)

    Приклад\(\PageIndex{32}\)

    Двоє учнів, Джон та Алі, з різних середніх шкіл, хотіли з'ясувати, хто мав найвищий середній бал порівняно зі своєю школою. Який учень мав найвищий середній бал у порівнянні зі своєю школою?

    \ (\ Індекс сторінки {32}\) «>
    Студент ГАП Шкільний середній середній середній Стандартне відхилення школи
    Джон 2.85 3.0 0.7
    Алі 77 80 10
    Таблиця\(\PageIndex{32}\)
    Відповідь

    Рішення 2.32

    Для кожного учня визначте, скільки стандартних відхилень (#of StDevs) його середній бал подалі від середнього, для його школи. Звертайте пильну увагу на ознаки при порівнянні і тлумаченні відповіді.

    \(z=\# \text { of STDE } \mathrm{Vs}=\frac{\text { value - mean }}{\text { standard deviation }}=\frac{x-\mu}{\sigma}\)

    Для Джона,\(z=\# \text { ofSTDEV } s=\frac{2.85 \cdot 3.0}{0.7}=-0.21\)

    Для Алі\(z=\# \text { ofSTDEV } s=\frac{77-80}{10}=-0.3\)

    Джон має кращий середній бал порівняно зі своєю школою, оскільки його середній бал становить 0,21 стандартних відхилень нижче середнього рівня своєї школи, тоді як середній бал Алі становить 0,3 стандартних відхилень нижче середнього рівня його школи.

    Z-оцінка Джона —0,21 вище, ніж Z-оцінка Алі —0,3. Для GPA вищі значення кращі, тому ми робимо висновок, що Джон має кращий середній бал порівняно зі своєю школою.

    Вправа\(\PageIndex{32}\)

    Додайте сюди текст вправ.

    Відповідь

    Двоє плавців, Енджі та Бет, з різних команд, хотіли з'ясувати, хто мав найшвидший час для 50 метрів вільним стилем порівняно з її командою. Який плавець мав найшвидший час у порівнянні зі своєю командою?

    \ (\ індекс сторінки {33}\) «>
    Плавець Час (секунди) Командний середній час Стандартне відхилення команди
    Енджі 26.2 27.2 0.8
    Бет 27.3 30.1 1.4
    Таблиця\(\PageIndex{33}\)

    Наступні списки дають кілька фактів, які дають трохи більше розуміння того, що стандартне відхилення говорить нам про розподіл даних.

    Для БУДЬ-ЯКОГО набору даних, незалежно від того, який розподіл даних:

    • Не менше 75% даних знаходиться в межах двох стандартних відхилень від середнього.
    • Щонайменше 89% даних знаходиться в межах трьох стандартних відхилень від середнього.
    • Не менше 95% даних знаходиться в межах 4,5 стандартних відхилень від середнього.
    • Це відоме як Правило Чебишева.

    Для даних, що мають нормальний розподіл, які ми детально розглянемо пізніше:

    • Приблизно 68% даних знаходиться в межах одного стандартного відхилення від середнього.
    • Приблизно 95% даних знаходиться в межах двох стандартних відхилень від середнього.
    • Понад 99% даних знаходиться в межах трьох стандартних відхилень від середнього.
    • Це відоме як емпіричне правило.
    • Важливо відзначити, що це правило застосовується тільки тоді, коли форма розподілу даних має дзвоноподібну і симетричну форму. Детальніше про це ми дізнаємося, вивчаючи «Нормальний» або «Гауссовий» розподіл ймовірностей в наступних розділах.

    Коефіцієнт варіації

    Ще одним корисним способом порівняння розподілів, крім простих порівнянь засобів або стандартних відхилень, є коригування відмінностей у масштабі вимірюваних даних. Досить просто, велика варіація даних при великому середньому відрізняється від тієї ж варіації даних з малим середнім значенням. Для коригування масштабу базових даних було розроблено коефіцієнт варіації (CV). Математично:

    \[C V=\frac{s}{\overline{x}} * 100 \text { conditioned upon } \overline{x} \neq 0, \text { where } s \text { is the standard deviation of the data and } \overline{x}\nonumber\]

    Ми бачимо, що це вимірює мінливість базових даних у відсотках від середнього значення; центральна вага набору даних. Цей захід корисний для порівняння ризиків, коли коригування є виправданим через різницю в масштабі двох наборів даних. По суті, масштаб змінюється на загальну шкалу, відсоткові відмінності, і дозволяє пряме порівняння двох або більше величин варіації різних наборів даних.