Skip to main content
LibreTexts - Ukrayinska

3.2: Статистика дисперсії

Цілі навчання
  • Статистика дисперсії говорить вам, наскільки розподілений набір вимірювань. Стандартне відхилення є найбільш поширеним, але є й інші.

Узагальнення даних із змінної вимірювання вимагає числа, яке представляє «середину» набору чисел (відоме як «статистика центральної тенденції» або «статистика розташування»), а також міра «поширення» чисел (відома як «статистика дисперсії»). Ви використовуєте статистику дисперсії, щоб дати одне число, яке описує, наскільки компактний або розподілений набір спостережень. Хоча статистика дисперсії, як правило, не дуже цікава сама по собі, вони складають основу більшості статистичних тестів, що використовуються на змінних вимірювань.

Діапазон

Це просто різниця між найбільшими і найменшими спостереженнями. Це статистика дисперсії, яку люди використовують у повсякденній розмові; якби ви розповідали дядькові Клетусу про свої дослідження гігантського глибоководного ізопода Bathynomus giganteus, ви б не дурчали про засоби та стандартні відхилення, ви б сказали, що вони варіювалися від4.4cm до36.5cm довгий (Бьорн-Фурзан і Лозано-Альварес 1991). Тоді ви поясните, що ізоподи - це валики-полії, і36.5cm це приблизно14 американські дюйми, і дядько Клетус нарешті буде вражений, тому що ролі-полі, який довжиною понад фут, досить вражає.

Діапазон не дуже інформативний для статистичних цілей. Діапазон залежить тільки від найбільших і найменших значень, так що два набори даних з дуже різними розподілами можуть мати однаковий діапазон, або дві вибірки з однієї сукупності можуть мати дуже різні діапазони, чисто випадково. Крім того, діапазон збільшується зі збільшенням розміру вибірки; чим більше спостережень ви зробите, тим більше шансів, що ви виберете дуже велике або дуже маленьке значення.

У електронних таблицях немає функції діапазону; ви можете обчислити діапазон за допомогою: Range = MAX (Ys) −MIN (Ys),Ys де відображається набір комірок.

Сума квадратів

Це насправді не є статистикою дисперсії сама по собі, але я згадую її тут, оскільки вона становить основу дисперсії та стандартного відхилення. Відніміть середнє від спостереження і квадрат це «відхилення». Квадратування відхилень робить все квадрат відхиляється позитивним і має інші статистичні переваги. Зробіть це для кожного спостереження, потім підсумуйте ці квадратні відхилення. Ця сума квадратів відхиляється від середнього, відома як сума квадратів. Він задається функцією електронної таблиці DEVSQ (Ys) (не функцією SUMSQ). Ви, мабуть, ніколи не матимете причин обчислити суму квадратів, але це важлива концепція.

Параметрична дисперсія

Якщо взяти суму квадратів і розділити її на кількість спостережень (n), ви обчислюєте середнє квадратне відхилення від середнього. У міру того, як спостереження стають все більш поширеними, вони отримують далі від середнього, а середній квадрат відхилення стає більшим. Це середнє квадратне відхилення, або сума квадратів, поділених наn, є параметричною дисперсією. Ви можете обчислити параметричну дисперсію популяції, лише якщо у вас є спостереження за кожним членом популяції, що майже ніколи не буває. Я не можу придумати хороший біологічний приклад, де використання параметричної дисперсії було б доцільним; Я згадую це лише тому, що для неї є функція електронної таблиці, яку ви ніколи не повинні використовувати, VARP (Ys).

дисперсія зразка

У вас майже завжди є вибірка спостережень, які ви використовуєте для оцінки параметра популяції. Щоб отримати неупереджену оцінку дисперсії населення, діліть суму квадратів наn1, а не наn. Цей зразок дисперсії, який ви завжди будете використовувати, задається функцією електронної таблиці VAR (Ys). Звідси, коли ви бачите «дисперсію», це означає дисперсію зразка.

Ви можете подумати, що якщо ви влаштували експеримент, де ви дали морським10 свинкам маленькі светри з аргайла, і ви виміряли температуру тіла всіх10 з них, вам слід використовувати параметричну дисперсію, а не дисперсію зразка. Ви б, врешті-решт, мали температуру тіла всього населення морських свинок, які носять аргайлівські светри у світі. Однак для статистичних цілей вам слід вважати, що ваші морські свинки носять светр зразком усіх морських свинок у світі, які могли б носити светр з аргайлом, тому найкраще було б використовувати дисперсію зразка. Навіть якщо ви йдете на острів Еспаньола і виміряти довжину кожної окремої черепахи (Geochelone nigra hoodensis) в популяції черепах, що живуть там, для більшості цілей було б краще розглянути їх зразком всіх черепах, які могли б жити там.

Стандартне відхилення

Дисперсія, хоча вона має корисні статистичні властивості, які роблять її основою багатьох статистичних тестів, знаходиться в квадратних одиницях. Набір довжин, виміряних у сантиметрах, мав би дисперсію, виражену в квадратних сантиметрах, що просто дивно; набір обсягів, виміряних в, мавcm3 би дисперсіюcm6, виражену в, що ще дивніше. Взяття квадратного кореня дисперсії дає міру дисперсії, яка знаходиться в вихідних одиницях. Квадратний корінь параметричної дисперсії - це параметричне стандартне відхилення, яке ви ніколи не будете використовувати; задається функцією електронної таблиці STDEVP (Ys). Квадратний корінь дисперсії вибірки задається функцією електронної таблиці STDEV (Ys). Ви завжди повинні використовувати вибірку стандартного відхилення; звідси, коли ви бачите «стандартне відхилення», це означає стандартне відхилення вибірки.

Квадратний корінь дисперсії зразка фактично трохи занижує стандартне відхилення вибірки. Гурланд і Тріпаті (1971) придумали поправочний коефіцієнт, який дає більш точну оцінку стандартного відхилення, але мало хто ним користується. Їх поправочний коефіцієнт робить стандартне відхилення приблизно3% більшим з розміром вибірки9, і приблизно1% більшим з розміром вибірки25, наприклад, і більшості людей просто не потрібно точно оцінювати стандартне відхилення. Ні SAS, ні Excel не використовують виправлення Gurland і Tripathi; Я включив його як опцію в мою таблицю описової статистики. Якщо ви використовуєте стандартне відхилення з корекцією Gurland і Tripathi, обов'язково скажіть це, коли записуєте свої результати.

Окрім того, що є більш зрозумілим, ніж дисперсія як міра кількості варіацій даних, стандартне відхилення підсумовує, наскільки близькі спостереження до середнього, зрозумілим чином. Багато змінних в біології досить добре відповідають нормальному розподілу ймовірностей. Якщо змінна відповідає нормальному розподілу,68.3% (або приблизно дві третини) значення знаходяться в межах одного стандартного відхилення від середнього,95.4% знаходяться в межах двох стандартних відхилень від середнього, і99.7 (або майже всі) знаходяться в межах3 стандартних відхилень від середнього. Таким чином, якщо хтось каже, що середня довжина чоловічих ніг270mm зі стандартним відхиленням13mm, ви знаєте, що близько двох третин чоловічих ніг знаходяться між257mm і283mm довгими, а приблизно95% чоловічі ноги - між244mm і296mm довгими. Ось гістограма, яка ілюструє це:

Мал. 3.2.1 Зліва: Теоретичний нормальний розподіл. Праворуч: Частоти 5000 чисел випадковим чином генеруються відповідно до нормального розподілу. Пропорції цих даних в межах 1, 2 або 3 стандартних відхилень середнього цілком добре підходять до очікуваного від теоретичного нормального розподілу.

Пропорції даних, які знаходяться в межах12, або3 стандартні відхилення середнього, відрізняються, якщо дані не відповідають нормальному розподілу, як показано для цих двох дуже ненормальних наборів даних:

Мал. 3.2.2 Ліворуч: Частоти 5000 чисел, що генеруються випадковим чином, щоб відповідати розподілу, перекошеному вправо. Праворуч: Частоти 5,000 чисел випадковим чином генеруються, щоб відповідати бімодальному розподілу.

Коефіцієнт варіації

Коефіцієнт варіації - це стандартне відхилення, поділене на середнє значення; він підсумовує величину варіації у відсотках або частці від загальної суми. Це корисно при порівнянні величини варіації для однієї змінної між групами з різними засобами або між різними змінними вимірювання. Наприклад, військові США вимірювали довжину стопи і ширину стопи у 1774 американських чоловіків. Стандартне відхилення довжини стопи було13.1mm і стандартне відхилення ширини стопи було5.26mm, що робить здається, ніби довжина стопи більш змінна, ніж ширина стопи. Однак стопи довші, ніж вони широкі. Діливши засобами (269.7mmдля довжини,100.6mm для ширини), коефіцієнти варіації насправді трохи менші для length (4.9%), ніж для width (5.2%), що для більшості цілей було б більш корисною мірою варіації.

Приклад

Ось статистика дисперсії для даних чорнозового танцю з центральної веб-сторінки тенденції. Насправді, у вас рідко виникають підстави повідомляти про все це:

  • Діапазон 90
  • дисперсія 1029.5
  • Стандартне відхилення 32.09
  • Коефіцієнт варіації 45,8%

Як розрахувати статистику

Електронна таблиця

Я зробив електронну таблицю descriptive.xls, яка обчислює діапазон, дисперсію вибірки, стандартне відхилення зразка (з або без корекції Gurland і Tripathi), і коефіцієнт варіації, для1000 спостережень.

Веб-сторінки

Ця веб-сторінка обчислює стандартне відхилення та іншу описову статистику для10,000 спостережень.

Ця веб-сторінка обчислює діапазон, дисперсію та стандартне відхилення, а також іншу описову статистику. Я не знаю максимальної кількості спостережень, які він може обробити.

Р

RКомпаньйон Сальваторе Мангіафіко має вибіркову програму R для обчислення діапазону, дисперсії вибірки, стандартного відхилення та коефіцієнта варіації.

САС

PROC UNIVARIATE обчислить діапазон, дисперсію, стандартне відхилення (без корекції Gurland і Tripathi) та коефіцієнт варіації. Він обчислює дисперсію вибірки та стандартне відхилення вибірки. Приклади див. на веб-сторінці центральної тенденції.

Довідка

  • Бріонес-Фурзан, П., і Е. Лозано-Альварес. 1991 рік. Аспекти біології гігантського ізопода Bathynomus giganteus A. Milne Edwards, 1879 (Flabellifera: Cirolanidae), біля півострова Юкатан. Журнал біології ракоподібних 11:375-385.
  • Гурланд, Дж., і Р.К. Тріпаті. 1971 рік. Просте наближення для об'єктивної оцінки стандартного відхилення. Американський статистик 25:30-32.