Skip to main content
LibreTexts - Ukrayinska

3.1: Статистика центральної тенденції

  • Page ID
    98732
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Цілі навчання
    • Статистика центральної тенденції говорить вам, де знаходиться середина набору вимірювань. Середнє арифметичне на сьогоднішній день є найпоширенішим, але іноді корисними є медіана, середнє геометричне та середнє гармонійне.

    Вступ

    Всі тести в першій частині цього посібника проаналізували номінальні змінні. Ви підсумовуєте дані з номінальної змінної у відсотках або пропорції. Наприклад,\(76.1\%\) (або\(0.761\)) гороху в одному з генетичних схрещувань Менделя були гладкими, і\(23.9\%\) були зморшкуваті. Якщо у вас є відсоток і розмір вибірки (\(556\), для гороху Менделя), ви маєте всю необхідну інформацію про змінну.

    Решта тестів у цьому підручнику аналізують змінні вимірювання. Узагальнення даних із змінної вимірювання є більш складним і вимагає числа, яке представляє «середину» набору чисел (відомий як «статистика центральної тенденції» або «статистика розташування»), а також міра «поширення» чисел (відома як «статистика дисперсії»). Середнє арифметичне є найпоширенішою статистикою центральної тенденції, тоді як дисперсія або стандартне відхилення зазвичай використовуються для опису дисперсії.

    Статистичні тести для вимірювальних змінних припускають, що розподіл ймовірностей спостережень відповідає нормальній (дзвоноподібної) кривій. Якщо це правда, розподіл можна точно описати двома параметрами, середнім арифметичним і дисперсією. Оскільки вони припускають, що розподіл змінних можна описати цими двома параметрами, тести для змінних вимірювань називаються «параметричними тестами». Якщо розподіл змінної не відповідає нормальній кривій, його неможливо точно описати лише цими двома параметрами, і результати параметричного тесту можуть бути неточними. У такому випадку дані можуть бути перетворені в ранги і проаналізовані за допомогою непараметричного тесту, який менш чутливий до відхилень від нормальності.

    Нормальний розподіл

    Багато змінних вимірювання в біології досить добре відповідають нормальному розподілу. Відповідно до центральної граничної теореми, якщо у вас є кілька різних змінних, які мають певний розподіл значень і складають їх разом, сума досить добре слідує за нормальним розподілом. Неважливо, яка форма розподілу окремих змінних, сума все одно буде нормальною. Розподіл суми відповідає нормальному розподілу більш тісно, оскільки кількість змінних збільшується. Наведені нижче графіки - частотні гістограми\(5,000\) чисел. На першому графіку показано розподіл єдиного числа з рівномірним розподілом між\(0\) і\(1\). Інші графіки показують розподіли сум двох, трьох або чотирьох випадкових чисел з однаковим розподілом.

    Мал. 3.1.1 Гістограми сум випадкових чисел.

    Як бачите, оскільки більше випадкових чисел складаються разом, частотний розподіл суми швидко наближається до дзвіноподібної кривої. Це аналог біологічної змінної, яка є результатом декількох різних факторів. Наприклад, припустимо, що ви захопили\(100\) ящірок і виміряли їх максимальну швидкість бігу. Швидкість бігу окремої ящірки буде залежати від її генотипу у багатьох генах; її харчування, коли вона росла; хвороби, які вона мала; наскільки повний шлунок зараз; скільки води він випив; і наскільки мотивовано швидко бігати на іподромі ящірки. Кожна з цих змінних може не бути нормально розподілена; ефект хвороби може полягати в тому, щоб або відняти,\(10\; cm/sec\) якщо вона мала хворобу, що уповільнює ящірку, або додати,\(20\; cm/sec\) якщо вона не має; ефект гена А може полягати в тому, щоб додати\(25\; cm/sec\) для генотипу\(AA\),\(20\; cm/sec\) для генотипу\(Aa\), або \(15\; cm/sec\)для генотипу\(aa\). Незважаючи на те, що окремі змінні можуть не мати нормально розподілених ефектів, швидкість бігу, яка є сумою всіх ефектів, буде нормально розподілена.

    Якщо різні фактори взаємодіють мультиплікативним, а не адитивним способом, розподіл буде лог-нормальним. Прикладом може бути, якщо ефект хвороби, що уповільнює ящірку, полягає не в тому, щоб відняти\(10\; cm/sec\) від середньої швидкості, а замість цього зменшити швидкість на\(10\%\) (іншими словами, помножити швидкість на\(0.9\)). Розподіл змінної log-normal буде виглядати як крива дзвінка, яка була висунута вліво, з довгим хвостом, що йде вправо. Взяття журналу такої змінної дасть нормальний розподіл. Ось чому перетворення колод використовується так часто.

    Мал. 3.1.2 Гістограми добутку чотирьох випадкових чисел, без або з логічним перетворенням.

    На малюнку вище показаний розподіл частот для добутку чотирьох чисел, причому кожне число має рівномірний випадковий розподіл між\(0.5\) і\(1\). Графік зліва показує неперетворений твір; графік праворуч - розподіл продуктів, перетворених журналом.

    Різні заходи центральної тенденції

    Хоча середнє арифметичне на сьогоднішній день є найбільш часто використовуваною статистикою центральної тенденції, ви повинні знати про деякі інші.

    середнє арифметичне

    Середнє арифметичне - це сума спостережень, поділена на кількість спостережень. Це найпоширеніша статистика центральної тенденції, і коли хтось говорить просто «середнє» або «середнє», це те, що вони означають. Його часто символізують, ставлячи бар над літерою; середнє значення\(Y_1,\; Y_2,\; Y_3,...\) є\(Y\).

    Середнє арифметичне добре працює для значень, які відповідають нормальному розподілу. Він чутливий до екстремальних значень, що робить його погано працювати для даних, які сильно перекошені. Наприклад, уявіть, що ви вимірюєте висоту ялин на ділянці, де\(99\%\) з дерев є молодими деревами, висотою близько\(1\) метра, які виросли після пожежі, а\(1\%\) з дерев\(50\) - метрові дерева, які пережили пожежу. Якщо зразок\(20\) дерев включав одного з гігантів, середня арифметична висота становила б\(3.45\) метри; зразок, який не включав велике дерево, мав би середню висоту близько\(1\) метра. Середнє значення зразка буде сильно відрізнятися, залежно від того, чи сталося це включати велике дерево.

    У електронній таблиці середнє арифметичне задається функцією AVERAGE (Ys), де\(Ys\) представляє список клітин (\(A2,\; B7,\; B9\)) або діапазон комірок (\(A2:A20\)) або обидва (\(A2,\; B7,\; B9:B21\)). Зверніть увагу, що електронні таблиці підраховують лише ті комірки, у яких є цифри; ви можете ввести СЕРЕДНЄ (\(A1:A100\)), поставити цифри в комірках\(A1\; to\; A9\), і електронна таблиця буде правильно обчислити середнє арифметичне цих\(9\) чисел. Це справедливо для інших функцій, які працюють на діапазоні осередків.

    середнє геометричне

    Середнє геометричне є\(N^{th}\) коренем добутку\(N\) значень\(Y\); наприклад, геометричне середнє\(5\) значення значення\(Y\) буде\(5^{th}\) коренем\(Y_1\times Y_2\times Y_3\times Y_4\times Y_5\). Він задається функцією електронної таблиці GEOMEAN (\(Ys\)). Середнє геометричне використовується для змінних, ефект яких мультиплікативний. Наприклад, якщо дерево збільшує свою висоту на\(60\%\) один рік, на наступний рік і\(8\%\)\(4\%\) на третій рік, його остаточна висота буде початковою висотою, помноженою на\(1.60\times 1.08\times 1.04=1.80\). Беручи середнє геометричне цих чисел (\(1.216\)) і множення того, що саме по собі три рази також дає правильну кінцеву висоту (\(1.80\)), в той час як прийняття середнього арифметичного (\(1.24\)) рази себе три рази не дає правильної кінцевої висоти. Середнє геометричне трохи менше середнього арифметичного; якщо дані не сильно перекошені, різниця між арифметичними і геометричними середніми невелика.

    Якщо будь-яке з ваших значень дорівнює нулю або від'єму, середнє геометричне буде невизначено.

    Середнє геометричне має деякі корисні застосування в економіці, пов'язані з процентними ставками тощо, але воно рідко використовується в біології. Ви повинні знати, що він існує, але я не бачу сенсу запам'ятовувати визначення.

    Гармонічне середнє

    Гармонічне середнє - це зворотне середнього арифметичного зворотних значень; наприклад, гармонійне середнє значення\(5\) значень\(Y\) буде\(\frac{5}{1/Y_1+1/Y_2+1/Y_3+1/Y_4+1/Y_5}\). Він задається функцією електронної таблиці HARMEAN (\(Ys\)). Гармонічне середнє менш чутливе до кількох великих значень, ніж середнє арифметичне або геометричне, тому іноді використовується для сильно перекосованих змінних, таких як відстань розгону. Наприклад, якщо шість птахів створили своє перше гніздо\(1.0,\; 1.4,\; 1.7,\; 2.1,\; 2.8,\; and\; 47\; km\) з гнізда, в якому вони народилися, середня арифметична відстань розгону становила б\(9.33\; km\), середнє геометричне було б\(2.95\; km\), а середнє гармонійне буде\(1.90\; km\).

    Якщо будь-яке з ваших значень дорівнює нулю, середнє значення гармоніки буде невизначено.

    Я думаю, що гармонійне середнє має деякі корисні застосування в техніці, але воно рідко використовується в біології. Ви повинні знати, що він існує, але я не бачу сенсу запам'ятовувати визначення.

    Медіана

    Коли\(Ys\) сортуються від найнижчого до найвищого, це значення\(Y\), яке знаходиться посередині. Для непарного\(Ys\) числа медіана - це одне значення\(Y\) в середині відсортованого списку; для парного числа це середнє арифметичне двох значень\(Y\) посередині. Таким чином, для відсортованого списку\(5\)\(Ys\), медіана буде\(Y_3\); для відсортованого списку\(6\)\(Y\) s, медіана буде середнє арифметичне\(Y_3\) і\(Y_4\). Медіана задається функцією електронної таблиці MEDIAN (Ys).

    Медіана корисна, коли ви маєте справу з сильно перекосованими дистрибутивами. Наприклад, якщо ви вивчали розгін жолудів, ви можете виявити, що переважна більшість жолудів потрапляє в межах\(5\) метрів від дерева, тоді як невелика кількість віднесена\(500\) метрами птахами. Середнє арифметичне відстаней розгону буде сильно завищено невеликою кількістю жолудів на великі відстані. Це залежатиме від біологічного питання, яке вас зацікавило, але для деяких цілей медіана відстань розгону\(3.5\) метрів може бути більш корисною статистикою, ніж середня відстань розгону\(50\) метрів.

    Друга ситуація, коли медіана корисна, - це коли недоцільно виміряти всі значення, наприклад, коли ви вимірюєте час, поки щось не станеться. Час виживання є хорошим прикладом цього; для того, щоб визначити середній час виживання, ви повинні почекати, поки кожна людина не буде мертва, тоді як визначення середнього часу виживання вимагає лише очікування, поки половина особин не буде мертва.

    Існують статистичні тести для медіанів, такі як медіанський тест Mood, але не багато людей використовують їх через відсутність влади, і я не обговорюю їх у цьому посібнику. Якщо ви працюєте з часом виживання довгоживучих організмів (наприклад, людей), вам потрібно буде дізнатися про спеціалізовану статистику для цього; Bewick et al. (2004) - це одне з місць для початку.

    Режим

    Це найпоширеніша величина в наборі даних. Це вимагає, щоб безперервна змінна була згрупована у відносно невелику кількість класів, або шляхом неточних вимірювань, або групування даних у класи. Наприклад, якби висоти\(25\) людей вимірювали до найближчого міліметра, швидше за все, були б\(25\) різні значення і, отже, немає режиму. Якби висоти вимірювалися до найближчих\(5\) сантиметрів, або якщо оригінальні точні вимірювання були згруповані в\(5\) сантиметрові класи, ймовірно, була б одна висота, яку поділили кілька людей, і це був би режим.

    Рідко корисно визначити режим набору спостережень, але корисно розрізняти унімодальні, бімодальні тощо розподіли, де виявляється, що параметричний розподіл частот, що лежить в основі набору спостережень, має один пік, два піки тощо Режим задається електронною таблицею функція РЕЖИМ (Ys).

    Приклад
    Рис. 3.1.3 Чорноніс обличчя, Rhinichthys atratulus.

    Maryland Biological Stream Survey використовував електрориболовля для підрахунку кількості особин кожного виду риб у випадково вибраних\(75m\) довгих сегментах струмків у штаті Меріленд. Ось номери чорноногих танців, Rhinichthys atratulus, у потоках вододілу Рок-Крік:

    Потік риба/75м
    Мілл_Крик_1 76
    Мілл_Крик_2 102
    Північ_Філія_Рок_Крик_1 12
    Північ_Філія_Рок_Крик_2 39
    Рок_Крик_1 55
    Рок_Крик_2 93
    Рок_Крик_3 98
    Рок_Крик_4 53
    Туреччина_Філія 102

    Ось статистика центральної тенденції. Насправді у вас рідко виникають підстави повідомляти більше, ніж одне з них:

    середнє арифметичне 70.0
    середнє геометричне 59,8
    Гармонічне середнє 45.1
    Медіана 76
    Режим 102

    Як розрахувати статистику

    Електронна таблиця

    Я зробив описову статистичну таблицю descriptive.xls, яка обчислює арифметичні, геометричні та гармонійні середні, медіану та режим, для\(1000\) спостережень.

    Веб-сторінки

    Ця веб-сторінка обчислює середнє арифметичне та медіану для\(10,000\) спостережень. Він також обчислює стандартне відхилення, стандартну похибку середнього та довірчі інтервали.

    Р

    \(R\)Компаньйон Сальваторе Мангіафіко має зразки R програм для середнього, середнього та режиму.

    САС

    Є три процедури SAS, які роблять описову статистику, PROC ЗАСОБИ, PROC РЕЗЮМЕ, і PROC UNIVARIATE. Я не знаю, чому їх три. PROC UNIVARIATE обчислить довший список статистики, так що ви можете використовувати його. Ось приклад, використовуючи дані про рибу зверху.

    ДАНІ риби;
    ВХІДНЕ розташування $ dacenumber;
    DATALINES;
    Mill_Creek_1 76
    Mill_Creek_2 102
    Північ_Філія_Рок_Крик_1 12
    Північ_Філія_Рок_Крик_2 39
    Рок_Крик_1 55
    Rock_Creek_2 93
    Рок_Крик_3 98
    Рок_Крик_4 53
    Туреччина_Відділення 102
    ;
    PROC УНІВАРІАЦІЯ даних = Риба;
    RUN;

    Існує багато вихідних даних з PROC UNIVARIATE, включаючи середнє арифметичне, медіану та режим:

    Основні статистичні заходи Мінливість

    розташування

    Середнє 70.0000 Std Відхилення 32.08582
    Медіана 76.0000 Дисперсія 1030
    Режим 102.0000 Діапазон 90.00000
    Міжквартильний діапазон 45.00000

    Ви можете вказати, які змінні ви хочете мати середнє, медіану та режим, за допомогою оператора VAR. Ви також можете отримати статистику тільки для тих значень змінної вимірювання, які мають певне значення номінальної змінної, за допомогою оператора CLASS. У цьому прикладі обчислюється статистика по довжині мідій, окремо для кожного з двох видів, Mytilus edulis і M. trossulus.

    ДАНІ мідій;
    ВХІДНІ види $ довжина ширина;
    DATALINES; DATALINES;

    edulis 49,0 11,0 брутто 51,2 9,1 брутто 45,9 9,4

    edulis 56,2 13,2
    edulis 52.7

    edulis 48,4 10,4 брутто 47,6 9,5
    брус 46,2 8,9
    брутто 37.2 7.1
    ;
    PROC УНІВАРІАТ дані = Мідії; Довжина
    VAR;
    Клас види;
    RUN;

    Дивно, але жодна з процедур SAS не обчислює гармонійне або геометричне середнє. Існують функції, які називаються HARMEAN і GEOMEAN, але вони обчислюють лише засоби для списку змінних, а не всі значення однієї змінної.

    Посилання

    Картина чорнонозного танцю з відділу природних територій та заповідників Огайо.

    Blacknose дані танцю з огляду біологічного потоку Меріленда.

    Бевік, В., Л. Чик, і Дж. бал. 2004. Огляд статистики 12: Аналіз виживання. Критична допомога 8:389-394.