15.1: Описова статистика
- Page ID
- 51355
У Нью-Йорку щоліта деяка кількість кішок падає з відкритих вікон у багатоповерхівках багатоповерхівок. 22 серпня 1989 року The New York Times повідомила про вражаючий факт, що коти, які впали далі, здавалося, мають більше шансів на виживання. Коли вони перевірили в медичному центрі тварин, папір виявила, що 129 котів, що впали, були привезені на лікування. Сімнадцять з них були покладені спати їх власники (в більшості випадків тому, що вони не могли дозволити собі лікування, а не тому, що кішка, швидше за все, загинула). Вісім з решти 115 котів загинули. Але найдивніше те, що кішки, які впали найдалі, здавалося, мали найвищу ймовірність жити. Тільки один з 22 котів, які впали зверху 7 історій, загинув, і серед 13 був лише один перелом, який впав більше 9 історій. Що могло б пояснити це?
Почнемо з декількох основних понять з описової статистики, які важливі для міркування. Ми не будемо турбуватися про формули для їх обчислення, але ви зіткнетеся з цими поняттями поза цим класом, тому вам потрібно дізнатися, що вони означають.
Населення - це група речей (наприклад, виборці Флориди, домогосподарства, подружні пари, дрозофіли). А вибірка - це підгрупа населення. Наприклад, ми можемо провести опитування 1000 випускників коледжів і попросити їх повідомити про свої доходи. Ці 1000 людей склали б нашу вибірку; батьківське населення було б усі випускники коледжів. У наступному розділі ми побачимо, що інформація про зразки може бути використана для здійснення висновків про цілі популяції, але в цьому розділі ми будемо стосуватися опису, а не висновку.
Параметр - це деяка числова характеристика всього населення (наприклад, середній середній бал усіх першокурсників, середній дохід усіх випускників коледжів; як ми побачимо через мить, це також може бути мірою дисперсії або мірою кореляції. Наприклад, середній дохід населення дорослих громадян США в $18 525 є параметром.
На відміну від цього, статистика - це відповідна числова характеристика вибірки (наприклад, середній середній бал студентів коледжів, з якими зв'язалися під час недавнього опитування). Один із способів згадати, що йде з тим, що два слова - населення та параметр - йдуть разом, а два s-words - вибірка та статистика - йдуть разом.
особливості зразків
Властивості або характеристики, які приходять в градусах, називаються змінними. Наприклад, вік, вага та дохід людей у Сполучених Штатах є змінними. Кожен з них може приймати різні значення: Вілбур важить 165 фунтів, Марта 103, і Сем 321. Ми також можемо думати про більш абстрактні речі як змінні; наприклад, ймовірність - це змінна, яка може приймати будь-яке з нескінченно багатьох значень від 0 до 1. У найпростішому випадку змінна може мати лише два значення; наприклад, якщо ви берете клас pass/fail (такі змінні важливі; їх називають дихотомічними змінними).
Коли члени населення або вибірки вимірюються щодо якоїсь змінної, як їх оцінка на тесті ACT, результуючий набір усіх числових балів є розподілом значень для цієї змінної. Таким чином, сукупність усіх балів ACT за вказаний рік - це розподіл значень для змінної балів ACT цього року. Аналогічно набір всіх балів на першому іспиті в цьому класі являє собою розподіл змінної балів на першому іспиті.
Може бути важко зрозуміти, що насправді означає великий розподіл цінностей; ми заблукаємо в морі чисел. Так, часто корисно конденсувати інформацію в розподілі на більш прості числа. Найосновніші способи зробити це - розрахувати міри центральної тенденції. Існує три загальні заходи такого роду.
Заходи центральної тенденції
Мається на увазі те, що ви вже знаєте під назвою середнє. Щоб знайти середнє значення розподілу, потрібно скласти всі числа в розподілі разом і розділити на кількість елементів у розподілі. Коли клас отримує іспит назад, перше, що багато людей хочуть знати, це середній (тобто середній) бал на тесті; це говорить їм, наскільки добре клас зробив колективно. Середнє значення є найважливішим показником центральної тенденції, але воно має слабкість, що на нього впливають лише кілька екстремальних значень.
Медіана розподілу - це число таке, що половина чисел у розподілі менше її, а половина - більше. Медіана чисел 1, 2, 3, 4, 5 дорівнює 3, тому що два числа менше її і два більше. Що робити, якщо жодне число не розбиває розподіл на дві рівні частини, як це відбувається в розподілі 1, 2, 3, 4? Тут ми візьмемо число на півдорозі між 2 і 3, тобто 2,5 як медіану; явно половина випадків падає нижче неї, а половина падає вище.
Режим розподілу - це значення, яке найчастіше зустрічається в ньому. Режим 1, 2, 3, 2, 4 дорівнює 2, тому що 2 відбувається двічі і все на інших числах відбувається тільки один раз. Дистрибутив може мати більше одного режиму. Наприклад, розподіл 1, 2, 3, 2, 4, 4, 2, 4 має два режими: 2 і 4.
Що таке середнє, медіана і режим наступного набору чисел: 179, 193, 99, 311, 194, 194, 179?
- Середнє: Складіть сім чисел разом, що дає 1349. Потім ділимо це на 7, яке (округлення) доходить до 192,7.
- Медіана: Медіану найпростіше побачити, якщо ми перерахуємо ці числа на порядок, як 99, 179, 179, 193, 194, 194, 311. Тут ми знаходимо, що 193 розбиває розподіл на дві рівні частини, так що це медіана.
- Режим: Цей розподіл має два числа, які трапляються двічі: 179 та 194. Так, він має два режими, 179 і 194.
заходи розгону
Заходи центральної тенденції часто бувають корисними. Наприклад, це допоможе вам зрозуміти, як ви зробили на іспиті, щоб дізнатися середній клас (середнє значення). І буде легше вибрати спеціальність, якщо ви знаєте середню кількість людей з цією спеціальністю, які знайшли роботу незабаром після того, як вони закінчили навчання. Але заходи центральної тенденції не говорять нам багато про відносне положення будь-якого даного елемента або про те, наскільки значення розподіляються навколо середнього.
Наприклад, дистрибутиви
- 7, 8, 8, 9 і
- 1, 3, 11, 17
мають таке ж середнє значення, а саме 8. Але пункти в першому дистрибутиві згруповані набагато щільніше навколо середнього, ніж елементи другого. Якщо значення в розподілі досить розкидані, то середнє значення може бути не дуже інформативним. Заходи розгону дають додаткову інформацію; вони розповідають нам, наскільки розкидані («розпорошені») цінності в розподілі.
Діапазон - це відстань між найбільшим і найменшим значенням у розподілі. У розподілі: 179, 193, 99, 311, 193, 194, 179, діапазон - відстань між 311 і 99, тобто 311- 99 = 212.
Процентилі
Часто числове значення або оцінка не говорить вам багато про себе. Якщо ви дізнаєтеся, що ви набрали 685 на математичному компоненті ACT або що ви отримали 86 на першому іспиті в цьому курсі, це насправді не говорить вам, наскільки добре ви зробили. Те, що ви хочете знати, наскільки добре ви зробили в порівнянні з тими, хто склав той же іспит. Процентилі надають інформацію про такі відносні положення. Процентильний ранг значення або оцінка - це відсоток значень, які опускаються нижче нього. Наприклад, якщо Сандра отримала 86% на першому іспиті і 75% класу отримали нижчі оцінки, то оцінка Сандри має процентильний ранг 75%. І її бал, 86, падає на 75-й процентиль.
Процентилі забезпечують відносні позиції в процентному співвідношенні. Наприклад, припустимо, що 100 людей здають перший іспит і що Вілбур отримує 79%. Якщо 60 (= 60%) учнів набрали нижче 79, то оцінка Вілбура 79 падає на 60-й процентиль.
Квартили працюють як медіана. Перший квартиль - це значення таке, що 1/4 значень менше його, другий квартиль значення таке, що половина значень менше його (це число також є медіаною), третій квартиль значення таке, що 3/4 значень менше його. Перший квартиль припадає на 25-й процентиль. Стандартне відхилення є дуже важливою мірою розгону. Ми не можемо обчислити його без формули (про що ми тут не будемо турбуватися), але інтуїтивна ідея полягає в тому, що стандартне відхилення вимірює середню відстань всіх значень від середнього. Він говорить нам про те, наскільки в середньому значення відхиляються від середнього або середнього значення в розподілі. Чим більше стандартне відхилення, тим більше розкидані значення. Отже, хоча розподіли 7, 8, 8, 9 і 1, 3, 11, 17 мають однакове середнє значення, а саме 8, перше матиме нижче стандартне відхилення, ніж друге.
Вправи
- Знайдіть середнє, медіану, режим та діапазон кожного з наступних розподілів (які ми можемо розглядати як вимірювання ваги людей у фунтах):
- 176, 132, 221, 187, 132, 194, 190
- 176, 193, 99.5, 321, 112, 200, 120
Ось список людей у класі, їх оцінка на фіналі та відсоток людей, які забили нижче них. У кожному конкретному випадку дайте процентиль, де падає їх сорт.
- Олівія отримала 97%, 95% набрали нижче.
- Ерік отримав 46%, 5% набрав нижче.
- Вілбур отримав 85%, 80% забив нижче.
- Який розподіл матиме більше стандартне відхилення?
- 10, 11, 14, 9
- 6, 9.5, 10, 18.6
