9.3: Заходи центральної тенденції
- Page ID
- 66293
Почнемо з того, що спробуємо знайти найбільш «типове» значення набору даних.
Зауважте, що ми просто використовували слово «типовий», хоча в багатьох випадках ви можете подумати про використання слова «середній». Ми повинні бути обережними зі словом «середній», оскільки воно означає різні речі для різних людей у різних контекстах. Одне з найпоширеніших вживань слова «середнє» - це те, що математики і статистики називають середнім арифметичним, або просто простим старим середнім словом для коротких. «Середнє арифметичне» звучить досить вигадливо, але, швидше за все, ви багато разів обчислювали середнє значення, не усвідомлюючи цього; середнє - це те, про що думає більшість людей, коли вони вживають слово «середній».
Середнє значення набору даних - це сума значень даних, поділена на кількість значень.
Оцінки іспиту Марсі для її останнього класу з математики склали: 79, 86, 82, 94. Середнє значення цих значень буде:
\( \dfrac{79 + 86 + 82 + 94}{4} = 85.25 \)
Зазвичай ми округляємо середнє значення до ще одного знака після коми, ніж вихідні дані. У цьому випадку ми б\(85.25\) округлити до\(85.3\). Таким чином, ми можемо сказати, що середній бал Марсі на її іспитах з математики був\(85.25\) або приблизно\(85.3\).
Кількість тачдаун (TD) паси кинуті кожною з 31 команд у Національній футбольній лізі в 2000 сезон показані нижче.
37 33 33 32 29 28 28 23 22 22 21 21 21 20
20 19 19 18 18 18 18 16 15 14 14 12 12 9 6
Склавши ці значення, отримаємо суму в сумі 634 ТД. Діливши на 31, загальна кількість значень даних, отримаємо\(\dfrac{634}{31} = 20.4516\). Було б доречно округлити це до 20.5.
Було б найбільш правильним для нас повідомити, що «Середня кількість тачдаунів, кинутих в НФЛ в сезоні 2000, становила 20.5 пропусків», але не рідкість бачити більш випадкове слово «середній», що використовується замість «середнє».
Ціна банки арахісового масла в 5 магазинах становила: $3,29, $3,59, $3,79, $3,75 і $3,99. Знайдіть середню ціну.
Давайте розглянемо на прикладі обчислення середнього значення, наведеного таблицею частот.
Сто сімей в конкретному районі просять їх річний дохід домогосподарств, до найближчих $5 тисяч доларів. Результати зведені в таблиці частот нижче.
Дохід (тисячі доларів) | Частота |
---|---|
15 | 6 |
20 | 8 |
25 | 11 |
30 | 17 |
35 | 19 |
40 | 20 |
45 | 12 |
50 | 7 |
Обчислення середнього вручну може стати складним, якщо ми спробуємо ввести всі 100 значень:
\(\dfrac{15+15+15+15+15+15+20+20+…+50+50+50+50+50+50+50}{100}\)
Це один довгий чисельник! Ми могли б обчислити це більш ефективно, помітивши, що додавання\(15\) до себе шість разів таке ж, як\(15 \cdot 6 = 90\). Використовуючи це спрощення, отримаємо
\(\dfrac{(15 \cdot 6) + (20 \cdot 8) + (25 \cdot 11) + (30 \cdot 17) + (35 \cdot 19) + (40 \cdot 20) + (45 \cdot 12) + (50 \cdot 7)}{100} = \dfrac{3390}{100} = 33.9\)
Середній дохід домогосподарств нашої вибірки -\(33.9\) тисяча доларів (\($33,900\)).
Продовжуючи останній приклад, припустимо, що нова сім'я переїжджає в приклад сусідства, який має дохід домогосподарств у розмірі 5 мільйонів доларів (5000 тисяч доларів). Додавши це до нашого зразка, наше середнє значення тепер:
\(\dfrac{(15 \cdot 6) + (20 \cdot 8) + (25 \cdot 11) + (30 \cdot 17) + (35 \cdot 19) + (40 \cdot 20) + (45 \cdot 12) + (50 \cdot 7) + (5000 \cdot 1)}{100} = \dfrac{8390}{101} = 83.069\)
Хоча\(83.1\) тисяча доларів (\($83,069\)) є правильним середнім доходом домогосподарств, він більше не представляє «типового» значення.
Уявіть значення даних за шкалою пилки або балансу. Середнє значення - це значення, яке утримує дані в балансі, як на малюнку нижче.
Якщо ми графуємо дані наших домогосподарств, значення даних у розмірі 5 мільйонів доларів настільки далеко праворуч, що середнє значення має коригувати, щоб зберегти речі в рівновазі
З цієї причини при роботі з даними, які мають викиди - значення далеко за межами первинного групування - зазвичай використовується інша міра центру, медіана.
Медіана набору даних - це значення посередині, коли дані в порядку
Щоб знайти медіану, почніть з перерахування даних в порядку від найменшого до найбільшого або найбільшого до найменшого.
Якщо кількість значень даних,\(N\), непарна, то медіана - середнє значення даних. Це значення можна знайти шляхом округлення\(\dfrac{N}{2}\) до наступного цілого числа.
Якщо кількість значень даних парне, то немає одного середнього значення, тому знаходимо середнє значення двох середніх значень (значення\(\dfrac{N}{2}\) і\(\dfrac{N}{2} + 1\))
Ми можемо інтерпретувати медіану як «половина даних менше медіани, а інша половина більше, ніж медіана». Звичайно, ми можемо переписати це в контексті проблеми.
Повертаючись до даних про приземлення футболу, ми почнемо з перерахування даних по порядку. На щастя, це вже було в порядку зменшення, тому ми можемо працювати з ним, не потребуючи спочатку його упорядкування.
37 33 33 32 29 28 28 23 22 22 21 21 21 20
20 19 19 18 18 18 18 16 15 14 14 12 12 9 6
Оскільки існує 31 значення даних, непарне число, медіаною буде середнє число, 16-е значення даних (\(\dfrac{31}{2} = 15.5\)округляйте до 16, залишаючи 15 значень нижче і 15 вище). 16-е значення даних становить 20, тому медіана кількість тачдаунів у сезоні 2000 року становила 20 проходів. Зверніть увагу, що для цих даних медіана досить близька до середнього, яке ми розрахували раніше, 20.5. Це означає, що половина набраних тачдаунів була менше 20, а інша половина - більше 20.
Знайдіть медіану цих балів вікторини: 5 10 8 6 4 8 2 5 7
Рішення
Ми починаємо з перерахування даних по порядку: 2 4 5 5 6 7 7 8 8 10
Так як існує 10 значень даних, парне число, то немає одного середнього числа. Отже, знаходимо середнє двох середніх чисел, 6 і 7, і отримуємо
\[\dfrac{(6+7)}{2} = 6.5. \nonumber\]
Медіана оцінка вікторини склала 6,5. Можна сказати, половина балів вікторини була нижчою за 6,5, а інша половина - вище 6,5.
Ціна банки арахісового масла в 5 магазинах становила: $3,29, $3,59, $3,79, $3,75 і $3,99. Знайдіть середню ціну.
Повернемося тепер до наших вихідних даних про доходи домогосподарств.
Дохід (тисячі доларів) | Частота |
---|---|
15 | 6 |
20 | 8 |
25 | 11 |
30 | 17 |
35 | 19 |
40 | 20 |
45 | 12 |
50 | 7 |
Тут ми маємо 100 значень даних. Якби ми цього ще не знали, ми могли б знайти це, додавши частоти. Оскільки 100 - парне число, нам потрібно знайти середнє значення двох середніх значень даних - 50-го і 51-го значень даних. Щоб знайти їх, ми починаємо відлік знизу:
- Є 6 значень даних $15, тому значення від 1 до 6 - $15 тис.
- Наступні 8 значень даних - $20, тому значення 7 до (6+8) =14 складають 20 тис.
- Наступні 11 значень даних - $25, тому значення від 15 до (14+11) =25 - $25 тис.
- Наступні 17 значень даних $30, тому значення від 26 до (25+17) = 42 $30 тис.
- Наступні 19 значень даних - $35, тому значення 43 до (42+19) = 61 $35 тис.
З цього можна сказати, що значення 50 і 51 складуть $35 тис., А середнє значення цих двох значень - $35 тис. Середній дохід в цьому районі становить $35 тис. Таким чином, половина заробленого доходу домогосподарств становить менше $35 000, а інша половина — більше $35 000.
Якщо додати в нового сусіда з доходом домогосподарства в 5 мільйонів доларів, то буде 101 значення даних, а 51-е значення буде медіаною. Як ми виявили в останньому прикладі, 51-е значення становить $35 тис. Зверніть увагу, що новий сусід не вплинув на медіану в даному випадку. Медіана не коливається так сильно викидами, як середнє.
Давайте подумаємо над попереднім прикладом. Коли ми додали 101 дохід сім'ї, середній показник становив $81,069 від $31,900. Це велика різниця в середньому доході домогосподарства. Ми бачимо, що на середнє значення впливають значення даних, тобто середнє може бути більшим або меншим в залежності від значень даних. Однак при розрахунку медіани, включаючи дохід 101 сім'ї, медіана взагалі не вплинула. Насправді, загалом, медіана відома як краща статистика доходів домогосподарств, оскільки існує широке поширення доходів серед сімей. Таким чином, значення даних впливають на середнє, але не на медіану.
Крім середнього і медіани, існує ще одне загальне вимірювання «типового» значення набору даних: режим.
Режим - це спостережуване значення набору даних, яке зустрічається найчастіше.
Режим найчастіше використовується для категоріальних даних, для яких медіана і середнє значення не можуть бути обчислені. Також режим є єдиною центральною тенденцією, яка використовується як для категоричних, так і для кількісних даних. Середнє і медіана використовуються тільки з кількісними даними.
У нашому опитуванні кольорів автомобіля ми зібрали дані.
Колір | Частота |
---|---|
Синій | 3 |
Зелений | 5 |
Червоний | 4 |
Білий | 3 |
Чорний | 2 |
Сірий | 3 |
Для цих даних Green - це режим, оскільки саме значення даних траплялося найчастіше.
Можна, щоб набір даних мав більше одного режиму, якщо кілька категорій мають однакову частоту, або немає режимів, якщо кожна категорія зустрічається лише один раз.
Рецензентам було запропоновано оцінити продукт за шкалою від 1 до 5. Знайти
- Середній рейтинг
- Медіана рейтингу
- Рейтинг режиму
Рейтинг | Частота |
---|---|
1 | 4 |
2 | 8 |
3 | 7 |
4 | 3 |
5 | 1 |