2.6: Заходи Центру даних
- Page ID
- 98465
«Центр» набору даних також є способом опису місцезнаходження. Два найбільш широко використовуваних міри «центру» даних - середнє (середнє) і медіана. Щоб розрахувати середню вагу 50 осіб, складіть 50 ваг разом і розділіть на 50. Щоб знайти серединну вагу 50 осіб, впорядкуйте дані і знайдіть число, яке розділяє дані на дві рівні частини. Медіана, як правило, є кращою мірою центру, коли є екстремальні значення або викиди, оскільки на неї не впливають точні числові значення викидів. Середнє значення - найпоширеніша міра центру.
Слова «середнє» і «середнє» часто використовуються як взаємозамінні. Підміна одного слова іншим - звичайна практика. Технічний термін - «середнє арифметичне», а «середнє» - технічно розташування центру. Однак на практиці серед нестатистиків «середнє» прийнято вважати «середнє арифметичне».
Коли кожне значення в наборі даних не є унікальним, середнє значення можна обчислити, помноживши кожне окреме значення на його частоту, а потім діливши суму на загальну кількість значень даних. Буква, яка використовується для представлення зразка середнього, - це\(x\) з планкою над нею (вимовляється «\(x\)бар»):\(\overline{x}\).
Грецька буква\(\mu\) (вимовляється «мяу») являє собою середнє значення населення. Однією з вимог до вибірки означає бути хорошою оцінкою середнього чисельності населення є те, щоб вибірка була справді випадковою.
Щоб побачити, що обидва способи обчислення середнього однакові, розглянемо зразок:
1; 1; 1; 2; 2; 3; 4; 4; 4; 4; 4
\[\bar{x} = \dfrac{1+1+1+2+2+3+4+4+4+4+4}{11} = 2.7\]
У другому розрахунку частоти - 3, 2, 1 і 5.
Ви можете швидко знайти розташування медіани за допомогою виразу
\[\dfrac{n+1}{2}\]
Буква\(n\) - це загальна кількість значень даних у вибірці. Якщо\(n\) непарне число, то медіана - це середнє значення впорядкованих даних (впорядкованих найменших до найбільших). Якщо\(n\) є парним числом, медіана дорівнює двом середнім значенням, складеним разом і розділеним на два після впорядкування даних. Наприклад, якщо загальна кількість значень даних дорівнює 97, то
\[\dfrac{n+1}{2} = \dfrac{97+1}{2} = 49.\]
Медіана - це 49-е значення в упорядкованих даних. Якщо загальна кількість значень даних дорівнює 100, то
\[\dfrac{n+1}{2} = \dfrac{100+1}{2} = 50.5.\]
Медіана відбувається посередині між 50-м і 51-м значеннями. Розташування медіани і значення медіани неоднакові. Літера верхнього\(M\) регістру часто використовується для представлення медіани. Наступний приклад ілюструє розташування медіани і значення медіани.
Приклад\(\PageIndex{1}\)
Дані про СНІД, що вказують на кількість місяців життя хворого на СНІД після прийому нового препарату антитіл, такі (від найменших до найбільших):
3; 4; 8; 8; 10; 11; 12; 13; 14; 15; 15; 16; 16; 17; 17; 18; 21; 22; 22; 24; 24; 25; 26; 26; 27; 27; 29; 29; 31; 32; 33; 33; 34; 34; 35; 37; 40; 44; 47
Обчисліть середнє значення і медіану.
Відповідь
Розрахунок для середнього значення становить:
\[\bar{x} = \dfrac{[3+4+(8)(2)+10+11+12+13+14+(15)(2)+(16)(2)+...+35+37+40+(44)(2)+47]}{40} = 23.6\]
Щоб знайти медіану\(M\), спочатку скористайтеся формулою розташування. Місце розташування:\[\dfrac{n+1}{2} = \dfrac{40+1}{2} = 20.5\]
Починаючи з найменшого значення, медіана розташована між 20-м і 21-м значеннями (дві 24s):
3; 4; 8; 8; 10; 11; 12; 13; 14; 15; 15; 16; 16; 17; 17; 18; 21; 22; 22; 24; 24; 25; 26; 26; 27; 27; 29; 29; 31; 32; 33; 33; 34; 34; 35; 37; 40; 44; 47
\[M = \dfrac{24+24}{2} = 24\]
Калькулятор
Щоб знайти середнє і медіану:
Очистити список L1. Натисніть СТАТ 4: CLERLIST. Введіть 2nd 1 для списку L1. Натисніть ENTER.
Введіть дані в редактор списків. Натисніть СТАТ 1: РЕДАГУВАТИ.
Помістіть значення даних у список L1.
Натисніть STAT і стрілку до CALC. Натисніть 1:1 - VAR Статистика. Натисніть 2nd 1 для L1, а потім ENTER.
Натисніть клавіші зі стрілками вниз і вгору для прокрутки.
\(\bar{x}\)= 23,6, М = 24
Вправа\(\PageIndex{1}\)
Наступні дані показують кількість місяців, які пацієнти зазвичай чекають на список трансплантації перед операцією. Дані впорядковані від найменшого до найбільшого. Обчисліть середнє і медіану.
3; 4; 5; 7; 7; 7; 7; 7; 8; 8; 9; 9; 10; 10; 10; 10; 10; 11; 12; 12; 13; 14; 14; 15; 15; 17; 17; 18; 19; 19; 21; 21; 22; 23; 24; 24; 24; 24; 24; 24; 24
Відповідь
Середнє:\(3 + 4 + 5 + 7 + 7 + 7 + 7 + 8 + 8 + 9 + 9 + 10 + 10 + 10 + 10 + 10 + 11 + 12 + 12 + 13 + 14 + 14 + 15 + 15 + 17 + 17 + 18 + 19 + 19 + 19 + 21 + 21 + 22 + 22 + 23 + 24 + 24 + 24 = 544\)
\[\dfrac{544}{39} = 13.95\]
Медіана: Починаючи з найменшого значення, медіана - це 20-й член, який дорівнює 13.
Приклад\(\PageIndex{2}\)
Припустимо, що в маленькому містечку з 50 чоловік одна людина заробляє 5 000 000 доларів на рік, а інші 49 заробляють по 30 000 доларів. Яка краща міра «центру»: середнє або медіана?
Рішення
\[\bar{x} = \dfrac{5,000,000+49(30,000)}{50} = 129,400\]
\(M = 30,000\)
(Є 49 людей, які заробляють $30 000 і одна людина, яка заробляє $5,000,000.)
Медіана є кращою мірою «центру», ніж середнє, оскільки 49 значень - 30 000, а одне - 5,000,000. 5,000,000 - це викид. 30 000 дають нам краще зрозуміти середину даних.
Вправа\(\PageIndex{2}\)
У вибірці з 60 домогосподарств один будинок коштує $2,500,000. Половина решти коштують 280 000 доларів, а всі інші коштують 315 000 доларів. Яка краща міра «центру»: середнє або медіана?
Відповідь
Медіана є кращою мірою «центру», ніж середнє, оскільки 59 значень - 280 000 доларів, а одне - 2,500,000 доларів. $2,500,000 є викидом. Або 280 000 доларів, або 315 000 доларів, дає нам краще зрозуміти середину даних.
Ще одна міра центру - це режим. Режим - найчастіша величина. У наборі даних може бути більше одного режиму, якщо ці значення мають однакову частоту і ця частота є найвищою. Набір даних з двома режимами називається бімодальним.
Приклад\(\PageIndex{3}\)
Статистика балів іспитів для 20 студентів виглядає наступним чином:
50; 53; 59; 59; 63; 63; 72; 72; 72; 72; 72; 72; 76; 78; 81; 83; 84; 84; 90; 93
Знайдіть режим.
Відповідь
Найчастіший бал - 72, який зустрічається п'ять разів. Режим = 72.
Вправа\(\PageIndex{3}\)
Кількість книг, виписаних з бібліотеки від 25 студентів, така:
0; 0; 0; 1; 2; 3; 3; 4; 4; 5; 5; 7; 7; 7; 7; 8; 8; 8; 9; 10; 10; 11; 12; 12; 12
Знайдіть режим.
Відповідь
Найчастіша кількість книг - 7, що зустрічається чотири рази. Режим = 7.
Приклад\(\PageIndex{4}\)
П'ять балів іспиту з нерухомості 430, 430, 480, 480, 495. Набір даних є бімодальним, оскільки бали 430 та 480 кожен відбувається двічі.
Коли режим - найкраща міра «центру»? Розглянемо програму схуднення, яка рекламує середню втрату ваги на шість фунтів перший тиждень програми. Режим може вказувати на те, що більшість людей втрачають два фунти в перший тиждень, що робить програму менш привабливою.
Режим може бути розрахований як для якісних даних, так і для кількісних даних. Наприклад, якщо набір даних: червоний, червоний, червоний, зелений, зелений, жовтий, фіолетовий, чорний, синій, режим червоний.
Статистичне програмне забезпечення легко обчислить середнє значення, медіану та режим. Деякі графічні калькулятори також можуть робити ці розрахунки. У реальному світі люди роблять ці розрахунки за допомогою програмного забезпечення.
Вправа\(\PageIndex{4}\)
П'ять кредитних балів 680, 680, 700, 720, 720. Набір даних є бімодальним, оскільки оцінки 680 та 720 кожен відбувається двічі. Розглянемо річний заробіток робітників на заводі. Режим становить $25 000 і відбувається 150 разів з 301. Медіана - $50,000, а середнє значення - $47,500. Якою була б найкраща міра «центру»?
Відповідь
Оскільки $25,000 відбувається майже половину часу, режим буде найкращим показником центру, тому що медіана і середнє значення не представляють те, що більшість людей роблять на заводі.
Закон великих чисел і середнього
Закон великих чисел говорить, що якщо брати проби більшого і більшого розміру з будь-якої популяції, то середнє\(\bar{x}\) значення вибірки з великою ймовірністю наблизиться і ближче\(\mu\). Про це більш детально йдеться далі в тексті.
Розподіли вибірки та статистика розподілу вибірки
Ви можете думати про розподіл вибірки як відносний розподіл частот з великою кількістю зразків. (Див. Вибірка та дані для огляду відносної частоти). Припустимо, тридцять випадково відібраних студентів запитали кількість фільмів, які вони переглянули за попередній тиждень. Результати наведені в таблиці відносної частоти, наведеній нижче.
Кількість фільмів | Відносна частота |
---|---|
0 |
\(\dfrac{5}{30}\) |
1 |
\(\dfrac{15}{30}\) |
2 |
\(\dfrac{6}{30}\) |
3 |
\(\dfrac{3}{30}\) |
4 |
\(\dfrac{1}{30}\) |
Якщо ви дозволите кількості зразків отримати дуже велике (скажімо, 300 мільйонів або більше), відносна таблиця частот стає відносним розподілом частот.
Статистика - це число, розраховане на основі вибірки. Статистичні приклади включають середнє, медіану та режим, а також інші. Середнє значення вибірки\(\bar{x}\) є прикладом статистики, яка оцінює середнє значення чисельності населення\(\mu\).
Обчислення середнього згрупованих таблиць частот
Коли доступні лише згруповані дані, ви не знаєте окремих значень даних (ми знаємо лише інтервали та інтервальні частоти); отже, ви не можете обчислити точне середнє значення для набору даних. Що ми повинні зробити, це оцінити фактичне середнє значення, обчислюючи середнє значення таблиці частот. Таблиця частот - це подання даних, в якому відображаються згруповані дані разом з відповідними частотами. Для обчислення середнього значення за згрупованою таблицею частот можна застосувати основне визначення середнього значення:
\[mean = \dfrac{\text{data sum}}{\text{number of data values}}.\]
Нам просто потрібно змінити визначення, щоб відповідати обмеженням частотної таблиці.
Оскільки ми не знаємо окремих значень даних, ми можемо замість цього знайти середину кожного інтервалу. Середина - це
\[\dfrac{\text{lower boundary+upper boundary}}{2}.\]
Тепер ми можемо змінити середнє визначення, щоб бути
\[\text{Mean of Frequency Table} = \dfrac{\sum{fm}}{\sum{f}}\]
де\(f\) - частота інтервалу і\(m \) середина інтервалу.
Приклад\(\PageIndex{5}\)
Показана таблиця частот, що відображає останній статистичний тест професора Блаунта. Знайдіть найкращу оцінку середнього класу.
Інтервал класів | Кількість студентів |
---|---|
50-56.5 | 1 |
56.5—62.5 | 0 |
62.5—68.5 | 4 |
68.5—74.5 | 4 |
74.5—80,5 | 2 |
80.5—86.5 | 3 |
86.5—92.5 | 4 |
92.5—98.5 | 1 |
Рішення
- Знайдіть середні точки для всіх інтервалів
Інтервал класів | Середина |
---|---|
50-56.5 | 53.25 |
56.5—62.5 | 59,5 |
62.5—68.5 | 65.5 |
68.5—74.5 | 71.5 |
74.5—80,5 | 77.5 |
80.5—86.5 | 83.5 |
86.5—92.5 | 89.5 |
92.5—98.5 | 95.5 |
- Обчисліть суму добутку кожного інтервалу частоти і середини. \(\sum{fm} 53.25(1) + 59.5(0) + 65.5(4 )+ 71.5(4) + 77.5(2) + 83.5(3) + 89.5(4) + 95.5(1) = 1460.25\)
- \(\mu = \dfrac{\sum{fm}}{\sum{f}} = \dfrac{1460.25}{19} = 76.86\)
Вправа\(\PageIndex{5}\)
Маріс провела дослідження щодо впливу, який грає у відеоігри на відкликання пам'яті. В рамках свого дослідження вона склала наступні дані:
Години, які підлітки проводять на відеоігри | Кількість підлітків |
---|---|
0-3,5 | 3 |
3.5—7.5 | 7 |
7.5—11.5 | 12 |
11.5—15,5 | 7 |
15.5—19,5 | 9 |
Яка найкраща оцінка середньої кількості годин, проведених у відеоіграх?
Відповідь
Знайти середину кожного інтервалу, помножити на відповідну кількість підлітків, скласти результати і потім розділити на загальну кількість підлітків
Середні точки - 1,75, 5,5, 9,5, 13.5,17.5.\[Mean = (1.75)(3) + (5.5)(7) + (9.5)(12) + (13.5)(7) + (17.5)(9) = 409.75\]
Посилання
- Дані Світового банку, доступні в Інтернеті за адресою http://www.worldbank.org (доступ до 3 квітня 2013 р.).
- «Демографія: ожиріння - рівень поширеності дорослих». Індексмунді. Доступно в Інтернеті за адресою http://www.indexmundi.com/g/r.aspx?t=50&v=2228&l=en (доступ до 3 квітня 2013 р.).
Рецензія
Середнє значення та медіана можуть бути розраховані, щоб допомогти вам знайти «центр» набору даних. Середнє значення є найкращою оцінкою для фактичного набору даних, але медіана є найкращим вимірюванням, коли набір даних містить кілька викидів або екстремальних значень. Режим покаже вам найбільш часто зустрічаються дані (або дані) у вашому наборі даних. Середнє значення, медіана та режим надзвичайно корисні, коли вам потрібно проаналізувати свої дані, але якщо ваш набір даних складається з діапазонів, у яких відсутні конкретні значення, середнє значення може здатися неможливим для обчислення. Однак середнє значення можна наблизити, якщо додати нижню межу з верхньою межею і розділити на два, щоб знайти середину кожного інтервалу. Помножте кожну середину на кількість значень, знайдених у відповідному діапазоні. Суму цих значень розділіть на загальну кількість значень даних у множині.
Огляд формули
\[\mu = \dfrac{\sum{fm}}{\sum{f}} \]
де\(f\) = інтервальні частоти і\(m\) = проміжні середні точки.
Вправа 2.6.6
Знайдіть середнє значення для наступних таблиць частот.
-
Сорт Частота 49.5—59,5 2 59.5—69.5 3 69.5—79.5 8 79.5—89.5 12 89.5—99.5 5 -
Щоденна низька температура Частота 49.5—59,5 53 59.5—69.5 32 69.5—79.5 15 79.5—89.5 1 89.5—99.5 0 -
Очки за гру Частота 49.5—59,5 14 59.5—69.5 32 69.5—79.5 15 79.5—89.5 23 89.5—99.5 2
Вправа 2.6.7
Обчисліть середнє значення.
Відповідь
Середнє значення:\(16 + 17 + 19 + 20 + 20 + 21 + 23 + 24 + 25 + 25 + 25 + 26 + 26 + 27 + 27 + 27 + 28 + 29 + 30 + 32 + 33 + 33 + 34 + 35 + 37 + 39 + 40 = 738\);
\(\dfrac{738}{27} = 27.33\)
Вправа 2.6.8
Визначте медіану.
Вправа 2.6.9
Визначте режим.
Відповідь
Найбільш часті довжини - 25 і 27, які зустрічаються тричі. Режим = 25, 27
Використовуйте наступну інформацію, щоб відповісти на наступні три вправи: шістдесят п'ять випадково відібраних продавців автомобілів запитали кількість автомобілів, які вони зазвичай продають за один тиждень. Чотирнадцять людей відповіли, що вони взагалі продають три машини; дев'ятнадцять зазвичай продають чотири машини; дванадцять зазвичай продають п'ять автомобілів; дев'ять взагалі продають шість автомобілів; одинадцять зазвичай продають сім автомобілів. Обчисліть наступне:
Вправа 2.6.10
середнє значення зразка\(\bar{x}\) = _______
Вправа 2.6.11
медіана = _______
Відповідь
4
З'єднавши його разом
Вправа 2.6.12
Хав'єр і Ерсілія є наглядачами в торговому центрі. Кожному було поставлено завдання оцінити середню відстань, на якій живуть покупці від торгового центру. Кожен з них випадковим чином обстежив 100 покупців. Зразки дали наступну інформацію.
Хав'єр | Ерсілія | |
---|---|---|
\(\bar{x}\) | 6,0 миль | 6,0 миль |
s | 7,5 км | 7,0 миль |
- Як можна визначити, яке обстеження було правильним?
- Поясніть, що має на увазі різниця в результатах опитувань щодо даних.
- Якщо дві гістограми зображують розподіл значень для кожного керівника, який із них зображує зразок Ерсілії? Звідки ти знаєш?
- Якщо на двох графіках коробки зображено розподіл значень для кожного керівника, який із них зображує зразок Ерсілії? Звідки ти знаєш? <figure >
Використовуйте наступну інформацію, щоб відповісти на наступні три вправи: Нас цікавить кількість років учнів певного класу елементарної статистики, які жили в Каліфорнії. Інформація в наступній таблиці взята з усього розділу.
Кількість років | Частота | Кількість років | Частота |
---|---|---|---|
Всього = 20 | |||
7 | 1 | 22 | 1 |
14 | 3 | 23 | 1 |
15 | 1 | 26 | 1 |
18 | 1 | 40 | 2 |
19 | 4 | 42 | 2 |
20 | 3 |
Вправа 2.6.13
Що таке IQR?
- 8
- 11
- 15
- 35
Відповідь
a
Вправа 2.6.14
Що таке режим?
- 19
- 19.5
- 14 і 20
- 22.65
Вправа 2.6.15
Це вибірка або все населення?
- зразок
- ціле населення
- ні
Відповідь
б
Глосарій
- Таблиця частот
- представлення даних, в якому згруповані дані відображаються разом з відповідними частотами
- Середнє
- число, яке вимірює центральну тенденцію даних; загальною назвою середнього значення є «середнє». Термін «середнє» є скороченою формою «середнє арифметичне». За визначенням середнє значення для вибірки (позначається\(\bar{x}\)) є\(\bar{x} = \dfrac{\text{Sum of all values in the sample}}{\text{Number of values in the sample}}\), а середнє для популяції (позначається\(\mu\)) -\(\mu = \dfrac{\text{Sum of all values in the population}}{\text{Number of values in the population}}\).
- Медіана
- число, яке розділяє впорядковані дані навпіл; половина значень - це те саме число або менше медіани, а половина значень - те саме число або більше медіани. Медіана може бути частиною даних, а може і не бути.
- Середина
- середнє значення інтервалу в таблиці частот
- Режим
- значення, яке найчастіше з'являється в наборі даних