2.3: Заходи Центру даних
- Page ID
- 99745
«Центр» набору даних також є способом опису місцезнаходження. Два найбільш широко використовуваних міри «центру» даних - середнє (середнє) і медіана. Щоб розрахувати середню вагу 50 осіб, складіть 50 ваг разом і розділіть на 50. Технічно це середнє арифметичне. Геометричне середнє ми обговоримо пізніше. Щоб знайти серединну вагу 50 осіб, впорядкуйте дані і знайдіть число, яке розділяє дані на дві рівні частини, що означає рівну кількість спостережень з кожного боку. Вага 25 чоловік нижче цієї ваги і 25 чоловік важче цієї ваги. Медіана, як правило, є кращою мірою центру, коли є екстремальні значення або викиди, оскільки на неї не впливають точні числові значення викидів. Середнє значення - найпоширеніша міра центру.
ПРИМІТКА
Слова «середнє» і «середнє» часто використовуються як взаємозамінні. Підміна одного слова іншим - звичайна практика. Технічний термін - «середнє арифметичне», а «середнє» - технічно розташування центру. Формально середнім арифметичним називають перший момент розподілу математиками. Однак на практиці серед нестатистиків «середнє» прийнято вважати «середнє арифметичне».
Коли кожне значення в наборі даних не є унікальним, середнє значення можна обчислити, помноживши кожне окреме значення на його частоту, а потім діливши суму на загальну кількість значень даних. Буква, яка використовується для представлення зразка середнього значення, - це х зі смугою над ним (вимовляється «\(x\)бар»):\(\overline x\).
Грецька буква\(\mu\) (вимовляється «мяу») являє собою середнє значення населення. Однією з вимог до вибірки означає бути хорошою оцінкою середнього чисельності населення є те, щоб вибірка була справді випадковою.
Щоб побачити, що обидва способи обчислення середнього однакові, розглянемо зразок:
1; 1; 1; 2; 2; 3; 4; 4; 4; 4; 4; 4; 4
\[\overline{x}=\frac{1+1+1+2+2+3+4+4+4+4+4}{11}=2.7\nonumber\]
\[\overline{x}=\frac{3(1)+2(2)+1(3)+5(4)}{11}=2.7\nonumber\]
У другому розрахунку частоти - 3, 2, 1 і 5.
Ви можете швидко знайти розташування медіани за допомогою виразу\(\frac{n+1}{2}\).
Буква\(n\) - це загальна кількість значень даних у вибірці. Якщо\(n\) непарне число, то медіана - це середнє значення впорядкованих даних (впорядкованих найменших до найбільших). Якщо\(n\) є парним числом, медіана дорівнює двом середнім значенням, складеним разом і розділеним на два після впорядкування даних. Наприклад, якщо загальна кількість значень даних дорівнює 97, то\(\frac{n+1}{2}=\frac{97+1}{2}=49\). Медіана - це 49-е значення в упорядкованих даних. Якщо загальна кількість значень даних дорівнює 100, то\(\frac{n+1}{2}=\frac{100+1}{2}=50.5\). Медіана відбувається посередині між 50-м і 51-м значеннями. Розташування медіани і значення медіани неоднакові. Літера верхнього\(M\) регістру часто використовується для представлення медіани. Наступний приклад ілюструє розташування медіани і значення медіани.
Приклад 2.24
Дані про СНІД із зазначенням кількості місяців життя хворого на СНІД після прийому нового препарату антитіл наступні (найменші до найбільших):
3; 4; 8; 8; 10; 11; 12; 13; 14; 15; 16; 16; 17; 17; 18; 21; 22; 22; 24; 25; 26; 26; 27; 29; 29; 31; 32; 33; 33; 34; 34; 35; 37; 40; 44; 44; 47;
Обчисліть середнє значення і медіану.
- Відповідь
-
Рішення 2.24
Розрахунок для середнього значення становить:
\(\overline{x}=\frac{[3+4+(8)(2)+10+11+12+13+14+(15)(2)+\ldots+35+37+40+(44)(2)+47]}{40}=23.6\)
Щоб знайти медіану\(M\), спочатку скористайтеся формулою розташування. Розташування:
\(\frac{n+1}{2}=\frac{40+1}{2}=20.5\)
Починаючи з найменшого значення, медіана розташована між 20-м і 21-м значеннями (дві 24s):
\(3; 4; 8; 8; 10; 11; 12; 13; 14; 15; 15; 16; 16; 17; 17; 18; 21; 22; 22; 24; 24; 25; 26; 26; 27; 27; 29; 29; 31; 32; 33; 33; 34; 34; 35; 37; 40; 44; 44; 47;\)\(M=\frac{24+24}{2}=24\)
Приклад 2.25
Припустимо, що в маленькому містечку з 50 чоловік одна людина заробляє 5 000 000 доларів на рік, а інші 49 заробляють по 30 000 доларів. Яка краща міра «центру»: середнє або медіана?
- Відповідь
-
Рішення 2.25
\(\overline{x}=\frac{5,000,000+49(30,000)}{50}=129,400\)
\(M = 30,000\)
(Є 49 людей, які заробляють $30 000 і одна людина, яка заробляє $5,000,000.)
Медіана є кращою мірою «центру», ніж середнє, оскільки 49 значень - 30 000, а одне - 5,000,000. 5,000,000 - це викид. 30 000 дають нам краще зрозуміти середину даних.
Ще одна міра центру - режим. Режим - найчастіша величина. У наборі даних може бути більше одного режиму, якщо ці значення мають однакову частоту і ця частота є найвищою. Набір даних з двома режимами називається бімодальним.
Приклад 2.26
Статистика балів іспитів для 20 студентів виглядає наступним чином:
50; 53; 59; 59; 63; 63; 72; 72; 72; 72; 72; 72; 76; 78; 81; 83; 84; 84; 90; 93
Знайдіть режим.
- Відповідь
-
Рішення 2.26
Найчастіший бал - 72, який зустрічається п'ять разів. Режим = 72.
Приклад 2.27
П'ять балів іспиту з нерухомості 430, 430, 480, 480, 495. Набір даних є бімодальним, оскільки бали 430 та 480 кожен відбувається двічі.
Коли режим - найкраща міра «центру»? Розглянемо програму схуднення, яка рекламує середню втрату ваги на шість фунтів перший тиждень програми. Режим може вказувати на те, що більшість людей втрачають два фунти в перший тиждень, що робить програму менш привабливою.
ПРИМІТКА
Режим може бути розрахований як для якісних даних, так і для кількісних даних. Наприклад, якщо набір даних: червоний, червоний, червоний, зелений, зелений, жовтий, фіолетовий, чорний, синій, режим червоний.
Обчислення середнього арифметичного згрупованих таблиць частот
Коли доступні лише згруповані дані, ви не знаєте окремих значень даних (ми знаємо лише інтервали та інтервальні частоти); отже, ви не можете обчислити точне середнє значення для набору даних. Що ми повинні зробити, це оцінити фактичне середнє значення, обчислюючи середнє значення таблиці частот. Таблиця частот - це подання даних, в якому відображаються згруповані дані разом з відповідними частотами. Щоб обчислити середнє значення за згрупованою таблицею частот, ми можемо застосувати основне визначення середнього: середнє =\(\frac{\text { data sum }}{\text { number of data values }}\) Нам просто потрібно змінити визначення, щоб відповідати обмеженням частотної таблиці.
Оскільки ми не знаємо окремих значень даних, ми можемо замість цього знайти середину кожного інтервалу. Середина є\(\frac{\text { lower boundary+upper boundary}}{2}\). Тепер ми можемо змінити середнє визначення, щоб бути\(\textbf{Mean of Frequency Table}=\frac{\sum f m}{\sum f}\) де f = частота інтервалу і m = середина інтервалу.
Приклад 2.28
Показана таблиця частот, що відображає останній статистичний тест професора Блаунта. Знайдіть найкращу оцінку середнього класу.
| Інтервал сорту | Кількість студентів |
|---|---|
| 50—56.5 | 1 |
| 56.5—62.5 | 0 |
| 62.5—68.5 | 4 |
| 68.5—74.5 | 4 |
| 74.5—80,5 | 2 |
| 80.5—86.5 | 3 |
| 86.5—92.5 | 4 |
| 92.5—98.5 | 1 |
- Відповідь
-
Рішення 2.28
Знайдіть середні точки для всіх інтервалівІнтервал сорту Середина 50—56.5 53.25 56.5—62.5 59,5 62.5—68.5 65.5 68.5—74.5 71.5 74.5—80,5 77.5 80.5—86.5 83.5 86.5—92.5 89.5 92.5—98.5 95.5 Таблиця 2.25 - Обчисліть суму добутку кожного інтервалу частоти і середини. \(\sum f m\)\(53.25(1)+59.5(0)+65.5(4)+71.5(4)+77.5(2)+83.5(3)+89.5(4)+95.5(1)=1460.25\)
- \(\mu=\frac{\sum f m}{\sum f}=\frac{1460.25}{19}=76.86\)
Вправа 2.28
Маріс провела дослідження щодо впливу, який грає у відеоігри на відкликання пам'яті. В рамках свого дослідження вона склала наступні дані:
| Години підлітків проводять на відеоігри | Кількість підлітків |
|---|---|
| 0—3.5 | 3 |
| 3.5—7.5 | 7 |
| 7.5—11.5 | 12 |
| 11.5—15,5 | 7 |
| 15.5—19,5 | 9 |
Яка найкраща оцінка середньої кількості годин, проведених у відеоіграх?
