Skip to main content
LibreTexts - Ukrayinska

2.3: Заходи Центру даних

  • Page ID
    99745
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    «Центр» набору даних також є способом опису місцезнаходження. Два найбільш широко використовуваних міри «центру» даних - середнє (середнє) і медіана. Щоб розрахувати середню вагу 50 осіб, складіть 50 ваг разом і розділіть на 50. Технічно це середнє арифметичне. Геометричне середнє ми обговоримо пізніше. Щоб знайти серединну вагу 50 осіб, впорядкуйте дані і знайдіть число, яке розділяє дані на дві рівні частини, що означає рівну кількість спостережень з кожного боку. Вага 25 чоловік нижче цієї ваги і 25 чоловік важче цієї ваги. Медіана, як правило, є кращою мірою центру, коли є екстремальні значення або викиди, оскільки на неї не впливають точні числові значення викидів. Середнє значення - найпоширеніша міра центру.

    ПРИМІТКА

    Слова «середнє» і «середнє» часто використовуються як взаємозамінні. Підміна одного слова іншим - звичайна практика. Технічний термін - «середнє арифметичне», а «середнє» - технічно розташування центру. Формально середнім арифметичним називають перший момент розподілу математиками. Однак на практиці серед нестатистиків «середнє» прийнято вважати «середнє арифметичне».

    Коли кожне значення в наборі даних не є унікальним, середнє значення можна обчислити, помноживши кожне окреме значення на його частоту, а потім діливши суму на загальну кількість значень даних. Буква, яка використовується для представлення зразка середнього значення, - це х зі смугою над ним (вимовляється «\(x\)бар»):\(\overline x\).

    Грецька буква\(\mu\) (вимовляється «мяу») являє собою середнє значення населення. Однією з вимог до вибірки означає бути хорошою оцінкою середнього чисельності населення є те, щоб вибірка була справді випадковою.

    Щоб побачити, що обидва способи обчислення середнього однакові, розглянемо зразок:
    1; 1; 1; 2; 2; 3; 4; 4; 4; 4; 4; 4; 4

    \[\overline{x}=\frac{1+1+1+2+2+3+4+4+4+4+4}{11}=2.7\nonumber\]

    \[\overline{x}=\frac{3(1)+2(2)+1(3)+5(4)}{11}=2.7\nonumber\]

    У другому розрахунку частоти - 3, 2, 1 і 5.

    Ви можете швидко знайти розташування медіани за допомогою виразу\(\frac{n+1}{2}\).

    Буква\(n\) - це загальна кількість значень даних у вибірці. Якщо\(n\) непарне число, то медіана - це середнє значення впорядкованих даних (впорядкованих найменших до найбільших). Якщо\(n\) є парним числом, медіана дорівнює двом середнім значенням, складеним разом і розділеним на два після впорядкування даних. Наприклад, якщо загальна кількість значень даних дорівнює 97, то\(\frac{n+1}{2}=\frac{97+1}{2}=49\). Медіана - це 49-е значення в упорядкованих даних. Якщо загальна кількість значень даних дорівнює 100, то\(\frac{n+1}{2}=\frac{100+1}{2}=50.5\). Медіана відбувається посередині між 50-м і 51-м значеннями. Розташування медіани і значення медіани неоднакові. Літера верхнього\(M\) регістру часто використовується для представлення медіани. Наступний приклад ілюструє розташування медіани і значення медіани.

    Приклад 2.24

    Дані про СНІД із зазначенням кількості місяців життя хворого на СНІД після прийому нового препарату антитіл наступні (найменші до найбільших):
    3; 4; 8; 8; 10; 11; 12; 13; 14; 15; 16; 16; 17; 17; 18; 21; 22; 22; 24; 25; 26; 26; 27; 29; 29; 31; 32; 33; 33; 34; 34; 35; 37; 40; 44; 44; 47;
    Обчисліть середнє значення і медіану.

    Відповідь

    Рішення 2.24

    Розрахунок для середнього значення становить:

    \(\overline{x}=\frac{[3+4+(8)(2)+10+11+12+13+14+(15)(2)+\ldots+35+37+40+(44)(2)+47]}{40}=23.6\)
    Щоб знайти медіану\(M\), спочатку скористайтеся формулою розташування. Розташування:
    \(\frac{n+1}{2}=\frac{40+1}{2}=20.5\)
    Починаючи з найменшого значення, медіана розташована між 20-м і 21-м значеннями (дві 24s):
    \(3; 4; 8; 8; 10; 11; 12; 13; 14; 15; 15; 16; 16; 17; 17; 18; 21; 22; 22; 24; 24; 25; 26; 26; 27; 27; 29; 29; 31; 32; 33; 33; 34; 34; 35; 37; 40; 44; 44; 47;\)

    \(M=\frac{24+24}{2}=24\)

    Приклад 2.25

    Припустимо, що в маленькому містечку з 50 чоловік одна людина заробляє 5 000 000 доларів на рік, а інші 49 заробляють по 30 000 доларів. Яка краща міра «центру»: середнє або медіана?

    Відповідь

    Рішення 2.25

    \(\overline{x}=\frac{5,000,000+49(30,000)}{50}=129,400\)

    \(M = 30,000\)

    (Є 49 людей, які заробляють $30 000 і одна людина, яка заробляє $5,000,000.)

    Медіана є кращою мірою «центру», ніж середнє, оскільки 49 значень - 30 000, а одне - 5,000,000. 5,000,000 - це викид. 30 000 дають нам краще зрозуміти середину даних.

    Ще одна міра центру - режим. Режим - найчастіша величина. У наборі даних може бути більше одного режиму, якщо ці значення мають однакову частоту і ця частота є найвищою. Набір даних з двома режимами називається бімодальним.

    Приклад 2.26

    Статистика балів іспитів для 20 студентів виглядає наступним чином:

    50; 53; 59; 59; 63; 63; 72; 72; 72; 72; 72; 72; 76; 78; 81; 83; 84; 84; 90; 93

    Знайдіть режим.

    Відповідь

    Рішення 2.26

    Найчастіший бал - 72, який зустрічається п'ять разів. Режим = 72.

    Приклад 2.27

    П'ять балів іспиту з нерухомості 430, 430, 480, 480, 495. Набір даних є бімодальним, оскільки бали 430 та 480 кожен відбувається двічі.

    Коли режим - найкраща міра «центру»? Розглянемо програму схуднення, яка рекламує середню втрату ваги на шість фунтів перший тиждень програми. Режим може вказувати на те, що більшість людей втрачають два фунти в перший тиждень, що робить програму менш привабливою.

    ПРИМІТКА

    Режим може бути розрахований як для якісних даних, так і для кількісних даних. Наприклад, якщо набір даних: червоний, червоний, червоний, зелений, зелений, жовтий, фіолетовий, чорний, синій, режим червоний.

    Обчислення середнього арифметичного згрупованих таблиць частот

    Коли доступні лише згруповані дані, ви не знаєте окремих значень даних (ми знаємо лише інтервали та інтервальні частоти); отже, ви не можете обчислити точне середнє значення для набору даних. Що ми повинні зробити, це оцінити фактичне середнє значення, обчислюючи середнє значення таблиці частот. Таблиця частот - це подання даних, в якому відображаються згруповані дані разом з відповідними частотами. Щоб обчислити середнє значення за згрупованою таблицею частот, ми можемо застосувати основне визначення середнього: середнє =\(\frac{\text { data sum }}{\text { number of data values }}\) Нам просто потрібно змінити визначення, щоб відповідати обмеженням частотної таблиці.

    Оскільки ми не знаємо окремих значень даних, ми можемо замість цього знайти середину кожного інтервалу. Середина є\(\frac{\text { lower boundary+upper boundary}}{2}\). Тепер ми можемо змінити середнє визначення, щоб бути\(\textbf{Mean of Frequency Table}=\frac{\sum f m}{\sum f}\) де f = частота інтервалу і m = середина інтервалу.

    Приклад 2.28

    Показана таблиця частот, що відображає останній статистичний тест професора Блаунта. Знайдіть найкращу оцінку середнього класу.

    Інтервал сорту Кількість студентів
    50—56.5 1
    56.5—62.5 0
    62.5—68.5 4
    68.5—74.5 4
    74.5—80,5 2
    80.5—86.5 3
    86.5—92.5 4
    92.5—98.5 1
    Таблиця 2.24
    Відповідь

    Рішення 2.28

    Знайдіть середні точки для всіх інтервалів
    Інтервал сорту Середина
    50—56.5 53.25
    56.5—62.5 59,5
    62.5—68.5 65.5
    68.5—74.5 71.5
    74.5—80,5 77.5
    80.5—86.5 83.5
    86.5—92.5 89.5
    92.5—98.5 95.5
    Таблиця 2.25
    • Обчисліть суму добутку кожного інтервалу частоти і середини. \(\sum f m\)\(53.25(1)+59.5(0)+65.5(4)+71.5(4)+77.5(2)+83.5(3)+89.5(4)+95.5(1)=1460.25\)
    • \(\mu=\frac{\sum f m}{\sum f}=\frac{1460.25}{19}=76.86\)

    Вправа 2.28

    Маріс провела дослідження щодо впливу, який грає у відеоігри на відкликання пам'яті. В рамках свого дослідження вона склала наступні дані:

    Години підлітків проводять на відеоігри Кількість підлітків
    0—3.5 3
    3.5—7.5 7
    7.5—11.5 12
    11.5—15,5 7
    15.5—19,5 9
    Таблиця 2.26

    Яка найкраща оцінка середньої кількості годин, проведених у відеоіграх?