2.R: Описова статистика (огляд)
- Page ID
- 99768
2.1 Відображення даних
Ділянка зі стебла та листя - це спосіб побудови даних та перегляду розподілу. У графіку стебла та листа видно всі значення даних у класі. Перевага в графіку стебла і листа полягає в тому, що всі значення перераховані, на відміну від гістограми, яка дає класи значень даних. Лінійний графік часто використовується для представлення набору значень даних, в яких кількість змінюється з часом. Ці графіки корисні для пошуку тенденцій. Тобто знаходження загальної закономірності в наборах даних, включаючи температуру, продажі, зайнятість, прибуток компанії або витрати протягом певного періоду часу. Гістограма - це діаграма, яка використовує горизонтальні або вертикальні смуги для показу порівнянь між категоріями. Одна вісь діаграми показує конкретні категорії, які порівнюються, а інша вісь представляє дискретне значення. Деякі гістограми представляють смуги, згруповані в групи більше одного (згруповані гістограми), а інші показують смуги, розділені на підчастини, щоб показати кумулятивний ефект (стовпчасті стовпчасті графіки). Гістограми особливо корисні, коли використовуються категоричні дані.
Гістограма - це графічна версія частотного розподілу. Графік складається з стовпчиків однакової ширини, намальованих поруч один з одним. Горизонтальна шкала представляє класи кількісних значень даних, а вертикальна шкала - частоти. Висоти штанг відповідають значенням частоти. Гістограми зазвичай використовуються для великих, безперервних, кількісних наборів даних. Частотний багатокутник також може бути використаний при графіках великих наборів даних з точками даних, які повторюються. Дані зазвичай йдуть по осі y з частотою графіком на осі x. Графіки часових рядів можуть бути корисними при перегляді великих обсягів даних для однієї змінної протягом певного періоду часу.
2.2 Заходи розташування даних
Значення, які ділять впорядкований за рангом набір даних на 100 рівних частин, називаються процентилями. Процентилі використовуються для порівняння та інтерпретації даних. Наприклад, спостереження на 50-му процентилі було б більше 50 відсотків інших спостережень у наборі. Квартили ділять дані на чверті. Перший квартиль (\(Q_1\)) - 25-й процентиль, другий квартиль (\(Q_2\)або медіана) - 50-й процентиль, а третій квартиль (\(Q_3\)) - 75-й процентиль. Інтерквартильний діапазон, або\(IQR\), - це діапазон середніх 50 відсотків значень даних. \(IQR\)Знаходить шляхом віднімання\(Q_1\) з\(Q_3\) і може допомогти визначити викиди за допомогою наступних двох виразів.
- \(Q_3 + IQR(1.5)\)
- \(Q_1 – IQR(1.5)\)
2.3 Заходи Центру даних
Середнє значення та медіана можуть бути розраховані, щоб допомогти вам знайти «центр» набору даних. Середнє значення є найкращою оцінкою для фактичного набору даних, але медіана є найкращим вимірюванням, коли набір даних містить кілька викидів або екстремальних значень. Режим покаже вам найбільш часто зустрічаються дані (або дані) у вашому наборі даних. Середнє значення, медіана та режим надзвичайно корисні, коли вам потрібно проаналізувати свої дані, але якщо ваш набір даних складається з діапазонів, у яких відсутні конкретні значення, середнє значення може здатися неможливим для обчислення. Однак середнє значення можна наблизити, якщо додати нижню межу з верхньою межею і розділити на два, щоб знайти середину кожного інтервалу. Помножте кожну середину на кількість значень, знайдених у відповідному діапазоні. Суму цих значень розділіть на загальну кількість значень даних у множині.
2.6 Схил і середнє, середнє значення та режим
Дивлячись на розподіл даних, можна багато чого виявити про зв'язок між середнім, медіаною та режимом. Існує три типи дистрибутивів. Правий (або позитивний) нахилений розподіл має форму, подібну до малюнка\(\PageIndex{11}\).
2.7 Заходи поширення даних
Стандартне відхилення може допомогти вам розрахувати розкид даних. Існують різні рівняння, які слід використовувати, якщо обчислюють стандартне відхилення вибірки або популяції.
- Стандартне відхилення дозволяє нам порівнювати окремі дані або класи з середнім чисельно набором даних.
- \(s=\sqrt{\frac{\sum(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\sum f(x-\overline{x})^{2}}{n-1}}\)- формула розрахунку стандартного відхилення вибірки. Щоб обчислити стандартне відхилення популяції, ми використовували б середнє значення популяції, μ та формулу\(\sigma=\sqrt{\frac{\sum(x-\mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\sum f(x-\mu)^{2}}{N}}\).
