3.2: Узагальнення даних - описова статистика
- Page ID
- 3847
Як ви узагальнюєте дані?
Дані узагальнюються двома основними способами: зведені розрахунки та зведені візуалізації
Розрахунки: Які види заходів використовуються?
Щоб мати можливість інтерпретувати закономірності в даних, спочатку слід маніпулювати необробленими даними та узагальнити їх у дві категорії вимірювань: міри центральної тенденції та міри мінливості. Ці дві категорії вимірювань інкапсулюють перший крок наукового дослідження, описову статистику.
Міри центральної тенденції (центр) — Надає інформацію про те, як кластер даних навколо якогось єдиного середнього значення. Існує два заходи центру, які найчастіше використовуються в біологічному розслідуванні:
- Середнє (середнє) — Сума всіх індивідуальних значень, поділена на загальну кількість значень у вибірці/сукупності. Це найбільш часто використовувана міра центру при симетричному розподілі і чутлива до викидів.
- Медіана — Середнє значення, коли набір даних впорядковується в послідовному рангу (від найвищого до найнижчого). Це зазвичай використовується, коли дані перекошені і стійкі до викидів.
Заходи мінливості (поширення) - описує, наскільки розподілені або розпорошені дані. Існує два основні заходи поширення, що використовуються в біологічному розслідуванні:
- Діапазон — Кількісно визначає відстань між найбільшими та найменшими значеннями даних.
- Стандартне відхилення - Кількісно визначає варіацію або дисперсію від середнього набору даних. Низьке стандартне відхилення вказує на те, що дані, як правило, дуже близькі до середнього; високе стандартне відхилення вказує на те, що точки даних розподілені у великому діапазоні значень. Цей розрахунок чутливий до викидів.
- Стандартна помилка - Кількісно визначає варіацію засобів з декількох наборів даних або вибіркового розподілу вихідного набору даних.
Візуалізація даних: Як використовуються таблиці та графіки?
Після того, як всі бажані описові статистичні дані обчислюються, вони, як правило, візуально зведені в таблицю або графік.
Столи:
Таблиця являє собою набір значень даних, розташованих у стовпці та рядки. Зазвичай стовпці охоплюють широку категорію даних, а рядки охоплюють іншу. Усередині кожної широкої категорії є підкатегорії, які визначають, з якої кількості стовпців і рядків складається таблиця. Таблиці використовуються як для збору, так і для узагальнення даних. Однак більшу частину часу, коли представлені таблиці, вони складаються узагальненими даними, а не необробленими даними. Хоча таблиці дозволяють упорядковано представляти узагальнені дані, більшість людей вважають за краще переводити таблиці в більш потужний інструмент візуалізації даних - графік.
Графіки:
Графік являє собою діаграму, що показує зв'язок між змінними величинами, як правило, двох змінних, кожна з яких вимірюється вздовж однієї з пари осей під прямим кутом. Графіки можуть виглядати як діаграма або креслення. Більшість графіків використовують смуги, лінії або частини кола для відображення даних. Однак іноді графіки накладаються поверх карт, щоб також відображати географічне положення, або навіть анімовані, щоб бути інтерактивними.
Основні категорії типів графіків:
- Круг/пиріг - Кругова діаграма, розділена на скибочки, щоб проілюструвати числову пропорцію. На круговій діаграмі довжина дуги кожного фрагмента (а отже, і його центральний кут і площа) пропорційна величині, яку він представляє. Хоча він названий за його схожість з пирогом, який був нарізаний, є варіації того, як він може бути представлений.
- Лінія - тип діаграми, яка відображає інформацію у вигляді серії точок даних, які називаються «маркерами», з'єднаними прямими відрізками лінії. Це основний тип діаграми, поширений у багатьох галузях. Це схоже на графік розсіювання, за винятком того, що точки вимірювання впорядковані (як правило, за значенням осі x) і з'єднані прямими відрізками лінії. Лінійна діаграма часто використовується для візуалізації тенденції в даних через проміжки часу - часовий ряд - таким чином, лінія часто малюється хронологічно.

- Графік розсіювання - це графік, в якому значення двох змінних побудовані вздовж горизонтальної та вертикальної осей, візерунок результуючих точок, що виявляють будь-яку попередню кореляцію . Дані відображаються у вигляді сукупності точок, кожна з яких має значення однієї змінної, що визначає положення на горизонтальній осі, і значення іншої змінної, що визначає положення на вертикальній осі.

- Бар - діаграма або графік, який представляє категоріальні дані з прямокутними смугами з висотою або довжиною, пропорційними значенням, які вони представляють. Бруски можуть бути нанесені вертикально або горизонтально.
- Гістограма — це приблизне уявлення про розподіл числових даних. Щоб побудувати гістограму, першим кроком є «bin» (або «bucket») діапазон значень - тобто розділити весь діапазон значень на ряд інтервалів - а потім підрахувати, скільки значень потрапляє в кожен інтервал. Бункери зазвичай задаються як послідовні, що не перекриваються інтервали змінної. Бункери (інтервали) повинні бути суміжними (тобто між ними немає пробілів, як у гістограмах), і часто (але не обов'язково) однакового розміру. Якщо бункери однакового розміру, над бункером встановлюється прямокутник висотою, пропорційною частоті - кількості корпусів у кожному бункері.

Атрибуція
Рейчел Шлайгер (CC-BY-NC)
