СО-1: Опишіть ролі, яку виконує біостатистика в дисципліні охорони здоров'я.
CO-6: Застосовуйте основні поняття ймовірності, випадкових варіацій та зазвичай використовуваних статистичних розподілів ймовірностей.
Велика картина
Цілі навчання
LO 1.3: Визначте та розмежуйте компоненти загальної картини статистики
Нагадаємо «Велика картина», чотириетапний процес, який охоплює статистику (як вона представлена в цьому курсі):
1. Виготовлення даних - Вибір вибірки з населення, що цікавить, та збір даних.
2. Аналіз дослідницьких даних (EDA) {описова статистика} - Узагальнення зібраних нами даних.
3. і 4. Ймовірність і висновок - Робити висновки про всю сукупність на основі даних, зібраних з вибірки.
Незважаючи на те, що на практиці це другий крок у процесі, ми спочатку розглянемо дослідницький аналіз даних (EDA). (Якщо ви забули чому, перегляньте інформацію про структуру курсу в кінці сторінки на The Big Picture та у відео, що охоплює The Big Picture.)
Розвідувальний аналіз даних
Цілі навчання
LO 1.5: Поясніть використання та важливі особливості розвідувального аналізу даних.
Як ви можете зрозуміти з прикладів наборів даних, які ми бачили, сирі дані не дуже інформативні. Дослідницький аналіз даних (EDA) - це те, як ми розуміємо дані, перетворюючи їх із сирої форми в більш інформативну.
Примітка
Зокрема, ЕДА складається з:
- організація та узагальнення вихідних даних,
- виявлення важливих особливостей та закономірностей у даних та будь-яких вражаючих відхилень від цих закономірностей, а потім
- інтерпретація наших висновків у контексті проблеми
І може бути корисним для:
- описуючи розподіл однієї змінної (центр, розворот, форма, викиди)
- перевірка даних (на наявність помилок або інших проблем)
- перевірка припущень до більш складного статистичного аналізу
- дослідження зв'язків між змінними
Методи дослідницького аналізу даних (EDA) часто називають описовою статистикою через те, що вони просто описують або надають оцінки на основі наявних даних.
У розділі 4 ми розглянемо методи інференційної статистики, які використовують результати вибірки, щоб зробити висновки про досліджувану популяцію.
Порівняння можна візуалізувати та оцінювати значення інтересів за допомогою EDA, але лише описова статистика не дасть інформації про визначеність наших висновків.
Важливі особливості розвідувального аналізу даних
У цьому курсі є дві важливі особливості структури блоку EDA:
Примітка
- Матеріал цього підрозділу охоплює дві широкі теми:
Вивчення дистрибутивів — вивчення даних по одній змінній за раз.
Вивчення відносин - вивчення даних двох змінних одночасно.
Примітка
- У дослідницькому аналізі даних наше дослідження даних завжди буде складатися з наступних двох елементів:
візуальні дисплеї, доповнені
чисельні заходи.
Постарайтеся запам'ятати ці структурні теми, так як вони допоможуть зорієнтуватися по шляху цього підрозділу.
Вивчення дистрибутивів
Цілі навчання
ЛО 6.1: Поясніть значення терміна розподіл в статистиці.
Ми розпочнемо частину курсу EDA, вивчаючи (або розглядаючи) одну змінну за раз.
Як ми бачили, дані для кожної змінної складаються з довгого списку значень (числових чи ні) і не дуже інформативні в такому вигляді.
Для того, щоб перетворити ці необроблені дані в корисну інформацію, нам потрібно підсумувати, а потім вивчити розподіл змінної.
Примітка
Під розподілом змінної ми маємо на увазі:
- які значення приймає змінна, і
- як часто змінна приймає ці значення.
Ми спочатку навчимося підсумувати і розглядати розподіл однієї категоріальної змінної, а потім зробимо те ж саме для однієї кількісної змінної.