Skip to main content
LibreTexts - Ukrayinska

Вперед

  • Page ID
    97528
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Ця книга написана для тих, хто хоче навчитися аналізувати дані. Цей виклик виникає часто, коли потрібно визначити раніше невідомий факт. Наприклад: чи впливає це нове ліки на симптоми пацієнта? Або: Чи є різниця між публічним рейтингом двох політиків? Або: як зміниться ціни на нафту наступного тижня? Можна подумати, що знайти відповідь на таке питання можна просто подивившись на цифри. На жаль, це часто не так.

    Чи свідчать результати цього екзит-полу, що кандидат А виграв вибори?

    Після опитування 262 осіб, які вийшли з виборчої ділянки, було встановлено, що 52% проголосували за кандидата А і 48% - за кандидата Б.

    Рішення

    Думаючи про це, багато хто сказав би «так», а потім, розглядаючи це на мить: «Ну, я не знаю, може бути?» Але є простий (з точки зору сучасних комп'ютерних програм) «тест пропорції», який підкаже вам не тільки відповідь (в даному випадку «Ні, результати екзит-полу не вказують на те, що кандидат А виграв вибори»), але і дозволяє підрахувати, скільки людей вам потрібно буде опитувати, щоб мати можливість відповісти на це питання. У цьому випадку відповідь буде «близько 5000 людей» —див. Пояснення в кінці глави про одновимірні дані.

    Незнання статистичних методів може призвести до помилок і неправильних тлумачень. На жаль, розуміння цих методів далеко не поширене. Багато спеціальностей коледжу вимагають курсу теорії ймовірностей та математичної статистики, але всі багато хто з нас пам'ятають з цих курсів жах і/або розчарування на складні математичні формули, наповнені грецькими літерами, деякі з них носять капелюхи.

    Це правда, що теорія ймовірностей становить основу більшості методів аналізу даних, але, з іншого боку, більшість людей використовують холодильник без знань про термодинаміку та цикл Карно. Для практичних цілей аналізу даних вам не потрібно повністю володіти математичною статистикою та теорією ймовірностей. Тому ми намагалися слідувати Стівену Хокінгу, який у «Короткій історії часу» заявив, що «... хтось сказав мені, що кожне рівняння, яке я включив у книгу, зменшить продажі вдвічі. Тому я вирішив взагалі не мати рівнянь..». Отже, в цій книзі є тільки одне рівняння. До речі, цікава вправа - якраз знайти його. Ще краще, майже ідеальним підходом буде книга, близька до R. Munroe's «Thing Explainer»,\(^{(1)}\) де складні поняття пояснюються за допомогою словника 1000 найбільш частих англійських слів.

    Загалом, ця книга є свого роду «статистика без математики», але з R.

    Деяка обережність потрібна, правда, читачам таких книг: багато методів статистичного аналізу мають, так би мовити, помилкове дно. Ви можете застосовувати ці методи, не заглиблюючись занадто глибоко в основні принципи, отримувати результати та обговорювати ці результати у своєму звіті. Але одного дня ви можете виявити, що даний метод був абсолютно непридатним для даних, які ви мали, і тому ваші висновки недійсні. Ви повинні бути обережними та усвідомлювати обмеження будь-якого методу, який ви намагаєтеся використовувати, і визначити, чи застосовні вони до вашої ситуації.

    На прикладах: Ця книга заснована на програмному забезпеченні, яке запускає файли даних, і ми зробили більшість файлів даних, що використовуються тут, доступними для завантаження з

    http://ashipunov.info/data

    Ми рекомендуємо скопіювати файли даних у підкаталог data вашого робочого каталогу; одним з можливих способів є відкриття цієї URL-адреси в браузері і завантаження всіх файлів. Тоді всі приклади коду повинні працювати без підключення до Інтернету.

    Однак ви можете завантажувати дані безпосередньо з наведеної вище URL-адреси. Якщо ви вирішили працювати в Інтернеті, то умовність полягає в тому, що коли книги говорять "дані/... «, замініть його на" http://ashipunov.info/data/...».

    Деякі дані також доступні з відкритого репозиторію автора за адресою

    http://ashipunov.info/shipunov/open

    Більшість прикладів проблем у цій книзі можна і потрібно відтворювати самостійно. Ці приклади написані шрифтом друкарської машинки і починаються з символу >. Якщо приклад не поміщається в одному рядку, знак + вказує на продовження рядка— тому не вводьте знаки +>) при відтворенні коду!

    Всі команди, що використовуються в тексті цієї книги, можна завантажити як один великий скрипт R (колекція текстових команд) з http://ashipunov.info/shipunov/school/biol_240/en/visual_statistics.r.

    Книга також містить доповнення, вони представлені як у вигляді застібкових, так і не застібкових папок тут:

    http://ashipunov.info/shipunov/school/biol_240/en/supp

    Користувальницькі функції, що використовуються в цій книзі, можна завантажити за допомогою базової URL-адреси

    http://ashipunov.info/shipunov/r/

    У тексті всі ці функції коментуються з назвою файлу до джерела, як

    Код\(\PageIndex{1}\) (Python):

    ... # asmisc.r 
    

    Тому, якщо ви бачите цю мітку і хочете завантажити asmisc.r, виконайте наступне:

    Код\(\PageIndex{2}\) (Python):

    source("http://ashipunov.info/r/asmisc.r")
    

    (Далі буде більше пояснень.)

    Інші файли на кшталт gmoon.r і recoder.in повинні завантажуватися аналогічним чином.

    Якщо ви хочете завантажити всі призначені для користувача функції разом, завантажте один файл shipunov.r з тієї ж базової URL-адреси.

    Тепер про те, як структурована ця книга. Перша глава майже повністю теоретична. Якщо вам не хочеться читати ці дискусії, ви можете пропустити їх до наступного розділу. Але перша глава містить інформацію, яка допоможе вам уникнути багатьох поширених підводних каменів. У другому розділі найважливіші розділи - це ті, що починаються з «Як завантажити та встановити R», які пояснюють, як працювати з R. Тому засвоєння матеріалу в цих розділах має вирішальне значення. Рекомендуємо уважно прочитати і опрацювати всі проблеми в цьому розділі. Наступні глави складають ядро книги, пояснюючи аналіз даних уні- і двовимірних даних.

    Дуже велика глава, майже окрема книга, присвячена «машинному навчанню», багатовимірних даних.

    Кожен додаток - це невеликий довідник, який можна використовувати більш-менш незалежно від решти книги. А в самому кінці книги є два вкладення, односторінкова R довідкова карта («шпаргалка»), а також довідкова картка до призначених для користувача функцій.

    Звичайно, багато статистичні методи, в тому числі і досить важливі, в цій книзі не обговорюються. Ми майже повністю нехтуємо статистичним моделюванням, не обговорюємо контрасти, не вивчаємо стандартні розподіли крім нормальних, не охоплюємо криві виживання, факторний аналіз, геостатистику, ми не говоримо про те, як робити багатофакторний або блоковий аналіз варіації, багатоваріантної та порядкової регресії, проектування експериментів і багато іншого. Мета - пояснити основи статистичного аналізу (з акцентом на біологічні проблеми). Освоївши ази, більш просунуті методи можна без особливих зусиль зрозуміти за допомогою наукової літератури, внутрішньої документації, он-лайн ресурсів.

    Ця книга була вперше написана і видана російською мовою. Провідний автор (Олексій Шипунов) надзвичайно вдячний всім, хто брав участь в написанні, монтажі та перекладі. Нижче перераховані деякі імена: Євген Балдін, Поліна Волкова, Антон Коробейников, Софія Назарова, Сергій Петров, Вадим Суфіянов, Олександра Мушегян. І величезне спасибі редактору Юті Тамбергу, яка зробила велику роботу по вдосконаленню та уточненню тексту.

    Зверніть увагу, що книга знаходиться в стадії розробки. Якщо ви отримали його звідкись ще, не соромтеся перевірити наявність оновлення з основного місця розташування (шукайте URL на другій сторінці).

    Посилання

    1. https://xkcd.com/thing-explainer