Processing math: 100%
Skip to main content
LibreTexts - Ukrayinska

Передня матерія

Передмова

Мета цієї книги - розповісти історію статистики, якою вона використовується сьогодні дослідниками по всьому світу. Це інша історія, ніж та, яку розповіли в більшості вступних книг зі статистикою, які зосереджені на навчанні, як використовувати набір інструментів для досягнення дуже конкретних цілей. Ця книга зосереджена на розумінні основних ідей статистичного мислення — системного способу мислення про те, як ми описуємо світ і приймаємо рішення і прогнози, все це в контексті властивої невизначеності, яка існує в реальному світі. Це також приносить нести сучасні методи, які стали можливими лише у світлі дивовижного збільшення обчислювальної потужності, що сталося за останні кілька десятиліть. Аналізи, які зайняли б роки в 1950-х роках, тепер можуть бути завершені за кілька секунд на стандартному портативному комп'ютері, і ця потужність розкриває можливість використовувати комп'ютерне моделювання, щоб задавати питання новими і потужними способами.

Книга також написана на хвилі кризи відтворюваності, яка охопила багато областей науки з 2010 року. Одним з важливих коренів цієї кризи є те, як статистичне тестування гіпотез використовувалося (і зловживали) дослідниками (як я детально описую в заключних розділах книги), і це безпосередньо пов'язано зі статистичною освітою. Таким чином, метою книги є висвітлення шляхів, якими сучасні статистичні методи можуть бути проблематичними, та запропонувати альтернативи.

0.1 Чому ця книга існує?

У 2018 році я почав викладати курс статистики бакалаврату в Стенфорді (Psych 10/Stats 60). Я ніколи раніше не викладав статистику, і це був шанс похитнути речі. Я був все більше незадоволений студентською статистикою освіти в психології, і я хотів принести ряд нових ідей і підходів до класу. Зокрема, я хотів наблизити підходи, які все частіше використовуються в реальній статистичній практиці в 21 столітті. Як Бред Ефрон і Тревор Хасті виклали так красиво у своїй книзі «Статистичний висновок комп'ютерного віку: алгоритми, докази та наука про дані», ці методи використовують переваги сьогоднішньої збільшеної обчислювальної потужності для вирішення статистичних проблем способами, які виходять далеко за рамки більш стандартних методів, які зазвичай викладав на курсі статистики бакалаврату для студентів психології.

Перший рік, коли я викладав клас, я використав дивовижну книгу статистики графічного роману Енді Філда «Пригода в статистиці» як підручник. Є багато речей, які мені дуже подобаються в цій книзі - зокрема, мені подобається те, як вона формує статистичну практику навколо побудови моделей, і ставиться до тестування нульових гіпотез з достатньою обережністю (хоча і недостатня зневага, на мій погляд). На жаль, більшість моїх учнів ненавидів цю книгу, насамперед тому, що вона включала в себе пробиратися через багато історії, щоб дістатися до статистичних знань. Я також знайшов це бажаним, тому що є ряд тем (зокрема, з галузі штучного інтелекту, відомого як машинне навчання), які я хотів включити, але не обговорювалися в його книзі. Зрештою, я відчув, що студентам найкраще буде послужити книга, яка дуже уважно стежить за моїми лекціями, тому я почав записувати свої лекції в набір обчислювальних зошитів, які в кінцевому підсумку стануть цією книгою. Контур цієї книги приблизно випливає з книги Філда, оскільки лекції спочатку були засновані значною мірою на потоці цієї книги, але зміст істотно відрізняється (а також набагато менш весело і розумно).

0.2 Чому R?

У моєму курсі студенти вчаться аналізувати дані практично, використовуючи мову R. Питання «Чому R?» можна інтерпретувати як «Чому R замість графічного програмного пакету типу (вставити назву тут)?». Зрештою, більшість студентів, які зараховуються до мого класу, ніколи раніше не програмували, тому навчання їх програмувати збирається відняти від навчання в статистичних поняттях. Моя відповідь полягає в тому, що я думаю, що найкращий спосіб вивчити статистичні інструменти - це безпосередньо працювати з даними, і що робота з графічними пакетами ізолює їх від даних і методів таким чином, що перешкоджає справжньому розумінню. Крім того, для багатьох студентів у моєму класі це може бути єдиний курс, в якому вони піддаються програмуванню; враховуючи, що програмування є важливою здатністю у зростаючій кількості академічних галузей, я думаю, що надання цим студентам базової грамотності програмування має вирішальне значення для їх майбутнього успіху, і, сподіваємось, надихне принаймні декілька з них, щоб дізнатися більше.

Питання також можна інтерпретувати як «Чому R замість (вставити мову сюди)?». З цього питання я набагато більше конфліктую, тому що глибоко не люблю R як мову програмування (я дуже вважаю за краще використовувати Python для власної роботи). Чому тоді я використовую R? Перша причина полягає в тому, що R став «lingua franca» для статистичного аналізу. Існує ряд інструментів, які я використовую в цій книзі (наприклад, інструменти лінійного моделювання в пакеті lme4 та інструменти фактор Байєса в пакеті BayesFactor), які просто недоступні іншими мовами.

Друга причина полягає в тому, що безкоштовне програмне забезпечення Rstudio робить використання R відносно легким для нових користувачів. Зокрема, мені подобається функція RMarkDown Notebook, яка дозволяє змішувати розповідний і виконуваний код з інтегрованим виходом. За духом це схоже на ноутбуки Jupyter, які багато хто з нас використовує для програмування на Python, але мені легше мати справу з тим, що ви редагуєте його як звичайний текстовий файл, а не через HTML-інтерфейс. У моєму класі я даю студентам скелетний файл RMarkDown для наборів проблем, і вони подають файл із доданим рішенням, який я потім оцінюю за допомогою набору автоматизованих скриптів оцінювання.

Третя причина практична - майже всі потенційні викладацькі асистенти (в основному аспіранти нашого відділу) мають досвід роботи з R, оскільки наш курс статистики випускників використовує R. Насправді, більшість з них мають набагато більшу майстерність з R, ніж я! З іншого боку, відносно мало хто з них має досвід роботи з Python. Таким чином, якщо я хочу армію обізнаних помічників викладання, які можуть допомогти мені, коли я починаю плавати під час мого в класі живих демо кодування, має сенс використовувати R.

0.3 Золотий вік даних

Протягом цієї книги я намагався, коли це можливо, використовувати приклади з реальних даних. Це зараз дуже легко, тому що ми плаваємо у відкритих наборах даних, оскільки уряди, науковці та компанії все частіше роблять дані у вільному доступі. Я думаю, що використання реальних наборів даних важливо, оскільки воно готує студентів до роботи з реальними даними, а не з іграшковими наборами даних, які, на мою думку, повинні бути однією з головних цілей статистичного навчання. Це також допомагає нам усвідомити (як ми побачимо в різних точках книги), що дані не завжди приходять до нас готовими до аналізу, і часто потребують суперечки, щоб допомогти привести їх у форму. Використання реальних даних також показує, що ідеалізовані статистичні розподіли, які часто передбачаються в статистичних методах, не завжди тримаються в реальному світі - наприклад, як ми побачимо в главі 4, розподіли деяких реальних величин (наприклад, кількість друзів у Facebook) можуть мати дуже довгі хвости, які можуть зламатися багато стандартних припущень.

Я прошу вибачення, що набори даних сильно орієнтовані на США. Це в першу чергу тому, що найкращим набором даних для багатьох демонстрацій є набір даних Національних досліджень охорони здоров'я та харчування (NHANES), який доступний у вигляді пакету R, і тому, що багато інших складних наборів даних, включених до R (наприклад, тих, що містяться в пакеті fivethirtyeight) також базується в США. Якщо у вас є пропозиції щодо наборів даних з інших регіонів, будь ласка, передайте їх мені!

0.4 Книга з відкритим кодом

Ця книга має бути живим документом, тому її джерело доступний в Інтернеті за адресою https://github.com/poldrack/psych10-book. Якщо ви виявили помилки в книзі або хочете зробити пропозицію щодо її покращення, будь ласка, відкрийте випуск на сайті Github. Ще краще, надішліть запит на злиття із запропонованою зміною.

Книга ліцензована відповідно до Ліцензії Creative Commons Із Зазначенням Авторства — Некомерційна 2.0 Generic (CC BY-NC 2.0). Будь ласка, ознайомтеся з умовами цієї ліцензії для більш детальної інформації.

0.5 Подяка

Спочатку я хотів би подякувати Сьюзен Холмс, яка спочатку надихнула мене розглянути питання про написання моєї власної книги статистики. Люсі Кінг надала детальні коментарі та редагування всієї книги, а також допомогла очистити код так, щоб він відповідав Tidyverse. Майкл Генрі Тесслер надав дуже корисні коментарі щодо розділу Байєсівського аналізу. Особлива подяка також йдеться Yihui Xie, творцю пакету Bookdown, за покращення використання книгою функцій Bookdown (включаючи можливість для користувачів безпосередньо генерувати редагування за допомогою кнопки Редагувати).

Я також хотів би подякувати іншим, хто надав корисні коментарі та пропозиції: Афанасіос Протопапас, Уеслі Тенсі, Джек Ван Хорн, Тор Аспелунд.

Дякуємо наступним користувачам Twitter за корисні пропозиції: @enoriverbend

Завдяки наступним особам/іменам користувачів для подання правок або питань через Github або електронною поштою: Мехді Рахім, Шанаатанан Модчалінгам, Алан Хе, Венджин Тао, Мартін Стегеман, Ден Кесслер, Філіп Кунке, Джеймс Кент, Майкл Васком, Олександр Ван, Ісіда Андерсон, Альбане Валенсуела, Чуанджі Гао, Джассарі Ріко- Еррера, базовий v8vc, Цзямінконг, карлозиван, хотанг, тревел, епецен, бреттелізабет.