4.8: Використання Excel та R для аналізу даних
- Page ID
- 24874
Хоча розрахунки в цьому розділі відносно прості, це може бути нудно працювати проблеми, використовуючи не що інше, як калькулятор. І Excel, і R включають функції для багатьох загальних статистичних обчислень. Крім того, R надає корисні функції для візуалізації ваших даних.
Excel
Excel має вбудовані функції, які ми можемо використовувати для виконання багатьох статистичних обчислень, розглянутих у цьому розділі, включаючи звітність описової статистики, наприклад, засоби та відхилення, прогнозування ймовірності отримання заданого результату з біноміального розподілу або нормального розподілу, і проведення випробувань на значущість. Таблиця Template:index містить синтаксис багатьох з цих функцій; ви можете отримати інформацію про функції, які не включені тут, за допомогою меню Довідка Excel.
| Параметр | Функція Excel |
|---|---|
| Описова статистика | |
| маю на увазі | = середнє значення (дані) |
| медіана | = медіана (дані) |
| стандартне відхилення для вибірки | = stdev.s (дані) |
| стандартне відхилення для популяції | = stdev.p (дані) |
| дисперсія для зразка | = var.s (дані) |
| дисперсія для населення | = var.p (дані) |
| максимальне значення | = макс (дані) |
| мінімальне значення | = хв (дані) |
| Розподіли ймовірностей | |
| біноміальний розподіл | = binom.dist (X, N, p, TRUE або FALSE) |
| нормальний розподіл | = norm.dist (x,\(\mu\)\(\sigma\), TRUE або FALSE) |
| Тести значущості | |
| F -тест | = f.test (набір даних 1, набір даних 2) |
| t -тест | = t.t.test (набір даних 1, набір даних 2, хвости = 1 або 2, тип t -тесту: 1 = парний; 2 = непарний з рівними відхиленнями; або 3 = непарний з неоднаковими відхиленнями) |
Описова статистика
Давайте скористаємося Excel для надання статистичного зведення даних в таблиці 4.1.1. Введіть дані в електронну таблицю, як показано на малюнку Template:index. Щоб обчислити середнє значення зразка, наприклад, натисніть на будь-яку порожню клітинку, введіть формулу
= середній (b2: b8)
і натисніть Return або Enter, щоб замінити вміст комірки обчисленням середнього значення Excel (3.117285714), який ми округляємо до 3.117. Excel не має функції для діапазону, але ми можемо використовувати функції, які повідомляють про максимальне значення та мінімальне значення для обчислення діапазону; таким чином
= макс (b2: b8) — хв (b2: b8)
повертає 0,142 як відповідь.
Розподіли ймовірностей
У прикладі 4.4.2 ми показали, що 91.10% знеболюючих таблеток виробника містили від 243 до 262 мг аспірину. Ми дійшли до цього результату, обчисливши відхилення, z, кожної межі від очікуваного середнього показника населення\(\mu\), 250 мг з точки зору очікуваного стандартного відхилення населення\(\sigma\), 5 мг. Після того, як ми розрахували значення для z, ми використали таблицю в додатку 3, щоб знайти площу під нормальною кривою розподілу між цими двома межами.
Ми можемо завершити цей розрахунок в Excel за допомогою функції norm.dist Як показано на малюнку Template:index, функція обчислює ймовірність отримання результату менше x від нормального розподілу із середнім\(\mu\) і стандартним відхиленням\(\sigma\). Щоб вирішити приклад 4.4.2 за допомогою Excel введіть наступні формули в окремі комірки
= норм.діст (243, 250, 5, ІСТИННО)
= норм.діст (262, 250, 5, ІСТИННО)
отримання результатів 0,080756659 та 0,991802464. Віднімання меншого значення від більшого значення і підлаштування на правильне число значущих цифр дає ймовірність як 0,9910, або 99,10%.
Excel також включає функцію для роботи з біноміальними дистрибутивами. Синтаксис функції:
= binom.dist (X, N, p, TRUE або FALSE)
де X - кількість разів, коли конкретний результат відбувається в N випробуваннях, а p - ймовірність того, що X відбувається в одному дослідженні. Встановлення останнього члена функції в TRUE дає загальну ймовірність для будь-якого результату до X, а встановлення його на FALSE дає ймовірність для X. Використовуючи приклад 4.4.1 для перевірки цієї функції, ми використовуємо формулу
= Біном.діст (0, 27, 0,0111, ХИБНІСТЬ)
знайти ймовірність знаходження в молекулі холестерину немає атомів 13 С, C 27 H 44 O, яка повертає значення 0,740 після коригування на значущі цифри. Використання формули
= Біном.діст (2, 27, 0.011, ІСТИННО)
ми виявляємо, що 99,7% молекул холестерину містять два або менше атомів 13 С.
Тести значущості
Як показано в таблиці Template:index, Excel включає функції для наступних тестів значущості, описаних у цій главі:
- і F -тест відхилень
- непарний t -тест зразка означає, що припускають рівні відхилення
- непарний t -тест зразка означає, що припускають нерівні відхилення
- парний t -тест для зразка засобів
Скористаємося цими функціями для завершення t -тесту за даними таблиці 4.4.1, яка містить результати двох експериментів для визначення маси циркулюючого U. s. пенні. Введіть дані з таблиці 4.4.1 в електронну таблицю, як показано на малюнку Template:index.
Оскільки дані в цьому випадку непарні, ми будемо використовувати Excel для завершення непарного t -тесту. Перш ніж ми зможемо завершити t-тест, ми використовуємо F -тест, щоб визначити, чи однакові чи нерівні відхилення для двох наборів даних.
Для завершення F -тесту натискаємо на будь-яку порожню клітинку, вводимо формулу
= ф.тест (b2: b8, c2: c6)
і натисніть Return або Enter, який замінює вміст комірки значенням,\(\alpha\) для якого ми можемо відхилити нульову гіпотезу рівних відхилень. У цьому випадку Excel повертає\(\alpha\) 0.566 105 03; оскільки це значення не менше 0,05, ми зберігаємо нульову гіпотезу про те, що дисперсії рівні. F -тест Excel двохвіст; для однохвостого F -тесту ми використовуємо ту ж функцію, але ділимо результат на два; таким чином
= ф.тест (b2: b8, c2: c6) /2
Не знайшовши доказів, що дозволяють припустити нерівні дисперсії, ми далі завершуємо непарний t -тест, припускаючи рівні дисперсії, вводячи в будь-яку порожню клітинку формулу
= т.тест (b2: b8, c2: c6, 2, 2)
де перший 2 вказує, що це двоххвостий t -тест, а другий 2 вказує на те, що це непарний t -тест з рівними дисперсіями. Натискання клавіші Return або Enter замінює вміст комірки значенням,\(\alpha\) для якого ми можемо відхилити нульову гіпотезу рівних засобів. У цьому випадку Excel повертає\(\alpha\) 0.211 627 646; оскільки це значення не менше 0,05, ми зберігаємо нульову гіпотезу про те, що засоби рівні.
Див. Приклад 4.6.3 та Приклад 4.6.4 для наших попередніх рішень цієї проблеми.
Інші тести значущості в Excel працюють в тому ж форматі. Наступна практична вправа надає вам можливість перевірити себе.
Переробити приклад 4.6.5 і приклад 4.6.6 за допомогою Excel.
- Відповідь
-
Ви знайдете невеликі відмінності між значеннями, які ви отримуєте за допомогою вбудованих функцій Excel, та відпрацьованими рішеннями в розділі. Ці відмінності виникають через те, що Excel не округляє результати проміжних розрахунків.
Р
R - середовище програмування, що надає потужні можливості для аналізу даних. У стандартну установку R вбудовано багато функцій, а додаткові пакети функцій доступні на веб-сайті R (www.r-project.org). Команди в R недоступні з меню, що випадає. Замість цього ви взаємодієте з R, ввівши команди.
Ви можете завантажити поточну версію R з www.r-project.org. Натисніть на посилання для завантаження: CRAN і знайдіть локальне дзеркало сайту. Клацніть на посилання для дзеркального сайту, а потім скористайтеся посиланням для Linux, macOS X або Windows під заголовком «Завантажити та встановити R.»
Описова статистика
Давайте використаємо R для надання статистичного зведення даних у таблиці 4.1.1. Для цього нам спочатку потрібно створити об'єкт, який містить дані, що ми робимо, ввівши наступну команду.
> копійки1 = с (3.080, 3.094, 3.0107, 3.056, 3,112, 3,174, 3,18)
У R символ '>' - це підказка, яка вказує на те, що програма чекає на введення команди. Коли ви натискаєте «Return» або «Enter», R виконує команду, відображає результат (якщо є результат для повернення) та повертає запит >.
У таблиці Template:index наведено деякі команди в R для обчислення базової описової статистики. Як і у випадку з Excel, R не включає самостійні команди для всієї описової статистики, яка нас цікавить, але ми можемо обчислити їх за допомогою інших команд. Використовувати команду легко - просто введіть відповідний код у відповідному рядку; наприклад, щоб знайти дисперсію зразка, ми вводимо
> вар (копійки1)
[1] 0.002221918
| Параметр | Функція Excel |
|---|---|
| маю на увазі | середнє (об'єкт) |
| медіана | медіана (об'єкт) |
| стандартне відхилення для вибірки | sd (об'єкт) |
| стандартне відхилення для популяції | sd (об'єкт) * (довжина (об'єкт) — 1) /довжина (об'єкт)) ^0.5 |
| дисперсія для зразка | вар (об'єкт) |
| дисперсія для населення | var (об'єкт) * (довжина (об'єкт) — 1) /довжина (об'єкт)) |
| діапазон | max (об'єкт) — min (об'єкт) |
Розподіли ймовірностей
У прикладі 4.4.2 ми показали, що 91.10% знеболюючих таблеток виробника містили від 243 до 262 мг аспірину. Ми дійшли до цього результату, обчисливши відхилення, z, кожної межі від очікуваного середнього показника населення\(\mu\), 250 мг з точки зору очікуваного стандартного відхилення населення\(\sigma\), 5 мг. Після того, як ми розрахували значення для z, ми використали таблицю в додатку 3, щоб знайти площу під нормальною кривою розподілу між цими двома межами.
Ми можемо завершити цей розрахунок в R за допомогою функції pnorm. Загальний формат функції:
пнорма (1\(x, \mu, \sigma\))
де x - межа інтересу,\(\mu\) очікуване середнє значення розподілу та\(\sigma\) очікуване стандартне відхилення розподілу. Функція повертає ймовірність отримання результату менше x (Рисунок Template:index).

Рисунок Template:index: Показана синім кольором область, яку повертає функція pnorm (\(x, \mu, \sigma\)).
Ось висновок сеансу R для розв'язання Приклад 4.4.2.
> пнорма (243, 250, 5)
[1] 0.08075666
> порне (262, 250, 5)
[1] 0.9918025
Віднімання меншого значення від більшого значення і підлаштування на правильне число значущих цифр дає ймовірність як 0,9910, або 99,10%.
R також включає функції для біноміальних розподілів. Для знаходження ймовірності отримання певного результату X у N випробуваннях використовується функція dbinom.
дбіном (Х, Н, р)
де X - кількість разів, коли конкретний результат відбувається в N випробуваннях, а p - ймовірність того, що X відбувається в одному дослідженні. Використовуючи приклад 4.4.1 для перевірки цієї функції, ми виявимо, що ймовірність знаходження атомів 13 атомів С в молекулі холестерину, C 27 H 44 O дорівнює
> дбіном (0, 27, 0.011)
[1] 0.7397997
0,740 після коригування значущих цифр. Щоб знайти ймовірність отримання будь-якого результату до максимального значення X, скористаємося функцією pbinom.
пбіном (Х, Н, р)
Щоб знайти відсоток молекул холестерину, які містять 0, 1 або 2 атоми 13 С, вводимо
> пбіном (2, 27, 0.011)
[1] 0.9967226
і знайти, що відповідь становить 99,7% молекул холестерину.
Тести значущості
R включає команди для наступних тестів значущості, розглянутих у цій главі:
- F -тест відхилень
- непарний t -тест зразка означає, що припускають рівні відхилення
- непарний t -тест зразка означає, що припускають нерівні відхилення
- парний t -тест для зразка засобів
- Q -тест Діксона для викидів
- Тест Grubb на викиди
Скористаємося цими функціями для завершення t -тесту за даними таблиці 4.4.1, яка містить результати двох експериментів для визначення маси циркулюючого U. s. пенні. Спочатку введіть дані з таблиці 4.4.1 в два об'єкти.
> копійки1 = с (3.080, 3.094, 3.0107, 3.056, 3,112, 3,174, 3,18)
> копійки2 = с (3.052, 3,141, 3.083, 3.083, 3.048)
Оскільки дані в цьому випадку непарні, ми будемо використовувати R для завершення непарного t -тесту. Перш ніж ми зможемо завершити t-тест, ми використовуємо F -тест, щоб визначити, чи однакові чи нерівні відхилення для двох наборів даних.
Для завершення двоххвостового F -тесту в R ми використовуємо команду
var.test (X, Y)
де X і Y - об'єкти, що містять два набори даних. Рисунок Template:index показує результат сеансу R для вирішення цієї проблеми.
Зверніть увагу, що R не надає критичного значення для F (0,05, 6, 4); натомість він повідомляє 95% довірчий інтервал для F exp. Оскільки цей довірчий інтервал від 0,204 до 11,661 включає очікуване значення для F 1.00, ми зберігаємо нульову гіпотезу і не маємо доказів різниці між дисперсіями. R також забезпечує ймовірність некоректного відхилення нульової гіпотези, яка в даному випадку дорівнює 0,5561.
Для однохвостої F -test команда є однією з наступних
var.test (X, Y, альтернатива = «більше»)
var.test (X, Y, альтернатива = «менше»)
де «більше» використовується, коли альтернативна гіпотеза\(s_X^2 > s_Y^2\), а «менше» використовується, коли альтернативна гіпотеза\(s_X^2 < s_Y^2\).
Не знайшовши жодних доказів, що свідчать про нерівні відхилення, ми тепер завершуємо непарний t -тест, припускаючи рівні відхилення. Основним синтаксисом для двоххвостого t -тесту є
t.test (X, Y, му = 0, парне = БРЕХНЯ, var.дорівнює = FALSE)
де X і Y - об'єкти, що містять набори даних. Ви можете змінити підкреслені терміни, щоб змінити характер t -тесту. Заміна «var.equal = FALSE» на «var.equal = TRUE» робить цей двоххвостий t-тест з рівними відхиленнями, а заміна «парного = FALSE» на «парний = ІСТИНА» робить це парним t -тестом. Термін «mu = 0» - очікувана різниця між засобами, які для цієї задачі дорівнює 0. Ви, звичайно, можете змінити це відповідно до своїх потреб. Підкреслені терміни є значеннями за замовчуванням; якщо їх опустити, то R припускає, що ви маєте намір непарний двоххвостий t -тест нульової гіпотези, що X = Y з нерівними дисперсіями. Рисунок Template:index показує результат сеансу R для цієї проблеми.
Ми можемо інтерпретувати результати цього t -тесту двома способами. По-перше, p -значення 0.2116 означає, що існує 21,16% ймовірність неправильного відхилення нульової гіпотези. По-друге, 95% довірчий інтервал від —0,024 до 0,0958 для різниці між вибірковими середніми включає очікуване значення нуля. Обидва способи перегляду результатів не дають доказів відкидання нульової гіпотези; таким чином, ми зберігаємо нульову гіпотезу і не знаходимо доказів різниці між двома зразками.
Інші тести значущості в R працюють у тому ж форматі. Наступна практична вправа надає вам можливість перевірити себе.
Переробити приклад 4.6.5 та приклад 4.6.6 за допомогою R.
- Відповідь
-
Тут показані копії R сеансів для кожної задачі. Ви знайдете невеликі відмінності між значеннями, наведеними тут для t exp та F exp, і тими значеннями, показаними з обробленими рішеннями в розділі. Ці відмінності виникають через те, що R не округляє результати проміжних розрахунків.
Приклад 4.6.5
> Аналіста = c (86.82, 87.04, 86.93, 87.01, 86.20, 87.00)
> Аналіз B = c (81.01, 86.15, 81.73, 83.19, 80.27, 83.94)
> var.test (аналітик B, аналітика)
F тест для порівняння двох дисперсій
дані: аналітик ТБ і аналітика
F = 45,6358, нум дф = 5, деном дф = 5, р-значення = 0,0007148
альтернативна гіпотеза: істинне співвідношення дисперсій не дорівнює 1
95-відсотковий довірчий інтервал:
6.385863 326 130970
зразок кошторису:
співвідношення відхилень
45.63582
> t.test (аналітика, аналітик B, var.equal = брехня)
Уелч Два зразки t-тесту
дані: аналітика та аналітика ТБ
т = 4,6147, дф = 5,219, р-значення = 0,005177
альтернативна гіпотеза: істинна різниця засобів не дорівнює 0
95-відсотковий довірчий інтервал: 1,852919 6.383748
вибіркові оцінки: середнє значення x середнє значення y
86.8333 82.71500
Приклад 4.21
> мікро = c (129.5, 89.6, 76.6, 52.2, 110.8, 50.4, 72.4, 141.4, 75.0, 34.1, 60.3)
> вибрати = c (132.3, 91.0, 73.6, 58.2, 104.2, 49.9, 82.1, 154.1, 73.4, 38.1, 60.1)> t.test (мікро, обраний, парний = правда)
Парний t-тест
дані: мікро і вибрати
т = -1,3225, дф = 10, р-значення = 0,2155
альтернативна гіпотеза: істинна різниця засобів не дорівнює 0
95-відсотковий довірчий інтервал:
-6,028684 1,5 37775
зразок кошторису:
середнє значення відмінностей
-2.24555
На відміну від Excel, R також включає функції для оцінки викидів. Ці функції не є частиною стандартної установки R. Для їх установки введіть наступну команду в межах R (зверніть увагу: для завантаження пакету функцій вам знадобиться підключення до Інтернету).
> встановити.packages («викиди»)
Після інсталяції пакета ви повинні завантажити функції в R за допомогою наступної команди (зауважте: вам потрібно робити цей крок кожного разу, коли ви починаєте новий сеанс R, оскільки пакет не завантажується автоматично при запуску R).
> бібліотека («викиди»)
Вам потрібно встановити пакет один раз, але завантажувати пакет потрібно кожен раз, коли ви плануєте його використовувати. Існують способи налаштувати R так, щоб він автоматично завантажував певні пакунки; див. розділ Вступ до R для отримання додаткової інформації (натисніть тут, щоб переглянути PDF-версію цього документа).
Давайте скористаємося цим пакунком, щоб знайти викиди в таблиці 4.6.1, використовуючи як Q -test Діксона, так і тест Grubb. Команди для цих тестів:
dixon.test (X, тип = 10, двосторонній = ІСТИНА)
grubbs.test (X, тип = 10, двохсторонній = ІСТИНА)
де X - об'єкт, який містить дані, «type = 10» вказує, що ми шукаємо один викид, а «two.sided = TRUE» вказує на те, що ми використовуємо більш консервативний двоххвостий тест. Обидва тести мають інші варіанти, які дозволяють тестувати викиди на обох кінцях набору даних («type = 11») або для більш ніж одного викиду («type = 20»), але ми не будемо розглядати їх тут. Рисунок Template:index показує результати сеансу для цієї проблеми. Для обох тестів дуже маленьке p -значення вказує на те, що ми можемо розглядати як викид копійки з масою 2,514 г.
Візуалізація даних
Однією з найбільш корисних функцій R є можливість візуалізації даних. Візуалізація даних важлива, оскільки вона надає нам інтуїтивне відчуття наших даних, яке може допомогти нам у застосуванні та оцінці статистичних тестів. Заманливо вважати, що статистичний аналіз є безглуздим, особливо якщо ймовірність неправильного відхилення нульової гіпотези мала. Однак перегляд візуального відображення наших даних може допомогти нам визначити, чи зазвичай розподіляються наші дані - вимога для більшості тестів на значущість у цій главі - і може допомогти нам визначити потенційні викиди. Існує безліч корисних способів поглянути на дані, чотири з яких ми розглянемо тут.
Візуалізація даних є важливою, до якої ми повернемося в главі 5, коли розглянемо математичне моделювання даних.
Для побудови даних в R ми будемо використовувати пакет «решітка», який потрібно буде завантажити за допомогою наступної команди.
> бібліотека («решітка»)
Щоб продемонструвати типи ділянок, які ми можемо генерувати, ми будемо використовувати об'єкт «копійки», який містить маси 100 копійок у таблиці 4.4.3.
На цей раз використовувати команду install.package не потрібно, оскільки решітка автоматично встановлювалася на ваш комп'ютер при завантаженні R.
Наша перша візуалізація - це гістограма. Для побудови гістограми ми використовуємо масу, щоб розділити копійки на бункери і побудувати кількість копійок або відсоток копійок у кожному кошику на осі y як функцію маси на осі x. Рисунок Template:index показує результат введення команди
> гістограма (пенні, тип = «відсоток», xlab = «Маса (г)», ylab = «Відсоток грошей», основний = «Гістограма даних у таблиці 4.4.3»)
Гістограма дозволяє нам візуалізувати розподіл даних. У цьому прикладі дані, здається, слідують нормальному розподілу, хоча найбільший бункер не включає середнє значення 3,095 г, а розподіл не є ідеально симетричним. Одне з обмежень гістограми полягає в тому, що її зовнішній вигляд залежить від того, як ми вирішимо зв'язувати дані. Збільшення кількості бункерів і центрування бункерів навколо середнього значення даних дає гістограму, яка більш точно наближає нормальний розподіл (рис. 4.4.5).
Альтернативою гістограмі є графік щільності ядра, який в основному являє собою згладжену гістограму. У цьому графіку кожне значення набору даних замінюється нормальною кривою розподілу, ширина якої є функцією стандартного відхилення та розміру набору даних. Отримана крива являє собою підсумовування окремих розподілів. Рисунок Template:index показує результат введення команди
> densityplot (пенні, xlab = «Маса копійок (г)», main = «Графік щільності ядра даних у таблиці 4.4.3»)
Кола внизу сюжету показують масу кожної копійки в наборі даних. Цей дисплей дає більш переконливу картину того, що дані в таблиці 4.4.3 нормально розподілені, хоча ми бачимо докази невеликої кластеризації копійок масою приблизно 3,06 г.
Ми аналізуємо вибірки для характеристики материнської популяції. Щоб дійти змістовного висновку про популяції, зразки повинні бути репрезентативними для популяції. Однією з важливих вимог є те, щоб зразки були випадковими. Точкова діаграма забезпечує просте візуальне відображення, що дозволяє нам досліджувати дані на предмет невипадкових тенденцій. Рисунок Template:index показує результат введення
> dotchart (пенні, xlab = «Маса копійок (г)», ylab = «Пенні номер», основний = «Dotchart даних у таблиці 4.4.3»)
У цьому сюжеті маси 100 копійок розташовані уздовж осі y в тому порядку, в якому вони були вибіркові. Якщо ми бачимо закономірність у даних вздовж осі y, таку як тенденція до менших мас, коли ми рухаємося від першої копійки до останньої копійки, то ми маємо чіткі докази невипадкової вибірки. Оскільки наші дані не показують закономірності, ми маємо більше впевненості в якості наших даних.
Останній сюжет, який ми розглянемо, - це графік коробки, який є корисним способом виявлення потенційних викидів, не роблячи жодних припущень щодо розподілу даних. Графік коробки містить чотири частини інформації про набір даних: медіану, середину 50% даних, найменше значення та найбільше значення в межах встановленої відстані від середини 50% даних та можливі викиди. Рисунок Template:index показує результат введення
> bwplot (пенні, xlab = «Маса копійок (г)», основний = «Boxplot даних у таблиці 4.4.3)»
Чорна крапка (•) - це медіана набору даних. Прямокутна коробка показує діапазон мас, що охоплюють середні 50% копійок. Це також відоме як міжквартильний діапазон, або IQR. Пунктирні лінії, які називаються «вусами», простягаються до найменшого значення та найбільшого значення, що знаходяться в межах\(\pm 1.5 \times \text{IQR}\) прямокутної коробки. Потенційні викиди показані у вигляді відкритих кіл (o). Для нормально розподілених даних медіана знаходиться поблизу центру коробки, а вуса будуть рівновіддалені від коробки. Як це часто буває у статистиці, зворотне не відповідає дійсності - виявлення того, що boxplot ідеально симетричний, не доводить, що дані зазвичай розподілені.
Щоб знайти інтерквартильний діапазон, ви спочатку знайдете медіану, яка ділить дані навпіл. Медіана кожної половини забезпечує межі для коробки. IQR - це медіана верхньої половини даних мінус медіана для нижньої половини даних. Для даних в таблиці 4.4.3 медіана становить 3.098. Медіана для нижньої половини даних становить 3.068, а медіана для верхньої половини даних - 3,115. IQR становить 3,115 - 3.068 = 0,047. Ви можете використовувати команду «summary (penny)» в R для отримання цих значень.
Нижні «вуса» тягнуться до першої точки даних з масою більше
3.068 — 1.5\(\times\) ІКР = 3.068 - 1.5\(\times\) 0.047 = 2.9975
який для цих даних дорівнює 2,998 м Верхній «вус» простягається до останньої точки даних з масою менше
3.115 + 1.5\(\times\) ІКР = 3.115 + 1.5\(\times\) 0.047 = 3,1855
який для цих даних дорівнює 3,181 г.
Графік коробки на малюнку Template:index відповідає гістограмі (Рисунок Template:index) та графіку щільності ядра (Рисунок Template:index). Разом три ділянки дають докази того, що дані в таблиці 4.4.3 зазвичай розподіляються. Потенційний викид, маса якого становить 3.198 г, недостатньо далеко від верхнього вуса, щоб викликати занепокоєння, тим більше, що розмір набору даних (n = 100) настільки великий. Тест Грубба на потенційний викид не дає доказів для розгляду його як викиду.
Використовуйте R для створення набору даних, що складається з 100 значень з рівномірного розподілу шляхом введення команди
> дані = руніф (100, хв = 0, макс = 100)
Рівномірний розподіл - це той, при якому однаково вірогідне кожне значення між мінімумом і максимумом. Вивчіть набір даних, створивши гістограму, графік щільності ядра, точкову діаграму та графіку коробки. Коротко прокоментуйте, що сюжети розповідають вам про вашу вибірку і її батьківському населенні.
- Відповідь
-
Оскільки ми вибираємо випадкову вибірку з 100 членів з рівномірного розподілу, ви побачите тонкі відмінності між вашими ділянками та сюжетами, показаними як частина цієї відповіді. Ось запис мого сеансу R і отримані сюжети.
> дані = руніф (100, хв = 0, макс = 0)
> дані
[1] 18.928795 80.423589 39.399693 23.757624 30.08554
[6] 76.622174 36,487084 62.186771 81.15515 15.7 26404
[11] 85.765317 53.994179 7.919424 10.125832 93.153308
[16] 38.0793 22 70.268597 49.879331 73.115203 99,329723
[21] 48.203305 33.093579 73.410984 75.128703 98.682127
[26] 11.433861 53.337359 81,705906 95.444703 96.843476
[31] 68.251721 40.567993 32.76 1695 74.635385 70.914957
[36] 96.054 750 28,448 719 88.580214 95.059215 20.316015
[41] 9.828515 44.17 2774 99.648405 85.59 3858 82,7 45774
[46] 54.963426 65.563743 87.820985 17.79 1443 26,4 17481
[51] 72.832037 5.518637 58.231329 10.213343 40.581266
[56] 6.584000 81.261052 48.534478 51.830513 17.214508
[61] 31.23 2099 60.5 45307 19.197450 60.485374 50.4 14960
[66] 88.908862 68.939084 92,5 15781 72.414388 83.195206
[71] 74.783176 10.643619 41.775788 20.464247 14.547841
[76] 89.887518 56.217573 77.606742 26.956787 29.641171
[81] 97.6246 46.406271 15.906540 23.007485 17.715668
[86] 84.652814 29.37 9712 4.093279 46,213753 57,963604
[91] 91.160366 34.278918 88.35 2789 93.004412 31.05807
[96] 47.82 2329 24.052306 95.498610 21.08 9686 2.629948
> гістограма (дані, тип = «відсоток»)
> Ділянка щільності (дані)
> точкова діаграма (дані)
> bwplot (дані)
Гістограма (крайній лівий) ділить дані на вісім засіків, кожен з яких містить від 10 до 15 членів. Оскільки ми очікуємо рівномірного розподілу, загальна картина гістограми свідчить про те, що кожен результат однаково вірогідний. Інтерпретуючи графік щільності ядра (другий зліва), важливо пам'ятати, що він трактує кожну точку даних так, ніби вона з нормально розподіленої сукупності (хоча в цьому випадку базова популяція є рівномірною). Хоча сюжет, здається, свідчить про те, що існує дві нормально розподілені популяції, індивідуальні результати, показані в нижній частині сюжету, дають додаткові докази рівномірного розподілу. Точкова діаграма (друга справа) не показує тенденції вздовж осі y, що вказує на те, що окремі члени цієї вибірки були намальовані випадковим чином з населення. Розподіл вздовж осі х також не показує жодної закономірності, як очікувалося для рівномірного розподілу, Нарешті, графік коробки (крайній правий) не показує ніяких доказів викидів.




