11.4: Випробування на незалежність
Випробування на незалежність припускають використання таблиці непередбачених (даних) значень. Статистика тесту на незалежність схожа на статистику тесту на відповідність:
∑(i⋅j)(O−E)2E
де:
- O= спостережувані значення
- E= очікувані значення
- i= кількість рядків у таблиці
- j= кількість стовпців у таблиці
Існуютьi⋅j терміни форми(O−E)2E.
Тест на незалежність визначає, чи є два фактори незалежними чи ні. Ви вперше зіткнулися з терміном незалежність в таблиці 3.1 раніше. В якості огляду розглянемо наступний приклад.
Примітка
Очікуване значення всередині кожної комірки повинно бути не менше п'яти, щоб ви могли використовувати цей тест.
Приклад 11.8
ПрипустимоA = порушення швидкості за останній рік іB = користувач мобільного телефону під час руху. ЯкщоA іB є незалежними, тоP(A∩B)=P(A)P(B).A∩B це випадок, коли водій отримав порушення швидкості минулого року, а також використовував мобільний телефон під час руху. Припустимо, в дослідженні водіїв, які отримали порушення швидкості в минулому році, і які користувалися мобільним телефоном під час руху, було обстежено 755 осіб. З 755 70 мали порушення швидкості, а 685 - ні; 305 використовували мобільні телефони під час руху, а 450 - ні.
Нехай y = очікувана кількість водіїв, які користувалися мобільним телефоном під час руху і отримали порушення швидкості.
ЯкщоA іB є незалежними, тоP(A∩B)=P(A)P(B). Шляхом підміни,
y755=(70755)(305755)
Вирішити дляy:y=(70)(305)755=28.3
Очікується, що близько 28 осіб із зразка будуть користуватися мобільними телефонами під час руху та отримувати порушення швидкості.
У тесті на незалежність ми констатуємо нульові та альтернативні гіпотези словами. Оскільки таблиця надзвичайних ситуацій складається з двох факторів, нульова гіпотеза стверджує, що фактори є незалежними, а альтернативна гіпотеза стверджує, що вони не є незалежними (залежними). Якщо ми зробимо тест на незалежність на прикладі, то нульова гіпотеза така:
H0: Бути користувачем мобільного телефону під час руху та отримання порушення швидкості є незалежними подіями; іншими словами, вони не впливають один на одного.
Якби нульова гіпотеза була правдою, ми очікували б, що близько 28 людей використовуватимуть стільникові телефони під час водіння та отримають порушення швидкості.
Тест на незалежність завжди правохвостий через обчислення тестової статистики. Якщо очікувані та спостережувані значення не близькі один до одного, то тестова статистика дуже велика і виходить у правий хвіст кривої хи-квадрата, оскільки вона знаходиться в добре-of-fit.
Кількість ступенів свободи для перевірки незалежності становить:
df=( number of columns −1)( number of rows −1)
Наступна формула обчислює очікуване число (E):
E=( row total )( column total ) total number surveyed
Вправа 11.8
Береться вибірка з 300 учнів. З опитаних студентів 50 були музичними студентами, а 250 - ні. Дев'яносто сім з 300 опитаних були на почесному списку, тоді як 203 - ні. Якщо ми припускаємо, що бути музичним студентом і бути на почесному рулоні - це незалежні події, яка очікувана кількість музичних студентів, які також знаходяться на почесному рулоні?
Приклад 11.9
Волонтерська група, забезпечує від однієї до дев'яти годин щотижня інвалідів пенсіонерів. Програма набирає серед студентів коледжів громади, чотирирічних студентів коледжів та нестудентів. У таблиці 11.14 наведено вибірку дорослих добровольців та кількість годин, які вони добровольці на тиждень.
Тип волонтера | 1-3 Години | 4—6 годин | 7—9 годин | Загальна кількість рядків |
---|---|---|---|---|
Студенти громадських коледжів | 111 | 96 | 48 | 255 |
Чотирирічні студенти коледжу | 96 | 133 | 61 | 290 |
Нестуденти | 91 | 150 | 53 | 294 |
Загальна кількість стовпців | 298 | 379 | 162 | 839 |
Чи кількість годин волонтерів незалежна від типу волонтера?
- Відповідь
-
Рішення 11.9
Спостережувана таблиця та питання в кінці проблеми: «Чи є кількість годин добровольців незалежними від типу волонтера?» скажу вам, що це перевірка на незалежність. Два фактори - це кількість годин добровольців та тип волонтера. Цей тест завжди правохвостий.
H0: Кількість годин волонтерів не залежить від типу волонтера.
Ha: Кількість годин волонтерів залежить від типу волонтера.
Очікуваний результат наведено в таблиці 11.15.
Таблиця містить очікувані (E) значення (дані). Тип волонтера 1-3 Години 4-6 годин 7-9 годин Студенти громадських коледжів 90.57 115.19 49.24 Чотирирічні студенти коледжу 103.00 131.00 56.00 Нестуденти 104.42 132.81 56.77 Таблиця 11.15 Кількість годин, відпрацьованих на тиждень за типом волонтера (очікується) Наприклад, обчислення очікуваної частоти для верхньої лівої комірки
E=( row total )( column total ) total number surveyed =(255)(298)839=90.57
Розрахувати статистику тесту:χ2=12.99 (калькулятор або комп'ютер)
Розподіл для тесту:χ24
df=(3 columns −1)(3 rows −1)=(2)(2)=4
Графік:
Малюнок 11.8
Графік Chi-квадрата показує розподіл і відзначає критичне значення з чотирма ступенями свободи при 95% рівні довіриα=0.05, 9,488. На графіку також відзначається розрахованаχ2c тестова статистика 12.99. Порівнюючи статистику тесту з критичним значенням, як ми це робили з усіма іншими тестами гіпотез, приходимо до висновку.
Прийміть рішення: Оскільки обчислена статистика тесту знаходиться в хвості, ми не можемо прийняти H 0. Це означає, що фактори не є самостійними.
Висновок: На рівні 5% значущості, з даних, є достатньо доказів, щоб зробити висновок, що кількість годин добровольця та тип волонтера залежать один від одного.
Для прикладу в таблиці 11.15, якби був інший тип волонтерів, підлітки, якими були б ступені свободи?
Вправа 11.9
Бюро статистики праці збирає дані про зайнятість в Сполучених Штатах. Вибірка береться для обчислення кількості громадян США, які працюють в одному з декількох галузей промисловості з плином часу. У таблиці 11.16 наведені результати:
Галузь промисловості | 2000 | 2010 | 2020 | Всього |
---|---|---|---|---|
Заробітна плата та зарплата в несільському | 13 243 | 13 044 | 15 018 | 41 305 |
Продукція, що виробляє, за винятком сільського господарства | 2 457 | 1 771 | 1 950 | 6 178 |
Надання послуг | 10 786 | 11 273 | 13 068 | 35 127 |
Сільське, лісове господарство, рибальство та мисливство | 240 | 214 | 201 | 655 |
Несільськогосподарський самозайнятий та неоплачуваний сімейний працівник | 931 | 894 | 972 | 2 797 |
Вторинна заробітна плата та заробітна плата в сільському господарстві та приватних домогосподарствах | 14 | 11 | 11 | 36 |
Вторинні робочі місця як самозайнятий або неоплачуваний сімейний працівник | 196 | 144 | 152 | 492 |
Всього | 27 867 | 27 351 | 31 372 | 86 590 |
Ми хочемо знати, чи зміна кількості робочих місць не залежить від зміни в роках. Викладіть нульові та альтернативні гіпотези та ступені свободи.
Приклад 11.10
Коледж Де Анза зацікавлений у взаємозв'язку між рівнем тривожності та необхідністю досягти успіху в школі. Випадкова вибірка з 400 учнів пройшла тест, який вимірював рівень тривожності і потрібно досягти успіху в школі. У таблиці 11.17 наведені результати. Коледж Де Анза хоче знати, чи рівень тривоги та необхідність досягти успіху в школі є незалежними заходами.
Потреба досягти успіху в школі | Висока тривожність |
Мед-висока тривожність |
Середня тривожність |
Мед-низька тривожність |
Низька тривожність |
Загальна кількість рядків |
---|---|---|---|---|---|---|
Висока потреба | 35 | 42 | 53 | 15 | 10 | 155 |
Середня потреба | 18 | 48 | 63 | 33 | 31 | 193 |
Низька потреба | 4 | 5 | 11 | 15 | 17 | 52 |
Загальна кількість стовпців | 57 | 95 | 127 | 63 | 58 | 400 |
а. скільки студентів високого рівня тривожності, як очікується, будуть мати високу потребу в успіху в школі?
- Відповідь
-
Рішення 11.10
а Загальна кількість стовпців для високого рівня тривожності становить 57. Загальна кількість рядів для високої потреби досягти успіху в школі становить 155. Розмір вибірки або загальна кількість опитаних становить 400.
E=( row total )( column total ) total surveyed =155⋅57400=22.09
Очікувана кількість учнів, які мають високий рівень тривожності та високу потребу в досягненні успіху в школі, становить близько 22.
б Якщо дві змінні є незалежними, скільки студентів ви очікуєте мати низьку потребу в успіху в школі та середньо-низький рівень тривожності?
- Відповідь
-
Рішення 11.10
б Загальна кількість стовпців для середньо-низького рівня тривожності становить 63. Загальна кількість рядків для низької потреби досягти успіху в школі становить 52. Розмір вибірки або загальна кількість опитаних становить 400.
c.E=( row total )( column total ) total surveyed = ________
- Відповідь
-
Рішення 11.10
c.E=( row total )( column total ) total surveyed =8.19
d Очікувана кількість учнів, які мають середньо-низький рівень тривожності та низьку потребу в досягненні успіху в школі, становить близько ________.
- Відповідь
-
Рішення 11.10
д. 8