17.4: Таблиці надзвичайних ситуацій
- Page ID
- 98233
Цілі навчання
- Створіть нульову гіпотезу, перевірену щодо таблиць над
- Обчислити очікувані частоти комірок
- Обчислити квадрат Чі і\(df\)
У цьому розділі показано, як використовувати квадрат Чі для перевірки співвідношення між номінальними змінними для значущості. Наприклад, у таблиці\(\PageIndex{1}\) наведені дані з тематичного дослідження Середземноморської дієти та здоров'я.
| Результат | |||||
|---|---|---|---|---|---|
| Дієта | Раки | Фатальна хвороба серця | Несмертельні захворювання серця | Здоровий | Всього |
| АГА | 15 | 24 | 25 | 239 | 303 |
| Середземноморський | 7 | 14 | 8 | 273 | 302 |
| Всього | 22 | 38 | 33 | 512 | 605 |
Питання в тому, чи існує значна залежність між дієтою і результатом. Першим кроком є обчислення очікуваної частоти для кожної клітинки на основі припущення, що немає зв'язку. Ці очікувані частоти обчислюються за підсумками наступним чином. Почнемо з обчислення очікуваної частоти для комбінації AHA Diet/Раки. Відзначимо, що у\(22/605\) суб'єктів розвинувся рак Отже, частка, хто розвинув рак, є\(0.0364\). Якби не було взаємозв'язку між дієтою та результатом, то ми б очікували\(0.0364\) від тих, хто на дієті AHA, розвине рак. Оскільки\(303\) суб'єкти були на дієті AHA, ми очікуємо\((0.0364)(303) = 11.02\) раку на дієті AHA. Аналогічно, ми очікували б\((0.0364)(302) = 10.98\) раків на середземноморській дієті. Загалом, очікувана частота для осередку в\(i^{th}\) рядку і\(j^{th}\) стовпці дорівнює
\[E_{i,j} = \frac{T_iT_j}{T}\]
де\(E_{i,j}\) очікувана частота для комірки\(i,j\),\(T_i\) є загальним для\(i^{th}\) рядка,\(T_j\) є загальним для\(j^{th}\) стовпця, і\(T\) загальна кількість спостережень. Для AHA дієти/Раки клітини\(i = 1\),\(j = 1\),\(T_i = 303\),\(T_j = 22\), і\(T = 605\). Таблиця\(\PageIndex{2}\) показує очікувані частоти (в дужках) для кожної комірки в експерименті.
| Результат | |||||
|---|---|---|---|---|---|
| Дієта | Раки | Фатальна хвороба серця | Несмертельні захворювання серця | Здоровий | Всього |
| АГА | 15 (11.02) |
24 (19.03) |
25 (16.53) |
239 (256.42) |
303 |
| Середземноморський | 7 (10,98) |
14 (18.97) |
8 (16.47) |
273 (255.58) |
302 |
| Всього | 22 | 38 | 33 | 512 | 605 |
Тест на значущість проводиться шляхом обчислення площі Чі наступним чином.
\[\chi _{3}^{2} = \sum \frac{(E-O)^2}{E} = 16.55\]
Ступінь свободи дорівнює\((r-1)(c-1)\), де r - кількість рядків і\(c\) кількість стовпців. Для цього прикладу ступені свободи є\((2-1)(4-1) = 3\). Калькулятор Chi Square може бути використаний для визначення того, що значення ймовірності для квадрата Чи\(16.55\) з трьома ступенями свободи дорівнює\(0.0009\). Тому нульова гіпотеза про відсутність зв'язку між дієтою і результатом може бути відкинута.
Ключовим припущенням цього тесту Chi Square є те, що кожен суб'єкт вносить дані лише в одну клітинку. Тому сума всіх частот осередків в таблиці повинна бути такою ж, як і кількість випробовуваних в експерименті. Розглянемо експеримент, в якому кожен з\(16\) випробуваних спробував дві анаграмні завдання. Дані наведені в табл\(\PageIndex{3}\).
| Анаграма 1 | Анаграма 2 | |
|---|---|---|
| Вирішено | 10 | 4 |
| Не вирішила | 6 | 12 |
Недійсним було б використовувати тест Chi Square на цих даних, оскільки кожен суб'єкт вніс дані у дві клітини: одну клітинку на основі їх продуктивності\(\text{Anagram 1}\) та одну комірку на основі їх продуктивності\(\text{Anagram 2}\). Загальна кількість частот осередків в таблиці є\(32\), але загальна кількість випробовуваних тільки\(16\).
Формула для площі Чі дає статистику, яка є лише приблизно розподілом Chi Square. Для того щоб наближення було адекватним, загальна кількість суб'єктів має бути не менше\(20\). Деякі автори стверджують, що виправлення для безперервності слід використовувати щоразу, коли очікувана частота клітин нижче\(5\). Дослідження статистики показали, що така практика недоцільна. Наприклад, див.:
Bradley, D.R., Bradley, T D., McGrath, SG, & Cutcomb, S.D. (1979) Частота помилок типу I тесту на незалежність chi квадрат в таблицях r x c, які мають невеликі очікувані частоти. Психологічний вісник, 86, 1200-1297.
Виправлення безперервності при застосуванні до таблиць\(2 \times 2\) непередбачених ситуацій називається корекцією Йейтса. Моделювання 2 х 2 таблиць дозволяє досліджувати точність наближення і значення цієї корекції.
