8: Площа Чі

Last updated
Save as PDF

Page ID: 97428

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

У розділі 5 була розроблена теорія висновків для категоріальних даних, заснована на біноміальному розподілі. Нагадаємо, що біноміальний розподіл показує ймовірність можливого числа успіхів у вибірці розміру n, коли було тільки два можливих незалежних результату: успіх і невдача. Що станеться, якщо існує більше двох можливих результатів?

Розглянемо наступні три питання.

Чи генерує калькулятор TI 84 рівні числа 0-9 при використанні генератора випадкових цілих чисел?
Робити щось щодо зміни клімату було викликом для людства. На веб-сайті Edge.Org була одна пропозиція, висунута Лі Смоліном, фізиком Інституту периметра та автором книги «Час відродження». (www.edge.org/розмова/дель... операція/ #rc 30 листопада 2013 р.) Суть пропозиції полягає в тому, що податок на вуглець повинен бути розміщений на весь вуглець, який використовується, але замість грошей, що надходять до уряду, він надходить на індивідуальні кліматичні пенсійні рахунки. У кожної людини був би такий рахунок. Кожен рахунок матиме дві категорії можливих інвестицій, які може вибрати фізична особа. Інвестиції категорії А полягають у речах, які пом'якшать зміни клімату (наприклад, сонячна енергія, вітер тощо). Інвестиції категорії B були б у речах, які могли б зробити добре, якщо зміни клімату не відбуватимуться (наприклад, комунальні послуги, які спалюють вугілля, прибережні розробки нерухомості та автомобільні компанії, які не виробляють економічні палива або електромобілі). Чи існує взаємозв'язок між думкою людини про зміну клімату та вибором інвестицій?
Урагани відносяться до категорії 1,2,3,4,5. Чи відрізняється розподіл ураганів у 1951- 2000 роках, ніж це було в 1901-1950 роках?

Перш ніж зробити аналіз, необхідно зрозуміти тип даних, які збираються для кожного з цих питань.

У питанні 1 дані, які будуть зібрані, - це цифри 0, хоча 9. Хоча числа, як правило, вважаються кількісними, в цьому випадку ми просто хочемо знати, якщо калькулятор виробляє кожне конкретне число. Тому мова йде насправді про частоту, з якою ці цифри виробляються. Якщо процес, який використовується калькулятором, досить випадковий, то частоти для всіх чисел повинні бути рівними, якщо береться досить велика вибірка. Таким чином, незважаючи на те, що це кількісні дані, це насправді категоричні дані, з 10 різними категоріями і даними, що число було вибрано.

У питанні 2 уявіть собі опитування з двома питаннями, в якому люди задаються:

Чи вважаєте ви, що зміни клімату відбуваються через те, що люди використовують джерела вуглецю, які призводять до збільшення парникових газів? Так Ні
Що з наведених нижче найбільш уважно представляє вибір, який ви зробили б для ваших індивідуальних інвестицій в пенсійний рахунок клімату? Категорія A Категорія B

На це питання існує одна популяція. Кожна людина, яка приймає опитування, надасть дві відповіді. Мета полягає в тому, щоб визначити, чи існує кореляція між їхньою думкою про зміну клімату та їх інвестиційним вибором. Альтернативний спосіб сказати це те, що дві змінні або незалежні один від одного, а це означає, що одна відповідь не впливає на іншу, або вони не є незалежними, а це означає, що думка щодо зміни клімату та інвестиційна стратегія пов'язані.

У питанні 3 є дві популяції. Перша популяція - урагани в 1901-50 роках, а друга популяція - урагани в 1951-2000 роках. Існує 5 категорій ураганів, і мета полягає в тому, щоб побачити, чи розподіл ураганів у цих категоріях однаковий чи різний.

Задачі підходять до одного з наступних класів завдань, по порядку: доброзичливість придатності, тест на незалежність і тест на однорідність. Використання цих проблем і їх гіпотези наведені нижче.

Goodness of Fit Тест

на доброту придатності використовується, коли категорична випадкова величина з більш ніж двома рівнями має очікуваний розподіл.

\(H_0\): Розподіл такий же, як очікувалося

\(H_1\): Розподіл відрізняється від очікуваного
Тест на

незалежність Тест на незалежність використовується, коли для однієї одиниці (або людини) є дві категоричні випадкові величини і мета полягає у визначенні кореляції між ними.

\(H_0\): Дві випадкові величини є незалежними (немає кореляції)

\(H_1\): Дві випадкові величини не є незалежними (кореляція)

Якщо дані є значними, ніж знання значення однієї з випадкових величин збільшує ймовірність пізнання значення іншої випадкової величини порівняно з випадковою.
Тест на однорідність
Тест на однорідність використовується, коли є зразки, взяті з двох (або більше) популяцій з метою визначити, чи є розподіл однієї випадкової величини подібним або різним у двох популяціях.

\(H_0\): Дві популяції однорідні

\(H_1\): дві популяції неоднорідні

Оскільки всі проблеми мають дані, які можна підрахувати рівно один раз, стратегія полягає в тому, щоб визначити, чим відрізняється розподіл рахунків від очікуваного розподілу. При аналізі всіх цих завдань використовується одна і та ж тестова статистика формула, яка називається\(chi ^2\) (Chi Square).
\[\chi^2 = \sum \dfrac{(O - E)^2}{E}\]
Розподіл, який використовується для перевірки гіпотез, - це сукупність\(chi ^2\) розподілів. Ці дистрибутиви позитивно перекошені. Вони не можуть бути негативними. Кожен розподіл заснований на кількості ступенів свободи. На відміну від t розподілів, в яких ступені свободи базувалися на розмірі вибірки\(chi ^2\), у випадку, ступеня свободи базуються на кількості рівнів випадкової величини (ів).

Наступні дистрибутиви показують 10 000 зразків розміром n = 100, в яких\(chi ^2\) тестова статистика обчислюється і графікується. Числа ступенів свободи в цих чотирьох графах - 1,2,5 і 9.

2019-05-17 1.50.05.пнг

Зверніть увагу, як розподіл Chi Square стає менш перекошеним і наближається до нормального розподілу, коли кількість ступенів свободи збільшується. Збільшення кількості ступенів свободи відповідає збільшенню кількості рівнів пояснювального фактора. Спосіб знаходження ступенів свободи відрізняється за добротою придатності тесту порівняно з тестом на незалежність та тестом на однорідність. Кожен спосіб буде пояснений по черзі.

Тест на доброту придатності

1. Чи генерує калькулятор TI 84 рівні числа 0-9 при використанні генератора випадкових цілих чисел?

У цьому експерименті 12 чисел між 1 і 100 були випадковим чином генеруються калькулятором TI 84. Ці 12 чисел були використані як значення насіння. Після висіву калькулятора з кожним номером 10 нових чисел від 0 до 9 були згенеровані випадковим чином за допомогою функції randint на калькуляторі. Таким чином, було вироблено загалом 120 номерів між 0 і 9. Частота цих чисел показана в таблиці нижче.

0	1	2	3	4	5	6	7	8	9
15	11	12	14	10	14	10	11	14	9

Гіпотези, що підлягають перевірці, такі:

\(H_0\): Спостережувана частота клітин дорівнює очікуваній частоті клітин для всіх клітин

\(H_1\): Спостережувана частота клітин не дорівнює очікуваній частоті клітин принаймні для однієї клітини. Використовуйте рівень значущості 0,05

Це можна уявити символічно як

\(H_0\):\(o_1 = \epsilon_1\) для всіх осередків

\(H_1\): принаймні\(o_1 \ne \epsilon_1\) для однієї клітинки

де - грецька буква omicron у нижньому регістрі, яка представляє спостережувану частоту клітин у базовій популяції, а ε - грецька буква епсилон у нижньому регістрі, яка представляє очікувану частоту клітин. Очікувана частота клітин завжди повинна бути 5 або вище. Якщо це не так, клітини слід перегрупувати.

У таблиці вище показані спостережувані частоти, але які очікувані частоти? Теоретично, якщо процес дійсно випадковий, то кожне число відбувалося б з однаковою частотою, якби вибірка була зроблена дуже велика кількість разів. Якщо це так, то в вибірці розміром 120, з 10 можливими альтернативами, очікувана кількість частот для кожної альтернативи має бути 12. З таблиці ми бачимо, що більшість частот не 12, але потрібен спосіб визначити, чи достатньо кількості варіацій, щоб припустити, що спостережувані частоти не дорівнюють очікуваним частотам. Такий висновок мав би на увазі, що калькулятор не виробляє воістину випадковий набір чисел. Стратегія полягає в тому, щоб знайти,\(\chi^2\) а потім використовувати відповідний\(\chi^2\) розподіл, щоб знайти p-значення. Один із способів знайти\(\chi^2 = \sum \dfrac{(O - E)^2}{E}\) - це таблиця.

Спостерігається	Очікуваний	О - Е	\((O - E)^2\)	\(\dfrac{(O - E)^2}{E}\)
15	12	3	\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; "> 9	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\dfrac{9}{12}\)
11	12	-1	\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; "> 1	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\dfrac{1}{12}\)
12	12	0	\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; "> 0	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\dfrac{0}{12}\)
14	12	2	\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; "> 4	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\dfrac{4}{12}\)
10	12	-2	\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; "> 4	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\dfrac{4}{12}\)
14	12	2	\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; "> 4	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\dfrac{4}{12}\)
10	12	-2	\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; "> 4	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\dfrac{4}{12}\)
11	12	-1	\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; "> 1	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\dfrac{1}{12}\)
14	12	2	\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; "> 4	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\dfrac{4}{12}\)
9	12	-3	\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; "> 9	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\dfrac{9}{12}\)
			\ ((O - E) ^2\)» style="вертикальне вирівнювання: середина; ">	\ (\ dfrac {(O - E) ^2} {E}\)» style="вертикальне вирівнювання: середина; ">\(\chi^2 = \dfrac{40}{12} = 3.33\)

Якщо r являє собою кількість рядків, то число ступенів свободи в тесті добра придатності дорівнює:

дф = р — 1.

Для цього тесту на доброту придатності є 10 рядків даних. Отже, існує 9 ступенів свободи.

Значення p для\(\chi^2\) можна знайти за допомогою таблиці розподілів Chi Square в кінці цієї глави або вашого калькулятора.

Розподіли Chi-Square також можуть бути використані для пошуку p-значення. Використовуючи таблицю нижче, знайдіть ступінь свободи в лівому стовпчику, знайдіть\(\chi^2\) значення в рядку, потім перейдіть до рядка, який показує область праворуч, і використовуйте знак нерівності, щоб показати p-значення. Якщо p-значення більше\(\alpha\), то використовуйте символ більше ніж. Якщо він менше α, використовуйте символ менше ніж, але в будь-якому випадку використовуйте якомога більше точності. Наприклад, якщо α дорівнює 0,05, а площа праворуч менше 0,025, то p < 0,025 є кращим, ніж p < 0,05.

У цьому прикладі,\(\chi^2\) = 3.33, є 9 ступенів свободи, тому p-значення > 0,9.

2019-05-17 2.03.02.PNG

\(\chi^2 = 3.33\)

Використання\(\chi^2\) cdf (низький, високий, df) в калькуляторі TI 84 призводить\(\chi^2\) до cdf (3.33, 1E99,9) = 0.9496.

Так як це p-значення явно вище 0,05, то висновок можна записати:

На рівні 5% значущості спостережувані значення осередків істотно не відрізняються від очікуваних значень осередків (\(\chi^2\)= 3,33, p = 0,9496, df = 9). Калькулятор TI84, здається, дає хороший набір випадкових цілих чисел.

У випадку з калькулятором, якщо він є випадковим у генерації чисел, ми очікуємо однакову кількість значень у кожній категорії. Тобто, ми очікуємо отримати однакову кількість 0 с, 1s, 2s тощо Оскільки вибірка складалася з 120 випробувань з 10 можливостями для кожного результату, очікуване значення становить 12, оскільки 120 ділиться на 10, дорівнює 12. Але що буде, якщо очікуваний результат у всіх випадках не однаковий?

Восени 2013 року наш коледж складався з 54% кавказьких, 14% латиноамериканців, 11% афроамериканців, 10% азіатських/тихоокеанських островів, 1% корінних американців, 3% міжнародних та 7% інших. Якби ми хотіли визначити, чи расово-етнічне розподіл учнів статистики відрізняється від всієї школи, ми могли б взяти опитування студентів статистики, щоб отримати спостережувані дані. Наведена нижче таблиця містить гіпотетичні спостережувані дані. Оскільки у вибірці 300 студентів, і на основі зарахування до коледжу 54% студентського тіла є білим, то очікувана кількість студентів у класі, які є білими, виявляється множенням 300 разів 0,54. Один і той же підхід застосовується для кожної гонки. Це показано в таблиці. Зверніть увагу, що загальна сума в очікуваному стовпці така ж, як у спостережуваному стовпці.

Раса/етнічна приналежність	Спостерігається	Очікуваний
Кавказська/білий (54%)	154	0.54 (300) = 162
Іспанська/латиноамериканська (14%)	48	0.14 (300) = 42
Африканський американський/чорний (11%)	36	0.1 (300) = 33
Сианський/тихоокеанський житель (10%)	35	0,10 (300) = 30
Інший американець (1%)	6	0,01 (300) = 3
У міжнародному (33%)	9	0.03 (300) = 9
Інші типи розміщення (7%)	12	0.07 (300) = 21
Всього	300	Всього 300

Залишок добра fit тест робиться так само, як і на прикладі калькулятора і не буде продемонстрований тут.

Тест на незалежність Chi Square

Тест площі Чі на незалежність використовується, коли дослідник хоче визначити зв'язок між двома категоріальними випадковими величинами, зібраними на одній одиниці (або людині). Зразки питань включають:

Чи існує зв'язок між релігійною приналежністю людини та її політичними партійними уподобаннями?
Чи існує зв'язок між готовністю людини їсти генетично інженерну їжу та їх готовністю використовувати генно-інженерні ліки?
Чи існує зв'язок між сферою навчання для випускника коледжу та їх здатністю критично мислити?
Чи існує взаємозв'язок між якістю сну, який людина отримує, і їх ставленням протягом наступного дня?

Як приклад, ми дізнаємося механіку тесту на незалежність на гіпотетичному прикладі відповідей на два питання про зміну клімату та інвестиції.

Чи вважаєте ви, що зміни клімату відбуваються через те, що люди використовують джерела вуглецю, які призводять до збільшення парникових газів? Так Ні
Що з наведених нижче найбільш уважно представляє вибір, який ви зробили б для ваших індивідуальних інвестицій в пенсійний рахунок клімату? Категорія A Категорія B

Категорія A — сонячна, вітрова Категорія B - Вугілля, розвиток океану

\(H_0\): Дві випадкові величини є незалежними (без кореляції)
\(H_1\): Дві випадкові величини не є незалежними (кореляція)

Це також може бути зображено символічно як

\(H_0: o_1 = \epsilon_1\)для всіх клітин принаймні
\(H_1: o_1 \ne \epsilon_1\) для однієї клітинки,
де\(o\) є нижньою грецькою літерою omicron, яка представляє спостережувану частоту клітин в основній популяції і\(\epsilon\) є нижнім регістр грецька буква епсилон, яка представляє очікувану клітинку частоти. Очікувана частота клітин завжди повинна бути 5 або вище. Якщо це не так, клітини слід перегрупувати.

Використовуйте рівень значущості 0,05.

Оскільки це буде зроблено з даними прикиду, корисно буде зробити це двічі, щоразу роблячи протилежні висновки.

Дані будуть представлені в таблиці непередбачених ситуацій 2 х 2.

Версія 1 Спостерігається	Так - люди сприяють зміні клімату	Ні - люди не сприяють зміні клімату	Підсумки
Інвестиції категорії А (вітрові, сонячні)	56	54
Категорія B Інвестиції (вугілля, розвиток берегів океану)	47	43
Всього

Тест на незалежність використовує ту ж формулу, що і добротність тесту на придатність. \(\chi^2 = \sum \dfrac{(O - E)^2}{E}\). На відміну від цього тесту, немає чіткого вказівки на те, які очікувані значення. Замість цього вони повинні бути розраховані, що являє собою чотириступінчастий процес.

Крок 1, Знайдіть підсумки рядків та стовпців та загальну суму.

Версія 1 Спостерігається	Так - люди сприяють зміні клімату	Ні - люди не сприяють зміні клімату	Підсумки
Інвестиції категорії А (вітрові, сонячні)	56	54	110
Категорія B Інвестиції (вугілля, розвиток берегів океану)	47	43	90
Всього	103	97	200

Крок 2. Створіть нову таблицю для очікуваних значень. Процес міркування для обчислення очікуваних значень полягає в тому, щоб спочатку розглянути частку всіх значень, які потрапляють в кожен стовпець. У першому стовпці є 103 значення з 200, що є\(\dfrac{}{} = 0.515\). У другій колонці є 97 з 200 значень (0,485). Оскільки 51,5% значень знаходяться в першому стовпці, то можна було б очікувати, що 51,5% значень першого рядка також буде в першому стовпці. Таким чином, 0,515 (110) дає очікуване значення 56,65. Аналогічним чином, 0.485 (90) дасть очікуване значення 43.65 для останньої комірки. Як формула це може бути виражено у вигляді

\[\dfrac{Column\ Total}{Grand\ Total} \cdot Row\ Total\]

Версія 1 Спостерігається	Так - люди сприяють зміні клімату	Ні - люди не сприяють зміні клімату	Підсумки
Інвестиції категорії А (вітрові, сонячні)	\(\dfrac{103}{200} \cdot 110 = 56.65\)	\(\dfrac{97}{200} \cdot 110 = 53.35\)	110
Категорія B Інвестиції (вугілля, розвиток берегів океану)	\(\dfrac{103}{200} \cdot 90 = 46.35\)	\(\dfrac{97}{200} \cdot 110 = 43.65\)	90
Всього	103	97	200

Крок 3. Використовуйте таблицю, подібну до тієї, яка використовується в тесті Goodness of Fit для обчислення площі Чі.

Спостерігається	Очікуваний	\(O - E\)	\((O - E)^2\)	\(\dfrac{(O - E)^2}{E}\)
56	56.65	-0.65	0,4225	0,0075
54	53.35	0,65	0,4225	0.0079
47	46.35	0,65	0,4225	0,0091
43	43.65	-0.65	0,4225	0,0097
				\(\chi^2 = 0.0342\)

Крок 4. Визначте ступені свободи і знайдіть p-значення

Якщо R - кількість рядків у таблиці непередбачених обставин, а C - кількість стовпців у таблиці непередбачених обставин, то кількість ступенів свободи для тесту на незалежність визначається як

дф = (Р - 1) (С - 1).

Для таблиці непередбачених ситуацій 2 х 2, наприклад, у цій задачі, існує лише 1 ступінь свободи, оскільки (2-1) (2-1) = 1.

Значення p для\(\chi^2\) можна знайти за допомогою таблиці або калькулятора.

У таблиці знаходимо 0.034 в рядку з 1 ступенем свободи, потім рухаємося вгору до рядка для області праворуч. Оскільки площа праворуч більше 0,05, а точніше більше 0,1, то p-значення записується як p > 0,1.

2019-05-17 2.34.09.пнг

На калькуляторі використовуйте\(\chi^2\) cdf (низький, високий, df). В даному випадку\(\chi^2\) cdf (0,0342, 1Е99, 1) = 0,853.

Оскільки дані не є суттєвими, ми робимо висновок, що інвестиційна стратегія людей не залежить від їхньої думки про внесок людини в зміну клімату.

Версія 2 цієї проблеми використовує наступну таблицю непередбачених ситуацій.

Версія 2 Спостерігається	Так - люди сприяють зміні клімату	Ні - люди не сприяють зміні клімату	Підсумки
Інвестиції категорії А (вітрові, сонячні)	80	30
Категорія B Інвестиції (вугілля, розвиток берегів океану)	30	60
Всього

Цього разу вся задача буде розрахована за допомогою калькулятора TI 84 замість побудови таблиць, які використовувалися у версії 1.

Крок 1. Матриця
Крок 2. Зробіть 1: [A] у матрицю 2 x 2, вибравши пункт Редагувати Enter, а потім змінити R x C за необхідності. Крок 3. Введіть частоти так, як вони наведені в таблиці.
Крок 4. STAT TESTS\(\chi^2\) − Тест
Спостерігається: [A]
Очікується: [B] (вам не потрібно створювати Очікувану матрицю, калькулятор буде для вас.)
Виберіть Обчислити, щоб побачити результати:
\(\chi^2\) = 31.03764922
p=2.5307155e-8
df=1

При цьому дані значні. Це означає, що існує взаємозв'язок між думкою кожної людини про внесок людини в зміну клімату та вибором інвестицій. Пам'ятайте, що кореляція - це не причинно-наслідковий зв'язок.

Тест Chi квадрат на однорідність

Третя і остання проблема стосується класифікації ураганів в два різних десятиліття, 1901-50 і 1951-2000 рр. Одна теорія про зміну клімату полягає в тому, що урагани можуть погіршити. працювати за допомогою таблиць.

Урагани класифікуються за шкалою ураганного вітру Саффіра-Сімпсона.2

Категорія 1 Постійні вітри 74-95 миль/год
Категорія 2 Постійні вітри 96-110 миль/год
Категорія 3 Постійні вітри 111-129 миль/год
Категорія 4 Постійні вітри 130-156 миль/год
Категорія 5 Постійні вітри 157 або вище.

Урагани 3, 4 і 5 категорії вважаються основними.

Ця проблема буде

Інтерес населення представляє розподіл ураганів за сформованими в той час кліматичними умовами. Гіпотези, що перевіряються, є

\(H_0\): Розподіли однорідні

\(H_1\): Розподіли неоднорідні

Це також може бути зображено символічно як

\(H_0: o_1 = \epsilon_1\)для всіх осередків принаймні
\(H_1: o_1 \ne \epsilon_1\) для однієї клітинки

де\(o\) - нижня грецька буква omicron, яка представляє спостережувану частоту клітин у базовій популяції та\(\epsilon\) є нижньою грецькою літерою epsilon, яка представляє очікувану частоту клітин. Очікувана частота клітин завжди повинна бути 5 або вище. Якщо це не так, клітини слід перегрупувати.

Таблиця непередбачених ситуацій 5 х 2 буде використана для показу частот, які спостерігалися. Очікувані частоти розраховувалися так само, як і при випробуванні на незалежність. (http://www.nhc.noaa.gov/pastdec.shtml переглянуто 12/7/13)

Спостерігається	1901 - 1950	1951 - 2000	Підсумки
1 категорія	37	29	66
Категорія 2	24	15	39
категорія 3	26	21	47
категорія 4	7	5	12
категорія 5	1	2	3
Підсумки	95	72	167

Очікуваний	1901 - 1950	1951 - 2000	Підсумки
1 категорія	37.54	28.46	66
Категорія 2	22.19	16.81	39
категорія 3	26.74	20.26	47
категорія 4	6.83	5.17	12
категорія 5	1.71	1.29	3
Підсумки	95	72	167

Зверніть увагу, що очікувані частоти клітин для ураганів категорії 5 менше 5, тому нам доведеться переробити цю проблему, об'єднавши групи. Група 5 буде об'єднана з групою 4 і будуть надані змінені таблиці.

Спостерігається	1901 - 1950	1951 - 2000	Всього
1 категорія	37	29	66
Категорія 2	24	15	39
категорія 3	26	21	47
Категорія 4 та 5	8	7	15
Всього	95	72	167

Спостерігається	1901 - 1950	1951 - 2000	Всього
1 категорія	37.54	28.46	66
Категорія 2	22.19	16.81	39
категорія 3	26.74	20.26	47
Категорія 4 та 5	8.53	6.47	15
Всього	95	72	167

	Спостерігається	Очікуваний	\(O - E\)	\((O - E)^2\)	\(\dfrac{(O - E)^2}{E}\)
1901 - 50
Категорія 1	37	37.54	-0.54	0,30	0,008
Категорія 2	24	22.19	1.81	3.29	0,148
категорія 3	26	26.74	-0.74	0,54	0,020
Категорія 4 та 5	8	8.53	-0.53	0,28	0,033
1951 - 2000
Категорія 1	29	28.46	0,54	0,30	0,010
Категорія 2	15	16.81	-1.81	3.29	0.196
категорія 3	21	20.26	0,74	0,54	0.027
Категорія 4 та 5	7	6.47	0,53	0,28	0,044
					\(\chi^2 = 0.487\)

Якщо R - кількість рядків у таблиці непередбачених обставин, а C - кількість стовпців у таблиці непередбачених обставин, то кількість ступенів свободи для тесту на однорідність визначається як

дф = (Р-1) (С-1).

Для таблиці непередбачених ситуацій 4\(\times\) 2, як у цій задачі, існує 3 ступеня свободи, оскільки (4-1) (2-1) = 3 ступеня свободи.

2019-05-17 3.00.37.png

У таблиці показано p-значення менше 0,05. Калькулятор підтверджує це тому,\(\chi^2\) що cdf (0.486, 1E99, 3) = 0.9218. Отже, висновок полягає в тому, що немає суттєвої різниці між розподілом ураганів у 1951-2000 роках і 1901-50 роках.

Розмежування використання тесту на незалежність і однорідність

Хоча математика, що стоїть за тестом на незалежність і тест на однорідність, однакові, намір їх використання та інтерпретації результатів відрізняється.

Тест на незалежність використовується, коли для кожної одиниці визначаються дві випадкові величини, обидві з яких вважаються змінними відгуку. Тест на однорідність використовується, коли однією з випадкових величин є пояснювальна величина і суб'єкти вибираються виходячи з їх рівня цієї змінної. Інша випадкова величина - це змінна відповіді.

Визначення того, який тест використовувати, встановлюється підходом відбору проб. Якщо заздалегідь чітко визначені дві популяції і проводиться випадковий відбір з кожної популяції, то популяції будуть порівнюватися за допомогою тесту на однорідність. Якщо не докладено зусиль, щоб заздалегідь розрізнити популяції, і з цієї популяції проводиться випадковий вибір, а потім визначаються значення двох випадкових величин, тест на незалежність є доречним.

Приклад може прояснити тонку різницю між двома тестами. Розглянемо одну випадкову величину, щоб бути перевагою людини між бігом і плаванням для фізичних вправ, а іншу випадкову величину - перевагу людини між переглядом телевізора або читанням книги. Якщо дослідник випадковим чином вибирає деяких бігунів і деяких плавців і запитує кожну групу про їх перевагу телевізору або читання книги, тест на однорідність буде доречним. З іншого боку, якщо дослідник опитування випадково відібраних людей і запитує, чи вони віддають перевагу бігу чи плаванню, і якщо вони віддають перевагу телевізору чи читанню, то метою буде визначити, чи існує кореляція між цими двома випадковими величинами за допомогою тесту на незалежність.

Chi - Квадратні розподіли
Зона ліворуч	0,005	0,01	0,025	0,05	0.1	0.9	0,95	0,975	0,99	0,995
Область праворуч	0,995	0,99	0,975	0,95	0.9	0.1	0,05	0,025	0,01	0,005
дф
1	0.000	0.000	0,001	0,004	0,016	2.706	3.841	5.024	6.635	7,879
2	0,010	0,020	0,051	0.103	0.211	4.605	5.991	7.378	9.210	10.597
3	0.072	0,115	0,216	0,352	0,584	6.251	7.815	9.348	11.345	12.838
4	0,207	0,287	0,484	0,711	1.064	7.779	9.488	11.143	13.277	14 860
5	0,412	0,554	0,831	1.145	1.610	9.236	11.070	12.832	15.086	16.750
6	0.676	0,872	1.237	1,635	2.204	10.645	12.592	14.449	16.812	18 548
7	0,989	1.239	1,690	2.167	2.833	12.017	14.067	16.013	18.475	20.278
8	1,344	1,647	2.180	2.733	3 490	13.362	15.507	17.535	20.090	21.955
9	1.735	2.088	2.700	3.325	4.168	14.684	16.919	19.023	21.666	23.589
10	2.156	2.558	3.247	3.940	4.865	15.987	18.307	20.483	23.209	25.188
11	2.603	3.053	3.816	4.575	5.578	17.275	19.675	21.920	24.725	26.757
12	3.074	3.571	4.404	5.226	6.304	18.549	21.026	23.337	26.217	28.300
13	3.565	4.107	5.009	5.892	7.041	19.812	22.362	24.736	27.688	29.819
14	4.075	4.660	5.629	6.571	7.790	21/064	23.685	26.119	29.141	31.319
15	4.601	5.229	6.262	7.261	8.547	22.307	24.996	27.488	30.578	32.801
16	5.142	5 812	6.908	7,962	9.312	23.542	26.296	28.845	32.000	34.267
17	5.697	6.408	7.564	8.672	10.085	24.769	27.587	30.191	33.409	35.718
18	6.265	7.015	8.231	9.390	10,865	25.989	28.869	31.526	34.805	37.156
19	6.844	7.633	8.907	10.117	11 651	27.204	30.144	32.852	36.191	38.582
20	7.434	8.260	9.591	10.851	12.443	28.412	31.410	34.170	37.566	39.997
21	8.034	8.897	10.283	11.591	13.240	29.615	32.671	35.479	38.932	41.401
22	8.643	9.542	10,982	12.338	14.041	30.813	33.924	36.781	40.289	42.796
23	9.260	10.196	11.689	13.091	14 848	32.007	35.172	38.076	41.638	44.181
24	9.886	10.856	12.401	13 848	15.659	33.196	36.415	39.365	42.980	45.558
25	10.520	11.524	13.120	14.611	16.473	34.382	37.652	40.646	44.314	46.928
26	11.160	12.198	13,844	15.379	17.292	35.563	38.885	41.923	45.642	48.290
27	11.808	12.878	14.573	16.151	18.114	36.741	40.113	43.195	46.963	49.645
28	12.461	13,565	15.398	16.928	18.939	37.916	41.337	44.461	48.278	50.994
29	13.121	14.256	16.047	17.708	19.768	39.087	42.557	45.722	49.588	52.335
30	13,787	14,953	16.791	18 493	20.599	40.256	43.773	46.979	50.892	53.672
40	20.707	22.164	24.433	26.509	29.051	51.805	55.758	59.342	63.691	66.766
50	27.991	29.707	32.357	34.764	37.689	63.167	67.505	71.420	76.154	79.490
60	35.534	37.485	40.482	43.188	46.459	74.397	79.082	83.298	88.379	91.952
70	43.275	45.442	48.758	51.739	55.329	85.527	90.531	95.023	100.425	104.215
80	51.172	53.540	57.153	60.391	64.278	96.578	101.879	106.629	112.329	116.321
90	59.196	61.754	65.647	69.126	73.291	107.565	113,145	118.136	124.116	128.299
100	67.328	70.065	74.222	77.929	82.358	118 498	124.342	129.561	135.807	140.170
110	75.550	78.458	82.867	86.792	91.471	129.385	135.480	140.916	147.414	151.948