Skip to main content
LibreTexts - Ukrayinska

11.4: Випробування на незалежність

  • Page ID
    98304
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Випробування на незалежність припускають використання таблиці непередбачених (даних) значень.

    Статистика тесту на незалежність схожа на статистику тесту на відповідність:

    \[\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\]

    де:

    • \(O =\)спостережувані значення
    • \(E =\)очікувані значення
    • \(i =\)кількість рядків у таблиці
    • \(j =\)кількість стовпців в таблиці

    Існують\(i \cdot j\) терміни форми\(\frac{(O-E)^{2}}{E}\).

    Очікуване значення для кожної клітинки має бути не менше п'яти, щоб ви могли використовувати цей тест.

    Тест на незалежність визначає, чи є два фактори незалежними чи ні. Ви вперше зіткнулися з терміном незалежність у темах ймовірності. В якості огляду розглянемо наступний приклад.

    Приклад\(\PageIndex{1}\)

    Припустимо\(A =\) порушення швидкості в минулому році і користувач\(B =\) стільникового телефону під час руху. Якщо\(A\) і\(B\) є незалежними то\(P(A \text{ AND } B) = P(A)P(B)\). \(A \text{ AND } B\)це подія, коли водій отримав порушення швидкості минулого року, а також використовував мобільний телефон під час руху. Припустимо, в дослідженні водіїв, які отримали порушення швидкості в минулому році, і які користувалися мобільним телефоном під час руху, було обстежено 755 осіб. З 755 70 мали порушення швидкості, а 685 - ні; 305 використовували мобільні телефони під час руху, а 450 - ні.

    Нехай\(y =\) очікувана кількість водіїв, які користувалися мобільним телефоном під час руху і отримали порушення швидкості.

    Якщо\(A\) і\(B\) є незалежними, то\(P(A \text{ AND } B) = P(A)P(B)\). Шляхом підміни,

    \[\frac{y}{755} = \left(\frac{70}{755}\right)\left(\frac{305}{755}\right) \nonumber\]

    Вирішити для\(y\):

    \[y = \frac{(70)(305)}{755} = 28.3 \nonumber\]

    Очікується, що близько 28 осіб із зразка будуть користуватися мобільними телефонами під час руху та отримувати порушення швидкості.

    У тесті на незалежність ми констатуємо нульові та альтернативні гіпотези словами. Оскільки таблиця надзвичайних ситуацій складається з двох факторів, нульова гіпотеза стверджує, що фактори є незалежними, а альтернативна гіпотеза стверджує, що вони не є незалежними (залежними). Якщо ми зробимо тест на незалежність на прикладі, то нульова гіпотеза така:

    \(H_{0}\): Бути користувачем мобільного телефону під час руху та отримання порушення швидкості є незалежними подіями.

    Якби нульова гіпотеза була правдою, ми очікували б, що близько 28 людей використовуватимуть стільникові телефони під час водіння та отримають порушення швидкості.

    Тест на незалежність завжди правохвостий через обчислення тестової статистики. Якщо очікувані та спостережувані значення не близькі один до одного, то тестова статистика дуже велика і виходить у правий хвіст кривої хи-квадрата, оскільки вона знаходиться в добре-of-fit.

    Кількість ступенів свободи для перевірки незалежності становить:

    \[df = (\text{number of columns} - 1)(\text{number of rows} - 1) \nonumber\]

    Наступна формула обчислює очікуване число (\(E\)):

    \[E = \frac{\text{(row total)(column total)}}{\text{total number surveyed}} \nonumber\]

    Вправа\(\PageIndex{1}\)

    Береться вибірка з 300 учнів. З опитаних студентів 50 були музичними студентами, а 250 - ні. Дев'яносто сім були на почесному рулоні, тоді як 203 - ні. Якщо ми припускаємо, що бути музичним студентом і бути на почесному рулоні - це незалежні події, яка очікувана кількість музичних студентів, які також знаходяться на почесному рулоні?

    Відповідь

    Очікується, що близько 16 студентів будуть музичними студентами і на почесному рулоні.

    Приклад\(\PageIndex{2}\)

    У волонтерській групі дорослі 21 і старше добровільно від однієї до дев'яти годин щотижня проводять час з інвалідом старшого громадянина. Програма набирає серед студентів коледжів громади, чотирирічних студентів коледжів та нестудентів. У таблиці\(\PageIndex{1}\) наведено вибірку дорослих добровольців та кількість годин, які вони волонтерські на тиждень.

    Таблиця\(\PageIndex{1}\): Кількість годин, відпрацьованих на тиждень за типом волонтера (спостерігається). Таблиця містить спостережувані (O) значення (дані).
    Тип волонтера 1-3 Години 4—6 годин 7—9 годин Загальна кількість рядків
    Студенти громадських коледжів 111 96 48 255
    Чотирирічні студенти коледжу 96 133 61 290
    Нестуденти 91 150 53 294
    Колонка Всього 298 379 162 839

    Чи кількість годин волонтерів незалежна від типу волонтера?

    Відповідь

    Спостережувана таблиця та питання в кінці проблеми: «Чи є кількість годин добровольців незалежними від типу волонтера?» скажу вам, що це перевірка на незалежність. Два фактори - це кількість годин добровольців та тип волонтера. Цей тест завжди правохвостий.

    • \(H_{0}\): Кількість годин волонтерів не залежить від типу волонтера.
    • \(H_{a}\): Кількість годин волонтерів залежить від типу волонтера.

    Очікувані результати наведені в табл\(\PageIndex{2}\).

    Таблиця\(\PageIndex{2}\): Кількість годин, відпрацьованих на тиждень за типом волонтера (очікується). Таблиця містить очікувані (\(E\)) значення (дані).
    Тип волонтера 1-3 Години 4-6 годин 7-9 годин
    Студенти громадських коледжів 90.57 115.19 49.24
    Чотирирічні студенти коледжу 103.00 131.00 56.00
    Нестуденти 104.42 132.81 56.77

    Наприклад, обчислення очікуваної частоти для верхньої лівої комірки

    \[E = \frac{(\text{row total})(\text{column total})}{\text{total number surveyed}} = \frac{(255)(298)}{839} = 90.57 \nonumber\]

    Розрахувати статистику тесту:\(\chi^{2} = 12.99\) (калькулятор або комп'ютер)

    Розподіл для тесту:\(\chi^{2}_{4}\)

    \[df = (3 \text{ columns} – 1)(3 \text{ rows} – 1) = (2)(2) = 4 \nonumber\]

    Графік:

    Несиметрична хі-квадратна крива зі значеннями 0 та 12,99 на осі x, що представляє тестову статистику кількості годин, відпрацьованих добровольцями різних типів. Вертикальна лінія вгору простягається від 12,99 до кривої і площа праворуч від неї дорівнює p-значенню.
    Малюнок\(\PageIndex{1}\).

    Виклад ймовірності:\(p\text{-value} = P(\chi^{2} > 12.99) = 0.0113\)

    Порівняйте\(\alpha\) і\(p\text{-value}\): Оскільки не дано\(\alpha\), припустимо\(\alpha = 0.05\). \(p\text{-value} = 0.0113\). \(\alpha > p\text{-value}\).

    Прийміть рішення: З тих пір\(\alpha > p\text{-value}\), відхилити\(H_{0}\). Це означає, що фактори не є самостійними.

    Висновок: На рівні 5% значущості, з даних, є достатньо доказів, щоб зробити висновок, що кількість годин добровольця та тип волонтера залежать один від одного.

    Наприклад, у таблиці, якби був інший тип волонтерів, підлітки, якими були б ступені свободи?

    ВИКОРИСТАННЯ КАЛЬКУЛЯТОРА TI-83, 83+, 84, 84+

    Натисніть клавішу MATRX і стрілку над EDIT. Натисніть 1: [A]. Натисніть 3 ENTER 3 ENTER. Введіть значення таблиці по рядках з таблиці. Натискаємо ENTER після кожного. Натисніть 2nd QUIT. Натисніть STAT і стрілка до ТЕСТІВ. Стрілка вниз до C: 2-тест. Натисніть клавішу ENTER. Ви повинні побачити Спостерігається: [A] і Очікуваний: [B]. При необхідності використовуйте клавіші зі стрілками для переміщення курсора після Спостерігається: і натисніть 2nd MATRX. Натисніть 1: [A], щоб вибрати матрицю A. Не потрібно вводити очікувані значення. Матриця, зазначена після Очікувана:, може бути порожньою. Стрілка вниз для обчислення. Натисніть клавішу ENTER. Тестова статистика дорівнює 12.9909, а p -значення = 0,0113. Виконайте процедуру вдруге, але стрілка вниз, щоб малювати замість обчислення.

    Вправа\(\PageIndex{2}\)

    Бюро статистики праці збирає дані про зайнятість в Сполучених Штатах. Вибірка береться для обчислення кількості громадян США, які працюють в одному з декількох галузей промисловості з плином часу. Таблиця\(\PageIndex{3}\) показує результати:

    Таблиця\(\PageIndex{3}\)
    Галузь промисловості 2000 2010 2020 Всього
    Заробітна плата та зарплата в несільському 13 243 13 044 15 018 41 305
    Продукція, що виробляє, за винятком сільського господарства 2 457 1 771 1 950 6 178
    Надання послуг 10 786 11 273 13 068 35 127
    Сільське, лісове господарство, рибальство та мисливство 240 214 201 655
    Несільськогосподарський самозайнятий та неоплачуваний сімейний працівник 931 894 972 2 797
    Вторинна заробітна плата та заробітна плата в сільському господарстві та приватних домогосподарствах 14 11 11 36
    Вторинні робочі місця як самозайнятий або неоплачуваний сімейний працівник 196 144 152 492
    Всього 27 867 27 351 31 372 86 590

    Ми хочемо знати, чи зміна кількості робочих місць не залежить від зміни в роках. Викладіть нульові та альтернативні гіпотези та ступені свободи.

    Відповідь

    • \(H_{0}\): Кількість робочих місць не залежить від року.
    • \(H_{a}\): Кількість робочих місць залежить від року.
    \(df = 12\)
    альт
    Малюнок\(\PageIndex{2}\).

    Натисніть клавішу MATRX і стрілку над EDIT. Натисніть 1: [A]. Натисніть 3 ENTER 3 ENTER. Введіть значення таблиці по рядках. Натискаємо ENTER після кожного. Натисніть 2nd QUIT. Натисніть STAT і стрілка до ТЕСТІВ. Стрілка вниз до c:\(\chi^{2}\) -TEST. Натисніть клавішу ENTER. Ви повинні побачити Спостерігається: [A] і Очікуваний: [B]. Стрілка вниз для обчислення. Натисніть клавішу ENTER. Тестова статистика 227.73 і\(p\text{-value} = 5.90E - 42 = 0\). Виконайте процедуру вдруге, але стрілка вниз, щоб малювати замість обчислення.

    Приклад\(\PageIndex{3}\)

    Коледж Де Анза зацікавлений у взаємозв'язку між рівнем тривожності та необхідністю досягти успіху в школі. Випадкова вибірка з 400 учнів пройшла тест, який вимірював рівень тривожності і потрібно досягти успіху в школі. Таблиця показує результати. Коледж Де Анза хоче знати, чи рівень тривоги та необхідність досягти успіху в школі є незалежними заходами.

    Потреба досягти успіху в школі проти рівня тривоги
    Потрібно досягти успіху в школі Висока
    тривожність
    Мед-висока
    тривожність
    Середня
    тривожність
    Мед-низька
    тривожність
    Низька
    тривожність
    Загальна кількість рядків
    Висока потреба 35 42 53 15 10 155
    Середня потреба 18 48 63 33 31 193
    Низька потреба 4 5 11 15 17 52
    Колонка Всього 57 95 127 63 58 400
    1. Скільки студентів високого рівня тривожності, як очікується, будуть мати високу потребу в успіху в школі?
    2. Якщо дві змінні є незалежними, скільки студентів ви очікуєте мати низьку потребу в успіху в школі та середньо-низький рівень тривожності?
    3. \(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} =\)________
    4. Очікувана кількість учнів, які мають середній низький рівень тривожності та низьку потребу в досягненні успіху в школі, становить близько ________.

    Рішення

    а Загальна кількість стовпців для високого рівня тривожності становить 57. Загальна кількість рядів для високої потреби досягти успіху в школі становить 155. Розмір вибірки або загальна кількість опитаних становить 400.

    \[E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} = \frac{155 \cdot 57}{400} = 22.09\]

    Очікувана кількість учнів, які мають високий рівень тривожності та високу потребу в досягненні успіху в школі, становить близько 22.

    б Загальна кількість стовпців для середньо-низького рівня тривожності становить 63. Загальна кількість рядків для низької потреби досягти успіху в школі становить 52. Розмір вибірки або загальна кількість опитаних становить 400.

    c.\(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} = 8.19\)

    д. 8

    Вправа\(\PageIndex{3}\)

    Поверніться до інформації в Примітці. Скільки робочих місць, що надають послуги, як очікується, буде у 2020 році? Скільки робочих місць із заробітною платою та заробітною платою в сільському господарстві очікується у 2020 році?

    Відповідь

    12 727, 14 965

    Посилання

    1. ДіКаміло, Марк, Мервін Філд, «Більшість каліфорнійців бачать прямий зв'язок між ожирінням та солодкими газованими напоями. Два з трьох виборців підтримують оподаткування цукровими напоями, якщо доходи пов'язані з поліпшенням шкільного харчування та програм фізичної активності». Польовий опитування, випущений 14 лютого 2013 року. Доступний в Інтернеті за адресою field.com/fieldpollonline/sub... rs/Rls2436.pdf (доступ до 24 травня 2013).
    2. Харріс Інтерактив, «Улюблений смак морозива». Доступно в Інтернеті за адресою http://www.statisticbrain.com/favori...r-of-ice-cream (доступ до 24 травня 2013 р.)
    3. «Список наймолодших онлайн-підприємців». Доступно в Інтернеті за адресою http://www.statisticbrain.com/younge...repreneur-list (доступ до 24 травня 2013 р.).

    Рецензія

    Щоб оцінити, чи є два фактори незалежними чи ні, можна застосувати тест на незалежність, який використовує розподіл хі-квадрат. Нульова гіпотеза для цього тесту стверджує, що два фактори є незалежними. Тест порівнює спостережувані значення з очікуваними значеннями. Тест правохвостий. Кожне спостереження або категорія клітин повинні мати очікуване значення не менше 5.

    Огляд формули

    Випробування на незалежність

    • Число ступенів свободи дорівнює\((\text{number of columns - 1})(\text{number of rows - 1})\).
    • Тестова статистика - це місце,\(\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\) де\(O =\) спостерігаються значення,\(E =\)\(i =\) очікувані значення, кількість рядків у\(j =\) таблиці та кількість стовпців у таблиці.
    • Якщо нульова гіпотеза істинна, то очікуване число\(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}}\).

    Визначте відповідний тест, який буде використовуватися в наступних трьох вправах.

    Вправа\(\PageIndex{4}\)

    Фармацевтична компанія зацікавлена у взаємозв'язку між віком та проявом симптомів загальної вірусної інфекції. Випадкова вибірка взята з 500 осіб з інфекцією різних вікових груп.

    Відповідь

    перевірка на незалежність

    Вправа\(\PageIndex{5}\)

    Власник бейсбольної команди зацікавлений у взаємозв'язку між зарплатою гравця та відсотком виграшу команди. Він бере випадкову вибірку з 100 гравців з різних організацій.

    Вправа\(\PageIndex{6}\)

    Марафонця цікавить взаємозв'язок між брендом взуття, що носять бігуни, та часом їх пробігу. Вона бере випадковий зразок з 50 бігунів і записує їх час роботи, а також бренд взуття, яке вони носили.

    Відповідь

    перевірка на незалежність

    Використовуйте наступну інформацію, щоб відповісти на наступні сім вправ: Транзитні залізниці зацікавлені у взаємозв'язку між відстанню подорожі та придбаним класом квитка. Береться випадкова вибірка з 200 пасажирів. Таблиця\(\PageIndex{4}\) показує результати. Залізниця хоче знати, чи вибір пасажира в класі квитка не залежить від відстані, яку вони повинні проїхати.

    Таблиця\(\PageIndex{4}\)
    Відстань подорожі Третій клас Другий клас Перший клас Всього
    1—100 миль 21 14 6 41
    101—200 миль 18 16 8 42
    201—300 миль 16 17 15 48
    301—400 миль 12 14 21 47
    401—500 миль 6 6 10 22
    Всього 73 67 60 200

    Вправа\(\PageIndex{7}\)

    Викладіть гіпотези.

    • \(H_{0}\): _______
    • \(H_{a}\): _______

    Вправа\(\PageIndex{8}\)

    \(df =\)_______

    Відповідь

    8

    Вправа\(\PageIndex{9}\)

    Скільки пасажирів, як очікується, проїдуть між 201 і 300 милями і придбають квитки другого класу?

    Вправа\(\PageIndex{10}\)

    Скільки пасажирів, як очікується, проїдуть між 401 і 500 милями і придбають квитки першого класу?

    Відповідь

    6.6

    Вправа\(\PageIndex{11}\)

    Що таке тестова статистика?

    Вправа\(\PageIndex{12}\)

    Що таке\(p\text{-value}\)?

    Відповідь

    0.0435

    Вправа\(\PageIndex{13}\)

    Що можна зробити висновок на рівні 5% значущості?

    Використовуйте наступну інформацію, щоб відповісти на наступні вісім вправ: Стаття в New England Journal of Medicine, обговорювала дослідження курців у Каліфорнії та Гаваях. В одній частині доповіді були надані самозвітні рівні етнічної приналежності та куріння на день. З людей, які палять не більше десяти сигарет на день, було 9,886 афроамериканців, 2745 корінних гаваїв, 12 831 латиноамериканців, 8,378 японських американців та 7650 білих. З людей, які палять від 11 до 20 сигарет на день, було 6,514 афроамериканців, 3062 корінних гавайських жителів, 4932 латиноамериканців, 10,680 японських американців та 9877 білих. З людей, які палять від 21 до 30 сигарет на день, було 1671 афроамериканців, 1419 корінних гаваїв, 1406 латиноамериканців, 4715 японських американців та 6062 білих. З людей, які палять щонайменше 31 сигарету на день, було 759 афроамериканців, 788 корінних гаваїв, 800 латиноамериканців, 2,305 японських американців та 3970 білих.

    Вправа\(\PageIndex{14}\)

    Доповніть таблицю.

    Таблиця\(\PageIndex{5}\): Рівень куріння за етнічною приналежністю (спостерігається)
    Рівень куріння на день Афро-американець Рідний гавайський Латиноамериканець Японські американці Білий ПІДСУМКИ
    1-10
    11-20
    21-30
    31+
    ПІДСУМКІВ

    Відповідь

    Таблиця\(\PageIndex{5B}\)
    Рівень куріння на день Афро-американець Рідний гавайський Латиноамериканець Японські американці Білий Підсумки
    1-10 9 886 2 745 12 831 8 378 7 650 41 490
    11-20 6 514 3 062 4 932 10 680 9 877 35 065
    21-30 1 671 1 419 1 406 4 715 6 062 15 273
    31+ 759 788 800 2 305 3 970 8 622
    Підсумки 18 830 8 014 19 969 26 078 27 559 10 045

    Вправа\(\PageIndex{15}\)

    Викладіть гіпотези.

    • \(H_{0}\): _______
    • \(H_{a}\): _______

    Вправа\(\PageIndex{16}\)

    Введіть очікувані значення в таблицю. Округлення до двох знаків після коми.

    Обчисліть наступні значення:

    Відповідь

    Таблиця\(\PageIndex{6}\)
    Рівень куріння на день Афро-американець Рідний гавайський Латиноамериканець Японські американці Білий
    1-10 7777.57 3310.11 8248.02 10771.29 11383.01
    11-20 6573.16 2797.52 6970.76 9103.29 9620.27
    21-30 2863.02 1218.49 3036.20 3965.05 4190.23
    31+ 1616.25 687.87 1714.01 2238.37 2365.49

    Вправа\(\PageIndex{17}\)

    \(df =\)_______

    Вправа\(\PageIndex{18}\)

    \(\chi^{2} \text{test statistic} =\)______

    Відповідь

    10 301,8

    Вправа\(\PageIndex{19}\)

    \(p\text{-value} =\)______

    Вправа\(\PageIndex{20}\)

    Це правий, лівохвостий або двохвостий тест? Поясніть чому.

    Відповідь

    правий

    Вправа\(\PageIndex{21}\)

    Графік ситуації. Позначте та масштабуйте горизонтальну вісь. Відзначити середнє значення і перевірити статистику. Відтінок в області, що відповідає\(p\text{-value}\).

    Пустий графік з вертикальною та горизонтальною осями.
    Малюнок\(\PageIndex{3}\).

    Викладіть рішення та висновок (у повному реченні) для наступних упереджених рівнів\(\alpha\).

    Вправа\(\PageIndex{22}\)

    \(\alpha = 0.05\)

    1. Рішення: ___________________
    2. Причина рішення: ___________________
    3. Висновок (випишіть в повному реченні): ___________________

    Відповідь

    1. Відкиньте нульову гіпотезу.
    2. \(p\text{-value} < \alpha\)
    3. Є достатньо доказів, щоб зробити висновок про те, що рівень куріння залежить від етнічної групи.

    Вправа\(\PageIndex{23}\)

    \(\alpha = 0.05\)

    1. Рішення: ___________________
    2. Причина рішення: ___________________
    3. Висновок (випишіть в повному реченні): ___________________

    Глосарій

    Таблиця непередбачених ситуацій
    таблиця, яка відображає вибіркові значення для двох різних факторів, які можуть залежати або залежати один від одного; це полегшує визначення умовних ймовірностей.