14: Чі-квадрат
- Page ID
- 99280
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)
- 14.1: Категорії та таблиці частот
- Наші дані для тесту 2 є категоріальними, конкретно номінальними, змінними. Нагадаємо, що номінальні змінні не мають зазначеного порядку і можуть бути описані тільки їх іменами і частотами, з якими вони зустрічаються в наборі даних. Таким чином, на відміну від інших наших змінних, які ми перевірили, ми не можемо описати наші дані для тесту 2, використовуючи засоби та стандартні відхилення. Замість цього ми будемо використовувати таблиці частот.
- 14.2: Добросо-of-Fit
- Перший з наших двох тестів ² оцінює одну категоричну змінну проти нульової гіпотези однакових частот. Рівні частотні розподіли - це те, що ми очікуємо отримати, якщо категоризація була абсолютно випадковою. Теоретично ми могли б також перевірити конкретний розподіл розмірів категорій, якщо у нас є вагомі підстави (наприклад, ми маємо міцну основу розподілу регулярного населення), але це рідше, тому ми не будемо мати справу з цим у цьому тексті.
- 14.3: ² Статистика
- Розрахунки для нашої тестової статистики в тестах ² поєднують нашу інформацію з наших спостережуваних частот (O) та очікуваних частот (E) для кожного рівня нашої категоріальної змінної. Для кожної осередку (категорії) знаходимо різницю між спостережуваними і очікуваними значеннями, квадратизуємо їх і ділимо на очікувані значення. Потім ми підсумовуємо це значення по клітинам для нашої тестової статистики.
- 14.4: Ананас на піці
- Існує дуже пристрасна і постійна дискусія про те, чи повинен ананас йти на піцу. Будучи об'єктивними, раціональними аналітиками даних, якими ми є, ми будемо збирати емпіричні дані, щоб побачити, чи зможемо ми врегулювати цю дискусію раз і назавжди. Ми збираємо дані від групи дорослих, які запитують просту відповідь Так/Ні.
- 14.5: Таблиці надзвичайних ситуацій для двох змінних
- Тест на правильність придатності є корисним інструментом для оцінки однієї категоріальної змінної. Однак найпоширенішим є бажання знати, чи пов'язані дві категоричні змінні один з одним. Цей вид аналізу схожий на кореляційний, різниця лише в тому, що ми працюємо з номінальними даними, що порушує припущення традиційних коефіцієнтів кореляції. Ось тут і стане в нагоді тест на незалежність ².
- 14.6: Тест на незалежність
- Тест, проведений на непередбачених таблицях, відомий як тест на незалежність. У цьому аналізі ми шукаємо, чи пов'язані значення кожної категоріальної змінної (тобто частота їх рівнів) із значеннями іншої категоріальної змінної або незалежні від них. Оскільки ми все ще робимо тест ², який є непараметричним, у нас досі немає математичних версій наших гіпотез. Фактичні тлумачення гіпотез досить прості.
