Loading [MathJax]/jax/output/HTML-CSS/jax.js
Skip to main content
LibreTexts - Ukrayinska

1.4: Статистика інференційних

Цілі навчання

  • Розрізняють вибірку та сукупність
  • Визначте статистику висновків
  • Визначте упереджені зразки
  • Розрізняють прості випадкові вибірки та стратифіковані вибірки
  • Розрізняють випадкову вибірку та випадкове призначення

Популяції та зразки

У статистиці ми часто покладаємося на вибірку, тобто невелику підмножину більшого набору даних, щоб зробити висновки про більшу множину. Більший набір відомий як сукупність, з якої проводиться вибірка.

Приклад1.4.1

Ви були найняті Національною виборчою комісією, щоб вивчити, як американський народ відчуває справедливість процедур голосування в США Кого ви запитаєте?

Непрактично запитувати кожного американця, як він чи вона відчуває справедливість процедур голосування. Натомість ми запитуємо відносно невелику кількість американців і робимо висновки про всю країну з їхніх відповідей. Американці насправді запитували складають нашу вибірку більшого населення всіх американців. Математичні процедури, за допомогою яких ми перетворюємо інформацію про вибірку в розумні здогадки про населення, підпадають під рубрику інференційної статистики.

Вибірка, як правило, є невеликою підмножиною населення. Що стосується голосування, ми вибрали б кілька тисяч американців, витягнутих із сотень мільйонів, що складають країну. Тому при виборі зразка важливо, щоб він не надмірно представляв один вид громадянина за рахунок інших. Наприклад, щось було б не так з нашим зразком, якби він складався повністю з жителів Флориди. Якби вибірка тримала тільки флоридіанців, її не можна було використовувати для висновку про ставлення інших американців. Така ж проблема виникла б, якби вибірка складалася тільки з республіканців. Інференційна статистика заснована на припущенні, що вибірка є випадковою. Ми довіряємо випадковій вибірці, щоб представляти різні сегменти суспільства в близьких до відповідних пропорцій (за умови, що вибірка досить велика; див. Нижче).

Приклад1.4.2

Ми зацікавлені в дослідженні, скільки математичних класів було прийнято в середньому нинішніми випускниками літніх в американських коледжах і університетах протягом чотирьох років навчання в школі. У той час як наше населення в останньому прикладі включало всіх громадян США, то зараз воно включає лише випускників людей похилого віку по всій країні. Це все ще великий набір, оскільки існують тисячі коледжів та університетів, кожен із яких зараховує багато студентів. (Нью-Йоркський університет, наприклад, зараховує48,000 студентів.) Було б надзвичайно дорого вивчити стенограму кожного старшого коледжу. Тому ми беремо вибірку старших коледжів, а потім робимо висновки для всього населення на основі того, що ми знаходимо. Щоб зробити зразок, ми можемо спочатку вибрати деякі державні та приватні коледжі та університети по всій території Сполучених Штатів. Тоді ми могли б вибірки50 студентів з кожного з цих установ. Припустимо, що середня кількість занять з математики, взятих людьми в нашій вибірці, була3.2. Тоді ми могли б припустити, що3.2 наближається число, яке ми б знайшли, якби у нас були ресурси для вивчення кожного старшого в усьому населенні. Але ми повинні бути обережними щодо можливості того, що наша вибірка не є репрезентативною для населення. Можливо, ми вибрали надлишок математичних спеціальностей, або вибрали занадто багато технічних установ, які мають важкі математичні вимоги. Така погана вибірка робить нашу вибірку нерепрезентативною для населення всіх людей похилого віку.

Щоб зміцнити своє розуміння упередженості вибірки, розглянемо наступний приклад. Спробуйте ідентифікувати популяцію і вибірку, а потім поміркуйте над тим, чи може вибірка дати потрібну інформацію.

Приклад1.4.3

Замінний вчитель хоче знати, як учні в класі зробили на своєму останньому тесті. Викладач просить10 учнів, що сидять у першому ряду, вказати свій останній бал тесту. З їхнього звіту він робить висновок, що клас зробив надзвичайно добре. Що таке зразок? Що таке населення? Чи можете ви визначити будь-які проблеми з вибором зразка так, як це робив викладач?

У1.4.3 прикладі населення складається з усіх учнів у класі. Зразок складається тільки з10 учнів, що сидять в першому ряду. Вибірка, швидше за все, не буде репрезентативною для населення. Ті, хто сидить в першому ряду, як правило, більше цікавляться класом і, як правило, виступають вище на тестах. Значить, вибірка може виступати на більш високому рівні, ніж населення.

Приклад1.4.4

Тренера цікавить, скільки візковихколіс можуть обійтися середні першокурсники коледжу в його університеті. Вісім волонтерів з класу першокурсників крокують вперед. Спостерігаючи за їх виконанням, тренер робить висновок, що першокурсники коледжу можуть робити середню кількість16 візкових коліс поспіль, не зупиняючись.

У1.4.4 прикладі населення - це клас всіх першокурсників вузу тренера. Вибірка складається з8 добровольців. Зразок погано обраний, тому що волонтери, швидше за все, зможуть робити візові колеса, ніж середній першокурсник; люди, які не можуть робити cartwheels, ймовірно, не добровільно! У прикладі нам також не говорять про стать волонтерів. Чи всі вони були жінками, наприклад? Це може вплинути на результат, сприяючи нерепрезентативному характеру вибірки (якщо школа є спільною). Упередженість вибірки обговорюється більш детально тут

Проста випадкова вибірка

Дослідники приймають різноманітні стратегії вибірки. Найпростішим є проста випадкова вибірка. Така вибірка вимагає, щоб кожен член населення мав рівні шанси бути відібраним у вибірку. Крім того, підбір одного члена повинен бути незалежним від відбору кожного іншого члена. Тобто вибір одного члена з популяції не повинен збільшувати або зменшувати ймовірність вибору будь-якого іншого члена (щодо інших). У цьому сенсі можна сказати, що проста випадкова вибірка вибирає зразок за чистою випадковістю. Щоб перевірити своє розуміння простої випадкової вибірки, розглянемо наступний приклад. Що таке населення? Що таке зразок? Вибірка була відібрана простою випадковою вибіркою? Це упереджено?

Приклад1.4.5

Науковий співробітник зацікавлений у вивченні досвіду близнюків, вирощених разом, проти тих, хто піднявся окремо. Вона отримує список близнюків з Національного реєстру близнюків і вибирає дві підмножини осіб для свого дослідження. По-перше, вона вибирає всіх тих в реєстрі, прізвище яких починається зZ. Потім вона звертається до всіх тих, чиє прізвище починається зB. Оскільки існує так багато імен, які починаються зB, однак, наш дослідник вирішує включити лише кожне інше ім'я у свій зразок. Нарешті, вона надсилає опитування та порівнює характеристики близнюків, піднятих окремо, проти разом.

Наприклад1.4.5, населення складається з усіх близнюків, записаних у Національному реєстрі близнюків. Важливо, щоб дослідник робив статистичні узагальнення лише близнюкам у цьому списку, а не всім близнюкам нації чи світу. Тобто Національний реєстр близнюків може бути не представником усіх близнюків. Навіть якщо висновки обмежуються Реєстром, ряд проблем впливає на описану нами процедуру вибірки. Наприклад, вибір лише близнюків, прізвища яких починаються,Z не дає кожній людині рівних шансів бути відібраним у вибірку. Більш того, така процедура ризикує надмірно представити етнічні групи з багатьма прізвищами, які починаються зZ. Є й інші причини, чому вибір тількиZs може змістити зразок. Можливо, такі люди більш терплячі, ніж середні, тому що часто опиняються в кінці рядка! Така ж проблема виникає і при виборі близнюків, прізвище яких починається зB. Додатковою проблемою дляBs є те, що процедура «кожен інший-один» забороняє суміжні імена вB частині списку від обох обраних. Тільки цей дефект означає, що зразок не був сформований за допомогою простої випадкової вибірки.

Розмір вибірки має значення

Нагадаємо, що визначення випадкової вибірки - це вибірка, в якій кожен член населення має рівні шанси бути відібраним. Це означає, що процедура відбору проб, а не результати процедури визначають, що означає для зразка випадковим чином. Випадкові вибірки, особливо якщо розмір вибірки невеликий, не обов'язково є репрезентативними для всієї популяції. Наприклад, якби випадкова вибірка20 суб'єктів була взята з популяції з рівною кількістю чоловіків і жінок, існувала б нетривіальна ймовірність (0.06), що70% або більша частина вибірки буде жіночою. (Щоб побачити, як отримати цю ймовірність, див. розділ про біноміальний розподіл.) Така вибірка не була б репрезентативною, хоча і була б намальована випадковим чином. Тільки великий розмір вибірки робить імовірним, що наша вибірка близька до репрезентативної популяції. З цієї причини інференційна статистика враховує розмір вибірки при узагальненні результатів від вибірки до популяцій. У наступних розділах ви побачите, які математичні методи забезпечують цю чутливість до розміру вибірки.

Більш складний відбір проб

Іноді неможливо побудувати вибірку за допомогою простої випадкової вибірки. Щоб побачити проблему, врахуйте той факт, що і Даллас, і Х'юстон змагаються, щоб бути господарями2012 Олімпіади. Уявіть, що вас найняли, щоб оцінити, чи більшість техасців віддають перевагу Х'юстону Далласу в якості господаря, або навпаки. З огляду на непрактичність отримання думки кожного окремого техасця, необхідно побудувати вибірку населення Техасу. Але тепер зверніть увагу, як важко було б приступити до простого випадкового вибірки. Наприклад, як ви зв'яжетеся з тими особами, які не голосують і не мають телефону? Навіть серед людей, яких ви знайдете в телефонній книзі, як ви можете ідентифікувати тих, хто щойно переїхав до Каліфорнії (і не мав підстав повідомляти вам про свій переїзд)? Що ви робите з тим, що з початку дослідження додаткові4,212 люди зайняли проживання в штаті Техас? Як бачите, розробити по-справжньому випадкову процедуру часом буває дуже складно. З цієї причини були розроблені інші види методів відбору проб. Зараз ми обговоримо два з них.

Випадкове призначення

В експериментальних дослідженнях популяції часто бувають гіпотетичними. Наприклад, в експерименті, який порівнює ефективність нового антидепресантного препарату з плацебо, немає фактичної популяції осіб, які приймають препарат. При цьому визначається вказана популяція людей з деяким ступенем депресії і береться випадкова вибірка з цієї популяції. Потім зразок випадковим чином ділиться на дві групи; одна група призначається за станом лікування (препарат), а інша група призначається до контрольного стану (плацебо). Це випадкове поділ вибірки на дві групи називається випадковим присвоєнням. Випадкове призначення має вирішальне значення для обґрунтованості експерименту. Наприклад, розглянемо упередженість, яка може бути введена, якщо перші20 суб'єкти, які з'явилися на експерименті, були віднесені до експериментальної групи, а другі20 суб'єкти були віднесені до контрольної групи. Цілком можливо, що суб'єкти, які з'являються пізно, мають тенденцію бути більш депресивними, ніж ті, хто з'являється рано, тим самим роблячи експериментальну групу менш депресивною, ніж контрольна група ще до введення лікування.

В експериментальних дослідженнях такого роду нездатність привласнювати суб'єктів випадковим чином групам, як правило, є більш серйозною, ніж наявність невипадкової вибірки. Неможливість рандомізації (колишня помилка) робить недійсними експериментальні висновки. Невипадкова вибірка (остання помилка) просто обмежує узагальнюваність результатів.

Стратифікований відбір проб

Оскільки проста випадкова вибірка часто не забезпечує репрезентативної вибірки, іноді використовується метод вибірки, який називається стратифікованою випадковою вибіркою, щоб зробити вибірку більш репрезентативною для популяції. Цей метод можна використовувати, якщо населення має ряд окремих «верств» або груп. У стратифікованому вибірці ви спочатку визначаєте членів вашого зразка, які належать до кожної групи. Потім ви випадковим чином вибірку з кожної з цих підгруп таким чином, щоб розміри підгруп у вибірці були пропорційні їх розмірам у сукупності.

Візьмемо приклад: Припустимо, вас зацікавили погляди на смертну кару в міському університеті. У вас є час і ресурси для інтерв'ю200 студентів. Організм студента різноманітний щодо віку; багато людей похилого віку працюють вдень і зараховуються на нічні курси (середній вік39), тоді як молодші студенти, як правило, зараховуються до денних класів (середній вік19). Не виключено, що нічні студенти мають різні погляди на смертну кару, ніж денні студенти. Якщо70% з учнів були денні студенти, то має сенс домогтися того, щоб з70% вибірки складалися денні студенти. Таким чином, ваш зразок200 студентів буде складатися з140 денних студентів і60 нічних студентів. Частка денних студентів у вибірці та в населенні (весь університет) була б однаковою. Тому висновки для всього населення студентів в університеті були б більш безпечними.

  • Міккі Хебл і Девід Лейн