13.1.4: Стратифіковані зразки

Last updated
Save as PDF

Page ID: 52639

Bradley H. Dowden
California State University Sacramento

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

Окрім пошуку великої, випадкової, різноманітної вибірки, ви можете покращити свої шанси отримати репрезентативну вибірку, розшарувавши зразок. У прикладі в концепції Перевірка про прийом тестів на наркотики у випадковий час була допущена помилка, тому що багато іншого

водії знаходяться на дорозі о 5 вечора, ніж о 5 ранку Випадкова вибірка за часом буде упередженим на користь водіїв 5 ранку. Щоб усунути цей ухил, метод відбору проб повинен скористатися цими знаннями про те, хто їздить, коли розшаруючи відповідно до часу доби. Наприклад, якщо ви знаєте, що 30 відсотків водіїв перебувають на дорозі з 17:00 до 18:00, а 3% знаходяться в дорозі з 5 ранку до 6 ранку, то переконайтеся, що 30 відсотків відібраних водіїв випадковим чином вибираються з 17:00 до 18:00 і лише 3 відсотки з 5 ранку до 6 ранку. якщо ви знаєте відсотки для тих інших часів.

ерозійна стінка землі, що показує шаруваті шари різного кольору грунту

Припустимо, ви плануєте опитування, щоб дізнатися, як громадяни Огайо голосуватимуть на наступних президентських виборах. Ви можете використовувати свої знання про політику, щоб допомогти вибрати найкращий зразок. У вас вже є конкретна політична інформація про те, що гонка виборця може вплинути на те, як він чи вона буде голосувати. Припустимо, ви також знаєте, що, хоча громадяни Огайо 65 відсотків білих і 30 відсотків чорних, очікувані виборці будуть 70 відсотків білими і 25 відсотків чорними. ¹ Ви можете використовувати всю цю інформацію про голосуюче населення, щоб взяти кращу вибірку, переконавшись, що ваш випадковий зразок містить рівно 70 відсотків білих виборців і рівно 25 відсотків чорних виборців. Якщо ваше опитування насправді повинно було містити 73 відсотків білих виборців, вам було б добре порадити випадковим чином викинути деякі з відповідей білих виборців, поки ви не отримаєте число до 70 відсотків. Отримана в результаті розшарування по расі підвищить шанси на те, що ваш зразок є репрезентативним. Однак стратифікація щодо переваг безалкогольних напоїв виборців не допомогла б.

Визначення стратифікації використовує корисне поняття змінної. Грубо кажучи, змінна - це все, що поставляється в різних видах або кількостях. Існують різні типи рас, тому раса є змінною; існують різні суми зарплат, тому зарплата є змінною; і так далі. Кожен тип або кількість змінної називається можливим значенням змінної. Білий і чорний - це два значення змінної раси. Припустимо, населення (скажімо, людей) можна розділити на різні групи або верстви відповідно до якоїсь змінної характеристики (наприклад, раси). Припустимо, що члени кожної групи мають однакове значення для цієї змінної (наприклад, всі члени однієї групи чорні, всі члени іншої групи білі тощо). Припустимо, вибірка береться під вимогою, що відсоток, який має задане значення (чорний колір) змінної (раси), повинен збігатися з відомим відсотком від величини для населення в цілому. Якщо так, то стратифікований зразок був взятий з цієї популяції, і зразок, як кажуть, стратифікований на цій змінній.

Стратифікація є ключем до зменшення розміру вибірки, тим самим заощаджуючи час і гроші. Якщо ви хочете знати, як люди збираються голосувати за кандидата від республіканців на наступних президентських виборах, розмова лише з одним випадково обраним виборцем, очевидно, буде занадто маленькою вибіркою. Однак отримання достатньо великої вибірки, як правило, є меншою проблемою, ніж ви могли б очікувати, коли ви приділяєте пильну увагу стратифікації груп, які, ймовірно, голосуватимуть аналогічно. Більшість непрофесіоналів вважають, що десятки тисяч людей повинні бути відібрані. Я запитав свого сусіда, скільки, на його думку, знадобиться, і він відповів: «О, принаймні сто тисяч». Дивно, але 500 було б достатньо, якби вибірка була стратифікована за расовою ознакою, доходом, типом зайнятості, політичною партією та іншими важливими змінними. Ця цифра 500 передбачає, що опитувальник повинен бути лише 95 відсотків впевненим, що результати не вимкнені більш ніж на 2 відсотки. Якщо ви можете жити з більшою похибкою, ніж 2 відсотки і меншою впевненістю, ніж 95%, то можна використовувати набагато менший розмір вибірки.

Перший великий тріумф стратифікованого вибірки відбувся в 1936 році, коли одне нестратифіковане опитування з використанням розміру вибірки 10,000,000 людей передбачало, що президент Рузвельт не буде переобраний. Опитування Джорджа Геллапа за допомогою невеликого стратифікованого опитування лише 3000 людей правильно передбачало, що Рузвельт буде переобраний.

Найважливішими змінними, що впливають на голосування, є політична партія виборців, раса, стать, дохід та вік. Якщо опитувальник не має уявлення про те, що це за змінні, які впливатимуть на результати голосування, то опитувальник не може забезпечити різноманітність вибірки щодо цих змінних, тому знадобиться дуже велика вибірка, щоб мати таку ж впевненість у результатах, які могли б бути з меншим стратифікованим зразок.

Вправа\(\PageIndex{1}\)

Ваш інженер з контролю якості проводить щотижневу перевірку нового напою вашої компанії. Він збирає випадковий зразок з 100 пляшок, вироблених по понеділках або вівторках. Протягом декількох тижнів щотижня він виявляє одну або дві вибіркові пляшки щотижня, щоб бути несправними. Таким чином, ви робите висновок, що ваш виробничий процес проходить добре в середньому щотижня, оскільки ваша мета полягала в тому, щоб принаймні 98 відсотків напою були в порядку.

Однак припустимо, що інженер з контролю якості знає, що ваш завод виробляє рівну кількість напою в кожен будній день і що він виробляє напої тільки в будні дні. Опишіть найкращий спосіб для інженера з контролю якості покращити вибірку, звертаючи увагу на стратифікацію.

а. зразок одного напою з кожного буднього дня.
б Виберіть більший і більш випадковий зразок.
c Візьміть рівну кількість зразків по суботах і неділі, а також.
d Переконайтеся, що 20 відсотків зразка надходить з кожного буднього дня.
e Зразок більше пляшок, які будуть доставлені вашим найціннішим клієнтам.

Відповідь: Відповідь (d). Пропозиція в (b) було б добре зробити, але це не має нічого спільного з розшаруванням.

1 Ці цифри не є достовірними.