13.1.2: Розмір вибірки
- Page ID
- 52652
Якщо ви чуєте телевізійний рекламний сказати, що чотири з п'яти лікарів рекомендують знеболюючий засіб в препарат рекламується, ви можете бути вражені препаратом. Однак, якби ви дізналися, що опитані всього п'ять лікарів, ви були б набагато менше вражені. Розмір вибірки важливий.
Чому? Відповідь пов'язана з тим, що оцінки, засновані на вибірці, є індуктивними і, отже, за своєю суттю ризикованими. Чим більше зразок, тим більше його шансів бути вільним від спотворень від незвично невдачі під час відбору зразка. Якщо ви хочете передбачити, як виборці Каліфорнії голосуватимуть на наступних виборах, було б краще мати не зовсім випадкову вибірку з 10,000 майбутніх виборців, ніж абсолютно випадкову вибірку двох майбутніх виборців.
Щоб максимізувати інформацію, яку ви можете отримати про населення, ви захочете збільшити розмір вибірки. Тим не менш, ви зазвичай стикаєтеся з практичними обмеженнями на розмір; відбір проб може бути дорогим, складним або обидва.
При створенні урядового перепису вкрай складно зв'язатися і підрахувати тих людей, які тимчасово живуть на дивані в квартирі одного і тих, хто живе в своїх автомобіках і не має адреси і тих, хто переїжджає на нову роботу в іншу державу. Ви можете зробити хороші оцінки щодо цих людей, але якщо вам потрібно ігнорувати когось, з ким ви не спілкувалися під час проведення перепису, тоді ви будете недопредставляти таких людей у результатах перепису. Люди, які скаржаться, що урядовий перепис зробить освічену здогадку про те, скільки людей живе в місті, навіть якщо вони не підрахували всіх людей, ніколи, здається, не скаржаться, коли їх лікар зразки власної крові, а не бере все це для дослідження.
Отже, коли ваш розмір вибірки досить великий для ваших цілей? Це захоплюючий і складне питання. Для ілюстрації припустимо, що ви зацікавлені в продажу механічних систем годівлі фермерам у вашій державі. Ви хотіли б знати, який відсоток з них ще не володіє механічною системою годування - вони будуть вашими потенційними клієнтами. Знаючи, що такого роду інформація ніколи не збиралася, ви можете спробувати зібрати її самостійно, зв'язавшись з фермерами. Оскільки зв'язатися з кожним фермером було б важко і дорого, вам було б цікаво отримати відповідь із зразка невеликого розміру. Якщо вам все одно, чи ваша оцінка відсотка фермерів без механічної системи годування вимкнена на плюс або мінус 10 відсотків, ви можете вибірки набагато менше фермерів, ніж якщо вам потрібна ваша відповідь, щоб бути в межах 1 відсотка від (невідомої) правильної відповіді. Статисти висловили б цю саму точку, сказавши, що 10-відсоткова похибка вимагає меншого розміру вибірки, ніж 1 відсоток похибки. За інших рівних умов ви вважаєте за краще мати невелику похибку, ніж велику.
Припустимо, ви можете жити з 10-відсотковою похибкою. Тепер, як ви повинні бути впевнені, що ваша оцінка потрапить в цей інтервал плюс або мінус 10 відсотків? Якщо вам потрібно лише бути впевненим на 90 відсотків, то вам знадобиться набагато менший розмір вибірки, тоді якщо вам потрібно бути впевненим на 97 відсотків. Статисти висловили б цю саму точку, сказавши, що 90-відсотковий рівень довіри вимагає меншого розміру вибірки, ніж рівень довіри 97 відсотків. Якраз, наскільки меншим є питання складної статистичної теорії, в яку ми не будемо вдаватися тут, хоча ми розглянемо деякі конкретні приклади пізніше.
Похибка - це запас міцності. Іноді ми можемо бути конкретними і кількісно оцінити цю маржу, тобто поставити на нього число, наприклад 6%. Можна сказати, що наша вибірка показала, що відсоток фермерів без механічної системи годівлі становить 60 відсотків плюс-мінус 6 відсотків. Іноді ми висловлюємо ідею смутно, кажучи, що відсоток становить близько 60 відсотків. У будь-якому випадку, незалежно від того, можемо ми бути конкретними чи ні, чим більше похибка ми можемо дозволити, тим менший розмір вибірки нам потрібен.
Щоб оцінити бажаність невеликої похибки, уявіть, що ви намагаєтеся прогнозувати завтрашні температури в містах по всьому світу, і ви стверджуєте, що у вас є чудова модель для цього, єдиним побічним ефектом якої є те, що ваша модель прогнозує температуру між абсолютним нулем і температурою. сонця—гігантська похибка. Ви використовуєте свою модель і прогнозуєте, що завтра температура в Нью-Йорку складе три тисячі градусів. Якщо ви стверджуєте, що ваш прогноз знаходиться в межах вашої помилки, ви будете правильними, але ваша модель явно буде марною, оскільки ми хочемо прогнозів температури, які мають набагато меншу похибку.