Вступ до виробництва даних
На першому кроці статистики «Велика картина» ми виробляємо дані. Виробництво даних має два етапи.
- Для початку потрібно вибрати особин з популяції, які будуть включені в вибірку.
- Потім, як тільки ми вибрали осіб, нам потрібно зібрати дані з них.
Перший етап називається вибіркою, а другий етап називається досліджуваним дизайном.
Як ми бачили, дослідницький аналіз даних прагне висвітлити закономірності в даних шляхом підсумовування розподілу кількісних або категоріальних змінних або зв'язків між змінними.
У заключній частині курсу, статистичному висновку, ми будемо використовувати резюме про змінні або зв'язки, які були отримані в дослідженні, щоб зробити висновки про те, що вірно для всієї сукупності, з якої була обрана вибірка.
Щоб цей процес «працював» надійно, важливо, щоб вибірка була справді репрезентативною для більшої популяції. Наприклад, якщо дослідники хочуть визначити, чи ефективний антидепресант «Золофт» для підлітків взагалі, то не було б гарною ідеєю протестувати його тільки на зразку підлітків, які потрапили в психіатричну лікарню, оскільки їх депресія може бути більш важкою, і менш піддається лікуванню, ніж ця. підлітків взагалі.
Таким чином, найперший етап виробництва даних, вибірка, повинен бути проведений таким чином, щоб вибірка дійсно представляла цікавить населення.
Вибір зразка - це лише перший етап отримання даних, тому недостатньо просто переконатися, що зразок є репрезентативним. Ми також повинні пам'ятати, що наші резюме змінних та їх зв'язків дійсні лише в тому випадку, якщо вони були оцінені належним чином.
Наприклад, якщо дослідники хочуть перевірити ефективність Zoloft проти Prozac для лікування підлітків, не було б гарною ідеєю просто порівняти рівні депресії для групи підлітків, які, як трапляється, використовують Zoloft до рівнів депресії для групи підлітків, які, як трапляється, використовують Prozac. Якщо вони виявлять, що одна група пацієнтів виявляється менш депресивною, це може бути просто, що підліткам з менш серйозною депресією частіше призначають один з препаратів над іншою.
У подібних ситуаціях дизайн для отримання даних повинен бути ретельно розглянутий. Дослідження повинні бути розроблені, щоб виявити, що ми хочемо знати про змінні, що цікавлять людей у вибірці.
Зокрема, якщо те, що ви хочете знати про змінні, полягає в тому, чи існує причинно-наслідковий зв'язок між ними, особливу обережність слід приділити дизайну дослідження (оскільки, як ми знаємо, асоціація не передбачає причинно-наслідкового зв'язку).
У цьому підрозділі ми зосередимося на цих двох етапах виробництва даних: отримання зразка та проектування дослідження.
Протягом усього цього підрозділу ми встановлюємо керівні принципи для ідеального виробництва даних. Хоча ми будемо розглядати ці рекомендації як стандарти, до яких слід прагнути, реально рідко можна провести дослідження, яке повністю позбавлене недоліків. Здоровий глузд повинен часто застосовуватися, щоб вирішити, з якими недосконалостями ми можемо жити, а які можуть повністю підірвати результати дослідження.
Вибірка, яка виробляє дані, які не є репрезентативними через систематичну недооцінку або надмірної оцінки значень цікавить змінної називається упередженим. Упередженість може бути наслідком або поганий план вибірки, або поганий дизайн для оцінки змінної, що представляє інтерес.
Ми починаємо цей підрозділ, зосереджуючись на тому, що являє собою хороший - або поганий - план вибірки, після чого ми обговоримо дизайн дослідження.