13.2: Перешкоди для збору достовірних даних

Last updated
Save as PDF

Page ID: 52601

Bradley H. Dowden
California State University Sacramento

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

Поки що в нашому обговоренні значущої статистики ми хвилювалися про те, як приймати рішення, використовуючи достовірну інформацію з вибірки нашого населення. Щоб отримати значну статистику, ми намагаємося отримати репрезентативну вибірку, отримуючи різноманітну, випадкову та велику. Основною перешкодою для отримання репрезентативної вибірки є те, що ненадійні дані занадто легко повзають у наш зразок.

Якщо ви володієте радіостанцією і вирішите, що понад 80% ваших слухачів подобається ця пісня співачки Кеті Перрі, тому що понад 80% тих, хто писав вашу станцію (про те, чи подобається їм ця пісня), сказали, що їм це подобається, то ви зробили занадто ризиковане припущення. Ті, хто надсилав вам текстові повідомлення, не були вибрані випадковим чином з вашого пулу слухачів; вони вибрали себе. Самовідбір - це метод упередженого вибору, який часто є джерелом недостовірних даних.

Існує горезвісна проблема брехні виборцям. Відсоток опитаних людей, які кажуть, що проголосували на виборах, зазвичай перевищує відсоток людей, які насправді це зробили. Більш тонко люди можуть практикувати самообман, чесно відповідаючи «так» на такі питання, як «Ви дотримуєтеся свого раціону?» коли їх немає. Ще одна проблема, з якою стикаються ми опитувальники, полягає в тому, що, хоча ми хочемо різноманітності в нашій вибірці, дані деяких груп населення можуть бути легше отримати, ніж від інших груп, і ми можемо спокушатися сприяти легкості над різноманітністю. Наприклад, підраховуючи християн у всьому світі, нам легше отримати дані з церков людей, які говорять одними мовами, а не іншими, і які перебувають у деяких країнах, а не в інших, і які перебувають у сучасних містах, а не віддалених селах.

Існують і інші перешкоди для збору достовірних даних. Зайняті та більш приватні люди не знайдуть часу, щоб відповісти на наші запитання. Крім того, опитувальники іноді не помічають різниці між запитанням «Чи віддаєте перевагу ви Джонсу чи Сміту?» і «Ви віддаєте перевагу Сміту чи Джонсу?» Мораль полягає в тому, що природні перешкоди та неакуратна методологія поєднуються для отримання недостовірних даних і, таким чином, для зменшення значущості нашої статистики.