Skip to main content
LibreTexts - Ukrayinska

3.8: Помилка малих чисел

  • Page ID
    52039
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Припустимо, дослідження показало, що з 3,141 округів США захворюваність на рак нирки була найнижчою в тих округах, які переважно сільські, малонаселені та розташовані в традиційно республіканських штатах. Насправді це правда. 9 Що пояснює ця цікава знахідка? Більшість людей буде спокуса шукати причинне пояснення - шукати особливості сільського середовища, які пояснюють меншу захворюваність на рак. Однак вони були б неправильно (в даному випадку) робити це. Легко зрозуміти, чому колись ми розглядаємо округи, які мають найвищу захворюваність на рак нирки: це округи, які в основному сільські, малонаселені та розташовані в традиційно республіканських штатах! Тож що б ви не думали, що може пояснити нижчий рівень раку в сільських округах, не може бути правильним поясненням, оскільки ці округи також мають найвищий рівень раку. Важливо розуміти, що це не ті самі округи, які мають найвищі та найнижчі показники - наприклад, графство X не має як високого, так і низького рівня раку (щодо інших округів США). Це було б протиріччям (і тому не може бути правдою). Швидше за все, що округи, які мають найвищий рівень раку нирки, є «переважно сільськими, малонаселеними та розташованими в традиційно республіканських штатах», а також округи, які мають найнижчий рівень раку нирки, є «переважно сільськими, малонаселеними та розташованими в традиційно республіканських держав». Як це могло бути? Перш ніж дати вам пояснення, я дам вам простіший приклад і подивитися, чи можете ви зрозуміти це з цього прикладу.

    Припустимо, що баночка містить рівну кількість червоного і білого мармуру. Джек і Джилл по черзі малюють мармур з банки. Однак вони малюють мармур з різною швидкістю. Джилл малює 5 кульок одночасно, тоді як Джек малює 2 кульки одночасно. Хто частіше малює або всі червоні, або всі білі мармури частіше: Джек або Джилл? 10

    Відповідь тут повинна бути очевидною: Джек частіше малює мармури все того ж кольору, так як Джек малює лише 2 кульки одночасно. Оскільки Джилл малює 5 кульок одночасно, буде менш імовірно, що її малюнки дадуть мармур однакового кольору. Це просто факт відбору проб і пов'язано з помилками вибірки, розглянутими в розділі 3.1. Занадто мала вибірка, як правило, не буде репрезентативною для населення. У випадку з мармурами, якщо розглядати розіграші Джека як зразки, то його зразки, коли вони дають мармур все того ж кольору, будуть далекі від представника співвідношення мармуру в банку, так як співвідношення 50/50 білий до червоного і його розіграші іноді дають 100% червоний або 100% білий. З іншого боку, Джилл, як правило, не отримає як нерепрезентативний зразок. Оскільки Джилл малює більшу кількість мармуру, менш імовірно, що її зразки будуть різко відключені так, як може бути Джек. Загальний момент, який слід взяти з цього прикладу, полягає в тому, що менші зразки мають тенденцію до крайнощів - як з точки зору перепредставлення деякої функції, так і в недопредставленні тієї самої функції.

    Чи можете ви бачити, як це може стосуватися випадків раку нирок у сільських, малонаселених округах? Існує національний рівень раку нирки, який є середнім показником усіх показників раку нирок у 3,141 округах США. Уявіть собі рейтинг кожного округу за рівнем раку від найвищого до найнижчого. Висновок полягає в тому, що у верхній частині цього списку є відносно більша частка малонаселених округів, але також порівняно більша частка малонаселених округів у нижній частині списку. Але чому б це було так, що більш малонаселені округи будуть перепредставлені в обох кінцях списку? Причина полягає в тому, що в цих округах менше населення, тому вони, як правило, матимуть більш екстремальні результати (або вищі, або нижчі показники). Подібно до того, як Джек, швидше за все, отримає або всі білі мармури, або всі червоні кульки (крайній результат), менш населені округи, як правило, мають рівень раку, який знаходиться на крайньому рівні, відносно середнього по країні. І це суто статистичний факт; він не має нічого спільного з особливостями тих середовищ, що спричиняє рівень раку вище або нижче. Подібно до того, як екстремальні нічиї Джека не мають нічого спільного з тим, як він малює (але є просто результатом статистичних, математичних фактів), крайнощі менших округів не мають нічого спільного з особливостями цих округів, але лише з тим, що вони менші, і тому, як правило, мають більш екстремальні результати (тобто показники раку, які або вище, або нижче середнього по країні).

    Перший домашній урок тут полягає в тому, що менші групи будуть схильні до крайнощів з точки зору їх володіння якоюсь особливістю, щодо більших груп. Ми можемо назвати це законом малих чисел. Друге повідомлення додому полягає в тому, що наш мозок підключений шукати причинно-наслідкові пояснення, а не математичні пояснення, і через це ми схильні ігнорувати закон малих чисел і шукати замість цього причинне пояснення явищ. Помилка малих чисел - це наша тенденція шукати причинно-наслідкове пояснення якогось явища, коли для пояснення цього явища потрібен лише закон малих чисел.

    Ми закінчимо цей розділ дещо жартівливим та неймовірним прикладом упередженості невеликих чисел, який, імовірно, витратив мільярди доларів. Цей приклад теж походить від Канемана, який, в свою чергу, почув анекдот від деяких своїх колег, які є статистиками. 11 Деякий час тому фонд Гейтса (який є благодійним фондом засновника Microsoft Білла Гейтса) пожертвував 1,7 мільярда доларів на дослідження цікавого висновку: менші школи, як правило, більш успішні, ніж більші школи. Тобто, якщо врахувати порядок рангу найбільш успішних шкіл, менші школи, як правило, будуть перепредставлені поблизу верхньої частини (тобто, є більша частка з них у верхній частині списку порівняно з часткою більших шкіл у верхній частині списку). Це висновок, що Фонд Гейтса інвестував 1,7 мільярда доларів, щоб допомогти зрозуміти. Для цього вони створили менші школи, іноді розділивши великі школи навпіл. Однак нічого з цього не було потрібно. Якби Фонд Гейтса (або ті, хто їх консультує) подивився, що характеристики найгірших шкіл, вони б виявили, що ці школи також мають тенденцію бути меншими! «Знахідка» є лише результатом закону малих чисел: менші групи прагнуть до крайнощів (на обох кінцях спектра) більше, ніж більші групи. У цьому випадку той факт, що менші школи, як правило, є і більш успішними, і менш успішними, пояснюється так само, як ми пояснюємо, чому Джек, як правило, отримує або всі червоні, або всі білі мармури частіше, ніж Джилл.


    9 Цей приклад взято з Канемана (2011), op. cit., стор. 109.
    10 Цей приклад також взято (з незначними змінами) з Kahneman (2011), стор. 110.
    1 Канеман (2011), с. 117-18.