Skip to main content
LibreTexts - Ukrayinska

3.5: Робимо висновки з даних

  • Page ID
    19335
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Цілі навчання

    Переконайтеся, що ви добре розумієте наступні основні ідеї, які були представлені вище. Особливо важливо, щоб ви знали точні значення всіх курсивом термінів в контексті цієї теми.

    • Що означає відхилення від популяції, чому ми не можемо знати його значення, і чому воно все ж принципово важлива величина в статистиці?
    • Намалюйте гауссову криву і позначте дві осі, показуючи на осі x відхилення від середнього за стандартними відхиленнями. Тінь в області, що відповідає 95,4-відсотковому рівню довіри,
    • Викладіть значення довірчого інтервалу та те, як він співвідноситься зі стандартним відхиленням на графіку гауссової кривої.
    • Викладіть значення довірчого інтервалу та те, як він співвідноситься зі стандартним відхиленням на графіку гауссової кривої.
    • У чому різниця між довірчим інтервалом і рівнем довіри?
    • Опишіть обставини, коли статистика студента є корисною.
    • Опишіть деякі основні проблеми, які можуть призвести до помилкової або оманливої статистики.

    Гаразд, ви зібрали свої дані, так що це означає? Це питання зазвичай виникає, коли вимірювання, зроблені на різних зразках, дають різні значення. Наскільки добре вимірювання концентрації ртуті в десяти банках тунця відображають склад всієї продукції заводу? Чому ви не можете просто використовувати середнє значення цих вимірювань? Наскільки краще були б результати 100 таких тестів? Цей заключний урок з вимірювання вивчить ці питання і познайомить вас з деякими методами поводження з даними. Цей матеріал важливий не тільки для науковців, але і для будь-якого розумного громадянина, який бажає самостійно оцінити потік чисел, що обслуговуються рекламодавцями, політиками, «експертами» і так— іншими вченими.

    Стандартне відхилення

    Кожен з цих наборів має однакове середнє значення 40, але «якість» набору, показаного праворуч, більше, оскільки точки даних менш розсіяні; точність результату більша.

    Кількісна міра цієї точності задається стандартним відхиленням

    значення якого працює до 28 і 7 для двох наборів, проілюстрованих вище. Набір даних, що містить лише два значення, занадто малий для належного статистичного аналізу - ви не хочете судити про середній вміст ртуті консервованого тунця на основі лише двох зразків, наприклад. Припустимо, тоді, для ілюстрації, що ми накопичили набагато більше точок даних, але стандартні відхилення двох наборів залишаються на рівні 28 і 7, як і раніше. Які висновки можна зробити про те, наскільки близько середнє значення 40, швидше за все, прийде до «істинного значення» (середнє значення населення μ) в кожному конкретному випадку?

    Хоча ми зазвичай не можемо знати значення μ, ми можемо призначити кожній точці даних x i кількість (x i - x m), яку ми називаємо відхиленням від середнього [населення] , індекс того, наскільки кожна точка даних відрізняється від невловимого «істинного значення». Тепер розділимо це відхилення від середнього на стандартне відхилення всього набору даних:

    Якщо ми побудуємо значення z, які відповідають кожній точці даних, ми отримаємо наступні криві для двох наборів даних, які ми використовуємо як приклади:

    якість вимірювання

    Майте на увазі, що ми не можемо насправді побудувати ці криві з наших експериментальних точок даних, тому що ми не знаємо значення середньої чисельності населення μ (якби ми це зробили, не було б необхідності робити вимірювання в першу чергу!) , і нам навряд чи вистачить точок даних, щоб отримати плавну криву в будь-якому випадку.

    Ми не будемо намагатися довести це тут, але математичні властивості гауссової кривої такі, що її форма залежить від масштабу одиниць вздовж осі x і від стандартного відхилення відповідного набору даних. Іншими словами, якщо ми знаємо стандартне відхилення набору даних, ми можемо побудувати графік z, який показує, як будуть розподілені вимірювання

    • якщо кількість спостережень дуже велика
    • якщо різні значення обумовлені лише випадковою помилкою

    Важливим наслідком другої умови є те, що якщо точки даних не наближають форму цієї кривої, то цілком ймовірно, що вибірка не є репрезентативною, або що задіяний якийсь ускладнюючий фактор. Останнє часто трапляється, коли вчитель будує набір балів студентських іспитів, і отримує криву, що має два піки замість одного— представляючи, можливо, два підгрупи студентів, які присвячують свій час вивченню та вечіркам.

    Цей незначний дорогоцінний камінь був розроблений статистиком W.J Youdan і з'являється в Візуальне відображення кількісної інформації, захоплююча книга Едварда Тафте (Graphics Press, Cheshire CT, 1983).

    Юданська гаусова крива

    Довірчі інтервали

    Зрозуміло, що чим чіткіше і звужніше стандартна крива похибки для набору вимірювань, тим більша ймовірність того, що будь-яке єдине спостережуване значення наближається до істинного значення, яке ми намагаємося знайти. Оскільки форма кривої визначається S, ми можемо робити кількісні прогнози щодо достовірності наших даних від її стандартного відхилення. Зокрема, якщо побудувати z як функцію числа стандартних відхилень від середнього (а не як число абсолютних відхилень від середнього, як було зроблено вище), то форма кривої залежить тільки від значення S. Тобто знімається залежність від конкретних одиниць виміру.

    довірчі інтервали

    Більш того, можна показати, що якщо вся похибка вимірювань дійсно випадкова, 68,3 відсотка (близько двох третин) точок даних потраплять в одне стандартне відхилення від середнього показника населення, тоді як 95,4 відсотка спостережень будуть відрізнятися від середнього показника населення не більше ніж на два стандартних відхилення. Це надзвичайно важливо, оскільки дозволяє кількісно висловлювати достовірність вимірювання з точки зору довірчих інтервалів.

    Іноді ви можете побачити або почути звіт про новини про те, що результати певного опитування громадської думки вважаються надійними в межах, скажімо, 5%, «дев'ятнадцять разів із двадцяти». Це просто ще один спосіб сказати, що довірчий інтервал в опитуванні становить 95%, стандартне відхилення становить близько 2,5% від заявленого результату, і що не більше 5% шансів, що ідентичне опитування, проведене на іншому наборі випадково відібраних осіб з тієї ж популяції дасть різний результат. Це максимально наближене до «істини», як ми можемо отримати в наукових вимірах.

    довірчий інтервал

    Уважно зверніть увагу: Довірчий інтервал (CI) та рівень довіри (CL) не однакові!

    Заданий КІ (позначається затіненим діапазоном 18-33 ppm на діаграмі) завжди визначається по відношенню до якогось конкретного КЛ; вказувати перший без другого безглуздо. Якщо CI ілюстрований тут знаходиться на 90% CL, то CI для більш високого CL буде ширше, тоді як для меншого CL буде охоплювати менший діапазон значень.

    Одиниці CI - це одиниці вимірювання (наприклад, ppm); Сам CL зазвичай виражається у відсотках.

    Як рівень довіри залежить від кількості вимірювань

    Чим більше вимірів ми зробимо, тим більше шансів буде їх середнє значення наближеним до істинної величини. Ширина довірчого інтервалу (виражена в фактичних одиницях виміру) прямо пропорційна стандартному відхиленню S і значенню z (обидва ці терміни визначені вище). Довірчий інтервал одного виміру в перерахунку на ці величини та середнього середнього зразка задається:

    СІ = х м + з S

    Якщо проводиться n повторюваних вимірювань, довірчий інтервал стає меншим:

    Це співвідношення часто використовується «у зворотному напрямку», тобто для визначення кількості повторюваних вимірювань n необхідно провести, щоб отримати значення в межах потрібного довірчого інтервалу.

    Як ми вже зазначали вище, будь-яке відношення, пов'язане з величиною z (яка стандартна крива похибки є графіком) має обмежене використання, якщо ми не маємо деякого уявлення про значення середнього популяції μ. Якщо зробити дуже велику кількість вимірювань (наприклад, від 100 до 1000), то можна очікувати, що наш спостережуваний зразок середнє наближається до μ досить близько, тому немає ніяких труднощів.

    Затінена область на кожному графіку показує частку вимірювань, які потрапляють в межах двох стандартних відхилень (2 S) від «істинного» значення (тобто середнє значення населення μ). Очевидно, що ширина довірчого інтервалу зменшується, коли кількість вимірювань стає більшою. В основному це є результатом того, що відносно великі випадкові помилки, як правило, рідше зустрічаються, ніж менші, і тому з меншою ймовірністю скасовують, якщо проводиться лише невелика кількість вимірювань.

    Робота з невеликими наборами даних

    Гаразд, тому більші набори даних краще, ніж малі. Але що робити, якщо вимірювати вміст ртуті в 10 000 банок тунця просто не практично? Або якщо ви проводили судову експертизу крихітної тріски фарби, у вас може бути достатньо зразка (або достатньо часу), щоб зробити два-три повторювані аналізи. Існує два поширених способу боротьби з такою складністю.

    Одним із способів обійти це є використання об'єднаних даних; тобто покладатися на аналогічні попередні визначення, проведені на інших порівнянних зразках, щоб досягти стандартного відхилення, яке є репрезентативним для цього конкретного типу визначення. Іншим поширеним способом боротьби з невеликими числами повторюваних вимірювань є пошук у таблиці величину t, значення якої залежить від кількості вимірювань та від бажаного рівня довіри. Наприклад, для рівня довіри 95% t буде 4.3 для трьох зразків і 2.8 для п'яти. Величина довірчого інтервалу потім задається

    CI = ± т S

    Ця процедура не є чорною магією, але заснована на ретельному аналізі того, як гаусова крива стає спотвореним у міру зменшення кількості зразків. Чому Т-тест був винайдений на пивоварні? І чому вона має таку смішну назву?

    Використання статистичних тестів для прийняття рішень

    Після того, як ми отримали достатньо інформації про задану вибірку для оцінки таких параметрів, як середні та стандартні відхилення, ми часто стикаємося з необхідністю порівняння цієї вибірки (або сукупності, яку вона представляє) з іншою вибіркою або з якимось стандартом. Наступні розділи перефразовують деякі типові питання, які можна вирішити статистичними тестами на основі величин, які ми визначили вище. Важливо розуміти, однак, що оскільки ми розглядаємо питання статистично, ми можемо відповісти на них лише з точки зору статистики - тобто до заданого рівня довіри.

    Звичайний підхід полягає в тому, щоб почати з припущення, що відповідь на будь-яке з питань, наведених нижче, «ні» (це називається нульовою гіпотезою), а потім використовувати відповідний статистичний тест, щоб судити про обґрунтованість цієї гіпотези до бажаного рівня довіри. Оскільки наша мета тут - показати вам, що можна зробити, а не як це зробити, в наступних розділах немає формул або прикладів розрахунків, які висвітлюються в більшості підручників з аналітичної хімії. Тут слід сконцентруватися на спробі зрозуміти, чому питання такого роду мають важливе значення.

    «Чи варто викинути цей вимір?»

    викидТобто, чи ймовірно, що за цей підозріло інший результат відповідає щось, крім звичайної невизначеної помилки? Кожен, хто збирає дані практично будь-якого виду, буде періодично стикатися з цим питанням. Дуже часто звичайного здорового глузду буде достатньо, але якщо вам потрібна допомога, для цієї мети широко використовуються два статистичних тести, звані Q-тестом і Тест.

    Ми не будемо описувати їх тут, але обидва тести передбачають обчислення кількості (Q або T) для конкретного результату за допомогою простої формули, а потім консультації з таблицею, щоб визначити ймовірність того, що значення, яке ставиться під сумнів, є членом населення, представленої іншими значеннями в наборі даних.

    «Чи дає цей м'ясний капот надійні результати?»

    Це завжди потрібно запитувати під час першого спроби нового методу; це, по суті, питання тестування на визначену помилку. Відповідь можна отримати, лише запустивши ту саму процедуру на зразку, склад якого відомий. Відхилення середнього значення «відомого» x m від його істинного значення μ використовується для обчислення t Студента для бажаного рівня довіри. Потім ви застосовуєте це значення t до вимірювань на ваших невідомих зразках.

    «Чи однакові ці два зразки?»

    Ви хочете порівняти засоби x m1 і x m2 з двох наборів вимірювань, щоб оцінити, чи може їх різниця бути обумовлена невизначеною похибкою. Припустимо, наприклад, що ви порівнюєте відсоток хрому в зразку фарби, знятої з крила автомобіля, зі зразком, знайденим на одязі постраждалої. Ви запускаєте реплікувати аналізи на обох зразках і отримати різні середні значення, але довірчі інтервали перекриття. Які шанси на те, що два зразки насправді ідентичні, і що різниця в засобах обумовлена виключно невизначеною помилкою?

    найменша виявлена кількістьДосить проста формула, яка використовує t Студента, стандартне відхилення, і числа повторюваних вимірювань, зроблених на обох зразках, дає відповідь на це питання, але тільки на заданий рівень довіри. Якщо це судова експертиза, яку ви будете пред'являти в суді, будьте готові до того, що ваші свідчення будуть знесені протилежним адвокатом, якщо КЛ менше 99%.

    «Яку найменшу кількість я можу виявити?»

    Це всього лише варіант попереднього питання. Оцінка межі виявлення речовини заданим методом починається з набору вимірювань на бланку, тобто зразку, в якому передбачається відсутність речовини, але в іншому випадку максимально схоже на фактичні зразки, що підлягають випробуванню. Потім ми запитуємо, чи будь-яка різниця між середнім значенням порожніх вимірювань та реплікацій зразка може бути віднесена до невизначеної помилки при заданому рівні довіри.

    Наприклад, питання, яке виникає на кожному заході світової Олімпіади, - це який мінімальний рівень метаболіту препарату, який можна виявити в сечі спортсмена? Багато чутливих методів схильні до випадкових помилок, які можуть призвести до ненульового результату навіть у вибірці, яка, як відомо, повністю вільна від того, для чого тестується. Так наскільки далеко від «нуля» має бути середнє значення тесту, щоб бути впевненим, що препарат був присутній в конкретному зразку? Подібне питання виникає дуже часто в дослідженнях забруднення навколишнього середовища.

    Як брехати зі статистикою

    Як брехати зі статистикою - назва кумедної книги Даррелла Хаффа (Norton, 1954). Деякі ілюстрації Ірвінга Гейсса до цієї книги наведені нижче. Див. також

    Викидання «неправильних» відповідей.

    Іноді трапляється, що кілька значень даних настільки сильно відокремлені від решти, що їх не можна розумно розглядати як репрезентативні. Якщо ці «викиди» явно виходять за межі діапазону розумної статистичної помилки, їх зазвичай можна ігнорувати як ймовірні через інструментальні несправності або зовнішні перешкоди, такі як механічні поштовхи або електричні коливання.

    Деяка обережність повинна бути здійснена, коли дані викидаються, однак; Був ряд добре задокументованих випадків, коли слідчі, які мали певні очікування щодо результатів своїх експериментів, змогли довести ці очікування, видаливши суперечливі результати з набору даних на підставі. що ці конкретні дані «повинні були помилятися»

    Остерігайтеся занадто малих зразків

    Імовірність десяти послідовних сальто монети, що дають 8 голів, задається

    ... вказуючи на те, що це не дуже ймовірно, але можна очікувати, що відбудеться близько восьми разів за тисячу пробігів. Але немає закону природи, який би говорив, що це не може статися на вашому першому запуску, тому було б явно нерозумно плакати «Еврика» і зупинити експеримент після одного— або навіть декількох спроб. Або забути про пробіжки, які не загортали 8 голів!

    Небезпеки сумнівних «кореляцій»

    Той факт, що два набори статистики показують однакову тенденцію, не доводить, що вони пов'язані, навіть у випадках, коли можна було б аргументувати логічну кореляцію. Таким чином, було запропоновано, що згідно з двома графіками нижче, «У відносному відношенні глобальна температура, здається, досить добре відстежує середній глобальний ВВП протягом останніх 70 років».

    Різниця між рівнями довіри 90% та 95% може здатися не такою великою, але неправильне це може перетворити науку на науку про небажану - невідому практику за особливими інтересами, наміром маніпулювати наукою, щоб впливати на державну політику; див. Чудову книгу Девіда Майклза 2008 року «Сумнів є Їх продукт: Як напад галузі на науку загрожує вашому здоров'ю».