Skip to main content
LibreTexts - Ukrayinska

3: Псевдореплікація- Вибирайте свої дані мудро

  • Page ID
    97607
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Багато досліджень прагнуть зібрати більше даних за допомогою реплікації: повторюючи свої вимірювання з додатковими пацієнтами або зразками, вони можуть бути більш впевненими у своїй кількості та виявити тонкі відносини, які не очевидні на перший погляд. Ми бачили цінність додаткових даних для покращення статистичної потужності та виявлення невеликих відмінностей. Але що саме вважається реплікацією?

    Повернемося до медичного прикладу. У мене дві групи\(100\) пацієнтів, які приймають різні ліки, і я прагну встановити, які ліки знижують артеріальний тиск більше. У мене кожна група приймає ліки протягом місяця, щоб дозволити йому набути чинності, а потім я стежу за кожною групою протягом десяти днів, щодня перевіряючи їх артеріальний тиск. Зараз у мене є десять точок даних на пацієнта та точки\(1,000\) даних на групу.

    Блискучий! \(1,000\)даних точок досить багато, і я досить легко можу встановити, чи має одна група нижчий артеріальний тиск, ніж інша. Коли я роблю розрахунки для статистичної значущості, я знаходжу значні результати дуже легко.

    Але почекайте: ми очікуємо, що прийом у пацієнта артеріального тиску десять разів дасть десять дуже схожих результатів. Якщо один пацієнт генетично схильний до зниженого артеріального тиску, я десять разів порахував його генетику. Якби я збирав дані від\(1,000\) незалежних пацієнтів замість багаторазового тестування\(100\), я був би більш впевнений, що відмінності між групами походять від ліків, а не від генетики та удачі. Я стверджував великий розмір вибірки, що дає мені статистично значущі результати і високу статистичну потужність, але моя претензія невиправдана.

    Ця проблема відома як псевдореплікація, і вона досить поширена. 38 Після тестування клітин з культури біолог може «повторити» свої результати, перевіривши більше клітин з тієї ж культури. Нейробіологи перевірять кілька нейронів однієї тварини, неправильно стверджуючи, що вони мають великий розмір вибірки, оскільки вони тестували сотні нейронів лише від двох щурів.

    У статистичному плані псевдореплікація виникає, коли окремі спостереження сильно залежать один від одного. Ваше вимірювання артеріального тиску пацієнта буде дуже пов'язане з його артеріальним тиском вчора, і ваше вимірювання складу ґрунту тут буде сильно корелювати з вашим вимірюванням на відстані п'яти футів. Існує кілька способів врахувати цю залежність під час виконання статистичного аналізу:

    1. Середнє значення залежних точок даних. Наприклад, усереднити всі вимірювання артеріального тиску, зняті у однієї людини. Однак це не ідеально; якщо ви вимірювали деяких пацієнтів частіше, ніж інші, це не відображатиметься в усередненому числі. Ви хочете метод, який якимось чином вважає вимірювання більш надійними, як і більше.
    2. Проаналізуйте кожну залежну точку даних окремо. Ви можете провести аналіз артеріального тиску кожного пацієнта в день\(5\), даючи вам лише одну точку даних на людину. Але будьте обережні, тому що якщо ви робите це на кожен день, у вас виникнуть проблеми з численними порівняннями, про які ми поговоримо в наступному розділі.
    3. Використовуйте статистичну модель, яка враховує залежність, наприклад ієрархічну модель або модель випадкових ефектів.

    Важливо враховувати кожен підхід перед аналізом ваших даних, оскільки кожен метод підходить для різних ситуацій. Псевдореплікація дозволяє легко досягти значущості, навіть якщо вона дає вам мало додаткової інформації про випробовуваних. Дослідники повинні бути обережними, щоб штучно не завищувати розміри зразків під час повторного тестування зразків.