5.2: Критерії визначення розміру пробної версії
- Page ID
- 72245
2.1 Точність заходів впливу
Щоб вибрати відповідний розмір вибірки, необхідно вирішити, наскільки похибка вибірки в оцінці ефекту втручання є прийнятною, і вибрати розмір вибірки для досягнення цієї точності. При аналізі даних величина похибки вибірки представлена шириною довірчого інтервалу навколо оцінки ефекту. Чим вужчий CI, тим більша точність оцінки та менша ймовірна кількість похибки вибірки. Тому при розробці випробування необхідно вирішити ширину прийнятного КІ навколо обраного ефекту втручання. Прийнявши таке рішення, спосіб вибору необхідного розміру судового розгляду наведено в Розділі 3.
2.2 Сила судового розгляду
Альтернативним підходом є вибір пробного розміру, який дає достатню потужність для виявлення ефекту заданої величини. Тоді основна увага приділяється результату тесту на значущість, який буде проведений наприкінці судового розгляду. Тест на значущість оцінює докази проти нульової гіпотези, яка стверджує, що між порівнюваними втручаннями немає справжньої різниці. Статистично значущий результат вказує на те, що дані конфліктують з нульовою гіпотезою і що є підстави для відкидання гіпотези про відсутність різниці у впливі досліджуваних втручань на результати, що цікавлять.
Через зміни, що виникають внаслідок помилки вибірки, ніколи не можна бути впевненим у отриманні значного результату в кінці випробування, навіть якщо є реальна різниця. Необхідно враховувати ймовірність отримання статистично значущого результату в суді, і ця ймовірність називається силою судового розгляду. Таким чином, потужність 80% для виявлення різниці заданого розміру означає, що, якби випробування проводилося повторно, статистично значущий результат був би отриманий чотири рази з п'яти (80%), якби справжня різниця була дійсно зазначеного розміру. Потужність судового розгляду залежить від факторів, показаних у полі 5.1.
Потужність також залежить від того, чи потрібно виконати односторонній або двосторонній тест на значущість (див. Розділ 2.3 глави 21) та від базової мінливості даних. Як може бути розрахована потужність для заданих значень цих параметрів, пояснюється в розділі 4.
При розробці випробування мета полягає в тому, щоб забезпечити, щоб розмір випробування був достатньо великим, щоб дати високу потужність, якщо справжній ефект втручання досить великий, щоб мати значення для громадського здоров'я.
2.3 Вибір критерію
Вибір того, який критерій (точність або потужність) слід використовувати в якомусь конкретному судовому процесі, залежить від цілей судового розгляду. Якщо однозначно відомо, що втручання має певний ефект (щодо групи порівняння (контролю)), мало сенсу перевіряти нульову гіпотезу; швидше за все, метою може бути оцінка величини ефекту і зробити це з деякою прийнятною заданою точністю.
Під час випробувань нових втручань часто невідомо, чи буде взагалі вплив втручання на результати, що цікавлять, і що потрібно, - це «доказ концепції». За цих обставин може бути достатньо переконатися, що буде хороший шанс отримати значний результат, якщо дійсно є ефект певної заданої величини. Слід, однак, підкреслити, що, якщо цей курс буде прийнятий, отримані оцінки можуть бути дуже неточними. Щоб проілюструвати це, припустимо, що планується порівняти дві групи щодо середнього значення деякої змінної, і припустимо, що справжня різниця між груповими засобами D. Якщо пробний розмір обраний для отримання 90% потужності (отримання значної різниці з p<0,05p<0,05 на двосторонньому тесті), якщо різниця D, 95% CI на D, як очікується, пошириться приблизно від 0,4 D до 1.6 D Це широкий діапазон і означає, що оцінка ефекту втручання буде неточною. У багатьох ситуаціях може бути доцільніше вибрати розмір вибірки, встановивши ширину КІ, а не покладатися на розрахунки потужності.
Коробка 5.1 Потужність судового розгляду залежить від:
- Значення справжньої різниці між досліджуваними групами, іншими словами, істинний ефект втручання. Чим більший ефект, тим вище здатність виявляти ефект як статистично значущий для випробування заданого розміру.
- Пробний розмір. Чим більше пробний розмір, тим вище потужність.
- Рівень ймовірності (p-значення), при якому різниця буде розглядатися як «статистично значуща».
2.4 Випробування з кількома результатами
Обговорення в розділах 2.1 - 2.3 стосується факторів, що впливають на вибір розміру судового розгляду щодо конкретного показника результату. У більшості випробувань вимірюється кілька різних результатів. Наприклад, під час випробування впливу оброблених інсектицидами москітних сіток на дитячу малярію може бути зацікавлений у наслідках втручання на смерть, смерть, пов'язану з малярією, епізоди клінічної малярії, розміри селезінки в кінці сезону малярії, PCV наприкінці сезону малярії, і, можливо, інші заходи.
Розділ 2 глави 12 підкреслює важливість заздалегідь визначення первинного результату та обмеженої кількості вторинних результатів судового розгляду. Для того, щоб прийняти рішення про розмір судового розгляду, слідчий повинен спочатку зосередити увагу на первинному результаті, оскільки результати для цього результату будуть надаватися найбільшу вагу при повідомленні про результати судового розгляду, і важливо, щоб судовий процес зміг забезпечити адекватні результати для цього результату. Методи цього розділу можуть бути використані для обчислення необхідного розміру випробування для первинного результату та кожного з вторинних результатів.
В ідеалі результат, який призводить до найбільшого розміру випробування, буде використаний для визначення розміру, оскільки тоді, для інших результатів, було б відомо, що буде досягнуто краще, ніж необхідна точність або потужність. Однак часто виявляється, що один або кілька результатів вимагатимуть занадто великого випробування для ресурсів, які, ймовірно, будуть доступні. Наприклад, виявлення змін смертності або смертності, специфічної причини, часто вимагає дуже великих випробувань. За цих обставин може бути вирішено розробити судовий розгляд, щоб мати можливість виявити вплив на захворюваність і визнати, що навряд чи вдасться створити переконливі висновки щодо впливу на смертність. Однак важливо зазначити, що якщо випробування показує, що втручання впливає на захворюваність, це може вважатися неетичним проведення подальшого, більшого випробування для оцінки впливу на смертність. З цієї причини, як правило, доцільно забезпечити проведення випробувань на ранній стадії, на якій результатом найбільшого значення для громадського здоров'я є кінцева точка, навколо якої планується випробування. Це питання розглядається далі в главі 6.
Іноді різні пробні розміри можуть бути використані для різних результатів. Наприклад, можливо, можна розробити випробування таким чином, щоб велика вибірка учасників контролювалася за смертністю, скажімо, щорічними опитуваннями, і лише частка учасників контролюється за захворюваністю, скажімо, щотижневими відвідуваннями.
Якщо неможливо розробити судовий процес для досягнення адекватної сили або точності для первинного результату, судовий процес слід або відмовитися, або інший первинний результат повинен бути прийнятий.
2.5 Практичні обмеження
На практиці статистичні міркування - це не єдині фактори, які необхідно враховувати при плануванні розміру розслідування. Ресурси, з точки зору персоналу, транспортних засобів, потужності лабораторії, часу або грошей, можуть обмежувати потенційний розмір випробування, і часто необхідно йти на компроміс між результатами обчислень пробного розміру та тим, що можна керувати за допомогою наявних ресурсів. Спроба провести випробування, яке перевищує можливості наявних ресурсів, швидше за все, буде безплідною, оскільки якість даних, ймовірно, постраждає, а результати можуть бути схильні до серйозної упередженості, або судовий розгляд може навіть повністю зруйнуватися, витрачаючи зусилля та гроші, які вже були витрачені. Якщо розрахунки вказують на те, що випробування керованого розміру дасть потужність і/або точність, яка є неприпустимо низькою, ймовірно, краще взагалі не проводити судовий розгляд.
Корисним підходом до вивчення компромісу між пробним розміром (і, отже, вартістю) та потужністю є побудова кривих потужності для однієї або двох ключових змінних результату. Криві потужності показують, як потужність змінюється залежно від розміру пробної версії для різних значень міри ефекту. На малюнку 5.1 показані криві потужності смертей від малярії в дослідженні москітної сітки, розглянутому в розділі 2.4, припускаючи, що однакова кількість дітей повинна бути розподілена на групи втручання та контролю, а статистичне значення має базуватися на двосторонньому тесті на рівні 5%. R являє собою коефіцієнт смертності від малярії в групі втручання порівняно з контрольною групою, так що R = 0,3R = 0,3 являє собою зниження рівня смертності на 70%. Припущення, що використовуються для побудови цих кривих, описані в розділі 4. Криві вказують на те, що, якби 1000 дітей стежили протягом 1 року в кожній групі (загалом 2000 дітей), було б приблизно кожен другий шанс отримати значний результат (потужність = 50%), навіть якщо зниження рівня смертності становило 70%. Випробування в п'ять разів більшим, ніж це, матиме хороші шанси (близько 80%) виявити зниження рівня смертності на 50% або більше, але було б недостатнім (близько 40%), щоб виявити зниження смертності на 30%.
Малюнок 5.1 Криві потужності для випробування впливу москітних сіток на смерть від малярії.

Показник смертності від малярії в контрольній групі вважається 10/1000/рік. R, відносна швидкість в групі втручання. Припускає рівнорозмірні групи, двосторонній тест і значущість p < 0,05.