Processing math: 100%
Skip to main content
LibreTexts - Ukrayinska

1.1: Етапи аналізу даних

Цілі навчання
  • Як визначити найкращий спосіб аналізу біологічного експерименту

Як визначити відповідний статистичний тест

Системний, поетапний підхід - найкращий спосіб вирішити, як аналізувати біологічні дані. Рекомендується виконати наступні дії:

  1. Вкажіть біологічне питання, яке ви задаєте.
  2. Поставте питання у вигляді біологічної нульової гіпотези і чергуйте гіпотези.
  3. Поставте питання у вигляді статистичної нульової гіпотези і альтернативної гіпотези.
  4. Визначте, які змінні мають відношення до питання.
  5. Визначте, яка змінна кожна з них.
  6. Розробіть експеримент, який контролює або рандомізує змішані змінні.
  7. Виходячи з кількості змінних, видів змінних, очікуваного прилягання до параметричних припущень та гіпотези, що підлягає перевірці, виберіть найкращий статистичний тест для використання.
  8. Якщо можливо, зробіть аналіз потужності, щоб визначити хороший розмір вибірки для експерименту.
  9. Проведіть експеримент.
  10. Вивчіть дані, щоб побачити, чи відповідає він припущенням вибраного вами статистичного тесту (перш за все нормальність та гомоскедастічність для тестів змінних вимірювань). Якщо це не так, виберіть більш відповідний тест.
  11. Застосуйте вибраний вами статистичний тест та інтерпретуйте результати.
  12. Ефективно повідомляйте свої результати, як правило, за допомогою графіка або таблиці.

Коли ви працюєте над цим підручником, ви дізнаєтеся про різні частини цього процесу. Один важливий момент, який ви повинні пам'ятати: «зробіть експеримент» - крок 9, а не крок 1. Перш ніж робити експеримент, вам слід багато думати, планувати та приймати рішення. Якщо ви зробите це, у вас буде експеримент, який легко зрозуміти, легко аналізувати та інтерпретувати, відповість на питання, на які ви намагаєтеся відповісти, і не є ні занадто великим, ні занадто малим. Якщо ви просто ляпаєте разом експеримент, не думаючи про те, як ви збираєтеся робити статистику, вам можуть знадобитися більш складні та незрозумілі статистичні тести, отримати результати, які важко інтерпретувати та пояснити іншим, і, можливо, використовуючи занадто багато предметів (таким чином витрачаючи ресурси) або занадто мало предметів (тим самим витрачаючи весь експеримент).

Ось приклад того, як працює процедура. Verrelli and Eanes (2001) вимірювали вміст глікогену у осіб Drosophila melanogaster. Мухи були поліморфними в генетичному локусі, який кодує для ферменту фосфоглюкомутази (ПГМ). На місці52 в послідовності білків PGM мухи мали або валін, або аланін. На місці484 вони мали або валін, або лейцин. Були присутні всі чотири комбінації амінокислот (V-V, V-L, A-V, A-L).

Рис. 1.1.1 Дрозофіла меланогастер
  1. Одне біологічне питання: «Чи впливають поліморфізми амінокислот в локусі Pgm на вміст глікогену?» Біологічне питання, як правило, щось про біологічні процеси, часто у формі «Чи зміниX викликають зміниY?» Можливо, ви захочете знати, чи змінює препарат артеріальний тиск; чи впливає рН ґрунту на ріст кущів чорниці; чи протеїн Rab10 опосередковує мембранний транспорт до вій.
  2. Біологічна нульова гіпотеза полягає в тому, що «Різні послідовності амінокислот не впливають на біохімічні властивості ПГМ, тому на вміст глікогену не впливає послідовність ПГМ». Біологічна альтернативна гіпотеза полягає в тому, що «Різні послідовності амінокислот впливають на біохімічні властивості ПГМ, тому на вміст глікогену впливає послідовність ПГМ». Думаючи про біологічні нульові та альтернативні гіпотези, ви переконуєтесь, що ваш експеримент дасть різні результати для різних відповідей на ваше біологічне запитання.
  3. Статистична нульова гіпотеза полягає в тому, що «Мухи з різними послідовностями ферменту ПГМ мають однаковий середній вміст глікогену». Альтернативна гіпотеза: «Мухи з різними послідовностями ПГМ мають різний середній вміст глікогену». Хоча біологічні нульові та альтернативні гіпотези стосуються біологічних процесів, статистичні нульові та альтернативні гіпотези стосуються цифр; у цьому випадку вміст глікогену або однаковий, або різний. Тестування вашої статистичної нульової гіпотези є основним предметом цього посібника, і воно повинно дати вам чітку відповідь; ви або відхилите, або приймете статистичну нуль. Чи відхилення статистичної нульової гіпотези є достатнім доказом, щоб відповісти на ваше біологічне запитання, може бути більш складним, більш суб'єктивним рішенням; можуть бути й інші можливі пояснення ваших результатів, і вам, як експерту у вашій спеціалізованій галузі біології, доведеться розглянути, наскільки правдоподібними вони є.
  4. Дві відповідні змінні в експерименті Verrelli та Eanes - це вміст глікогену та послідовність PGM.
  5. Вміст глікогену - це змінна вимірювання, те, що ви записуєте як число, яке може мати багато можливих значень. Послідовність PGM, яку має муха (V-V, V-L, A-V або A-L) - це номінальна змінна, щось з невеликою кількістю можливих значень (у цьому випадку чотири), які ви зазвичай записуєте як слово.
  6. Інші змінні, які можуть бути важливими, такі як вік і де у флаконі муха окукливалась, були або контрольовані (використовувалися мухи того ж віку) або рандомізовані (мухи були взяті випадковим чином з флаконів без урахування того, де вони окукливались). Також можна було б спостерігати змішані змінні; наприклад, Верреллі та Енес могли використовувати мух різного віку, а потім використовували статистичну техніку, яка підлаштовувалася під вік. Це зробило б аналіз складнішим у виконанні та складнішим для пояснення, і хоча він міг би виявити щось цікаве щодо віку та вмісту глікогену, це не допомогло б вирішити головне біологічне питання щодо генотипу ПГМ та вмісту глікогену.
  7. Оскільки метою є порівняння засобів однієї змінної вимірювання серед груп, класифікованих за однією номінальною змінною, і існує більше двох категорій, відповідним статистичним тестом є одностороння анова. Як тільки ви знаєте, які змінні ви аналізуєте і якого типу вони є, кількість можливих статистичних тестів зазвичай обмежується одним або двома (принаймні для тестів, які я представляю в цьому посібнику).
  8. Аналіз потужності вимагав би оцінки стандартного відхилення вмісту глікогену, яке, ймовірно, можна було б знайти в опублікованій літературі, і номер для розміру ефекту (зміна вмісту глікогену серед генотипів, які експериментатори хотіли виявити). У цьому експерименті будь-яка різниця у вмісті глікогену серед генотипів була б цікавою, тому експериментатори використовували стільки мух, скільки було практичним у наявний час.
  9. Був проведений експеримент: вміст глікогену вимірювали у мух з різними послідовностями ПГМ.
  10. Anova припускає, що змінна вимірювання, вміст глікогену, є нормальною (розподіл відповідає нормальній кривій у формі дзвіночка) та гомоседастичною (дисперсії вмісту глікогену різних послідовностей PGM рівні), і перевірка гістограм даних показує, що дані відповідають цим припущенням. Якби дані не відповідали припущенням anova, тест Крускала—Уолліса або тест Уелча міг би бути кращим.
  11. Одностороння anova була зроблена за допомогою електронної таблиці, веб-сторінки або комп'ютерної програми, і результат anova -P значення менше0.05. Інтерпретація полягає в тому, що мухи з деякими послідовностями PGM мають різний середній вміст глікогену, ніж мухи з іншими послідовностями PGM.
  12. Результати можна узагальнити в таблиці, але більш ефективним способом їх передачі є графік:
Рис. 1.1.2 Вміст глікогену в дрозофілі меланогастер. Кожна планка представляє середній вміст глікогену (в мікрограмах на муху) 12 мух із вказаним гаплотипом ПГМ. Вузькі смуги представляють 95% довіри інтервалів.

Посилання

  1. Картина дрозофіли меланогастер з ферклеягід.
  2. Верреллі, до н.е., і В.Ф. Еанес. 2001. Функціональний вплив поліморфізму амінокислот ПГМ на вміст глікогену в Drosophila melanogaster. Генетика 159:201-210. (Зауважте, що для цілей цієї веб-сторінки я використовував інший статистичний тест, ніж Verrelli та Eanes. Вони цікавилися взаємодіями між окремими поліморфізмами амінокислот, тому використовували двосторонню анову.)
  • Was this article helpful?