Skip to main content
LibreTexts - Ukrayinska

8.2: Підгонка моделей Mk до порівняльних даних

  • Page ID
    4703
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Рівняння в главі 7 дають нам достатньо інформації для обчислення ймовірності для порівняльних даних на дереві. Щоб зрозуміти, як це робиться, ми можемо спочатку розглянути найпростіший випадок, де ми знаємо початковий стан символу, довжину гілки та кінцевий стан. Потім ми можемо застосувати метод по всьому дереву, використовуючи алгоритм обрізки, який дозволить обчислити ймовірність даних, даних моделі та філогенетичного дерева.

    Уявіть, що дводержавний символ змінюється від стану 0 до стану 1 десь за проміжок часу t = 3. Яка ймовірність цих даних при моделі Мк? Як ми зробили в рівнянні 7.17, ми можемо встановити параметр швидкості q = 0.5 для обчислення матриці ймовірностей:

    \[ \mathbf{P}(t) = e^{\mathbf{Q} t} = exp( \begin{bmatrix} -0.5 & 0.5 \\ 0.5 & -0.5 \\ \end{bmatrix} \cdot 3) = \begin{bmatrix} 0.525 & 0.475 \\ 0.475 & 0.525 \\ \end{bmatrix} \label{8.1}\]

    Для цього простого прикладу ми почали зі стану 0, тому ми дивимося на перший рядок. Уздовж цієї гілки ми закінчилися на стані 1, тому ми повинні дивитися конкретно на p 12 (t): ймовірність початку зі стану 0 і закінчуючи станом 1 з часом t. Це значення є ймовірністю отримання даних, заданих моделлю (тобто ймовірністю): L = 0,475.

    Ця ймовірність відноситься і до еволюційного процесу уздовж цієї єдиної гілки.

    Коли ми маємо порівняльні дані, ситуація складніша. Якби ми знали стани та стани предків у кожному вузлі дерева, то розрахунок загальної ймовірності був би простим - ми могли б просто застосувати підхід вище багато разів, один раз для кожної гілки дерева. Однак є дві проблеми. По-перше, ми не знаємо початкового стану персонажа в корені дерева, і повинні розглядати це як невідоме. По-друге, ми моделюємо процес, який відбувається самостійно на багатьох гілках філогенетичного дерева, і спостерігаємо лише за станами в кінці цих гілок. Всі стани символів у внутрішніх вузлах дерева невідомі. Імовірність того, що ми хочемо обчислити, повинна бути підсумована по всім цим невідомим можливостям стану символів на внутрішніх гілках дерева.

    На щастя, Felsenstein (1973) надає елегантний алгоритм обчислення ймовірностей для дискретних символів на дереві. Цей алгоритм, який називається алгоритмом обрізки Фельзенштейна, описаний на прикладі в додатку до цього розділу. Алгоритм обрізки Фельзенштейна був важливим в історії філогенетики, оскільки він дозволив вченим ефективно розрахувати ймовірність порівняльних даних, заданих деревом і моделлю. Потім можна максимізувати цю ймовірність, змінивши параметри моделі (а, можливо, також топологію та довжину гілок дерева; див. Felsenstein 2004).

    Обрізка також дає деяке уявлення про те, як ми можемо обчислити ймовірності на деревах; до багатьох інших проблем у порівняльних методах можна підійти за допомогою різних алгоритмів обрізки.

    Алгоритм обрізки Фельзенштейна йде назад у часі від кінчиків до кореня дерева (див. Додаток, розділ 8.8). В корені ми повинні вказати ймовірності кожного статусного стану у спільного предка виду в кладі. Як згадувалося в розділі 7, існує принаймні три можливі методи для цього. По-перше, можна припустити, що кожен стан може відбуватися в корені з однаковою ймовірністю. По-друге, можна припустити, що стани черпаються з їх стаціонарного розподілу, як це дано моделлю. Стаціонарний розподіл - це стабільний розподіл ймовірностей станів, який досягається моделлю через тривалий проміжок часу. По-третє, можна мати деяку інформацію про стан кореня - можливо, з скам'янілостей або інформації про стани символів у наборі позагрупових таксонів - які можуть бути використані для присвоєння ймовірностей державам. На практиці перші два з цих способів більш поширені. У розглянутому вище випадку - модель Mk з усіма швидкостями переходу рівними - стаціонарний розподіл є таким, де всі стани однаково вірогідні, тому перші два методи ідентичні. В цілому, однак, ці три методи можуть дати різні результати.