7.4: Розширена модель Mk
- Page ID
- 4890
Модель Mk передбачає, що переходи між усіма можливими станами символів відбуваються з однаковою швидкістю. Однак це може бути не дійсним припущенням. Наприклад, часто передбачається, що легше втратити складного персонажа, ніж набрати його. Ми можемо захотіти підігнати моделі, які дозволяють такі асиметрії в темпах.
Для моделей еволюції послідовності ДНК існує широкий спектр моделей, що дозволяють різні швидкості між різними типами нуклеотидів (Yang 2006). Нерівні ставки зазвичай включаються в модель Mk двома способами. По-перше, можна розглянути симетричну модель (SYM; Paradis et al. 2004). У симетричній моделі швидкість зміни між будь-якими двома символьними станами така ж, як і назад (тобто швидкості зміни симетричні; q i j = q j i). Ставка для певної пари станів може відрізнятися від інших пар станів символів. Зверніть увагу, що при k = 2 симетрична модель ідентична базовій моделі Mk. Матриця швидкості для цієї моделі має стільки параметрів вільної швидкості, скільки є пари станів символів:
(ур. 7,11)
\[ p = \frac{k(k-1)}{2} \]
Однак в цілому симетричні моделі не матимуть стаціонарних розподілів, де всі стани символів відбуваються на рівних частотах, як зазначалося вище для моделі Mk. Ми можемо врахувати ці нерівномірні частоти, додавши до нашої моделі додаткові параметри:
(ур. 7,12)
\[ \pi_{SYM} = \begin{bmatrix} \pi_1 & \pi_2 & \dots & 1 - \sum_{i=1}^{n-1} \pi_i \end{bmatrix} \]
Зауважте, що нам потрібно вказати лише n − 1 рівноважних частот, оскільки ми знаємо, що всі вони сумуються до одиниці. Ми додали n − 1 нових параметрів для загальної кількості параметрів:
(ур. 7,13)
\[ p = \frac{k(k-1)}{2} + n-1 \]
Для отримання Q -матриці для цієї моделі об'єднаємо інформацію як з відносних швидкостей переходу, так і рівноважних частот:
(ур. 7,14)
\[ \mathbf{Q} = \begin{bmatrix} \cdot & r_1 & \dots & r_{n-1} \\ r_1 & \cdot & \dots & \vdots \\ \vdots & \vdots & \cdot & r_{k(k-1)/2} \\ r_{n-1} & \dots & r_{k(k-1)/2} & \cdot \\ \end{bmatrix} \begin{bmatrix} \pi_1 & 0 & 0 & 0 \\ 0 & \pi_2 & 0 & 0 \\ 0 & 0 & \ddots & 0 \\ 0 & 0 & 0 & \pi_n \\ \end{bmatrix} \]
У цьому рівнянні я залишив діагональ першої матриці як точки. Остаточна Q -матриця повинна мати всі рядки сумою до одиниці, тому можна регулювати значення цієї матриці після кроку множення.
Наприклад, у випадку моделі з двома станами ми можемо створити модель, де швидкість вперед подвоює швидкість назад, а рівноважна частота символу - 0,75. Потім:
(ур. 7,15)
\[ \mathbf{Q} = \begin{bmatrix} \cdot & 1 \\ 2 & \cdot \\ \end{bmatrix} \begin{bmatrix} 0.75 & 0 \\ 0 & 0.25 \\ \end{bmatrix} = \begin{bmatrix} \cdot & 0.25 \\ 1.5 & \cdot \\ \end{bmatrix} = \begin{bmatrix} -0.25 & 0.25 \\ 1.5 & -1.5 \\ \end{bmatrix} \]
Варто зазначити, що такий підхід встановлення параметрів, що визначають частоти рівноважних станів, хоча і запозичений з молекулярної еволюції, не є повністю стандартним у літературі порівняльних методів. Також розглядаються рівноважні частоти, що розглядаються як фіксована властивість моделі, і приймаються або рівними між станами, або прив'язані безпосередньо до параметрів у Q -матриці.
Друге поширене розширення моделі Mk називається все-тарифічною моделлю (ARD; Paradis et al. 2004). У цій моделі кожен можливий тип переходу може мати різну швидкість. Таким чином, існує k (k − 1) параметри вільної швидкості для цієї моделі, і знову n − 1 параметри для визначення рівноважних частот символьних станів.
Один і той же алгоритм може бути використаний для обчислення ймовірності для обох цих розширених моделей Mk (SYM і ARD). Ці моделі мають більше параметрів, ніж стандартні Мк. Щоб знайти рішення з максимальною правдоподібністю, ми повинні оптимізувати ймовірність по всьому набору невідомих параметрів (див. Розділ 7).