Skip to main content
LibreTexts - Ukrayinska

11.3: Баланс дерева

  • Page ID
    4813
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Як ми обговорювали в розділі 10, баланс дерев враховує, наскільки «збалансовані» гілки філогенетичного дерева. Тобто, якщо ми подивимось на кожен вузол у дереві, чи два сестринські клади однакового розміру (збалансовані) або дико різні (незбалансовані)?

    Дерева народження-смерті мають певну кількість «балансу», можливо, трохи менше, ніж може припустити ваша інтуїція (див. Розділ 10). Ми можемо подивитися на справжні дерева, щоб побачити, чи відповідає сума балансу того, що ми очікуємо за моделями народження-смерті. Менш збалансований візерунок у справжніх деревах свідчить про те, що швидкість видоутворення та/або вимирання коливається між лініями більше, ніж ми очікували. Навпаки, більш збалансовані дерева припускають більш рівномірну та передбачувану диверсифікацію по дереву життя, ніж очікувалося за моделями народження-смерті. Цей підхід простежується до Раупа та колег, які застосували стохастичні моделі народження-смерті до палеонтології в серії впливових робіт у 1970-х роках (наприклад, Raup et al. 1973, Raup and Gould (1974)). Як це зробити як для окремих вузлів, так і для цілих дерев я покажу в наступних розділах.

    Розділ 11.3a: Сестринські клади та баланс окремих вузлів

    Для одиночних вузлів ми вже знаємо, що розподіл багатства сестринських видів таксонів є рівномірним у всіх можливих поділах N n видів на два клади розміром N a та N b (Глава 11). Ця ідея призводить до простого випробування того, чи є розподіл видів між двома сестринськими кладами незвичайним порівняно з очікуванням за моделлю народження-смерті (Slowinski and Guyer 1993). Цей тест можна використовувати, наприклад, для перевірки того, чи різноманітність виняткових кладів, таких як горобині птахи, вище, ніж можна було б очікувати порівняно з їхньою сестринською кладою. Це найпростіша міра балансу дерева, оскільки вона розглядає лише один вузол у дереві одночасно.

    Slowinsky and Guyer (1993) розробили тест, заснований на обчисленні P-значення для поділу принаймні такого екстремального, як це видно в конкретному порівнянні сестринських кладів. Розглянуто N n загальних видів, розділених на два сестринських клади розмірів N a та N b, де N a < N b. і N а + N б = N п. Потім:

    Якщо N aN б:

    \[ P = \frac{2 N_a}{N_n - 1} \label{11.7}\]

    Якщо N a = N b або P > 1, то встановіть P = 1

    Наприклад, можна оцінити диверсифікацію в андських представників бобового роду Lupinus (Hughes and Eastwood 2006). Цей рід включає одне молоде випромінювання 81 андського виду, що охоплює широкий спектр форм росту. Ймовірна сестра-клада цього вражаючого андського випромінювання - це клада видів Lupinus у Мексиці, яка включає 46 видів (Drummond et al. 2012). У цьому випадку N a = 81 − 46 = 35, і ми можемо обчислити P-значення, перевіряючи нульову гіпотезу, що обидва ці клади мають однакову швидкість диверсифікації:

    \[ P = \frac{2 N_a}{N_n - 1} = \frac{2 \cdot 35}{81 - 1} = 0.875 \label{11.8} \]

    Ми не можемо відкинути нульову гіпотезу. Дійсно, пізніша робота свідчить про те, що фактичне збільшення коефіцієнта диверсифікації для Люпінуса відбулося глибше в філогенетичному дереві, у предка більш широкого діапазону кладу Нового Світу (Hughes and Eastwood 2006; Drummond et al. 2012).

    Часто нас цікавить перевірити, чи відповідає певна риса - скажімо, розгін у Парамо - за збільшення видового багатства, яке ми бачимо в деяких кладах. У такому випадку єдине порівняння сестринських кладів може бути незадовільним, оскільки сестринські клади майже завжди відрізняються багатьма персонажами, поза лише цікавою рисою. Навіть якщо клад з нашою передбачуваною «ключовою інновацією» більш різноманітний, ми все одно не можемо бути впевнені у висновку кореляції з одного спостереження. Нам потрібна реплікація.

    Для вирішення цієї проблеми багато досліджень використовували природні реплікації по дереву життя, порівнюючи видові багатства багатьох пар сестринських кладів, які відрізняються заданою ознакою інтересу. Після Slowinsky і Guyer (1993), ми могли б обчислити p-значення для кожного кладу, а потім об'єднати ці p-значення в загальний тест. У цьому випадку один клад (з різноманітністю N 1) має цікаву рису, а інший - ні (N 0), а наша формула - половина рівняння 11.5, оскільки ми будемо вважати це однохвостим тестом:

    \[ P = \frac{N_0}{N_n - 1} \label{11.9} \]

    При аналізі повторюваних порівнянь кладів - наприклад, багатьох сестринських кладів, де в кожному випадку один має цікаву рису, а інший ні - Slowinsky і Guyer (1993) рекомендували поєднувати ці p-значення за допомогою комбінованого тесту ймовірності Фішера, так що:

    \[χ^2){combined} = −2∑\ln (P_i) \label{11.10}\]

    Тут значення P i походять від i незалежних порівнянь сестринських кладів, кожне з яких використовує рівняння 11.9. Під нульовою гіпотезою, де характер інтересу не збільшує коефіцієнти диверсифікації, тестова статистика, θ 2 c o m b i n e d, повинна слідувати а чи- розподіл у квадраті з 2 k ступенями свободи, де k - кількість тестів. Але перш ніж використовувати цей комбінований підхід ймовірності, подивіться, що станеться, коли ми застосуємо його до реального прикладу!

    Як приклад розглянемо наступні дані, за якими порівнюється різноманітність багатьох сестринських пар рослин. У кожному випадку один клад має м'ясисті плоди, а інший сухий (дані з Vamosi and Vamosi 2005):

    М'ясисті фрукти кладе н ф л е с ч у Сухі фрукти кладе н д р у
    A 1 Б 2
    C 1 D 64
    Е 1 F 300
    Г 1 Ч 89
    Я 1 J 67
    К 3 Л 4
    М 3 П 34
    O 5 Р 10
    Q 9 Р 150
    S 16 Т 35
    У 33 V 2
    Ш 40 Х 60
    У 50 Z 81
    АА 100 ББ 1
    КОПІЯ 216 ДД 3
    EE 393 FF 1
    ГГ 850 ЧХ 11
    II 947 ДЖДЖЕЙ 1
    КК 1700 LL 18

    Клади в наведеній вище таблиці такі: А: Пангіум, Б: Ахарія + Кігелларія, С: Кирилла, Д: Клетра, Е: Руссея, Ф: Лобелія, Г: Перемичниця + Галорагіс + Пенторум, Н: Тетракарпея, Я: Австробайлея, Дж: Ілліцій+Лимонник, К: Давидсонія, Л: Бауера, М: Мітчелла, Н: Пентас, O: Мілліганія , P: Боря, Q: Самбук, Р: Калина, S: Перескія, Т: Моллуго, U: Декаснея + Саргентодокса+Тиноспора + Меніспермум + Нандіна Каулофіллум + Гідрастіс + Глауцидій, V: Евптелея, Ш: Тетрацера, Х: Ділленія, Y: Осбекія, Z: Мурірі, АА: Гіппократея, ВВ: Плагіоптерон, CC: Циклантус + Сфаераденія + Фрейцинеція , DD: Петросавія + Японія, EE: Bixa, FF: Теоброма + Гревія + Тілія + Стеркулія +, GG: Нетерплячі, HH: Ідрія, II: Ламій+Клеродендрум+Callicarpa + Філа + Педікуляріс + Павловнія, J: Евтистахія , КК: Каллікарпа + Філа + Педікуляріс + Павловнія + Соланум, LL: Соланум.

    Окремі клади демонструють змішану підтримку гіпотези, лише 7 із 18 порівнянь демонструють більш високу різноманітність у м'ясистому кладі, але 6 із цих 7 порівнянь, значущих при P < 0,05 за допомогою рівняння 11.9. Комбінований тест ймовірності дає тестову статистику θ 2 c o m b i n e d = 72,8. Порівнюючи це з розподілом θ 2 з 36 ступенями свободи, отримаємо P = 0.00027, дуже значущий результат. Це означає, що м'ясисті фрукти насправді призводять до більш високого темпу диверсифікації.

    Однак, якщо перевірити протилежну гіпотезу, ми побачимо задачу з комбінованим тестом ймовірності рівняння 11.10 (Vamosi and Vamosi 2005). По-перше, зверніть увагу, що 11 з 18 порівнянь показують більш високу різноманітність в нем'ясистому кладі, причому 4 значні при P <0,05. Комбінований тест ймовірності дає θ 2 c o m b i n e d = 58,9 і P = 0,0094. Тому ми відкидаємо нульову гіпотезу і робимо висновок, що нем'ясисті плоди диверсифікуються з більшою швидкістю! Іншими словами, ми можемо відхилити нульову гіпотезу в обох напрямках на цьому прикладі.

    Що тут відбувається? Виявляється, цей тест дуже чутливий до викидів - тобто кладам з крайніми відмінностями в різноманітності. Ці клади дуже відрізняються від того, що можна було б очікувати при нульовій гіпотезі, що призводить до відмови від нульового - і, в деяких випадках, з двома символами, коли є викиди з обох сторін (наприклад, частка видів у кожному штаті має U-подібний розподіл; Paradis 2012) ми можемо показати що обидва персонажі значно збільшують різноманітність (Vamosi і Vamosi 2005)!

    На щастя, існує ряд вдосконалених методів, які можуть бути використані, схожі за духом на оригінальний тест Slowinsky і Guyer, але більш статистично надійні (наприклад, Paradis 2012). Наприклад, ми можемо застосувати «тест на багатство Юле», як описано в Paradis (2012), до даних Vamosi et al. (2005). Це модифікована версія тесту McConway-Sims (McConway and Sims 2004), і порівнює ймовірність рівної швидкості yule моделі, застосованої до всіх кладів, до моделі, де одна риса пов'язана з вищими або нижчими показниками диверсифікації. Цей тест вимагає знання віку кладів, яких у мене немає для цих даних, але Paradis (2012) показує, що тест є надійним до цього припущення і рекомендує замінити великий і рівний вік для кожного кладу. Я вибрав 1000 як довільний вік і знайшов значний тест коефіцієнта ймовірності (нульова модель l n L = −215.6, альтернативна модель l n L = −205,7, P = 0,000008). Цей метод оцінює більш високу швидкість диверсифікації для м'ясистих плодів (оскільки вік клади довільний, фактичні норми не мають сенсу, але їх розрахункове співвідношення λ 1/λ 0 = 1,39 говорить про те, що м'ясисті плодові лінійки мають диверсифікацію. ставка майже на 40% вище).

    Розділ 11.3b: Баланс цілих філогенетичних дерев

    Ми можемо оцінити загальний баланс всього філогенетичного дерева, використовуючи статистику балансу дерев. Як обговорювалося, я опишу лише одну загальну статистику, Colless' I, оскільки інші метрики захоплюють ту ж саму картину дещо по-різному.

    Щоб обчислити Колесс I, ми можемо використовувати рівняння 10.18. Цей результат буде сильно залежати від розміру дерева, і тому не можна порівняти між деревами різних розмірів; щоб дозволити порівняння, I c зазвичай стандартизується, віднімаючи очікуване середнє значення для дерев такого розміру за випадковою моделлю (див. Нижче) та діливши на стандартне відхилення. Обидва вони можуть бути розраховані аналітично (Blum et al. 2006), а стандартизовані I c обчислені за допомогою невеликого наближення (після Bortolussi et al. 2006) як:

    \[ I^{'}_c = \frac{I_c-n*log(n)-n(\gamma-1-log(2))}{n} \label{11.11} \]

    Оскільки тестова статистика базується на описах закономірностей у деревах, а не на конкретних процесах, взаємозв'язок між дисбалансом та еволюційними процесами може бути важко розплутати! Але всі індекси балансу дерева дозволяють відкинути нульову гіпотезу про те, що дерево було створено за моделлю народження-смерть. Власне, очікувані закономірності балансу дерев абсолютно ідентичні при більш широкому класі моделей під назвою «Equal-Rates Markov» (ERM) моделей (Harding 1971; Mooers and Heard 1997). Моделі ERM вказують, що темпи диверсифікації (як видоутворення, так і вимирання) рівні по всіх лініях для будь-якого конкретного моменту часу. Однак ці ставки можуть змінюватися або не змінюватися з часом. Якщо вони не змінюються через час, то у нас є модель постійної швидкості народження-смерті, як описано вище - тому моделі народження-смерть є моделями ERM. Але моделі ERM також включають, наприклад, моделі, де рівень народжуваності сповільнюється з часом, або темпи вимирання збільшуються з часом тощо. Поки зміни ставок відбуваються точно так само по всіх лініях в будь-який час, то всі ці моделі передбачають точно таку ж закономірність балансу дерев.

    Типові етапи використання індексів балансу дерева для перевірки нульової гіпотези про те, що дерево було створено за ERM-моделлю, такі:

    1. Обчислити баланс дерева, використовуючи статистику балансу дерева.
    2. Імітуйте чисті дерева народження для загального нульового розподілу тестової статистики. Ми розглядаємо набір моделей ERM як наш null, але оскільки чисте народження є простим і все ще ERM, ми можемо використовувати його, щоб отримати правильний нульовий розподіл.
    3. Порівняйте фактичну статистику тесту з нульовим розподілом. Якщо фактична тестова статистика знаходиться в хвостах нульового розподілу, то ваші дані відхиляються від моделі ERM.

    Крок 2 є непотрібним у випадках, коли ми знаємо нульові розподіли для статистики балансу дерев аналітично, вірно для деяких (але не всіх) показників балансу (наприклад, Blum and François 2006). Є також деякі приклади в літературі розгляду нульових дистрибутивів, відмінних від ERM. Наприклад, Mooers and Heard (1997) розглядають дві інші нульові моделі, PDA та EPT, які розглядають різні статистичні розподіли форм дерев (але обидві з них важко прив'язати до якогось конкретного еволюційного процесу).

    Як правило, філогенетичні дерева є більш незбалансованими, ніж очікувалося за моделлю ERM. Насправді, це одне з найбільш надійних узагальнень, які можна зробити про макроеволюційні закономірності у філогенетичних деревах. Це відхилення означає, що показники диверсифікації різняться між родами дерева життя. Ми обговоримо, як кількісно оцінити та описати цю варіацію в наступних розділах. Ці тести всі схожі тим, що вони використовують кілька невкладених порівнянь багатства видів у сестринських кладах для обчислення тестової статистики, яка потім порівнюється з нульовим розподілом, як правило, на основі постійного процесу народження-смерті (розглянуто в Vamosi and Vamosi 2005; Paradis 2012).

    Як приклад можна застосувати підхід балансу цілого дерева до дерева Люпінуса (Drummond et al. 2012). Для цього дерева, яке має 137 наконечників, обчислюємо I c = 1010 і I c = 3,57. Це набагато вище, ніж очікувалося випадково при моделі ERM, з P = 0,0004. Тобто наше дерево значно більш незбалансоване, ніж очікувалося за моделлю ERM, яка включає як чисте народження, так і смерть від народження. Ми можемо сміливо зробити висновок, що існує різниця в скоростях видоутворення та/або вимирання по лініях дерева.