6: Нейтральне різноманіття та структура населення
- Page ID
- 7888
Як відбувається генетична диференціація між тісно пов'язаними популяціями? Як діє міграція для зменшення диференціації? Ці питання є ключовими для розуміння умов, за яких популяції (і види) можуть почати генетично розходитися один від одного. Щоб відповісти на ці питання, ми спочатку розглянемо це в контексті нейтральних алелів, а потім повернемося до думки про вибір та диференціацію в наступних розділах. Ми розглянули нейтральні алелі, отримані з випадково спаровуваної популяції, і розбіжність між алелями, взятими з двох віддалено пов'язаних популяцій. Тепер ми перейдемо до розгляду розбіжності між більш тісно пов'язаними групами населення. Думаючи про коалесценцію всередині популяцій, ми зробили припущення, що будь-яка пара родовищ однаково вірогідна зливатися один з одним. Однак, коли існує структура популяції, це припущення порушується, оскільки батько алеля, ймовірно, буде виявлений у тій самій популяції, що і дитина, і тому родовища в різних популяціях рідше зливаються.
Для розробки моделей про структуру населення ми використаємо статистику\(F_{\mathrm{ST}}\), яку ми ввели в Розділ [Розділ F_Stats] обговорення узагальнення структури популяції в частотах алелів. Раніше ми писали міру структури населення\(F_{\mathrm{ST}}\) як
\[F_{\mathrm{ST}} = \frac{H_T-H_S}{H_T}\]
де\(H_S\) - ймовірність того, що два алелі, відібрані випадковим чином з субпопуляції, відрізняються, і\(H_T\) ймовірність того, що два алелі, відібрані навмання від загальної популяції, відрізняються.
Проста модель поділу населення
Уявіть собі популяції постійних розмірів\(N_e\) диплоїдних індивідів, які\(T\) покоління в минулому розділилися на дві дочірні популяції (субпопуляції) кожного розміру\(N_e\) особин, які згодом не обмінюються мігрантами. У поточну добу ми відбираємо рівну кількість алелів з обох субпопуляцій.
Розглянемо пару алелів, відібраних в межах однієї з наших субпопуляцій, і подумайте про їх гетерозиготність на кожну ділянку. Ці алелі зазнали чисельності населення,\(N_e\) і тому ймовірність того, що вони відрізняються, є\(H_S \approx 4N_e \mu\) (якщо припустити\(N_e \mu \ll 1\), що, використовуючи наше Equation\ ref {eqn:hetero} для гетерозиготності всередині популяції).
Гетерозиготність в нашій загальній популяції трохи складніше обчислити. Припускаючи, що ми однаково вибираємо обидві субпопуляції, коли ми малюємо два алелі з нашої загальної\(50\%\) вибірки, часу, коли вони витягуються з однієї субпопуляції та\(50\%\) часу, коли вони витягуються з різних субпопуляцій. Тому наша сумарна гетерозиготність дається
\[H_T = \half H_S + \half H_B\]
де\(H_B\) ймовірність того, що пара алелів, витягнутих з наших двох різних субпопуляцій, відрізняються один від одного. Пара алелів з різних субпопуляцій не може знайти спільного предка один з одним протягом принаймні\(T\) поколінь у минулому, оскільки вони знаходяться в різних популяціях (не пов'язаних міграцією). Після того, як наші алелі опиняються в об'єднаній популяції предків, вони беруть їх в середньому\(2N\) поколінь, щоб об'єднатися. Таким чином, загальна можливість мутації між нашою парою алелів, відібраних з різних популяцій, - це\(2 (T + 2N )\) покоління мейозів, така, що ймовірність того, що наші пари алелів різні, є
\[H_B \approx 2\mu ( T + 2 N) %\left( 1-(1-\mu)^{2T} \right) + (1-\mu)^{2T} %\frac{\theta}{\theta+1}\]
Ми можемо підключити це до нашого виразу для\(H_T\), а потім, що в свою чергу в\(F_{\mathrm{ST}}\). Роблячи так, ми виявляємо, що
\[F_{\mathrm{ST}} \approx \frac{ \mu T}{\mu T + 4N_e\mu } = \frac{ T}{ T + 4N_e } \label{eqn:FST_split}\]
Зверніть увагу, що\(\mu\) скасовує вихід з цього рівняння. У цій простій моделі іграшок\(F_{\mathrm{ST}}\) збільшується, оскільки кількість різноманітності між популяціями збільшується з часом розбіжності двох популяцій (спочатку лінійно з\(T\)). \(F_{\mathrm{ST}}\)зростає зі швидкістю, що дає\(\frac{T}{(4N_e)}\) таким чином, що диференціація буде вищою між популяціями, розділеними тривалим часом розбіжності, або з невеликими ефективними розмірами населення.
Широкий геном\(F_{ST}\) між борнейськими та суматранськими зразками видів орангутангів (Pongo pygmaeus та Pongo abelii) являє\(\approx 0.37\) собою глибокий розподіл популяції між видами (потенційно з невеликим наступним геном потік). У межах популяцій середній показник Уоттерсона по всьому геному\(\theta\) становить\(\theta_W=1.4\) кб\(^{-1}\), оцінюється за кількістю сегрегаційних ділянок. Припустімо, що час генерації становить 20 років, і швидкість мутації\(2 \times 10^{-8}\) на базу на покоління. Наскільки далеко в минулому розходилися ці два популяції?
Проста модель міграції між островом і материком.
Ми також можемо використовувати коалесценцію, щоб думати про закономірності диференціації за простою моделлю міграційно-дрейфової рівноваги. Розглянемо невелике острівне населення, відносно ізольоване від великого населення материка, де обидві ці популяції мають постійні розміри. Ми припустимо, що очікувана гетерозиготність для пари алелів, відібраних на материку, є\(H_M\).
Наш острів має чисельність населення\(N_{I}\), яка дуже мала порівняно з нашим населенням материка. Кожне покоління деяких\(m\) низької частки наших особин на острові мають батьків-мігрантів з материка покоління раніше. Наш острів також може відправити мігрантів назад на материк, але це крапля в океані порівняно з великою чисельністю населення на материку, і їх вплив можна ігнорувати.
Якщо ми відбираємо алель на острові і простежимо його родове походження назад у часі, кожне покоління нашого\(m\) предкового алелю має низьку ймовірність зійти з материка в попередньому поколінні (якщо ми повернемося досить далеко, алель врешті-решт повинен бути зійшов з алель на материку). Імовірність того, що пара алелів, відібраних на острові, походить від спільного недавнього загального аллеля предків на острові, - це ймовірність того, що наша пара алелів зливається перед тим, як будь-яка лінія мігрує. Ну, наша пара родовищ зливається з ймовірністю\(\frac{1}{2N_I}\) в даному поколінні і, припускаючи, що швидкість міграції не надто висока (\(m \ll 1\)), ймовірність того, що той чи інший рід мігрує в даному поколінні\(2m\). Отже, ймовірність того, що наші лінії зливаються перед тим, як вони мігрують, є
\[\frac{\frac{1}{(2N_I)}}{\frac{1}{(2N_I)} + 2m},\]
який випливає як точно аналогічний аргумент нашій ймовірності того, що пара ліній зливається перед мутацією, [eqn:coal_no_mut], що ми використовували при отриманні очікуваної гетерозиготності.
Умовні від того чи іншого з наших алелів, які мігрують на материк, обидва наші алелі представляють незалежні нічиї з материка і так відрізняються один від одного з ймовірністю\(H_M\). Тому рівень гетерозиготності на острові задається
\[H_I = \left(1 - \frac{\frac{1}{(2N_I)}}{\frac{1}{(2N_I)} + 2m} \right)H_M\]
Отже, зниження гетерозиготності на острові в порівнянні з материком
\[F_{IM} = 1- \frac{H_I}{H_M} = \frac{\frac{ 1}{(2N_I)}}{\frac{1}{(2N_I)} + 2m} = \frac{ 1 }{1 + 4N_Im}. \label{eqn:FIM}\]
Рівень інбридингу на острові порівняно з материком буде високим, якщо швидкість міграції низька, а ефективна чисельність населення острова низька, оскільки частоти алелів на острові дрейфують, а різноманітність на острові не поповнюється міграцією. Ключовим параметром тут є кількість осіб на острові, замінених іммігрантами з материка кожного покоління (\(N_I m\)), навіть кілька мігрантів, які прибувають на острів, достатньо покоління, щоб запобігти нарощуванню великої диференціації частот алелів.
Ми сформулювали цю проблему як зменшення генетичного різноманіття на острові порівняно з материком. Однак, якщо ми розглянемо збір особин на острові та материку пропорційно їх чисельності населення, загальний рівень гетерозиготності буде\(H_T=H_M\), оскільки зразки з нашого материка значно перевищують кількість зразків з нашого острова. Тому, розглядаючи острів як наше субнаселення, ми вивели ще одну просту модель\(F_{ST}\).
Ви досліджуєте невелику річкову популяцію колючок, яка приймає нечастих мігрантів з дуже великого морського населення. При наборі орієнтовно нейтральних біаллельних маркерів прісноводна популяція має частоти:
0.2, 0.7, 0.8
при цих же маркерах морське населення має частоти:
0,4, 0,5 і 0,7.
Вивчаючи закономірності гетерозиготності при великій колекції маркерів, ви оцінили довгостроковий ефективний розмір вашої прісноводної популяції 2000 особин.
Яка ваша оцінка швидкості міграції з морських популяцій в річку?
Сортування за неповним родом
Часто, коли ми вивчаємо кілька популяцій, наприклад, видів, нас цікавить основний порядок, в якому популяції відокремлюються один від одного, і час цих подій. У випадку, коли популяції відділяються один від одного без подальшого потоку генів, ми можемо представити цю закономірність розщеплення деревом популяції. Оскільки поліморфізм може зайняти багато часу, щоб дрейфувати вгору або вниз по частоті, множинні розщеплення населення можуть відбутися в той час, коли аллель все ще сегрегує. Це може призвести до невідповідності між загальним деревом населення та інформацією про відносини, наявні в окремих локусах. Як ми бачили в попередніх розділах, зв'язки між вибірковими алелями в локусі представлені коалесцирующим деревом, іноді називають генними деревами в контексті неповної лінії та загалом у філогенетиці. На малюнку [рис:NOILS_POLY] та [Fig:ILS_POLY] ми показуємо моделювання трьох популяцій, де нижня популяція відділяється від двох інших спочатку, з подальшим розщепленням верхньої та середньої популяцій. Ми починаємо обидва моделювання з нововведеного червоного алеля поліморфного в об'єднаній популяції предків. Найбільш вірогідна доля цього алеля полягає в тому, що він швидко втрачається від популяції, але іноді алель може дрейфувати вгору по частоті і бути поліморфним, коли популяції розщеплюються, як це зробив аллель у наших двох фігурах. Якщо алель втрачений/зафіксований у нащадкових популяціях перед наступним розділенням популяції, наша конфігурація алелів погодиться з деревом популяції, як це робиться на малюнку [рис:noils_poly], і так само генне дерево погодиться з деревом популяції (як показано в лівій частині малюнка [ Рис: ІЛС_мультфільм]). Однак якщо алель зберігається як поліморфізм у родової популяції до розколу верхньої та середньої популяцій, то алель може закріпитися в одній з цих популяцій, а не в іншій. Така подія призводить до шаблону заміщення, який не погоджується з деревом популяції, як на малюнку [рис:ILS_POLY]. Якби ми будували філогенію, використовуючи варіацію на цьому місці, ми побачили б розбіжності між генним деревом і деревом популяції. На малюнку [рис:ILS_POLY] алель, витягнутий зверху та знизу популяцій, обов'язково більш тісно пов'язаний один з одним, ніж будь-який з алелем, витягнутим з населення 2; відстежуючи наші алельні лінії з верхньої та нижньої популяції назад через час, вони повинні зливатися з кожним інші, перш ніж ми досягнемо точки, де виникла червона мутація; на відміну від цього, рід із середньої популяції не може об'єднатися з жодним іншим родом, поки не виникла червона мутація. Приклад такого «неповного сортування родоводу» з точки зору нижнього дерева наведено на правій частині малюнка [рис:ILS_Cartoon].
Природною родовідною аналогією з неповним сортуванням походження є той факт, що, хоча два біологічних брата і сестри більш тісно пов'язані один з одним генеалогічно, ніж будь-який з їх двоюрідних братів, у будь-якому даному місці один із братів і сестер може поділитися алелем IBD зі своїм двоюрідним братом, який вони не поділяють зі своїми власними. братів і сестер, через випадковість менделіанської сегрегації вниз їх родовід. У цих випадках середня спорідненість особи/популяцій не погоджується з закономірностями спорідненості в певному локусі.
Як емпіричний приклад сортування неповної лінії розглянемо роботу того, хто секвенував один алель з трьох різних видів австралійських злакових в'юрків (Poephila): двох сестринських видів довгохвостих в'юрків (Poephila acuticauda і P. hecki) і чорногорлий в'юрок (Poephila cincta, див. Рис. [рис:PoePhila_cincta]). Вони зібрали дані послідовності для 30 генів і побудували філогенетичні генні дерева на кожному з цих локусів, в результаті чого 28 добре вирішених генних дерев. Шістнадцять генних дерев показали P. acuticauda і P. hecki як сестри з P. cincta) (дерево (((A, H), C)), тоді як для дванадцяти генів генне дерево було дисонантним з деревом популяції: для семи їх генів P. hecki впав як outgroup до двох інших і на п'ять P. acuticauda впав як поза групою (дерева (((A, C), H) і ((H, C), A) відповідно).
Давайте використаємо коалесценцію, щоб зрозуміти цю невідповідність між генними деревами та видами дерев. Припустимо, що два сестринські популяції (A & B) розділили\(t_1\) покоління в минулому, з більш глибоким розколом від третьої групи популяції (C)\(t_2\) поколінь в минулому. Ми припустимо, що немає потоку генів серед наших популяцій після кожного розколу. Ми можемо простежити родові лінії наших трьох алелів. Перша можливість для ліній A & B об'єднатись - це\(t_1\) покоління тому. Якщо вони зливаються один з одним у своїй спільній родовій популяції раніше\(t_2\) в минулому (ліва сторона малюнка [рис:ILS_Cartoon]), їх генне дерево, безумовно, погодиться з деревом популяції. Таким чином, єдиний спосіб для генного дерева не погодитися з деревом популяції - це те, що лінії A & B не зможуть об'єднатись у своїй спільній родовій популяції між\(t_1\) і\(t_2\); це відбувається з ймовірністю\(\left(1 - \frac{1}{2N}\right)^{t_2-t_1}\). Ми отримаємо дискордантне генне дерево, якщо A & B повернеться до спільної родової популяції з C без коалесцирования, а потім один чи інший з них зливається з лінією C, перш ніж вони зливаються один з одним. Це відбувається з ймовірністю\(2/3\), оскільки при першій парно-коалесцирующей події є три можливі пари ліній, які можуть злитися, дві з яких (A & C і B & C) призводять до дискордантного дерева. Отже, ймовірність того, що ми отримаємо коалесцентне дерево, яке не співпадає з деревом популяції, є
\[\frac{2}{3} \left(1 - \frac{1}{2N}\right)^{t_2-t_1}. \label{eqn:ILS_coal}\]
Це рівняння дозволяє співвіднести частку локусів, що показують неповне сортування по лінії, з параметрами популяційної генетики родової популяції.
Повернемося до австралійської трави в'юрків приклад. Вони підрахували, що родова чисельність популяції наших двох довгохвостих в'юрків становила чотириста тисяч. Яка ваша найкраща оцінка міжвидового часу, тобто\(t_2-t_1\)?
Частка локусів, що показують ILS, eqn [EQN:ILS_Coal], залежить від часу між розщепленнями населення (\(t_2-t_1\)) Таким чином, ми повинні очікувати розбіжності популяції дерева генів, коли популяції розщеплюються в швидкій послідовності та/або чисельності населення великі.
Тестування на генний потік
Ми часто хочемо перевірити, чи відбувся потік генів між популяціями. Наприклад, ми можемо встановити випадок, коли відбулося схрещування між людьми та неандертальцями, або продемонструвати, що потік генів стався після того, як дві популяції почали видозмінюватися. Для перевірки генного потоку та оцінки швидкості потоку генів на основі нейтральних очікувань було розроблено широкий спектр методів. Тут ми коротко обговоримо один метод, заснований на деяких простих коалесцентних ідей. Вище ми припускали, що розбіжність популяції та дерева генів зумовлена неповною сортуванням родової через швидке розщеплення популяцій. Однак потік генів серед популяцій також може призвести до розбіжності генного дерева. Хоча як ILS, так і потік генів можуть призвести до розбіжностей, при спрощенні припущень ILS передбачає більшу симетрію в тому, як ці розбіжності проявляються.
Погляньте на малюнок [рис:abba_baba]. В обох випадках лінії з 1 і 2 не об'єднуються в їх початковій спільній популяції предків, і той чи інший з них зливається з родом від 3, перш ніж вони зливаються один з одним. Кожен варіант однаково вірогідний; тому мутаційні шаблони ABBA та BABA однаково ймовірні виникати під ILS, але диференціальний потік генів порушить симетрію.
Щоб перевірити цей ефект потоку генів, ми можемо вибірку послідовності з кожної з наших 4 популяцій і підрахувати кількість ділянок, які показують дві мутаційні закономірності, що відповідають розбіжності генного дерева,\(n_{ABBA}\) і\(n_{BABA}\) і обчислити
\[\frac{n_{ABBA}-n_{BABA}}{n_{ABBA}+n_{BABA}} \label{eqn:ABBA_BABA}\]
Ця статистика матиме нуль очікування, якщо розбіжність генного дерева обумовлена ILS. Якщо між 2 і 3 є потік генів, що виключає 1, див. Рисунок [рис:ABBA_Baba_Introgression], буде надлишок ABBA, і тому статистика ABBA-BABA буде перекошена позитивно (і навпаки, вона буде негативно перекошуватися, якщо потік генів відбувся між 3 в 1). На практиці, чи значно це відрізняється від нуля, судять шляхом побудови Z статистики зі стандартною помилкою, знайденою шляхом перерахунку статистики на обчислювально-перевибірковому наборі даних великих геномних вікон.
Клод великих котів (Panthera) - це недавнє випромінювання, при цьому значна кількість спільних генетичних варіацій все ще розділяється по групі. досліджували закономірності геномної дивергенції, неповної сортування лінії та потоку генів через цю кладу за допомогою тестів ABBA-BABA з вітчизняним послідовність кішок як вихідна група. Один із прикладів для снігового барса, тигра та лева показаний нижче. Снігові барси та тигри відомі більш тісно пов'язані один з одним, ніж леви. підраховані SNP, де сніговий барс і лев послідовності поділяли похідний алель до виключення тигра (ABBA) і ті, де послідовності тигра і лева поділяли похідний алель до виключення снігового барса ( БАБА) і знайшов:
Сніговий барс | Тигр | Лев | домашня кішка | Графи |
---|---|---|---|---|
A | Б | Б | A | 1 434 106 |
Б | A | Б | A | 1 250 134 |
Розрахована статистика ABBA-BABA, [EQN:Abba_baba]\(0.07 \pm 0.0026~s.e.\), є, яка значно відрізняється від нуля. Напрямок цієї статистики з сильним перевищенням похідних SNP, де послідовність тигра ближче до левової послідовності, ніж сніговий барс, узгоджується з потоком генів між тиграми і левами після того, як тигри відкололися від снігових барсів (Рис. [рис:big_cat_ils]). Історично леви мали великий географічний ареал, і тому це схрещування глибоко в минулому правдоподібно.
Резюме
- Розроблено прості моделі нейтральної структури населення та розроблено очікування частотної диференціації алелів\(F_{\mathrm{ST}}\) за даними моделями.
- За простою моделлю ізоляції населення диференціація частоти алелів накопичується за рахунок генетичного дрейфу пропорційно часу розділеного на чисельність популяції.
- Лише невеликої кількості мігрантів між популяціями на покоління достатньо, щоб запобігти нарощуванню нейтральної диференціації частот алелів.
- Неповна сортування родової варіації є одним із джерел розбіжностей між популяцією/видами-деревами та генними деревами. Це відбувається, коли час розщеплення між популяціями знаходиться в досить швидкій послідовності, що лінії не встигають злитися між більш тісно пов'язаними групами населення.
- Потік генів також може призвести до закономірностей, подібних до неповної сортування ліній. Ми можемо протестувати між моделлю сортування неповної лінії та потоком генів за допомогою таких тестів, як ABBA-BABA.
Ви вивчаєте два види риб (червона риба і синя риба), і секвенування набору псевдогенів. Ось деякі факти, які ви зібрали:
- Третій вид риб (чорна риба) розходився від загального предка червоної-блакитної риби 3 мільйони років тому. Припустимо 1 генерацію риби на рік. Між червоною рибою і чорною рибою відбувається в середньому 1 заміна кожні 100 базових пар.
- У цих псевдогенах, у червоній рибі, ви оцінюєте, що гетерозиготність у червоній рибі\(10^{-4}\) припадає на базову пару.
- \(F_{ST}\)між червоною рибою і синьою рибою дорівнює 0,1.
- Немає потоку генів серед жодного з цих видів після їх розщеплення.
- Яка швидкість мутації за базову?
- Яка ефективна чисельність популяції червоної риби?
- Коли розкололися популяції червоних і синіх риб? Припустимо, що вони мають рівні чисельності населення.
З посиланням на дерево популяції, показане на малюнку [рис:abba_neanderthal]:
- На дереві популяції пунктирні лінії показують неповний ген філогенія (для одного алеля, проведеного з кожної популяції). У місці, лінія шимпанзе має алель А. Завершіть генну генеалогію таким чином, який би відповідав неандертальським та європейським лініям, що поділяють похідний B алель, до виключення африканського походження (ABBA). Позначте гілку, з якої\(A \rightarrow B\) повинна відбутися мутація, щоб генерувати цей шаблон (припускаючи одну мутацію).
- Яка ймовірність спостереження генного дерева, що відповідає тому, яке ви намалювали в частині А під коалесцентною моделлю? Підказка: Пам'ятайте, що неповна сортування за родом пов'язана з тим, що не вдалося об'єднатись у родовій популяції. Припустімо час покоління 30 років та ефективний розмір населення 10 000 у всіх популяціях. Крім того, припустимо, що лінії, відібрані з неандертальців та сучасних людських популяцій, безумовно, будуть зливатися один з одним перед загальним родовим популяції з шимпанзе.