Loading [MathJax]/jax/output/HTML-CSS/jax.js
Skip to main content
LibreTexts - Ukrayinska

4: Генетичний дрейф та нейтральне різноманіття

Випадковість притаманна еволюції, від щасливих птахів здули курс на колонізацію якогось нового океанічного острова, до якого мутації виникають спочатку в штамі ВІЛ, що заражає індивіда, що приймає антиретровірусні препарати. Одним з основних джерел стохастичності в еволюційній біології є генетичний дрейф. Генетичний дрейф відбувається тому, що більш-менш копії алеля випадково можуть передаватися наступному поколінню. Це може статися тому, що випадково особини, що несуть певний алель, можуть залишити більш-менш потомство в наступному поколінні. У статевій популяції генетичний дрейф відбувається також тому, що передача Менделя означає, що потомству передається лише один з двох алелів у особини, обраний випадковим чином у місці.

Генетичний дрейф може відігравати певну роль у динаміці всіх алелів у всіх популяціях, але він відіграє найбільшу роль для нейтральних алелів. Нейтральний поліморфізм виникає, коли сегрегаційні алелі на поліморфному місці не мають помітних відмінностей у своєму впливі на фітнес. Пізніше ми пояснимо, що ми маємо на увазі під «помітним», але на даний момент вважаємо це «ніяким впливом» на фітнес.

Нейтральна теорія молекулярної еволюції

Роль генетичного дрейфу в молекулярній еволюції гаряче обговорюється з 60-х років, коли була запропонована Нейтральна теорія молекулярної еволюції. Центральна передумова нейтральної теорії полягає в тому, що закономірності молекулярного поліморфізму всередині видів і заміщення між видами можуть бути добре зрозумілі, припустивши, що переважна більшість цих молекулярних поліморфізмів і замін були нейтральними алелями, динаміка яких була просто підпорядкована капризам генетичний дрейф і мутація. Ранні прихильники цієї точки зору припустили, що переважна більшість нових мутацій є нейтральними або дуже шкідливими (наприклад, мутації, які порушують важливі функції білка). Цей останній клас мутацій занадто шкідливий, щоб сприяти загальним поліморфізмам або заміщенням між видами, оскільки вони швидко висіваються з популяції шляхом селекції.

Нейтральна теорія може здатися дивною, враховуючи, що більшу частину часу наша перша кисть з еволюцією часто фокусується на адаптації та фенотипічній еволюції. Однак прихильники цього світогляду не заперечували існування вигідних мутацій, вони просто думали, що корисні мутації досить рідкісні, що їх внесок в основну масу поліморфізму або розбіжності можна значною мірою ігнорувати. Вони також часто думали, що більша частина фенотипічної еволюції цілком може бути адаптивною, але знову ж таки локуси, відповідальні за ці фенотипи, є невеликою часткою всіх молекулярних змін, що відбуваються. Нейтральна теорія молекулярної еволюції спочатку була запропонована для пояснення поліморфізму білка. Однак ми можемо застосувати це ширше, щоб думати про нейтральну еволюцію в масштабі генома. З огляду на це, які типи молекулярних змін можуть бути нейтральними? Можливо:

  1. Зміни в некодуванні ДНК, які не порушують регуляторні послідовності. Наприклад, в геномі людини всього близько 2% кодів генома на білки. Решта здебільшого складається зі старих транспозіруваних елементів та ретровірусних вставок, повторів, псевдогенів та загального геномного безладу. Поточні оцінки свідчать про те, що навіть підраховуючи збережені, функціональні, некодуючі області, менше 10% нашого генома підлягають еволюційному обмеженню.
  2. Синонімічні зміни в областях кодування, тобто тих, які не змінюють амінокислоту, закодовану кодоном.
  3. Несинонімічні зміни, які не мають сильного впливу на функціональні властивості закодованої амінокислоти, наприклад зміни, які не змінюють розмір, заряд або гідрофобні властивості амінокислоти занадто сильно.
  4. Зміна амінокислоти з фенотипічними наслідками, але мало значення для фітнесу, наприклад, мутація, яка змушує ваші вуха бути дещо іншою формою, або яка заважає організму жити за 50 років у видах, де більшість особин розмножуються і вмирають до 20 років.

Існують зустрічні приклади для всіх цих ідей, наприклад, синонімічні зміни можуть вплинути на швидкість перекладу та точність білків і тому підлягають відбору. Однак, наведений вище список, сподіваємось, переконує вас, що загальне мислення про те, що якась частина молекулярних змін може не піддаватися відбору, не настільки глухе, як це, можливо, спочатку звучало.

Різні особливості молекулярного поліморфізму та дивергенції розглядаються як узгоджені з нейтральною теорією молекулярної еволюції. У цьому розділі ми зупинимося на прогнозуванні високого рівня молекулярного поліморфізму у багатьох видів (див. Наприклад, рис.\ ref {рис:Leffer}). У наступному розділі ми поговоримо про прогнозування молекулярного годинника. Ми побачимо, що різні аспекти оригінальної нейтральної теорії мають заслугу в описі деяких особливостей і типів молекулярних змін, але ми також побачимо, що це явно неправильно в деяких випадках. Ми також побачимо, що основна корисність нейтральної теорії полягає не в тому, чи є вона правильною чи неправильною, але в тому, що вона служить простою нульовою моделлю, яка може бути перевірена, а в деяких випадках відхилена, а згодом побудована. Більш широкою дискусією в галузі молекулярної еволюції є баланс нейтральних, адаптивних та згубних змін, які керують різними типами еволюційних змін.

Втрата гетерозиготності внаслідок дрейфу

Генетичний дрейф, за відсутності нових мутацій, повільно очищає наше населення від нейтрального генетичного різноманіття, оскільки алелі повільно дрейфують на високі або низькі частоти і з часом втрачаються або фіксуються.

Уявіть собі випадкове спаровування популяціїN диплоїдних особин постійного розміру, і що ми досліджуємо локус, що розділяє два алелі, нейтральні по відношенню один до одного. Ця популяція випадковим чином спаровується по відношенню до алелей в цьому місці. Див. Рисунок Рисунок4.1 і малюнок,4.2 щоб побачити, як протікає генетичний дрейф, відстежуючи алелі в межах невеликої популяції

У генераціїt наш нинішній рівень гетерозиготності єHt, тобто ймовірність того, що два випадково вибіркових алелі в генераціїt неідентичні єHt. Якщо припустити, що швидкість мутації дорівнює нулю (або зникающе мала), який у нас рівень гетерозиготності в генераціїt+1?

Втрата гетерозиготності з плином часу, при відсутності нових мутацій. Диплоїдна популяція з 5 особин протягом поколінь, з лініями передачі. У першому поколінні кожна особина - гетерозигота.
Малюнок4.1: Втрата гетерозиготності з плином часу, при відсутності нових мутацій. Диплоїдна популяція з 5 особин протягом поколінь, з лініями передачі. У першому поколінні кожна особина - гетерозигота.
Втрата гетерозиготності з плином часу, при відсутності нових мутацій. Диплоїдна популяція з 5 особин. У першому поколінні я фарбую кожен алель іншим кольором, щоб ми могли відстежувати їхніх нащадків.
Малюнок4.2: Втрата гетерозиготності з плином часу, при відсутності нових мутацій. Диплоїдна популяція з 5 особин. У першому поколінні я фарбую кожен алель іншим кольором, щоб ми могли відстежувати їхніх нащадків.

У наступному поколінні (t+1) ми дивимося на алелі в потомстві поколінняt. Якщо ми випадковим чином відбираємо два алелі в генерації,t+1 які мали різні батьківські алелі в поколінніt, це так само, як малювання двох випадкових алелів з поколінняt. Таким чином, ймовірність того, що ці два алелі в генераціїt+1, які мають різні батьківські алелі в генераціїt, є неоднаковими єHt.

І навпаки, якщо два алелі в нашій парі мали однаковий батьківський алель у поточному поколінні (тобто алелі ідентичні по спуску на одне покоління назад), то ці два алелі повинні бути однаковими (оскільки ми не допускаємо жодної мутації).

У диплоїдної популяції великихN особин є2N алелі. Імовірність того, що наші два алелі мають однаковий батьківський алель у поточному поколінні, є1(2N) і ймовірність того, що вони мають різні батьківські алелі, є11(2N). Отже, за вищевказаним аргументом очікувана гетерозиготність в генераціїt+1 становить

Ht+1=12N×0+(112N)Ht

Таким чином, якщо гетерозиготність в генерації0 єH0, то наша очікувана гетерозиготність в генераціїt становить

Ht=(112N)tH0

тобто очікувана гетерозиготність всередині нашої популяції геометрично розпадається з кожним поколінням. Якщо ми припустимо, що1(2N)1 тоді ми можемо наблизити цей геометричний розпад експоненціальним розпадом (див. Питання\ ref {geoquestion} нижче), такий, що

Ht=H0et(2N)

тобто гетерозиготність розпадається експоненціально зі швидкістю1(2N).

На малюнку\ ref {Fig:losShet_WF_n50} ми показуємо траєкторії через час для 40 незалежно змодельованих локусів, дрейфуючих в популяції 50 особин. Кожне населення було започатковано з частоти30%. Деякі дрейфують вгору, а деякі дрейфують вниз, врешті-решт втрачаються або фіксуються від населення, але, в середньому по моделюванню, частота алелів не змінюється. Ми також відстежуємо гетерозиготність, ви можете бачити, що гетерозиготність іноді зростає, а іноді знижується, але в середньому ми втрачаємо гетерозиготність, і ця швидкість втрат добре прогнозується Equation\ ref {eqn:loss_het_discrete}.

clipboard_e9a09b299f41a7e10581d2fa1f8a762cf.png
Малюнок4.3: Зміна частоти алелів і втрата гетерозиготності з плином часу протягом 40 реплікацій. Моделювання генетичного дрейфу в диплоїдній популяції 50 особин, за відсутності нових мутацій. Ми починаємо 40 незалежних, біаллельних локусів кожен з початковим алелем на 30% частоті. На лівій панелі показано частоту алелів у часі, а на правій панелі показано гетерозиготність з плином часу, із середнім рівнем розпаду, що відповідає рівнянню\ ref {eqn:loss_het_discrete}.
Вправа4.1

Ви відповідаєте за підтримку населення дельти корюшки в дельті річки Сакраменто. Використовуючи великий набір мікросупутників, ви оцінюєте, що середній рівень гетерозиготності в цій популяції становить 0,005. Ви ставите собі за мету зберегти рівень гетерозиготності не менше 0,0049 протягом наступних двохсот років. Припускаючи, що корюшка має час покоління в 3 роки, і що тільки генетичний дрейф впливає на ці локуси, яка найменша повністю аутбридирующая популяція, яку вам потрібно було б підтримувати для досягнення цієї мети?

20497452375_9be855d9ff_z.jpg
Малюнок4.4: Втрата гетерозиготності у чорноногих тхорів при їх скорочуванні популяції. Цифри в дужках дають приблизну кількість живих на той час особин. Дані з.

Зверніть увагу, як ця картина зменшення гетерозиготності стоїть на відміну від узгодженості рівноваги Харді-Вайнберга з попередньої глави. Однак наші пропорції Харді-Вайнберга все ще тримаються у формуванні кожного нового покоління. Оскільки генотипи потомства в наступному поколінні (t+1) представляють собою випадкову нічию з попереднього покоління (t), якщо батьківська частота єpt, ми очікуємо, що частка2pt(1pt) нашого потомства буде гетерозиготами (і HW пропорції для наших гомозигот). Однак, оскільки чисельність популяції кінцева, спостережувані частоти генотипу у потомства (ймовірно) не будуть точно відповідати нашим очікуванням. Оскільки наші частоти генотипу, ймовірно, дещо змінюються через вибірку, біологічно це відображає випадкові зміни розміру сім'ї та менделівської сегрегації, частота алелів зміниться. Тому, хоча кожне покоління представляє зразок з пропорцій Харді-Вайнберга на основі покоління раніше, наші пропорції генотипу не знаходяться в рівновазі (незмінному стані), оскільки основна частота алелів змінюється протягом поколінь. Пізніше ми розробимо деякі математичні моделі для цих змін частоти алелів. Поки що просто відзначимо, що під нашою простою моделлю дрейфу (формально модель Райта-Фішера) наша кількість алелів уt+1th генерації являє собою біноміальну вибірку (розміру2N) від частоти популяціїpt в попередньому поколінні. Якщо ви читали тут, будь ласка, напишіть Проф Куп фотографію JBS Haldane в смугастому костюмі з назвою «Я читаю главу 3 примітки». (Варто погуглити JBS Haldane і прочитати більше про його життя; він справжній персонаж і один з останніх великих поліматів.)

clipboard_eeeafd18f59a41545d68ba6721e78d0ed.png
Малюнок4.5: Втрата гетерозиготності у чорноногих тхорів при їх скорочуванні популяції. Цифри в дужках дають приблизну кількість живих на той час особин. Дані з\ citet {Мудрість:02}. \ код коду {https://github.com/cooplab/popgen-no...ted-ferrets_He.

Щоб побачити, як зменшення чисельності популяції може вплинути на рівень гетерозиготності, розглянемо випадок чорноногих тхорів (Mustela nigripes). Популяція чорноногих тхорів різко скоротилася протягом ХХ століття через руйнування місця їх проживання та сильватичної чуми. У 1979 році, коли останній відомий чорноногий тхір помер в неволі, їх вважали вимерлими. У 1981 році була заново відкрита дуже невелика дика популяція (40особини), але в 1985 році ця популяція перенесла ряд спалахів захворювань.

У цей момент18 залишилися дикі особини були виведені в полон, 7 з яких відтворювали. Завдяки інтенсивним зусиллям з розведення неволі та збереженню дикої популяції з тих пір було створено понад 300 особин. Однак, оскільки всі ці особи походять від тих 7 осіб, які пережили вузьке місце, рівні різноманітності залишаються низькими. виміряна гетерозиготність в ряді мікросупутників у осіб з музейних колекцій, показуючи різке падіння різноманітності у міру краху чисельності населення (див. Рис. {Рис: втратити тхори}).

Вправа4.2

У математичній популяційній генетиці зазвичай використовується наближення(1x)ex дляx<<1 (формально це випливає з розширення серії Тейлораexp(x), ігноруючи другого порядку та вищі члениx, див. Додаток\ ref {EQN:Taylor_Geo}). Це наближення особливо корисно для наближення процесу геометричного розпаду експоненціальним процесом розпаду, наприклад(1x)text. За допомогою калькулятора або R перевірте, наскільки добре цей вираз наближає точний вираз для двох значеньxx=0.1, і0.01, для двох різних значень t,t=5 іt=50. Коротко прокоментуйте свої результати.

Рівні різноманітності підтримуються балансом між мутацією і дрейфом

Далі ми розглянемо кількість нейтрального поліморфізму, який може підтримуватися в популяції, як баланс між варіацією видалення генетичного дрейфу та мутацією, що вводить нову нейтральну варіацію, див. Рисунок\ ref {fig:mut_sel_balance} для прикладу. Відзначимо в нашому прикладі, як жоден алель не підтримується при стабільній рівновазі, скоріше рівноважний рівень поліморфізму підтримується постійно зсувається набором алелів.

Mut_drift_balance.png
Малюнок4.6: Мутація-дрейф балансу. Диплоїдна популяція з 5 особин. У першому поколінні у всіх однаковий алель (чорний). Кожне покоління передається алель може мутувати, і ми генеруємо новий колір. На нижній ділянці я простежую частоту алелей у нашій популяції з плином часу. Швидкість мутації, яку ми використовуємо, дуже висока, просто для підтримки різноманітності в цій невеликій популяції.

Нейтральна швидкість мутації

Спочатку ми хочемо розглянути швидкість, з якою виникають нейтральні мутації в популяції.Повертаючись до нашого обговорення нейтральної теорії молекулярної еволюції, припустимо, що існує лише два класи мутацій, які можуть виникнути в нашій геномній області, що представляє інтерес: нейтральні мутації та високо згубні мутації. Загальна швидкість мутації в нашому локусі -μ на покоління, тобто за передачу від батьків до дитини. CЧастка наших мутацій - це нові алелі, які дуже шкідливі і так швидко видаляються з популяції. Ми назвемо цейC параметр обмеженням, і він буде відрізнятися залежно від розглянутої нами геномної області. Частка, що залишилася(1C) - це наші нейтральні мутації, такі, що наша нейтральна швидкість мутації(1C)μ. Це показник за генерацію. В іншій частині глави для простоти ми будемо вважати, щоC=0 і використовувати нейтральну швидкість мутаціїμ. Однак ми повернемося до цього обговорення обмеження, коли ми обговоримо молекулярну дивергенцію в наступному розділі.

Вправа4.3

Варто витратити хвилинку, щоб ознайомитися як з тим, наскільки рідкісна, так і поширена мутація. Швидкість мутації на базову пару у людей становить приблизно1.5×108 на покоління. Це означає, що в середньому ми повинні контролювати сайт для66.6 мільйонів передач від батьків до дитини, щоб побачити мутацію. Проте популяції та геноми є великими місцями, тому мутації поширені на цих рівнях.

  1. Ваш аутосомний геном становить 3 мільярди пар основ long (3×109). У вас є дві копії, той, який ви отримали від своєї мами, і один від тата. Яка середня (тобто очікувана) кількість мутацій, що сталися при передачі від вашої мами і тата до вас?
  2. Нинішня чисельність людської популяції становить 7 мільярдів особин. Скільки разів, на рівні всього людського населення, мутувала одна база-пара при передачі від одного покоління до наступного?

Рівні гетерозиготності підтримуються як баланс між мутацією і дрейфом

Озираючись назад у часі від одного покоління до попереднього покоління, ми скажемо, що два алелі, які мають однаковий батьківський алель (тобто знаходять свого спільного предка) у попередньому поколінні, об'єдналися і називають цю подію як коалесцируючою подією. Якщо наші пари алелів повинні відрізнятися один від одного в наші дні, мутація повинна відбутися зовсім недавно на тій чи іншій лінії, перш ніж вони знайшли спільного предка.

Імовірність того, що наша пара випадково відібраних алелів об'єдналися в попередньому поколінні1(2N), є, і ймовірність того, що наша пара алелів не змогла згуртуватися, є11(2N).

Імовірність того, що мутація змінює ідентичність переданого алеля, єμ на покоління. Таким чином, ймовірність того, що мутація не відбувається, є(1μ). Ми припустимо, що коли відбувається мутація, вона створює якийсь новий алельний тип, якого немає в популяції. Це припущення (яке зазвичай називають моделлю нескінченно-багато-алелей) робить математику трохи чистішою, а також не надто поганим припущенням біологічно. Див. Рисунок\ ref {fig:mut_SEL_balance} для опису балансу мутації-дрейфу в цій моделі протягом поколінь.

Ця модель дозволяє нам обчислити, коли наші два алелі востаннє поділилися спільним предком і чи однакові ці алелі внаслідок неможливості мутувати, оскільки цей спільний предок. Наприклад, ми можемо визначити ймовірність того, що наші два випадково відібрані алелі зливаються2 поколіннями в минулому (тобто вони не об'єднуються в генерації,1 а потім зливаються в генерації2), і що вони ідентичні, як

(112N)12N(1μ)4

Зверніть увагу, що сила4 полягає в тому, що наші два алелі повинні були не мутувати через2 мейози кожен.

Більш загально, ймовірність того, що наші алелі зливаються в генераціїt+1 (підраховуючи назад у часі) і ідентичні через відсутність мутації ні до одного з алелів у наступних поколіннях, становить

P(coal. in t+1 \& no mutations)=12N(112N)t(1μ)2(t+1)

Щоб зробити це трохи простіше для себе, давайте далі припустимо, щоtt+1 і так перепишіть це як:

P(coal. in t+1 \& no mutations)12N(112N)t(1μ)2t

Це дає нам приблизну ймовірність того, що два алелі зростуться в(t+1)th генерації. Загалом, ми можемо не знати, коли два алелі можуть злитися: вони можуть злитися вt=1,t=2, поколінні тощо. Таким чином, щоб обчислити ймовірність того, що два алелі зливаються в будь-якому поколінні перед мутацією, ми можемо написати:

\boldsymbol{\begin{aligned} \mathbb{P}(\textrm{coal. in any generation \& no mutations}) \approx & \mathbb{P}(\textrm{coal. in} \; t=1 \; \textrm{\& no mutations}) \; + \nonumber\\ & \mathbb{P}(\textrm{coal. in} \; t=2 \; \textrm{\& no mutations}) + \ldots \nonumber\\ %P(\textrm{coal. in} \; t=3 \; \textrm{\& no mutations}) +\ldots \nonumber\\ = & \sum_{t=1}^\infty \mathbb{P}(\textrm{coal. in } \; t \; \textrm{generations \& no mutation})\end{aligned}}

Приклад використання Закону повної ймовірності див. Додаток Equation\ ref {eqn:law_tot_prob}, поєднане з тим, що коалесцирование в конкретному поколінні є взаємовиключним з коалесцируванням в іншому поколінні.

Хоча ми могли б обчислити значення для цієї сумиμ, заданоїN і, важко отримати уявлення про те, що відбувається з таким складним виразом. Тут ми переходимо до загального наближення в популяційній генетиці (і всієї прикладної математики), де ми припускаємо, що1(2N)1 іμ1. Це дозволяє нам наблизити геометричний розпад як експоненціальний розпад (див. Додаток Рівняння\ ref {Eqn:Taylor_exp}). Тоді ймовірність того, що два алелі зливаються в генераціїt+1 і не мутують, можна записати як:

P(coal. in t+1 \& no mutations)12N(112N)t(1μ)2t12Net/(2N)e2μt=12Net(2μ+1/(2N))

Тоді ми можемо наблизити підсумовування інтегралом, давши нам:

12N0et(2μ+1/(2N))dt=1/(2N)1/(2N)+2μ

Наведене вище рівняння дає нам ймовірність того, що наші два алелі зливаються в якийсь момент часу і не мутують, перш ніж досягти свого спільного предка. Аналогічно, це можна розглядати як ймовірність того, що наші два алелі зливаються перед мутуванням, тобто, що вони гомозиготні.

Тоді, додаткова ймовірність того, що наша пара алелей неідентична (або гетерозиготна) - це просто один мінус цього. Наступне рівняння дає рівноважну гетерозиготність в популяції при рівновазі між мутацією і дрейфом:

H=2μ1/(2N)+2μ=4Nμ1+4Nμ

4NμЗ'єднаний параметр, масштабований масштабуванням населення швидкість мутації, з'явиться кілька разів, тому ми дамо йому власне ім'я:

θ=4Nμ

Яка інтуїція нашого\ ref {eqn:hetero}, ну ймовірність того, що будь-яка подія трапиться в певному поколінні єP(mutation or coalescence)1(2N)+2μ, так умовно від події відбувається ймовірність того, що це мутація єP(mutationmutation or coalescence)=2μ(1(2N)+2μ).

Тож за інших рівних умов види з більшими розмірами населення повинні мати пропорційно вищий рівень нейтрального поліморфізму. Дійсно, популяції тварин, наприклад, птахів, на невеликих островах мають менший рівень різноманітності, ніж близькоспоріднених видів на материку з більшими ареалами. У загальному плані ми бачимо більш високі рівні гетерозиготності в більших розмірах перепису населення між тваринами Рисунок\ ref {рис:Allozyme_n}. Однак, хоча чисельність населення перепису коливається на багато порядків, рівні різноманітності різняться набагато менше, ніж це. Отже, якщо рівні різноманітності в природних популяціях являють собою баланс між генетичним дрейфом та мутацією, рівні генетичного дрейфу у великих популяціях повинні бути набагато швидшими, ніж передбачає їх чисельність перепису населення. У наступному розділі ми поговоримо про деякі можливі причини, чому.

fig-ch01_patchfile_01.jpg
Середня гетерозиготність базової пари нанесена на колоду розміру ареалу для ендемічних популяцій острівних та материкових птахів. Середня гетерозиготність аллозимів побудована на основі журналу перепису чисельності популяції (N) для тварин. Дані з

Ефективна чисельність населення

На практиці популяції рідко відповідають нашим припущенням бути постійними в розмірах з низькою дисперсією в репродуктивному успіху. Реальні популяції відчувають різкі коливання розмірів, і часто спостерігається велика дисперсія в репродуктивному успіху. Таким чином, темпи дрейфу природних популяцій часто набагато вищі, ніж передбачається чисельність населення перепису населення. Див. Рисунок\ ref {Fig:losshet_varying_pop} для зображення багаторазово вузьких місць населення, яке швидко втрачає різноманітність.

Loss_of_he_col_alleles_varying_pop_dark.png
Втрата гетерозиготності з часом у вузьких місцях населення. Диплоїдна популяція з 10 особин, що вузькі місця до трьох особин неодноразово. У першому поколінні я забарвлюю кожен алель іншим кольором, щоб ми могли відстежувати їхніх нащадків. Ніяких нових мутацій немає.

Щоб впоратися з цією невідповідністю, популяційні генетики часто посилаються на концепцію ефективної чисельності популяції (Ne). У багатьох ситуаціях (але не у всіх) відступи від модельних припущень можуть бути зафіксовані шляхомNe заміниN.

Якщо чисельність населення швидко змінюється за розміром, ми можемо (при дотриманні певних умов) замінити чисельність нашої популяції гармонійною середньою чисельністю населення. Розглянемо диплоїдну популяцію змінного розміру, розмір якої становитьNtt покоління в минуле. Імовірність того, що наші пари алелів не зрослися за поколіннямt, задається

ti=1(112Ni)

Зауважте, що це просто згортається до нашого вихідного виразуNi,(112N)t якщо є постійним. За цією моделлю швидкість втрати гетерозиготності у цієї популяції еквівалентна популяції ефективного розміру

Ne=11tti=11Ni.

Це гармонійне середнє значення різної чисельності населення.

Таким чином, наш ефективний розмір популяції, розмір ідеалізованої постійної популяції, яка відповідає швидкості генетичного дрейфу, є гармонійним середнім істинним розміром популяції з часом. На гармонійне середнє дуже сильно впливають невеликі значення, такі, що якщо чисельність нашого населення становить один мільйон99% часу, але падає до1000 кожної сотні або близько того поколінь,Ne буде набагато ближче до1000 мільйона.

Loss_of_he_col_alleles_varying_RS.png
Висока дисперсія на репродуктивний успіх збільшує швидкість генетичного дрейфу. Диплоїдна популяція з 10 особин, де обведені особини мають набагато вищий репродуктивний успіх. У першому поколінні я забарвлюю кожен алель іншим кольором, щоб ми могли відстежувати їхніх нащадків, нових мутацій немає.

Дисперсія в репродуктивному успіху також вплине на нашу ефективну чисельність населення. Навіть якщо наша популяція має велику постійну величинуN особин, якщо тільки мала частка з них добирається до розмноження, то швидкість дрейфу буде відображати це набагато менша кількість відтворюються особин. Див. Рисунок\ ref {fig:losshet_varying_rs} для зображення більш високої швидкості дрейфу в популяції, де є висока дисперсія в репродуктивному успіху.

Щоб побачити один із прикладів цього, розглянемо випадок, колиNF самки отримують розмноження, аNM самці отримують розмноження. Хоча кожна людина має біологічну матір і батько, не кожна людина стає батьком. На практиці у багатьох видів тварин розмножуються набагато більше самок, ніж самці, тобтоNM<NF, оскільки кілька самців отримують багато можливостей для спарювання, а багато самців не отримують жодної або мало можливостей для спарювання. Коли наші два алелі вибирають предка,25% того часу наші алелі були обидва у предка жінки, і в цьому випадку вони є IBD з ймовірністю1/(2NF), і25% того часу вони обидва знаходяться у предка чоловічої статі, і в цьому випадку вони зливаються з ймовірністю 1/(2NM). 50%Решту часу наші алелі простежуються до двох особин різної статі в попередньому поколінні і тому не можуть злитися. Тому наша ймовірність коалесценції в попередньому поколінні становить

14(12NM)+14(12NF)

тобто швидкість коалесценції є гармонійним середнім чисельністю популяції двох статей, прирівнюючи це до того, що12Ne ми знаходимо

[Рис: Гамадриа_бабуїн]

Ne=4NFNMNF+NM

Таким чином, якщо репродуктивний успіх дуже перекошений в одній статі (наприкладNMN/2), наш аутосомно-ефективний розмір популяції в результаті значно зменшиться. Детальніше про те, як різні еволюційні сили впливають на швидкість генетичного дрейфу, і їх вплив на ефективну чисельність популяції дивіться в статті.

Вправа4.4

Ви вивчаєте населення з 500 чоловічих і 500 жіночих бабуїнів Гамадрій. Припустимо, що всі самки, але тільки 1/10 самців отримують спаровування. Який ефективний розмір популяції для аутосоми?

Дисперсія в репродуктивному успіху чоловіків і жінок може мати дуже різний вплив на хромосоми з різними режимами успадкування, такими як Х-хромосома, мітохондрії та Y-хромосома. Мітохондрії (мтДНК) та Y-хромосома є гаплоїдними і успадковуються лише через жінок та чоловіків відповідно, тому вони мають гаплоїдні ефективні розміри населенняNM іNF.

fig-ch01_patchfile_01.jpg
clipboard_efc17c3f8225f8bfebffc768559ff2716.pngРівні геномного різноманіття у скіфських коней від2300 однорічних скіфських коней та сучасних коней (нордичних). Числа поруч з кожним стовпцем дають частку різноманітності, що залишилася на сьогоднішній день, Дані з.

Щоб побачити вплив диференціальної дисперсії на репродуктивний успіх чоловіків і жінок, давайте розглянемо, як рівень генетичного різноманіття протягом тисяч років у домашніх коней.

fig-ch01_patchfile_01.jpg
Малюнок4.1: Скопіюйте та вставте підпис тут. (Авторське право; автор через джерело)

секвенована давня ДНК з 13 принесених в жертву жеребців з2300 однорічного скіфського кургану в Казахстані. Скіфи були кочовим народом, чия російська степова імперія простягалася від Чорного моря до кордонів Китаю. Вони були одними з перших людей, які освоїли кінну війну як з чоловіками, так і жінками, які їхали, озброєні короткими луками.

Порівнюючи ці дані з сучасними кіньми, виявили, що рівні різноманітності були значно знижені на аутосомах і значно знижені на Y-хромосомі. Це контрастує з мтДНК, де рівні різноманітності знизилися лише незначно. Ця закономірність, ймовірно, відображає той факт, що більша частина сучасного конярства покладається на розведення невеликої кількості жеребців до великої кількості кобил, і тому ефективний розмір популяції Y-хромосоми був набагато меншим, ніж мтДНК, що призводить до набагато вищої швидкості втрати різноманітності на Y, ніж на інші хромосоми.

Вправа4.5

Використовуючи дані про зменшення генетичного різноманіття коней на малюнку\ ref {fig:Scythian_horses_PI}:

  1. Оцініть ефективну кількість жеребців та кобил, що сприяють популяції коней, використовуючи дані мтДНК та Y-хромосоми
  2. Передбачити, яке зменшення різноманітності протягом2300 багатьох років має бути на аутосомах, використовуючи ці цифри?

Припустимо час покоління коней8 років. Припустимо, що за цей проміжок часу немає нових мутацій.

Вправа4.6

Один з найвищих рівнів генетичного різноманіття спостерігається в диплоїдний розщеплено-зябровий гриб, Schizophyllum commune. Популяції в США мають гетерозиготність на рівні послідовності0.13 на синонімічну базу. секвеновані батьки та кілька потомств, щоб оцінити цеμ=2×108bp1 на покоління. Яка ваша оцінка ефективної чисельності населення с . комуни?

Шизофіллум_ Комуна (Спліт_Гілл) _ (33389628036) .jpg
Малюнок4.1: Розщеплено-зябровий гриб (Schizophyllum commune). (Громадське надбання; Бернард Спрагг. NZ через Вікіпедію)

Коалесцированіе і закономірності нейтрального розмаїття

«Життя можна зрозуміти лише назад; але воно повинно бути прожито вперед» - Kierkegaard

Попарний розподіл часу коалесценції та кількість попарних відмінностей.

Повернувшись до наших розрахунків, які ми зробили про втрату нейтральної гетерозиготності та рівноважних рівнів різноманітності (у розділах 1.1 та 1.1.1), ви зауважте, що ми могли б спочатку вказати, в якій генерації пара послідовностей зливається, а потім обчислити деякі властивості гетерозиготність виходячи з цього. Це тому, що нейтральні мутації не впливають на ймовірність того, що людина передає алель, і тому не впливають на те, як ми можемо простежити родові лінії через покоління.

Таким чином, часто буде корисно розглянути час до спільного предка пари послідовностей (T2), а потім подумати про вплив того часу на злиття на закономірності різноманітності. Див. Рисунок\ ref {Fig:Coalescent_simulation} для прикладу цього.

Проста демонстрація процесу коалесценції. Моделювання складається з диплоїдної популяції 10 особин (20 алелів). У кожному поколінні кожна особина однаково ймовірно є батьком потомства (а передається алель позначається світло-сірою лінією). Ми відстежуємо пару алелей, обраних в наші дні, назад 14 поколінь, поки вони не знайдуть спільного предка. Глибше в часі, ніж 14 поколінь, ці два алелі мають однакову родову лінію і повністю поділяють свою історію, наприклад, мутації, що відбуваються на цій лінії.
Проста демонстрація процесу коалесценції. Моделювання складається з диплоїдної популяції 10 особин (20 алелів). У кожному поколінні кожна особина однаково ймовірно є батьком потомства (а передається алель позначається світло-сірою лінією). Ми відстежуємо пару алелей, обраних в наші дні, назад 14 поколінь, поки вони не знайдуть спільного предка. Глибше в часі, ніж 14 поколінь, ці два алелі мають однакову родову лінію і повністю поділяють свою історію, наприклад, мутації, що відбуваються на цій лінії.

Імовірність того, що пара алелів не змогла зібратися вt поколіннях, а потім зростися вt+1 поколінні назад, становить

P(T2=t+1)=12N(112N)t

Наприклад, ймовірність того, що пара послідовностей зливається три покоління назад, - це ймовірність того, що вони не згуртуються в поколіннях 1 і 2(112N)×(112N), що множиться на ймовірність того, що вони знаходять спільного предка, тобто злиття, в третьому поколінні, що відбувається з ймовірність12N.

З форми Equation\ ref {eqn:coal_time_dist} ми бачимо, що час коалесценції нашої пари алелей є геометрично розподіленою випадковою величиною, де ймовірність успіху єp=12N. Час очікування пари ліній для злиття схожий на кількість хвостів, кинутих під час очікування голови на монеті з ймовірністю голови є12N, тобто якщо населення велике, ми можемо довго чекати нашої пари, щоб об'єднатись. Ми позначимо це геометричний розподіл поT2Geo(1/(2N)). Очікуваний (тобто середнє значення за багатьма тиражами) час коалесценції пари алелів тоді

E(T2)=2N

поколінь. Ця форма до очікування випливає з того, що середнє значення геометричної випадкової величини є1p.

Умовні пари алелів, що об'єднуютьсяt поколіннями тому, існують2t покоління, в яких могла відбутися мутація. Див. Рисунок\ ref {fig:pair_coal_muts} для прикладу. Якщо швидкість мутації на покоління дорівнюєμ, то очікувана кількість мутацій між парою алелів, що об'єднуютьсяt поколіннями тому, є2tμ (алелі пройшли через загальну кількість2t мейозів, оскільки вони останній раз поділилися спільним предок).

[рис:пара_вугілля_мути]

Таким чином, ми можемо записати очікувану кількість мутацій (S2), що розділяють два алелі, намальовані випадковим чином від популяції, як

E(S2)=t=0E(S2|T2=t)P(T2=t)=t=02μtP(T2=t)=2μE(T2)=4μN

це використовує закон загального очікування (див. Додаток Рівняння\ ref {eqn:tot_exptation_def}), щоб усереднити, яка генерація нашої пари послідовностей об'єднується. Ми припустимо, що мутація досить рідкісна, що вона ніколи не відбувається в одній і тій же basepair двічі, тобто немає декількох хітів, таким чином, що ми отримуємо, щоб побачити всі події мутації, які розділяють нашу пару послідовностей. Це припущення, що повторна мутація зникає рідко в базовій парі називається i нескінченно багато сайтів припущення, яке повинно триматися якщоNμBP1, деμBP швидкість мутації на базову пару. Таким чином, кількість мутацій між парою ділянок є спостережуваним числом відмінностей між парою послідовностей. У попередньому розділі ми позначаємо спостережувану кількість попарних відмінностей на орієнтовно нейтральних ділянках, що розділяють пару послідовностей якπ (ми зазвичай усереднюємо це протягом декількох пар послідовностей для області). Тому за нашою простою, нейтральною, постійною моделлю чисельності населення ми очікуємо

E(π)=4Nμ=θ

Таким чином, ми можемо отримати емпіричну оцінкуθ відπ, назвемо цеˆθπ, встановившиˆθπ=π, тобто наш спостережуваний рівень попарного генетичного різноманіття. Якщо ми маємо незалежну оцінкуμ, то від встановленняπ=ˆθπ=4Nμ ми можемо додатково отримати оцінку чисельності популяціїN, яка відповідає нашим рівням нейтрального поліморфізму. Якщо ми оцінюємо чисельність населення таким чином, ми повинні назвати її ефективною чисельністю коалесцентної популяції (Ne). Найкраще думати проNe оцінку нейтрального різноманіття як довгострокову ефективну чисельність популяції для виду, але є багато застережень, які приходять разом з цим припущенням. Наприклад, минулі вузькі місця та розширення населення підводяться до єдиного числа, і тому ця оцінкаNe може бути не дуже репрезентативною для чисельності населення в будь-який час. Тим не менш, це не погане місце, щоб почати думати про швидкість генетичного дрейфу для нейтрального різноманіття в нашій популяції протягом тривалих періодів часу.

Давайте візьмемо хвилинку, щоб відрізнити нашу очікувану гетерозиготність (Equation\ ref {eqn:hetero}) від нашої очікуваної кількості попарних відмінностей (π). Наша очікувана гетерозиготність - це ймовірність того, що два алелі в локусі, відібрані з популяції випадковим чином, відрізняються один від одного. Якщо одна або кілька мутацій відбулися з моменту останнього спільного предка пари алелів, то наші послідовності будуть відрізнятися один від одного. З іншого боку, нашаπ міра відстежує середню загальну кількість відмінностей між нашими локусами. Таким чином, частоπ є більш корисним заходом, оскільки він фіксує кількість відмінностей між послідовностями, а не лише те, чи відрізняються вони один від одного (однак для певних типів локусів, наприклад, мікросупутників, гетерозиготність часто використовується, оскільки ми зазвичай не можемо підрахувати мінімальний кількість мутацій в розумний спосіб). У разі, коли наш локус є єдиною базоюпари, дві заходи зазвичай будуть близькі один до одного, якHθ для невеликих значеньθ. Наприклад, порівняння двох послідовностей випадковим чином у людини,π1/1000 на базову пару, і ймовірність того, що конкретна базова пара відрізняється між двома послідовностями, є1/1000. Однак ці дві величини починають відрізнятися один від одного, коли ми розглядаємо регіони з більш високими показниками мутації. Наприклад, якщо розглядати область 10 кб, наша швидкість мутації буде в 10 000 разів більшою, ніж у однієї базової пари. Для цієї довжини послідовності ймовірність того, що два випадково обрані гаплотипи відрізняються, досить сильно відрізняється від кількості мутаційних відмінностей між ними. (Спробуйте швидкість мутації108 на базу та чисельність населення10,000 в наших розрахунках\E[π] і H, щоб побачити це.)

fig-ch01_patchfile_01.jpg
Малюнок4.1: Скопіюйте та вставте підпис тут. (Авторське право; автор через джерело)
Вправа4.7

Робінсон виявив, що лисиця, що знаходиться під загрозою зникнення Каліфорнійського острова Норманд-Айленд на Сан-Ніколасі, дуже
виявила, що лисиця, що знаходиться під загрозою зникнення Каліфорнійського острова на Сан-Ніколасі, мала дуже низький рівень різноманітності (π=0.000014bp1) порівняно зі своїм близьким родичем Каліфорнійським материковим сірим лисицем ( 0.0012bp1).

  1. Припускаючи, що швидкість мутації2×108 на АТ, які ефективні розміри населення ви оцінюєте для цих двох популяцій?
  2. Чому ефективна чисельність населення лисиці острова Норманд-Айленд настільки низька? [Підказка: швидко Google Channel острівних лисиць, щоб прочитати їх історію, а також побачити, наскільки смішно милі вони.]
Вправа4.8

Своїми словами опишіть, чому час злиття пари ліній масштабується лінійно з (ефективною) чисельністю населення.

Детальніше про попарне коалесцирование та випадковість мутації

Ми виявили, що наші попарно коалесцентні часи слідували за геометричним розподілом, Equation\ ref {eqn:coal_time_dist}. Однак це передбачає дискретні покоління, і ми часто повинні були думати про популяції, яким не вистачає дискретних поколінь (тобто людей, що відтворюються у випадковий час з деяким середнім часом генерації). Використовуючи нашу експоненціальну апроксимацію, ми можемо побачити, що

12Net/(2N)

і так думати про безперервну випадкову величину, тобто ми могли б сказати, що час коалесценції пари послідовностей (T2) приблизно експоненціально розподіляється зі швидкістю1/(2N), тобтоT2Exp(1/(2N)). Формально ми можемо зробити це, приймаючи межу дискретного процесу більш ретельно. Докладніше про експоненціальні випадкові величини див. у Додатку Рівняння\ ref {eqn:exp_rv_def}.

Ми вивели очікувану кількість відмінностей між парою послідовностей і говорили про мінливість часу коалесценції для пари послідовностей. Процес мутації також дуже мінливий; навіть якщо дві послідовності випадково зливаються в дуже далекому минулому, вони все одно можуть бути ідентичними в сьогоденні, якщо за цей час не було мутації.

Умовно від часу коалесценціїt, ймовірність того, що наша пара алелів розділенаS2 мутаціями, оскільки вони останній раз ділили спільного предка, є біономіально розподіленою

P(S2|T2=t)=(2tj)μj(1μ)2tj

тобто мутації трапляються вj поколіннях і не трапляються в2tj поколіннях (з тим,(2tj) як це поєднання подій може статися). Див. додаток Рівняння\ ref {eqn:binomial_dist} для обговорення біноміального розподілу. Припускаючи2tj2t, щоμ1 і що, то ми можемо наблизити ймовірність того, що у нас єS2 мутації як розподіл Пуассона:

P(S2|T2=t)=(2μt)je2μtj!

тобто Пуассона зі середнім2μt. Це приклад взяття біноміального розподілу до межі розподілу Пуассона, див. Додатку Рівняння\ ref {eqn:bionom_to_poiss} для більш детальної інформації. Ми не будемо багато використовувати цей результат, але він дуже корисний для роздумів про те, як імітувати процес мутації.

Процес коалесценції зразка алелей.

Зазвичай нас цікавлять не просто пари алелей, або середня попарна різноманітність. Взагалі нас цікавлять властивості різноманітності в зразках ряду алелей, витягнутих з популяції. Замість того, щоб просто слідувати за парою ліній назад, поки вони не об'єднаються, ми можемо стежити за історією зразка алелів назад через населення.

Розглянемо спочатку вибірку трьох алелей навмання з популяції. Імовірність того, що всі три алелі виберуть точно такий же родовий алель одного покоління назад, є1(2N)2. ЯкщоN досить великий, то це дуже мала ймовірність. Таким чином, дуже малоймовірно, що наші три алелі зливаються відразу, і через мить ми побачимо, що можна з упевненістю ігнорувати такі малоймовірні події.

fig-ch01_patchfile_01.jpg
Просте моделювання процесу коалесценції для трьох ліній. Ми відстежуємо походження трьох сучасних алелів, перша пара (червона і фіолетова) об'єднується чотири покоління назад, після чого існує лише дві незалежні лінії, які ми відстежуємо. Потім ця пара об'єднує дванадцять поколінь у минулому. Відзначимо, що різні випадкові реалізації цього процесу будуть сильно відрізнятися один від одного. TheTMRCA єT3+T2. Загальний час перебування в дереві - цеTtot=3T3+2T2=25 покоління.

Імовірність того, що конкретна пара алелів знайде спільного предка в попередньому поколінні, залишається1(2N). Існує три можливі пари алелів, тому ймовірність того, що жодна пара не знайде спільного предка в попередньому поколінні, становить

(112N)3(132N)

Роблячи це наближення, ми множимо праву сторону і ігноруємо умови1/N2 і вище (наближення Тейлора, див. Додаток Рівняння\ ref {Eqn:Taylor_exp}). Див. Рисунок\ ref {Fig:Coalescent_simulation_3} для випадкової реалізації цього процесу.

Більш загально, коли миi відбираємо алелі, є(i2) пари, тобтоi(i1)/2 пари. Таким чином, ймовірність того, що жодна пара алелів у вибірці розміру неi зливається в попередньому поколінні, становить

(11(2N))(i2)(1(i2)2N)

хоча ймовірність коалесцирования будь-якої пари є(i2)2N, знову ж таки використовуючи Equation\ ref {Eqn:Taylor_exp}.

Ми можемо ігнорувати можливість того, що більше пар алелів (наприклад, триплетонів) одночасно зливаються одночасно, оскільки терміни1N2 і вище можуть бути проігноровані, оскільки вони зникають рідко. Очевидно, що в розумних розмірах вибірки є набагато більше комбінацій трійок ((i3)) і більш високих порядків, ніж є пари ((i2)), але якщоiN тоді ми з упевненістю ігноруємо ці терміни.

Коли єi алелі, ймовірність того, що ми чекаємо, покиt+1 генерація, перш ніж будь-яка пара алелів зростатиметься, становить

P(Ti=t+1)=(i2)2N(1(i2)2N)t

Таким чином, час очікування до першої коалесцентної події, поки єi лінії, є геометрично розподіленою випадковою величиною з ймовірністю успіхуp=(i2)2N, яку ми позначимо

TiGeo((i2)2N).

Середній час очікування, поки будь-яка пара в межах нашого зразка зливається

E(Ti)=2N(i2)

що знову випливає з середнього геометричної випадкової величини буття1p.

Після того, як пара алелів вперше знаходить загальний родовий алель деяку кількість поколінь ще в минулому, нам залишається лише відстежувати цей загальний родовий алель для пари, дивлячись далі в минуле. У нашому прикладі коалесцентної генеалогії для наших 3 алелів, показаних на малюнку\ ref {Fig:coalescent_simulation_3}, ми починаємо з відстеження 3 ліній, а потім випадково синій і фіолетовий злиття в чотирьох поколіннях назад. Потім ми відстежуємо лише дві лінії, червоне походження та родове походження синіх та фіолетових алелів; потім ці два зливаються, і ми знайшли нашого останнього спільного предка нашого зразка. Інший приклад з чотирма порадами показаний на малюнку\ ref {fig:coal_w_muts}; ми відстежуємо чотири лінії, потім пару coalesce, потім ми відстежуємо три лінії, потім пару coalesce, потім ми відстежуємо дві лінії, потім ця остання пара зливається, і ми знайшли найновішого спільного предка нашого зразка (плавник, кінець сцени).

Більш загально, коли пара алелів у нашому зразкуi алелів зливається, ми потім переходимо до того, щоб стежити заi1 алелями назад у часі. Потім, коли пара цихi1 алелів зливається, ми тільки потім повинні слідуватиi2 алелі назад. Цей процес триває, поки ми не об'єднаємося назад до зразка з двох, а звідти до одного останнього спільного предка (MRCA).

Моделювання коалесцентної генеалогії

Щоб імітувати коалесцирующую генеалогію в місці для зразкаn алелей, ми просто дотримуємося наступного алгоритму:

  1. Набірi=n.
  2. Імітувати випадкову величину, щоб бути часомTi до наступної коалесцентної події зTiExp((i2)2N)
  3. Виберіть пару алелей, щоб об'єднатися випадковим чином з усіх можливих пар.
  4. Набірi=i1
  5. Продовжуйте циклічні кроки 2-4 до тих пірi=1, поки не буде знайдений найновіший загальний предок зразка.

Дотримуючись цього алгоритму, ми генеруємо реалізацію генеалогії нашого зразка.

Очікувані властивості коалесцентних генеалогій та мутацій

fig-ch01_patchfile_01.jpg
Просте коалесцентне дерево з одного коалесцентного моделювання, простежуючи генеалогію 4 алелів з мутаційними змінами, позначеними тире, що показують переходи від послідовності MRCA (AGTTT). TheTMRCA єT4+T3+T2. Загальний час перебування в дереві - цеTtot=4T4+3T3+2T2=54 покоління.

Очікуваний час до останнього спільного предка.

Ми спочатку розглянемо час до найсвіжішого спільного предка всього зразка (TMRCA). Це

TMRCA=2i=nTi

поколінь назад, де ми підсумовуємоi=n від алелів, що відраховуютьсяi=2 назад до алелів (див. Рис.\ ref {рис:coal_w_muts}, наприклад). Оскільки наші часи злиття для різнихi є незалежними, очікуваний час для останнього спільного предка

E(TMRCA)=2i=nE(Ti)=2i=n2N/(i2)

Використовуючи те, що1i(i1)=1i11i і трохи перестановки, ми можемо переписати це як

E(TMRCA)=4N(11n)

Таким чином, середнєTMRCA значення масштабується лінійно з чисельністю населенняN. Цікаво, що коли ми переходимо до більших і більших зразків (тобтоn1), середній час до останнього спільного предка сходиться далі4N. Те, що відбувається тут, полягає в тому, що у великих зразках наші лінії, як правило, швидко зливаються на початку і дуже скоро зливаються до набагато меншої кількості ліній.

Вправа4.9

Припустимо, що аутосомно-ефективна популяція 10000 особин (приблизно довгострокова оцінка людини) і час покоління 30 років. Який очікуваний час найостаннішому спільному предку вибірки з 20 чоловік? Що на цей раз для вибірки з 500 чоловік?

Очікуваний загальний час в генеалогії та кількість сегрегаційних сайтів.

Мутації потрапляють на конкретні родовід коалесцирующей генеалогії і передаються всім нащадкам їх роду. Крім того, за припущенням нескінченно багатьох сайтів кожна мутація створює новий сегрегаційний сайт. Процес мутації - це процес Пуассона, і чим довше певна лінія, тобто чим більше поколінь мейозів він представляє, тим більше мутацій може накопичуватися на ньому. Таким чином, загальна кількість відокремлених ділянок у вибірці є функцією загальної кількості часу в генеалогії зразка, або суми всіх довжин гілок на генеалогічному деревіTtot. Наша загальна кількість часу в генеалогії

Ttot=2i=niTi

оскільки, коли єi лінії, кожен вносить часTi до загального часу (див. Рис.\ ref {рис:coal_w_muts} для прикладу). Беручи очікування загального часу в генеалогії,

E(Ttot)=2i=ni2N(i2)=2i=n4Ni1=1i=n14Ni

ми бачимо, що наша очікувана загальна кількість часу в генеалогічних шкалах лінійно з чисельністю нашої популяціїN. Наша очікувана загальна кількість часу також збільшується з розміром вибіркиn, але робить це дуже повільно. Це знову випливає з того, що у великих зразках початкова коалесценція зазвичай відбувається дуже швидко, так що зайві зразки додають мало до загальної кількості часу в генеалогічному дереві. Вище ми бачили, що кількість мутаційних відмінностей між парою алелів, коалесценціяT2 поколінь тому була Пуассоном із середнім значенням2μT2, де2T2 загальна довжина гілки в цьому простому генеалогічному дереві 2-зразка. Мутація, яка виникає на будь-якій гілці нашої генеалогії, спричинить сегрегаційний поліморфізм у вибірці (відповідає нашому припущенню нескінченно багатьох сайтів). Таким чином, якщо загальний час в генеалогії єTtot, єTtot покоління для мутацій. Таким чином, загальна кількість мутацій, що розділяються в нашому зразку (S), є Пуассоном із середнімμTtot. Таким чином, очікувана кількість сегрегаційних ділянок у вибірці розміруn становить

E(S)=μE(Ttot)=1i=n14Nμi=θ1i=n11i

Зверніть увагу, що це зростає з розміром вибіркиn, хоча і дуже повільно (приблизно зі швидкістюlog розміру вибірки). Ми можемо використовувати цю формулу, щоб отримати іншу оцінку масштабованої частоти мутації населенняθ, встановивши нашу спостережувану кількість сегрегаційних ділянок у вибірці (S) рівній цьому очікуванню. Ми назвемо цей оцінювачˆθW:

ˆθW=S1i=n11i

Цей оцінювачθ був розроблений, отже,W.

Нейтральний сайт-частотний спектр

Ми можемо використовувати наш процес коалесценції, щоб знайти очікувану кількість похідних алелів теперішньогоi часу поза розміром вибіркиn, наприклад, скільки синглетонів (i=1) ми очікуємо знайти в нашому зразку? Наприклад, на рисунку\ ref {fig:coal_w_muts} у нашому зразку з чотирьох послідовностей є 3 синглетони і 2 дублетони. Кількість ділянок з цими різними частотами алелів залежить від довжини конкретних генеалогічних гілок. Мутація, яка потрапляє на гілку зi нащадками, створить похідний алель з частотоюi. Наприклад, у нашому прикладі дерево на малюнку\ ref {fig:coal_w_muts}, загальна кількість поколінь, де мутація може виникнути і бути подвійнимT3+2T2, дорівнює, загальна довжина гілки предка тільки помаранчевий і червоний алель(T3+T2) плюс гілка предкова до тільки синій і фіолетовий алель(T2).

clipboard_e989903c78f85c651a1c92acdc396eefd.png
Малюнок4.1: Дерево для трьох зразків; зверніть увагу, що це єдина можлива форма дерева (обробка кінчиків як немаркованих, тобто мені байдуже, яка пара послідовностей містить дублтон, тільки те, що будь-які дві послідовності несуть похідний алель).

Щоб побачити, як ми могли б піти про це, давайте почнемо з розгляду простого коалесцирующего дерева, показаного на малюнку\ ref {fig:freq_coal}, для зразка3 алелей, витягнутих з популяції. Мутації, що потрапляють на гілки, пофарбовані в чорний колір, будуть похідними синглетонами, тоді як мутації, що падають уздовж помаранчевої гілки, будуть дублетонами у зразку. Загальна кількість поколінь, де може виникнути однотонна мутація, становить3T3+T2. Зверніть увагу, що ми рахуємо лише час, коли є дві лінії один(T2) раз. Таким чином, наше очікуване число синглетонів, використовуючи рівняння\ ref {EQN:E_T_I}, є

E(Si)=μ(3E(T3)+E(T2))=μ(32N3+2N)=θ

За подібною логікою час, коли можуть виникнути дублетони, єT2 і наша очікувана кількість дублетонів - цеE(Si)=θ/2. Таким чином, в середньому в два рази менше дублетонів, ніж синглтонів.

Розширення цієї логіки на більші зразки може бути здійсненним, але це нудно (я маю на увазі дійсно нудно: для 10 алелів існують тисячі можливих форм дерев, і завдання швидко стає неможливим навіть обчислювальним). Приємний, відносно простий доказ спектру частот нейтрального сайту наведено, але ми не будемо давати цього тут. Загальна форма така:

E(Si)=θi

тобто в два рази більше синглтонів, ніж дублетонів, втричі більше синглтонів, ніж триплетонів, і так далі. Інша річ, яку нам буде корисно знати, це те, що нейтральні алелі на проміжній частоті, як правило, старі, а ті, які рідко зустрічаються у вибірці, в середньому молоді. Ми очікуємо побачити набагато більше рідкісних алелів у нашому зразку, ніж звичайні алелі.

Вправа4.10

Існує дві можливі форми дерева, які можуть стосуватися чотирьох зразків. Намалюйте обидва з них і окремо пофарбуйте (або іншим чином позначте) гілки, де можуть виникнути синглтони, дублетони та триплетонні похідні алелі.

Ми також можемо запитати ймовірність спостереження похідного алелю, що розділяється з частотою,i/n враховуючи, що сайт поліморфний у нашому зразку розміруn (тобто враховуючи це0<i<n). Цю ймовірність ми можемо отримати, розділивши очікувану кількість ділянок, що розділяються для алеля за частотою,i на очікуване число, що розділяє на всіх можливих частотах алелів для поліморфізмів у нашому зразку.

P(i|0<i<n)=E(Si)n1j=1E(Sj)=1in1j=11j.

Ми можемо інтерпретувати цю ймовірність як частку поліморфних ділянок, яку ми очікуємо знайти з частотоюi/n.

Тести, засновані на частотному спектрі сайту

Популяційні генетики запропонували різні способи перевірити, чи відповідає спостережуваний спектр частот сайту його нейтральним очікуванням постійного розміру. Ці тести корисні для виявлення змін чисельності населення за допомогою даних у багатьох локусах або для виявлення сигналу виділення в окремих локусах. Один з перших тестів був запропонований, і називається Tajima'sD. ТадзімаD є

D=ˆθπˆθWC

де чисельник - це різниця між оцінкою наθ основі парних відмінностей і тієї, що заснована на сегрегації сайтів. Оскільки ці два оцінювачі обидва мають очікуванняθ за нейтральною моделлю постійного розміру, очікуванняD дорівнює нулю. ЗнаменникC є позитивною константою; це квадратний корінь оцінки дисперсії цієї різниці при постійній чисельності населення, нейтральної моделі. Ця константа була обрана дляD того, щоб мати середній нуль і1 дисперсію під нульовою моделлю, тому ми можемо перевірити на відхилення від цієї простої нульової моделі.

Надлишок рідкісних алелів порівняно з нейтральною моделлю постійного розміру призведе до негативної TajimaD, оскільки кожен додатковий рідкісний алель збільшує кількість сегрегаційних ділянок на1, але лише має невеликий вплив на кількість парних відмінностей між зразки. На відміну від цього, позитивний TajimaD відображає перевищення алелів проміжної частоти щодо нейтрального очікування постійного розміру. Алелі на середній частоті збільшують попарну різноманітність більше на сегрегаційну ділянку, ніж типовий, тим самим збільшуючиθπ більше, ніжθW. У наступному розділі ми побачимо, як довгострокові зміни чисельності населення систематично змінюють частотний спектр сайту і тому виявляються статистикою, такою як TajimaD.

Демографія і коалесцит

Ми вже бачили, як зміни чисельності населення можуть змінити швидкість втрати гетерозиготності від популяції (див. обговорення навколо Equation\ ref {eqn:var_pop_coal}). Якщо чисельність популяції в поколінніi єNi, ймовірність того, що пара родоводів зливається1(2Ni); це відповідає нашій інтуїції, що якщо чисельність популяції невелика, швидкість, з якою пари родоводів знаходять свого спільного предка, швидше. Ми потенційно можемо пристосувати швидкі випадкові коливання чисельності населення, просто використовуючи ефективнуNe чисельність населення замістьN. Однак довгострокові, більш систематичні зміни чисельності населення будуть спотворювати коалесцирующіе генеалогії, а отже, і моделі різноманітності, більш систематично.

fig-ch01_patchfile_01.jpg
Малюнок4.1: Скопіюйте та вставте підпис тут. (Авторське право; автор через джерело)

Ми бачимо, як демографія потенційно спотворює спостережуваний частотний спектр від нейтрального очікування у дуже великій вибірці людей, показаної на малюнку\ ref {Fig:human_growth}. Для порівняння, нейтральний частотний спектр Equation\ ref {eqn:neutral_freq_spec} показаний червоною лінією. Є набагато більш рідкісні алелі, ніж очікувалося за нашою нейтральною моделлю постійного розміру, але нейтральне прогнозування та реальність дещо більше погоджуються для алелів, які є більш поширеними.

fig-ch01_patchfile_01.jpg
Малюнок4.1: Скопіюйте та вставте підпис тут. (Авторське право; автор через джерело)

Чому це? Ну, ці закономірності, ймовірно, є результатом недавнього вибухового зростання людської популяції. Якщо популяція стрімко зростала, то попарно-коалесцентний показник в минулому може бути набагато вище, ніж швидкість коалесценції ближче до теперішнього часу. (див. Рис.\ ref {рис:генеалогія_зростання}).

Одним з наслідків недавнього розширення населення є те, що генетичної різноманітності в популяції набагато менше, ніж ви могли б передбачити, використовуючи чисельність населення перепису населення. Люди є одним із прикладів цього ефекту; сьогодні нас живе7 мільярд, але це пов'язано з дуже швидким зростанням населення за останні тисячо-десятки тисяч років. Наш рівень генетичного різноманіття набагато нижчий, ніж ви могли б прогнозувати, враховуючи наш розмір перепису, що відображає нашу набагато меншу популяцію предків. Другим наслідком нещодавнього розширення населення є те, що більш глибокі коалесцентні гілки набагато більше стискаються разом у часі порівняно з тими, що знаходяться в популяції постійного розміру. Мутації на більш глибоких гілках є джерелом алелів на більш проміжних частотах, і тому у зростаючих популяціях ще менше алелів середньої частоти. Ось чому в цьому великому зразку європейців так багато рідкісних алелів, особливо синглтонів.

Ще одним поширеним демографічним сценарієм є вузьке місце населення. У вузькому місці чисельність населення різко падає, а згодом відновлюється. Наприклад, наше населення, можливо, мало розмірNBig і розбилосяNSmall. Один із прикладів вузького місця наведено на малюнку\ ref {fig:genealogy_crash}.

fig-ch01_patchfile_01.jpg
Малюнок4.1: Скопіюйте та вставте підпис тут. (Авторське право; автор через джерело)

Дивлячись на вибірку ліній, взятих з населення сьогодні, якщо вузьке місце було дещо недавнім (NBigпокоління в минулому), багато наших ліній не зійдуться, перш ніж досягти вузького місця, рухаючись назад у часі. Але під час вузького місця наші лінії зливаються з набагато більшою швидкістю, так що багато наших ліній будуть зливатися, якщо вузьке місце триває досить довго (NSmallпокоління). Якщо вузьке місце дуже сильне, то всі наші лінії будуть зливатися під час вузького місця, і результуючий спектр частот ділянки може виглядати дуже схожим на нашу модель зростання населення (тобто надлишок рідкісних алелів). Однак, якщо деякі пари ліній уникають коалесцирования під час вузького місця, вони зростуться набагато глибше у часі (наприклад, сині та помаранчеві родові лінії в\ ref {Fig:Genealogy_Crash}).

Різноманітність вздовж області генома Mimulus. Чорні точки даютьπ в вікна 1kb між хромосомами, відібраними у двох особин, червона лінія - ковзне середнє (дані з). Попарно коалесцентних разів (t) оцінюєтьсяt=π2μ за умови використанняμBP=109.

Прикладом цього є малюнок\ ref {рис:Mimulus_Bottleneck}, дані з. Mimulus nasutus - самолюбний вид, який нещодавно виник від перехрещуваного прабатька М. guttatus, і зазнав сильне вузьке місце. M. guttatus має дуже високий рівень генетичного різноманіття (π=4%на синонімічних ділянках), але M. nasutus втратив значну частину цього різноманіття (π=1%). Дивлячись уздовж генома, між парою хромосом M. guttatus, рівні різноманітності досить рівномірно високі.

fig-ch01_patchfile_01.jpg
Малюнок4.1: Скопіюйте та вставте підпис тут. (Авторське право; автор через джерело)

Але при порівнянні двох хромосом M. nasutus, різноманітність низька, оскільки пара родовищ, як правило, зливається останнім часом. Проте в декількох місцях ми бачимо рівні різноманітності, порівнянні з M. guttatus; ці регіони відповідають геномним ділянкам, де наша пара ліній не може злитися під час вузького місця і згодом набагато глибше злитися в родовому M. guttatus населення.

fig-ch01_patchfile_01.jpg
Дані для поліморфізму з кукурудзи та теосініту: 774 локуси з. Зліва) Рівні генетичного різноманіття в зразках кукурудзи та теосінту в кожному з цих локусів. Зверніть увагу, як рівень різноманітності кукурудзи нижчий, ніж теосінте, тобто більшість точок знаходяться нижче червоноїx=y лінії. Праворуч) Розподіл D Tajima в кукурудзі та теосінті, подивіться, як розподіл кукурудзи зміщується в бік позитивних значень.
fig-ch01_patchfile_01.jpg
Малюнок4.1: Скопіюйте та вставте підпис тут. (Авторське право; автор через джерело)

Мутації, що виникають на більш глибоких лініях, будуть на проміжній частоті в нашому зразку, і тому м'які вузькі місця можуть призвести до перевищення алелів проміжних частот порівняно зі стандартною моделлю постійного розміру. Це може перекосити D Tajima (див. Рівняння\ ref {eqn_Tajimas_D}) в бік позитивних значень і від його очікування нуля. Один із прикладів цього перекосу наведено на малюнку\ ref {fig:maize_tajimas_d}. Кукурудза (Sea mays subsp. травня) був одомашнений від свого дикого прабатька teosinte (Zea mays subsp. parviglumis) приблизно десять тисяч років тому. Ми бачимо, як вузьке місце, пов'язане з одомашненням, призвело до втрати генетичного різноманіття кукурудзи порівняно з теосінтом, а поліморфізм, який залишається, дещо перекошений у бік проміжних частот, що призводить до більш позитивних значень D.

Вправа4.11

Voight et al. (2005) секвенував 40 аутосомних областей з 15 диплоїдних зразків людей Хауса з Яунде, Камерун. Середня довжина локусу, яку вони секвенували для кожного регіону, становила2365 bp. Вони виявили, що середня кількість сегрегаційних ділянок на локус булаS=11.1 і середняπ=0.0011 на базу над локусами. D Tajima позитивний чи негативний? Чи є демографічна модель з вузьким місцем або зростанням більш відповідає цьому результату?

Резюме

  • Генетичний дрейф - це випадкова зміна частот алелів через алелі випадково залишаючи більше або менше копій себе наступному поколінню. Він безспрямований, з алелями однаково ймовірно, піднімаються вгору або вниз за частотою завдяки дрейфу. Генетичний дрейф відбувається повільнішою швидкістю у більших популяціях, оскільки існує більший ступінь усереднення у більших популяціях, що зменшує вплив випадковості на розмноження людей.
  • В середньому генетичний дрейф діє для видалення генетичного різноманіття (наприклад, гетерозиготності) з популяції. Швидкість втрати нейтрального генетичного різноманіття від популяції обернено пропорційна чисельності популяції.
  • Баланс мутації та генетичного дрейфу може підтримувати рівноважний рівень нейтрального генетичного різноманіття в популяції. Цей рівноважний рівень визначається масштабованою популяційною швидкістю мутації (Nμ).
  • На практиці генетичний дрейф рідко трапляється зі швидкістю, запропонованою чисельністю населення перепису населення, наприклад, через велику різницю в репродуктивному успіху та короткострокових коливаннях чисельності населення. У багатьох ситуаціях ми можемо вирішити цю проблему, використовуючи ефективний розмір населення замість чисельності населення перепису населення. Ми можемо оцінити цей ефективний розмір популяції, зіставивши нашу спостережувану швидкість генетичного дрейфу з очікуваною в ідеалізованій популяції.
  • Ключовим розумінням мислення про закономірності нейтрального різноманіття є усвідомлення того, що нейтральні мутації не змінюють форму генетичного дерева (або генеалогії), пов'язаного з особами, і тому часто корисно спочатку подумати про дерево, а потім думати про нейтральні мутації, розкидані на вершині цього дерева.
  • Теорія коалесценції описує властивості цих дерев та породжені мутаційні закономірності за моделлю нейтральної еволюції.
  • Довгострокові зміни чисельності населення змінюють швидкість коалесценції передбачуваним чином, що впливає на закономірності варіації. Ці закономірності можуть бути використані для виявлення порушень моделі постійної чисельності населення та оцінки більш складних демографічних моделей.
Вправа4.12

Виходячи з музейних зразків1800, ви підрахували, що середня гетерозиготність у північних слонових тюленів була0.0304 через багато локусів. Виходячи з подальших зразків, ви оцінюєте, що в1960 цьому впали до0.011. Морські слони мають час покоління8 років.

Яка ефективна чисельність населення, на яку ви оцінюєте, відповідає цьому падінню?

Вправа4.13
  1. Чому очікується, що великі популяції матимуть більш нейтральні варіації?
  2. Яка ефективна чисельність населення? Це зазвичай вище або нижче, ніж чисельність населення перепису?
  3. Чому ефективний розмір популяції відрізняється між аутосомами, Y-хромосомою та мтДНК?
Вправа4.14

Ви послідовно геномну область виду Бабуїнів. З 100 тисяч базових пар в середньому 200 відрізняються між кожною парою послідовностей. Припустімо, що на базову частоту мутації1×108 та час генерації десять років.

  1. Яка ефективна чисельність населення цих бабуїнів?
  2. Який середній час коалесцирования (у роках) пари послідовностей у цього виду?