Jak vypočítat non-synonymní synonymní poměr protein-kódujících genů pod Fisher–Wright mutace–výběr rámec

Úvod

Halpern & Bruno vymyslel model pro studium divergence bílkovin-kódování genů na základě Fisher–Wright model mutace, výběr a náhodný genetický drift . V modelu, každý konkrétní kodon stránky v genu je přidělena vlastní sadu aminokyselin fitnesses, a pak Fisher–Wright model se používá pro práci se evoluční rychlost webu. Model zaznamenala oživení v posledních letech, a změny to byly použity, například, studovat výkonu fylogenetické odvození metody , studovat kodonu použití a k odhadu rozdělení výběrové koeficienty v protein-kódujících genů . Možná překvapivě, model nebyl použit pro studium dynamiky non-synonymní synonymní poměr (také známý jako ω = dN/dS) protein-kódujících genů a její význam při studiu adaptivní molekulární evoluce.

účelem tohoto sdělení je navrhnout způsob, jak definovat a spočítat ekvivalentní klasické koncepce non-synonymní synonymní poměr, v kontextu mutace–výběr modelu Halpern & Bruno . To je doufal, že pomocí prvních principů populační genetiky, můžeme získat výrazem ω jako funkce výběr koeficienty působící v kodonu míst v protein-kódující gen. To by mělo poskytnout mnoho vhled do evoluční dynamika kodonu místa, a to by měla být výhoda v budově statistické modely pro detekci adaptivní evoluce v protein-kódujících genů.

místa-moudrý mutace–výběr modelu

Zvážit vývoj kodonu stránky k v protein-kódujících genů v populaci s N haploidní genomy. Předpokládejme, že místo je v současné době opraveno pro kodon I (tj. všechny n alely nesou I v místě k). Mutace–výběr rámci substituční rychlost (rychlost, kterou román mutant kodony J objeví, a nakonec se stal pevnou v populaci) je

Zobrazit Vzorce

2.1

Tady µIJ je neutrální mutace (za generaci) od I do J, SIJ,k = FJ,k – FI,k je výběrový koeficient ve prospěch kodonu J a FJ,k = 2NfJ,k je zmenšen Malthusian fitness, J. Přírodní výběr ovlivňuje relativní substituční rychlost. Když mutace je výhodné (SIJ,k > 0) substituce sazba je vyšší než neutrální sazba (qIJ,k > µIJ), ale pokud je mutace škodlivé (SIJ,k < 0), pak substituční rychlost je snížena (qIJ,k < µIJ). Zde předpokládáme, že synonymní substituce jsou neutrální (SIJ, k = 0), a proto je vývoj v místě k určen 20 aminokyselinovými fitnessami. Ta µIJ může být vyrobeno ze standardní DNA substituční modely (například, pokud I = TTT a J = TTC, pakInline Vzorcepod HKY substituční model, viz podrobnosti).

rovnice (2.1) popisuje substituci kodonů v populacích jako Markovův proces spojitého času. To je rozumné, pokud na generaci mutací, je malé ve srovnání s velikostí populace (Inline Vzorce), takže tam je malý polymorfismus v populaci, a maximálně dvě alely segregují na místě v čase. Podíl času, nI,k, které stránky k tráví stanovené pro I (tj. stacionární frekvence I) je

Zobrazit Vzorce

, kdeInline Vzorceje frekvence pro neutrálně se vyvíjející sekvenci (tj. pseudo-gen). To znamená, že substituční rychlost, k, v průměru v průběhu času, je

Zobrazit Vzorce

, kde součet je přes všechny kodonu dvojici I ≠ J. Tato sazba může být rozdělena do non-synonyma a synonyma složka sazby, pk = pN,k + pS,k, kde

Zobrazit Vzorce

a kde indikátor funkce V = 1, je-li substituce je non-synonyma a = 0, pokud jinak. Všimněte si,že synonymní sazba pS, k se mezi místy liší (například pokud je místo zachováno pro methionin, pak je synonymní sazba nulová). Pro neutrálně se vyvíjející sekvenci, sazby jsou dány

Zobrazit Vzorce

Všimněte si, že rovnice (2.1) dává okamžitou substituční rychlost, to je rychlost stabilizuje na místě k bytí fixní na I v současné době. Na druhé straně, pk je rychlost v rovnováze, zprůměrovaná na všechny kodony a vážená jejich stacionárními frekvencemi.

relativní non-synonymní substituce rychlost

absolutní non-synonymní synonymní substituce poměr, v místě, k pN,k/pS,k. Nicméně, protože synonymem sazby se liší více míst, musíme normalizovat poměr, podle webu je synonymem poměr, Inline Vzorce, a pak normalizovat pomocí Inline Vzorce (ke korekci různých poměrech synonymní a non-synonymní substituce na neutralitě). To vede k následující definici:

zobrazovací vzorec

3.1

Alternativně, můžeme definovat wk jako relativní non-synonymem frekvence wk = cpN,k, kde konstanta c je nastaven tak, že poměr je jeden pro neutrálně vyvíjí sekvence, která je, v rámci omezení Inline Vzorce. Zřejmým řešením je Inline vzorec vedoucí ke stejné definici jako výše. Všimněte si, že c má žádoucí vlastnost být konstantní nad weby. Čtenář by neměl být překvapen, že synonymní sazba vypadne z rovnice (3.1). Když děláte statistické inference, synonymní substituce informace o neutrální mutace sazby, a tím informovat hodnota Inline Vzorce. Podobně, relativní synonymem sazba na webu k je

Zobrazit Vzorce

3.2

Obrázek 1a ukazuje příklad pro rbcL genu kvetení rostlin. Hodnoty Fitness byly odhadnuty podle modelu Halpern–Bruno Tamuri et al. , a jejich hodnoty použijeme pro výpočet wk a yk zde. Průměrné sazby přes stránky jsouInline VzorceInline Vzorce. YK > 1). To je vzhledem k bizarní povaze genetického kódu spolu s mutační zkreslení (Inline Vzorce

Obrázek 1.

Obrázek 1. Relativní non-synonymní (wk) a synonymní (yk) substituční sazby. (a) sazby pro Gen rbcl chloroplastů monocotů (kvetoucích rostlin). (b) Sazby pro pb2 genu chřipky A. V (a,b), fitnesses na každém místě (FIJ,k) a mutace parametry (Inline Vzorce) byly odhadnuty podle Halpern–Bruno model penalizován pravděpodobnost (trest α = 0,01) a jsou od . Poté se pro výpočet wk a yk použijí rovnice (3.1) A (3.2). V (b) bylo identifikováno 25 adaptivních míst (red), kde se liší fitnesses mezi viry vyvíjejícími se u lidských a ptačích (přirozených rezervoárů) hostitelů . Fitnesses pro tyto stránky pod každým hostitelem byly odhadnuty bez trestu a jsou od . Poté se rovnice (4.1) použije pro výpočet Inline vzorec při posunu hostitele. Rozmezí Inline Vzorce je 0.231–7.64 (největší hodnoty jsou zkráceny na obrázku).

non-synonymem frekvence během adaptivní evoluce

Když fitnesses aminokyselin jsou konstantní v čase, stránky budou trávit většinu času stanoveného pro optimální aminokyselin. Občas, suboptimální aminokyseliny se mohou fixovat a poté substituovat po krátkém období evolučního času. To znamená, že non-synonymní rychlost v místech je snížena ve srovnání s rychlostí pro neutrálně se vyvíjející sekvence (tj wk < 1). Nicméně, když fitnesses na stránky v průběhu času měnit (například po prostředí, shift nebo pod intenzivní frekvenčně závislé selekce ), non-synonymem frekvence může být urychlen ve srovnání se sazbou pro neutrálně vyvíjí sekvence (wk > 1). Nyní studujeme případ, kdy se fitnesses mění jako adaptace na nové prostředí.

zvažte místo k, kde je vhodnost i Inline vzorec v prostředí a. Stacionární frekvence a okamžité nahrazení sazby jsou Inline Vzorce. Představte si, že se prostředí posouvá (například populace savců žijících v náhle chladnějším klimatu nebo virus kolonizující nového hostitele, kde se intracelulární prostředí v novém hostiteli liší od hostitele rezervoáru). Vhodnost I v novém prostředí B je nyní Inline vzorec. Pravděpodobnost, že web je v současné době stanovena pro I v okamžiku, kdy životního prostředí směny je Inline Vzorce, ale substituční rychlost je nyní, že nové prostředí Inline Vzorce. Očekávané absolutní a relativní nesynonymní sazby při posunu prostředí jsou tedy

zobrazovací vzorec

4.1

Pokud je posun v hodnotách fitness velký, rychlost bude mnohem zrychlena (Inline vzorec). K tomu dochází, protože web je pravděpodobné, že najít sám stanovena na suboptimální aminokyselin v novém prostředí a nové mutace optimální aminokyselin bude opraven rychle. Pokud je však fitness posun mírný, může být rychlost stále nižší než neutrální rychlost (Inline vzorec).

obrázek 1b ukazuje příklad genu PB2 viru chřipky. Hodnoty Fitness byly odhadnuty podle modelu Halpern–Bruno Tamuri et al. . Podmnožina 25 adaptivních míst (kde se fitnesses liší pro viry vyvíjející se u lidských versus ptačích hostitelů)byly identifikovány Tamuri et al. , a jejich fitnesses odhadované Tamuri et al. . Odhady používáme k výpočtu wk, yk a Inline vzorec zde. Klasická linie lidské chřipky pravděpodobně pochází z přesunu hostitele z ptačí do savčí nádrže na počátku dvacátého století . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is Inline Formula (across all sites Inline Formula and Inline Formula). Note that for 16 sites for which fitnesses are different between hosts, we find that Inline Formula. To naznačuje, že kritérium wk > 1 pro detekci adaptivní evoluce je v tomto případě konzervativní.

pravděpodobnost, že web je stanovena pro I, čas t, po životní prostředí směny je

Zobrazit Vzorce

4.2

Inline Vzorcejsou pravděpodobnosti přechodu získaných pomocí standardní Markov teorie, tj. výpočtemInline Vzorce. Tak, absolutní a relativní non-synonymem sazby, čas t po směně, jsou

Zobrazit Vzorce

pravděpodobnosti přechodu v rovnici (4.2) jsou exponenciálního rozkladu funkce času, a takInline Vzorceje také exponenciální rozpad. Zpočátku, hodnotaInline Vzorcebude vysoká, a jak čas jde do nekonečna,Inline Vzorcebude blížit stacionární hodnota dána rovnicí (3.1). Jinými slovy, brzy po posunu prostředí dojde k výbuchu adaptivních substitucí v místech, kde se změnily fitnesses, a substituce se budou hromadit, dokud gen kódující protein nedosáhne stavu adaptivní rovnováhy. Pro příklad, obrázek 2a ukazuje rozpadInline Vzorce25 adaptivní míst v pb2 genu po řadu posun.

Obrázek 2.

Obrázek 2. (a) rozpad relativní nesynonymní rychlosti po posunu hostitele pro 25 adaptivních míst (šedé linie) v genu PB2 chřipky. Plná čára je průměr napříč 25 weby, Inline vzorec. Jak plyne čas, Inline Vzorce přístupy dlouhodobý průměr Inline Vzorce (tečkovaná čára). b) relativní nesynynonymní rychlost jako funkce středního koeficientu výběru v lokalitách. Růžové tečky: hodnoty fitness pro 10 000 lokalit byly odebrány z normálních distribucí s průměrem 0 a σ = 0,…, 10. Poté byly použity rovnice (3.1) a (5.1) pro výpočet WK a Inline vzorec. Šedé tečky: další sadu 10 000, fitness hodnot byli zařazeni do vzorku, jak je uvedeno výše, pak rovnice (4.2) a (5.1) byly použity k výpočtu Inline VzorceInline Vzorce v prostředí, posun modelu. Plná čára: S / (1-exp (- S)).

Závěr

Předchozí autorů ukázaly, že vztah mezi non-synonyma, rychlost a výběr koeficient je přibližně ω = S/(1 − exp(−Y)) , ale sbližování právních spoléhá buď na infinite-sites model, nebo se předpokládá, že všechny mutantní aminokyseliny mají stejnou fitness. Rovnice (3.1) a (4.1) poskytují realističtější aproximace, ale je těžké si je představit. Zvažte web opravený pro I. Pravděpodobnost, že další mutace bude J Inline Vzorce pro I ≠ J. v Průběhu času, podíl I J mutace na místě bude nI,kPIJ. To znamená, že průměrný koeficient výběr na mutace na webu k je

Zobrazit Vzorce

5.1

Obrázek 2b ukazuje wk jako funkceInline Vzorcepro simulované stránky, když fitnesses jsou konstantní, nebo když se posunu s prostředím. Všimněte si, že aproximace ω = S/(1-exp (- S)) poskytuje přiměřenou dolní mez wk. Obecně platí, žeInline Vzorcezvyšuje sInline Vzorce, ale vztah není tak jednoduché, jako v předchozí aproximace .

v modelu site-wise mutation-selection člověk nejprve vypočítá koeficienty výběru, a proto může vědět, zda byl web pod pozitivním výběrem bez výpočtu wk . Model je však nadměrně parametrizovaný, výpočetně nákladný a fitnesses lze dobře odhadnout pouze ve velkých datových sadách . Místo toho by měl být model výhodný v evolučním uvažování a při budování modelu. Například, chování wk rámci složitějších modelů (jako jsou frekvenčně závislé selekce , adaptace na postupné změny životního prostředí nebo výběr na kodonu použití ) může být také studoval pod místo-moudrý mutace–výběr rámce. Bude to užitečné úsilí, protože to osvětlí naši schopnost detekovat adaptivní vývoj v molekulárních sekvencích.

Přístupnost údajů

údaje doprovázené touto studií jsou k dispozici na adrese Dryad doi:10.5061/dryad.3r3q4.

poděkování

děkuji Ziheng Yang, Richard Goldstein a Asif Tamuri za cenné komentáře.

prohlášení o financování

m. d. R. je podporováno grantem BBSRC (UK) č. BB / J009709 / 1 udělena Ziheng Yang.

střet zájmů

nemám žádné konkurenční zájmy.

Poznámky pod čarou

© 2015 Autor(s), kterou vydala Royal Society. Všechna práva vyhrazena.
  • 1
    Halpern AL& Bruno WJ. 1998evoluční vzdálenosti pro sekvence kódující proteiny: modelování kmitočtů reziduí specifických pro danou lokalitu. Molo. Biol. Evol. 15, 910–917. (doi:10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
  • 2
    Fisher R. 1930genetická teorie přirozeného výběru. Oxford, Velká Británie: Clarendon Press. Google Scholar
  • 3
    Wright s. 1931evoluce v Mendelovských populacích. Genetika 16, 97-159. PubMed, Google Scholar
  • 4
    Držák MT, Zwickl DJ& Dessimoz C. 2008Evaluating spolehlivost fylogenetických metod mezi-stránky variabilita v substituční procesy. Phile. Trans. R.Soc. B 363, 4013-4021. (doi:10.1098 / rstb.2008.0162). Link, ISI, Google Scholar
  • 5
    Spielman SJ& Wilke CO. 2015vztah mezi DN / dS a škálovanými koeficienty výběru. Molo. Biol. Evol. 32. (doi:10.1093 / molbev / msv003). Crossref, PubMed, ISI, Google Scholar
  • 6
    Yang Z& Nielsen R. 2008Mutation–výběr modelů kodonu substituce a jejich použití pro odhad selektivní silné stránky na kodonu použití. Molo. Biol. Evol. 25, 568–579. (doi:10.1093 / molbev / msm284). Crossref, PubMed, ISI, Google Scholar
  • 7
    Rodrigue N, Philippe H& Lartillot N. 2010Mutation–výběr modelů kódování sekvence evolution s web-heterogenní aminokyselin fitness profily. Proc. Natl Acad. Věda. USA 107, 4629-4634. (doi:10.1073 / pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
  • 8
    Tamuri AU dos Reis M& Goldstein RA. 2012odhadování rozdělení selekčních koeficientů z fylogenetických dat pomocí modelů sitewise mutation-selection. Genetika 190, 1101-1115. (doi:10.1534 / genetika.111.136432). Crossref, PubMed, ISI, Google Scholar
  • 9
    Tamuri AU, Goldman N& dos Reis, M. 2014A penalizován-pravděpodobnost metoda pro odhad rozdělení výběrové koeficienty z fylogenetická data. Genetika 197, 257-271. (doi:10.1534 / genetika.114.162263). Crossref, PubMed, ISI, Google Scholar
  • 10
    dos Reis m. 2013populační genetika a substituční modely adaptivní evoluce. (http://arxiv.org/abs/1311.6682). Google Scholar
  • 11
    Tamuri AU dos Reis M, Seno AJ& Goldstein RA. 2009identifikace změn selektivních omezení: přesuny hostitele v chřipce. PLoS Comput. Biol. 5, e1000564. (doi:10.1371 / deník.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
  • 12
    dos Reis M, Seno AJ& Goldstein RA. 2009pomocí nehomogenních modelů substituce nukleotidů k identifikaci událostí posunu hostitele: aplikace na původ pandemického viru chřipky 1918. J. Mol. Evol. 69, 333–345. (doi:10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
  • 13
    Nielsen R& Yang Z. 2003Estimating rozdělení výběrové koeficienty z fylogenetických dat s aplikací na mitochondriální a virové DNA. Molo. Biol. Evol. 20, 1231–1239. (doi:10.1093 / molbev/msg147). Crossref, PubMed, ISI, Google Scholar
  • 14
    Bustamante CD. 2005populační genetika molekulární evoluce. Statistické metody v molekulární evoluci (ed. & Nielsen R), s. 63-99. New York, NY: Springer. Crossref, Google Scholar

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.