hur man beräknar icke–synonymt med synonymt hastighetsförhållande för proteinkodande gener under Fisher-Wright mutation-selection framework

Inledning

Halpern & Bruno utarbetade en modell för att studera divergensen av proteinkodande gener baserat på Fisher–Wright–mutationsmodellen, urval och slumpmässig genetisk drift . I modellen tilldelas varje särskild kodonplats i genen sin egen uppsättning aminosyrapassningar, och sedan används Fisher–Wright-modellen för att utarbeta platsens evolutionära hastighet. Modellen har sett ett uppsving under de senaste åren, och variationer av det har använts, till exempel , att studera prestanda fylogenetiska inferens metoder, att studera kodon användning och att uppskatta fördelningen av selektionskoefficienter i protein-kodande gener . Kanske överraskande har modellen inte använts för att studera dynamiken hos det icke-synonyma till synonyma hastighetsförhållandet (även känt som bisexuell = dN/dS) av proteinkodande gener och dess betydelse i studien av adaptiv molekylär evolution.

syftet med denna anteckning är att föreslå ett sätt att definiera och beräkna en ekvivalent av det klassiska begreppet icke-synonymt med synonymt förhållande, i samband med mutationsvalsmodellen för Halpern & Bruno . Förhoppningen är att genom att använda de första principerna för populationsgenetik, kan vi få ett uttryck för Macau som en funktion av de urvalskoefficienter som verkar på kodon platser i protein-kodande genen. Detta bör ge mycket inblick i den evolutionära dynamiken hos kodonplatser och det bör vara till fördel vid byggandet av statistiska modeller för att upptäcka adaptiv utveckling i proteinkodande gener.

den platsvisa mutationsvalsmodellen

Tänk på utvecklingen av en kodonplats k i en proteinkodande gen i en population med N haploida genom. Antag att webbplatsen för närvarande är fastställd för kodon I (dvs. alla N-alleler bär I på plats k). I mutation–selection framework är substitutionshastigheten (den hastighet med vilken nya mutanta kodoner J uppträder och så småningom blir fixerade i populationen)

Displayformel

2.1

här är aubbij den neutrala mutationshastigheten (per generation) från I till J , och SIJ, k = fj,k – FI,k är urvalskoefficienten till förmån för kodon J och FJ,k = 2nfj,k är den skalade malthusian Fitness av J. naturligt urval påverkar den relativa substitutionsgraden. När mutationen är fördelaktig (SIJ,k > 0), är substitutionshastigheten högre än den neutrala hastigheten (qIJ,k > jacobij), men om mutationen är skadlig (SIJ,k < 0), reduceras substitutionshastigheten (qij,k < uziij). Här antar vi att synonyma substitutioner är neutrala (SIJ,k = 0), och sålunda bestäms evolutionen på plats k av 20 aminosyrapassningar. Den kan konstrueras från standard DNA-substitutionsmodeller (till exempel om I = TTT och J = TTC, sedan

Inline formelunder HKY substitutionsmodellen, se för detaljer).

ekvation (2.1) beskriver kodonsubstitution i populationer som en kontinuerlig Markov-process. Detta är förnuftigt om mutationshastigheten per generation är liten jämfört med populationsstorleken (Inline formel), så att det finns liten polymorfism i befolkningen, och högst två alleler segregerar på en plats i taget. Andelen tid,nI, k, den platsen k spenderar fast för I (dvs den stationära frekvensen av I) är

Displayformel

, därInline formelär frekvensen för en neutralt utvecklande sekvens (dvs en pseudo-gen). Således är substitutionshastigheten vid k, i genomsnitt över tiden,

Displayformel

där summan är över alla kodonpar i exporten J. denna hastighet kan delas in i dess icke-synonyma och synonyma komponenthastigheter, pk = PN, k + pS,k,där

Displayformel

och där indikatorn är funktion i = 1 om substitutionen är icke-synonymt och = 0 om annars. Observera att synonympriset pS, k varierar mellan webbplatser (till exempel om en webbplats är bevarad för metionin, är synonympriset noll). För en neutralt utvecklande sekvens ges hastigheterna av

Displayformel

Observera att ekvation (2.1) ger den momentana substitutionshastigheten, det vill säga den hastighet som konditioneras på plats k är fixerad för I för närvarande. Å andra sidan är pk hastigheten vid jämvikt, i genomsnitt över alla kodoner och viktas av deras stationära frekvenser.

den relativa icke-synonyma substitutionshastigheten

det absoluta icke-synonymt med synonymt substitutionshastighetsförhållande vid plats k är pN, k / pS,k. Eftersom synonyma priser varierar över webbplatser måste vi dock normalisera förhållandet med webbplatsens synonyma hastighetsförhållande, Inline-formel och normalisera sedan med Inline-formel (till exempel för de olika proportionerna av synonyma och icke-synonyma substitutioner vid neutralitet). Detta leder till följande definition:

Displayformel

3.1

Alternativt kan vi definiera wk som den relativa icke-synonyma hastigheten wk = cpN, k där konstant c är inställd så att förhållandet är ett för neutralt utvecklande sekvenser, det vill säga under begränsningen Inline formel. Den uppenbara lösningen är inline formel som leder till samma definition som ovan. Observera att c har den önskvärda egenskapen att vara konstant över webbplatser. Läsaren bör inte bli förvånad över att den synonyma hastigheten faller ut från ekvation (3.1). När man gör statistisk slutsats har synonyma substitutioner information om de neutrala mutationshastigheterna och informerar därmed värdet av Inline formel. På samma sätt är den relativa synonyma hastigheten vid plats k

Displayformel

3.2

Figur 1a visar ett exempel på rbcl-genen för blommande växter. Fitnessvärden uppskattades under Halpern-Bruno-modellen av Tamuri et al. , och vi använder deras värden för att beräkna wk och yk här. De genomsnittliga priserna på webbplatser är

Inline formelochinline formel. Observera att för många webbplatser är synonyma priser snabbare än för en neutralt utvecklande sekvens (dvs. yk > 1). Detta beror på den knäppa naturen hos den genetiska koden i kombination med mutations fördomar (Inline formel

Figur 1.

Figur 1. De relativa icke-synonyma (wk) och synonyma (yk) substitutionshastigheter. (a) priser för rbcl kloroplastgenen av monocots (blommande växter). (b) priser för PB2–genen av influensa A. In (a,b), passformerna på varje plats (FIJ,k) och mutationsparametrarna (Inline-formel) uppskattades under Halpern-Bruno-modellen med straffad Sannolikhet (straffaxi = 0,01) och är från . Sedan används ekvationer (3.1) och (3.2) för att beräkna wk och yk. I (b) identifierades 25 adaptiva platser (röda) där passformerna skiljer sig mellan virus som utvecklas i värdar för människa mot fågel (den naturliga reservoaren). Fitnesses för dessa platser under varje värd uppskattades utan straff och är från . Sedan används ekvation (4.1) för att beräkna Inline formel vid värdskiftet. Intervallet inline formel är 0,231–7,64 (de största värdena trunkeras i figuren).

den icke-synonyma hastigheten under adaptiv utveckling

När aminosyrornas passform är konstant genom tiden kommer webbplatser att spendera det mesta av tiden som är fast för den optimala aminosyran. Ibland kan suboptimala aminosyror fixeras och sedan ersättas efter en kort period av evolutionär tid. Detta innebär att den icke-synonyma hastigheten på platser reduceras jämfört med hastigheten för neutralt utvecklande sekvenser (dvs. wk < 1). Men när fitnesses på platser varierar över tiden (till exempel efter en miljöförskjutning eller under intensivt frekvensberoende val) kan den icke-synonyma hastigheten accelereras jämfört med hastigheten för neutralt utvecklande sekvenser (wk > 1). Vi studerar nu fallet där fitnesses förändras som en anpassning till en ny miljö.

Tänk på en plats k där lämpligheten för I är Inline formel I miljö A. De stationära frekvenserna och momentana substitutionshastigheterna är inline formel. Föreställ dig nu att miljön skiftar (till exempel en population av däggdjur som lever i ett plötsligt kallare klimat eller ett virus som koloniserar en ny värd, där den intracellulära miljön i den nya värden skiljer sig från reservoarvärden). Lämpligheten för I i den nya miljön B är nu Inline formel. Sannolikheten att webbplatsen för närvarande är fastställd för I vid miljöskiftet är Inline formel, men substitutionsgraden är nu den för den nya miljön inline formel. Således är de förväntade absoluta och relativa icke-synonyma priserna vid miljöskiftet

Displayformel

4.1

om skiftet i fitnessvärden är stort, kommer hastigheten att accelereras mycket (inline formel). Detta inträffar eftersom platsen sannolikt kommer att finna sig fast för en suboptimal aminosyra i den nya miljön, och nya mutationer till optimala aminosyror kommer att fixas snabbt. Men om träningsskiftet är måttligt kan hastigheten fortfarande vara lägre än den neutrala hastigheten (Inline formel).

Figur 1b visar ett exempel på PB2-genen för influensaviruset. Fitnessvärden uppskattades under Halpern-Bruno-modellen av Tamuri et al. . En delmängd av 25 adaptiva platser (där fitnesses är olika för virus som utvecklas i humana kontra aviära värdar ) identifierades av Tamuri et al. , och deras passform uppskattad av Tamuri et al. . Vi använder uppskattningarna för att beräkna wk, yk och Inline formel här. Den klassiska härstamning av mänsklig influensa troligen härstammar från en värd skift från en fågel till ett däggdjur reservoar i början av nittonhundratalet . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is Inline Formula (across all sites Inline Formula and Inline Formula). Note that for 16 sites for which fitnesses are different between hosts, we find that Inline Formula. Detta indikerar att kriteriet wk > 1 för att upptäcka adaptiv utveckling är konservativ i detta fall.

sannolikheten att platsen är fixerad för I, tid t efter miljöskiftet är

Displayformel

4.2

därInline formelär övergången sannolikheter erhållna med användning av standard Markov teori, dvs genom att beräknainline formel. Således är de absoluta och relativa icke-synonyma hastigheterna, tid t efter skiftet,

Displayformel

övergångssannolikheterna i ekvation (4.2) är exponentiella sönderfallsfunktioner för tiden, och såInline formelär också ett exponentiellt sönderfall. Ursprungligen kommer värdet påinline-formelatt vara högt, och när tiden går till oändlighet kommerinline-formelatt närma sig det stationära värdet som ges av ekvation (3.1). Med andra ord, strax efter en miljöförskjutning, kommer en explosion av adaptiva substitutioner att inträffa på platser där fitnesses har förändrats, och substitutioner kommer att ackumuleras tills den proteinkodande genen når ett tillstånd av adaptiv jämvikt. Till exempel visar figur 2a förfallet avInline-formelför de 25 adaptiva platserna i pb2-genen efter en värdförskjutning.

Figur 2.

Figur 2. (a) sönderfall i den relativa icke-synonyma hastigheten efter en värdförskjutning för 25 adaptiva platser (grå linjer) i PB2-genen av influensa. Den heldragna linjen är medelvärdet över de 25 platserna, inline formel. När tiden går närmar sig inline-formel det långsiktiga medelvärdet inline-formel (prickad linje). (B) den relativa icke-synonyma hastigheten som en funktion av medelvalskoefficienten vid platser. Rosa prickar: fitnessvärden för 10 000 platser samplades från normala fördelningar med medelvärde 0 och 20 = 0, … , 10. Därefter användes ekvationer (3.1) och (5.1) för att beräkna wk och Inline formel. Grå prickar: en annan uppsättning av 10 000 fitnessvärden samplades som ovan, sedan ekvationer (4.2) och (5.1) användes för att beräkna Inline formel och inline formel under miljöskiftmodellen. Heldragen linje: S / (1 − exp (−S)).

slutsats

tidigare författare har visat att förhållandet mellan den icke-synonyma hastigheten och urvalskoefficienten är ungefär XXL = S/(1 − exp(−S)) , men approximationen bygger antingen på infinite-sites-modellen eller antar att alla mutanta aminosyror har samma kondition. Ekvationer (3.1) och (4.1) ger mer realistiska approximationer men är svåra att visualisera. Tänk på en webbplats som är fast för I. Sannolikheten för att nästa mutation kommer att vara J är Inline formel för i-J. med tiden kommer andelen i-J-mutationer på platsen att vara nI, kPIJ. Således är den genomsnittliga urvalskoefficienten på mutationer vid plats k

Displayformel

5.1

Figur 2B visar wk som en funktion avInline formelför simulerade platser när fitnesses är konstanta eller när de växlar med miljön. Observera att approximationssatsningen(1 − exp(−S)) ger en rimlig nedre gräns för wk. I allmänhet ökarinline-formelmedInline-formel, men förhållandet är inte så enkelt som i tidigare approximationer .

i den platsvisa mutationsvalsmodellen beräknar man först urvalskoefficienterna, och därför kan man veta om en webbplats har varit under positivt urval utan att beräkna wk . Modellen är dock överparametriserad, beräkningsmässigt dyr och fitnesses kan bara uppskattas i stora dataset . Istället bör modellen vara till fördel i evolutionärt resonemang och i modellbyggande. Till exempel kan WK: s beteende under mer komplexa modeller (såsom frekvensberoende urval , anpassning till gradvisa miljöförändringar eller Urval på kodonanvändning ) också studeras under det platsvisa mutationsvalsramen. Detta kommer att vara en värdefull ansträngning eftersom det kommer att belysa vår förmåga att upptäcka adaptiv utveckling i molekylära sekvenser.

datatillgänglighet

data som medföljer denna studie finns tillgängliga på Dryad doi: 10.5061 / dryad.3r3q4.

bekräftelser

Jag tackar Ziheng Yang, Richard Goldstein och Asif Tamuri för värdefulla kommentarer.

Finansieringsförklaring

M. d. r. stöds av BBSRC (UK) grant no. BB / J009709 / 1 tilldelas Ziheng Yang.

intressekonflikter

Jag har inga konkurrerande intressen.

fotnoter

2015 författaren(er) publicerad av Royal Society. Alla rättigheter förbehållna.
  • 1
    Halpern AL& Bruno WJ. 1998evolutionära avstånd för proteinkodande sekvenser: modellering av platsspecifika restfrekvenser. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093/oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
  • 2
    Fisher R. 1930den genetiska teorin om naturligt urval. Oxford, Storbritannien: Clarendon Press. Google Scholar
  • 3
    Wright S. 1931Evolution i Mendeliska populationer. Genetik 16, 97-159. PubMed, Google Scholar
  • 4
    hållare MT, ZWICKL DJ& Dessimoz C. 2008utvärdera robustheten hos fylogenetiska metoder till variabilitet mellan platser i substitutionsprocesser. Phil. Trans. R. Soc. B 363, 4013-4021. (doi: 10.1098/rstb.2008.0162). Länk, ISI, Google Scholar
  • 5
    Spielman SJ& Wilke CO. 2015förhållandet mellan DN / dS och skalade urvalskoefficienter. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, ISI, Google Scholar
  • 6
    Yang Z& Nielsen R. 2008mutation–selection modeller av kodon substitution och deras användning för att uppskatta selektiva styrkor på kodon användning. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093 / molbev / msm284). Crossref, PubMed, ISI, Google Scholar
  • 7
    Rodrigue N, Philippe H& Lartillot N. 2010mutation–urvalsmodeller för kodande sekvensutveckling med heterogena aminosyraprofiler. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi: 10.1073/pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
  • 8
    Tamuri AU, dos Reis M& Goldstein RA. 2012uppskattning av fördelningen av urvalskoefficienter från fylogenetiska data med hjälp av sitewise mutation-selection-modeller. Genetik 190, 1101-1115. (doi: 10.1534 / genetik.111.136432). Crossref, PubMed, ISI, Google Scholar
  • 9
    Tamuri AU, Goldman N & dos Reis M. 2014en straffad sannolikhetsmetod för att uppskatta fördelningen av urvalskoefficienter från fylogenetiska data. Genetik 197, 257-271. (doi: 10.1534 / genetik.114.162263). Crossref, PubMed, ISI, Google Scholar
  • 10
    dos Reis M. 2013befolkningsgenetik och substitutionsmodeller för adaptiv utveckling. (http://arxiv.org/abs/1311.6682). Google Scholar
  • 11
    Tamuri AU, dos Reis M, hö AJ& Goldstein RA. 2009identifiera förändringar i selektiva begränsningar: värdskift i influensa. PLoS Comput. Biol. 5, e1000564. (doi: 10.1371 / tidskrift.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
  • 12
    dos Reis M, hö aj& Goldstein RA. 2009 använda icke-homogena modeller av nukleotidsubstitution för att identifiera värdskifthändelser: tillämpning på ursprunget till 1918′ spanska ’ influensapandemivirus. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
  • 13
    Nielsen R& Yang Z. 2003uppskattning av fördelningen av urvalskoefficienter från fylogenetiska data med applikationer till mitokondriellt och viralt DNA. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093 / molbev / msg147). Google Scholar
  • 14
    Bustamante CD. 2005befolkningsgenetik för Molekylär evolution. Statistiska metoder i molekylär evolution (Red. & Nielsen R), s.63-99. New York, NY: Springer. Google Scholar

Lämna ett svar

Din e-postadress kommer inte publiceras.