Inledning
Halpern & Bruno utarbetade en modell för att studera divergensen av proteinkodande gener baserat på Fisher–Wright–mutationsmodellen, urval och slumpmässig genetisk drift . I modellen tilldelas varje särskild kodonplats i genen sin egen uppsättning aminosyrapassningar, och sedan används Fisher–Wright-modellen för att utarbeta platsens evolutionära hastighet. Modellen har sett ett uppsving under de senaste åren, och variationer av det har använts, till exempel , att studera prestanda fylogenetiska inferens metoder, att studera kodon användning och att uppskatta fördelningen av selektionskoefficienter i protein-kodande gener . Kanske överraskande har modellen inte använts för att studera dynamiken hos det icke-synonyma till synonyma hastighetsförhållandet (även känt som bisexuell = dN/dS) av proteinkodande gener och dess betydelse i studien av adaptiv molekylär evolution.
syftet med denna anteckning är att föreslå ett sätt att definiera och beräkna en ekvivalent av det klassiska begreppet icke-synonymt med synonymt förhållande, i samband med mutationsvalsmodellen för Halpern & Bruno . Förhoppningen är att genom att använda de första principerna för populationsgenetik, kan vi få ett uttryck för Macau som en funktion av de urvalskoefficienter som verkar på kodon platser i protein-kodande genen. Detta bör ge mycket inblick i den evolutionära dynamiken hos kodonplatser och det bör vara till fördel vid byggandet av statistiska modeller för att upptäcka adaptiv utveckling i proteinkodande gener.
den platsvisa mutationsvalsmodellen
Tänk på utvecklingen av en kodonplats k i en proteinkodande gen i en population med N haploida genom. Antag att webbplatsen för närvarande är fastställd för kodon I (dvs. alla N-alleler bär I på plats k). I mutation–selection framework är substitutionshastigheten (den hastighet med vilken nya mutanta kodoner J uppträder och så småningom blir fixerade i populationen)
här är aubbij den neutrala mutationshastigheten (per generation) från I till J , och SIJ, k = fj,k – FI,k är urvalskoefficienten till förmån för kodon J och FJ,k = 2nfj,k är den skalade malthusian Fitness av J. naturligt urval påverkar den relativa substitutionsgraden. När mutationen är fördelaktig (SIJ,k > 0), är substitutionshastigheten högre än den neutrala hastigheten (qIJ,k > jacobij), men om mutationen är skadlig (SIJ,k < 0), reduceras substitutionshastigheten (qij,k < uziij). Här antar vi att synonyma substitutioner är neutrala (SIJ,k = 0), och sålunda bestäms evolutionen på plats k av 20 aminosyrapassningar. Den kan konstrueras från standard DNA-substitutionsmodeller (till exempel om I = TTT och J = TTC, sedan
under HKY substitutionsmodellen, se för detaljer).
ekvation (2.1) beskriver kodonsubstitution i populationer som en kontinuerlig Markov-process. Detta är förnuftigt om mutationshastigheten per generation är liten jämfört med populationsstorleken (), så att det finns liten polymorfism i befolkningen, och högst två alleler segregerar på en plats i taget. Andelen tid,nI, k, den platsen k spenderar fast för I (dvs den stationära frekvensen av I) är
, därär frekvensen för en neutralt utvecklande sekvens (dvs en pseudo-gen). Således är substitutionshastigheten vid k, i genomsnitt över tiden,
där summan är över alla kodonpar i exporten J. denna hastighet kan delas in i dess icke-synonyma och synonyma komponenthastigheter, pk = PN, k + pS,k,där
och där indikatorn är funktion i = 1 om substitutionen är icke-synonymt och = 0 om annars. Observera att synonympriset pS, k varierar mellan webbplatser (till exempel om en webbplats är bevarad för metionin, är synonympriset noll). För en neutralt utvecklande sekvens ges hastigheterna av
Observera att ekvation (2.1) ger den momentana substitutionshastigheten, det vill säga den hastighet som konditioneras på plats k är fixerad för I för närvarande. Å andra sidan är pk hastigheten vid jämvikt, i genomsnitt över alla kodoner och viktas av deras stationära frekvenser.
den relativa icke-synonyma substitutionshastigheten
det absoluta icke-synonymt med synonymt substitutionshastighetsförhållande vid plats k är pN, k / pS,k. Eftersom synonyma priser varierar över webbplatser måste vi dock normalisera förhållandet med webbplatsens synonyma hastighetsförhållande, och normalisera sedan med (till exempel för de olika proportionerna av synonyma och icke-synonyma substitutioner vid neutralitet). Detta leder till följande definition:
Alternativt kan vi definiera wk som den relativa icke-synonyma hastigheten wk = cpN, k där konstant c är inställd så att förhållandet är ett för neutralt utvecklande sekvenser, det vill säga under begränsningen . Den uppenbara lösningen är som leder till samma definition som ovan. Observera att c har den önskvärda egenskapen att vara konstant över webbplatser. Läsaren bör inte bli förvånad över att den synonyma hastigheten faller ut från ekvation (3.1). När man gör statistisk slutsats har synonyma substitutioner information om de neutrala mutationshastigheterna och informerar därmed värdet av . På samma sätt är den relativa synonyma hastigheten vid plats k
Figur 1a visar ett exempel på rbcl-genen för blommande växter. Fitnessvärden uppskattades under Halpern-Bruno-modellen av Tamuri et al. , och vi använder deras värden för att beräkna wk och yk här. De genomsnittliga priserna på webbplatser är
och. Observera att för många webbplatser är synonyma priser snabbare än för en neutralt utvecklande sekvens (dvs. yk > 1). Detta beror på den knäppa naturen hos den genetiska koden i kombination med mutations fördomar (
den icke-synonyma hastigheten under adaptiv utveckling
När aminosyrornas passform är konstant genom tiden kommer webbplatser att spendera det mesta av tiden som är fast för den optimala aminosyran. Ibland kan suboptimala aminosyror fixeras och sedan ersättas efter en kort period av evolutionär tid. Detta innebär att den icke-synonyma hastigheten på platser reduceras jämfört med hastigheten för neutralt utvecklande sekvenser (dvs. wk < 1). Men när fitnesses på platser varierar över tiden (till exempel efter en miljöförskjutning eller under intensivt frekvensberoende val) kan den icke-synonyma hastigheten accelereras jämfört med hastigheten för neutralt utvecklande sekvenser (wk > 1). Vi studerar nu fallet där fitnesses förändras som en anpassning till en ny miljö.
Tänk på en plats k där lämpligheten för I är I miljö A. De stationära frekvenserna och momentana substitutionshastigheterna är . Föreställ dig nu att miljön skiftar (till exempel en population av däggdjur som lever i ett plötsligt kallare klimat eller ett virus som koloniserar en ny värd, där den intracellulära miljön i den nya värden skiljer sig från reservoarvärden). Lämpligheten för I i den nya miljön B är nu . Sannolikheten att webbplatsen för närvarande är fastställd för I vid miljöskiftet är , men substitutionsgraden är nu den för den nya miljön . Således är de förväntade absoluta och relativa icke-synonyma priserna vid miljöskiftet
om skiftet i fitnessvärden är stort, kommer hastigheten att accelereras mycket (). Detta inträffar eftersom platsen sannolikt kommer att finna sig fast för en suboptimal aminosyra i den nya miljön, och nya mutationer till optimala aminosyror kommer att fixas snabbt. Men om träningsskiftet är måttligt kan hastigheten fortfarande vara lägre än den neutrala hastigheten ().
Figur 1b visar ett exempel på PB2-genen för influensaviruset. Fitnessvärden uppskattades under Halpern-Bruno-modellen av Tamuri et al. . En delmängd av 25 adaptiva platser (där fitnesses är olika för virus som utvecklas i humana kontra aviära värdar ) identifierades av Tamuri et al. , och deras passform uppskattad av Tamuri et al. . Vi använder uppskattningarna för att beräkna wk, yk och här. Den klassiska härstamning av mänsklig influensa troligen härstammar från en värd skift från en fågel till ett däggdjur reservoar i början av nittonhundratalet . We calculate at the putative host shift. The average rate at adaptive sites is (across all sites and ). Note that for 16 sites for which fitnesses are different between hosts, we find that . Detta indikerar att kriteriet wk > 1 för att upptäcka adaptiv utveckling är konservativ i detta fall.
sannolikheten att platsen är fixerad för I, tid t efter miljöskiftet är
därär övergången sannolikheter erhållna med användning av standard Markov teori, dvs genom att beräkna. Således är de absoluta och relativa icke-synonyma hastigheterna, tid t efter skiftet,
övergångssannolikheterna i ekvation (4.2) är exponentiella sönderfallsfunktioner för tiden, och såär också ett exponentiellt sönderfall. Ursprungligen kommer värdet påatt vara högt, och när tiden går till oändlighet kommeratt närma sig det stationära värdet som ges av ekvation (3.1). Med andra ord, strax efter en miljöförskjutning, kommer en explosion av adaptiva substitutioner att inträffa på platser där fitnesses har förändrats, och substitutioner kommer att ackumuleras tills den proteinkodande genen når ett tillstånd av adaptiv jämvikt. Till exempel visar figur 2a förfallet avför de 25 adaptiva platserna i pb2-genen efter en värdförskjutning.
slutsats
tidigare författare har visat att förhållandet mellan den icke-synonyma hastigheten och urvalskoefficienten är ungefär XXL = S/(1 − exp(−S)) , men approximationen bygger antingen på infinite-sites-modellen eller antar att alla mutanta aminosyror har samma kondition. Ekvationer (3.1) och (4.1) ger mer realistiska approximationer men är svåra att visualisera. Tänk på en webbplats som är fast för I. Sannolikheten för att nästa mutation kommer att vara J är för i-J. med tiden kommer andelen i-J-mutationer på platsen att vara nI, kPIJ. Således är den genomsnittliga urvalskoefficienten på mutationer vid plats k
Figur 2B visar wk som en funktion avför simulerade platser när fitnesses är konstanta eller när de växlar med miljön. Observera att approximationssatsningen(1 − exp(−S)) ger en rimlig nedre gräns för wk. I allmänhet ökarmed, men förhållandet är inte så enkelt som i tidigare approximationer .
i den platsvisa mutationsvalsmodellen beräknar man först urvalskoefficienterna, och därför kan man veta om en webbplats har varit under positivt urval utan att beräkna wk . Modellen är dock överparametriserad, beräkningsmässigt dyr och fitnesses kan bara uppskattas i stora dataset . Istället bör modellen vara till fördel i evolutionärt resonemang och i modellbyggande. Till exempel kan WK: s beteende under mer komplexa modeller (såsom frekvensberoende urval , anpassning till gradvisa miljöförändringar eller Urval på kodonanvändning ) också studeras under det platsvisa mutationsvalsramen. Detta kommer att vara en värdefull ansträngning eftersom det kommer att belysa vår förmåga att upptäcka adaptiv utveckling i molekylära sekvenser.
datatillgänglighet
data som medföljer denna studie finns tillgängliga på Dryad doi: 10.5061 / dryad.3r3q4.
bekräftelser
Jag tackar Ziheng Yang, Richard Goldstein och Asif Tamuri för värdefulla kommentarer.
Finansieringsförklaring
M. d. r. stöds av BBSRC (UK) grant no. BB / J009709 / 1 tilldelas Ziheng Yang.
intressekonflikter
Jag har inga konkurrerande intressen.
fotnoter
- 1
Halpern AL& Bruno WJ. 1998evolutionära avstånd för proteinkodande sekvenser: modellering av platsspecifika restfrekvenser. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093/oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
- 2
Fisher R. 1930den genetiska teorin om naturligt urval. Oxford, Storbritannien: Clarendon Press. Google Scholar
- 3
Wright S. 1931Evolution i Mendeliska populationer. Genetik 16, 97-159. PubMed, Google Scholar
- 4
hållare MT, ZWICKL DJ& Dessimoz C. 2008utvärdera robustheten hos fylogenetiska metoder till variabilitet mellan platser i substitutionsprocesser. Phil. Trans. R. Soc. B 363, 4013-4021. (doi: 10.1098/rstb.2008.0162). Länk, ISI, Google Scholar
- 5
Spielman SJ& Wilke CO. 2015förhållandet mellan DN / dS och skalade urvalskoefficienter. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, ISI, Google Scholar
- 6
Yang Z& Nielsen R. 2008mutation–selection modeller av kodon substitution och deras användning för att uppskatta selektiva styrkor på kodon användning. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093 / molbev / msm284). Crossref, PubMed, ISI, Google Scholar
- 7
Rodrigue N, Philippe H& Lartillot N. 2010mutation–urvalsmodeller för kodande sekvensutveckling med heterogena aminosyraprofiler. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi: 10.1073/pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
- 8
Tamuri AU, dos Reis M& Goldstein RA. 2012uppskattning av fördelningen av urvalskoefficienter från fylogenetiska data med hjälp av sitewise mutation-selection-modeller. Genetik 190, 1101-1115. (doi: 10.1534 / genetik.111.136432). Crossref, PubMed, ISI, Google Scholar
- 9
Tamuri AU, Goldman N & dos Reis M. 2014en straffad sannolikhetsmetod för att uppskatta fördelningen av urvalskoefficienter från fylogenetiska data. Genetik 197, 257-271. (doi: 10.1534 / genetik.114.162263). Crossref, PubMed, ISI, Google Scholar
- 10
dos Reis M. 2013befolkningsgenetik och substitutionsmodeller för adaptiv utveckling. (http://arxiv.org/abs/1311.6682). Google Scholar
- 11
Tamuri AU, dos Reis M, hö AJ& Goldstein RA. 2009identifiera förändringar i selektiva begränsningar: värdskift i influensa. PLoS Comput. Biol. 5, e1000564. (doi: 10.1371 / tidskrift.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
- 12
dos Reis M, hö aj& Goldstein RA. 2009 använda icke-homogena modeller av nukleotidsubstitution för att identifiera värdskifthändelser: tillämpning på ursprunget till 1918′ spanska ’ influensapandemivirus. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
- 13
Nielsen R& Yang Z. 2003uppskattning av fördelningen av urvalskoefficienter från fylogenetiska data med applikationer till mitokondriellt och viralt DNA. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093 / molbev / msg147). Google Scholar
- 14
Bustamante CD. 2005befolkningsgenetik för Molekylär evolution. Statistiska metoder i molekylär evolution (Red. & Nielsen R), s.63-99. New York, NY: Springer. Google Scholar