introduktion
Halpern &
formålet med denne note er at foreslå en måde at definere og beregne en ækvivalent af det klassiske koncept for det ikke-synonyme til synonyme hastighedsforhold i sammenhæng med mutationsvalgsmodellen for Halpern & Bruno . Man håber, at ved at bruge de første principper for populationsgenetik, vi kan opnå et udtryk for kur som en funktion af selektionskoefficienterne, der virker på kodonsteder i det proteinkodende gen. Dette skulle give meget indsigt i den evolutionære dynamik på kodonsteder, og det bør være en fordel ved opbygningen af statistiske modeller til at detektere adaptiv udvikling i proteinkodende gener.
den stedvise mutationsvalgsmodel
overvej udviklingen af et kodonsted k i et proteinkodende gen i en population med N haploide genomer. Antag, at stedet i øjeblikket er fast for codon i (dvs.alle n alleler bærer I på sted k). I mutationsudvælgelsesrammen er substitutionshastigheden (den hastighed , hvormed nye mutantkodoner J vises og til sidst bliver faste i befolkningen)
her er kristij den neutrale mutationshastighed (pr.generation) Fra I til J, og SIJ,k = FJ,k–FI,k er selektionskoefficienten til fordel for codon J og FJ,k,k = 2nfj, k er den skalerede malthusianske egnethed af J. naturlig udvælgelse påvirker den relative substitutionshastighed. Når mutationen er fordelagtig (SIJ,k > 0), er substitutionshastigheden højere end den neutrale hastighed (CHIJ,k > kristij), men hvis mutationen er skadelig (SIJ,k < 0), reduceres substitutionshastigheden (sij,k < 0) K < krisij). Her antager vi,at synonyme substitutioner er neutrale (SIJ, k = 0), og således bestemmes evolution På sted k af 20 aminosyretilpasninger. Kristij kan konstrueres ud fra standard DNA-substitutionsmodeller (for eksempel hvis I = TTT og J = TTC, såunder HKY-substitutionsmodellen, se for detaljer).
ligning (2.1) beskriver codonsubstitution i populationer som en kontinuerlig Markov-proces. Dette er fornuftigt, hvis mutationshastigheden pr.generation er lille sammenlignet med populationsstørrelsen (), så der er ringe polymorfisme i befolkningen, og højst to alleler adskiller sig på et sted ad gangen. Andelen af tid,nI, k, det sted k bruger fast for i (dvs.den stationære frekvens af I) er
, hvorer frekvensen for en neutralt udviklende sekvens (div), der er dvs. et pseudo-gen). Således er substitutionshastigheden ved k, i gennemsnit over tid,
hvor summen er over alle kodonpar i Kurt J. denne hastighed kan opdeles i dens ikke-synonyme og synonyme komponenthastigheder, pk = pN, k + pS,k,hvor
og hvor indikatoren er opdelt i funktion i = 1 hvis substitutionen er ikke-synonymt og = 0 hvis ellers. Bemærk,at den synonyme sats pS, k varierer mellem steder (for eksempel hvis et sted er bevaret for methionin, så er den synonyme Sats nul). For en neutralt udviklende sekvens er satserne angivet med
Bemærk, at ligning (2.1) giver den øjeblikkelige substitutionshastighed, det vil sige den hastighed, der konditioneres på stedet k, fastsættes for I på nuværende tidspunkt. På den anden side er pk hastigheden ved ligevægt, i gennemsnit over alle kodoner og vægtet af deres stationære frekvenser.
den relative ikke-synonyme substitutionshastighed
det absolutte ikke-synonymt med synonymt substitutionshastighedsforhold på sted k er pN,k / pS,k. Men fordi synonyme satser varierer over steder, er vi nødt til at normalisere forholdet med stedets synonyme rate ratio, , og normaliser derefter med (at korrigere for de forskellige proportioner af synonyme og ikke-synonyme substitutioner ved neutralitet). Dette fører til følgende definition:
Alternativt kan vi definere hk som den relative ikke-synonyme hastighed HK = cpN, k hvor konstant c er indstillet,så forholdet er et for neutralt udviklende sekvenser, det vil sige under begrænsningen. Den åbenlyse løsning er fører til den samme definition som ovenfor. Bemærk, at c har den ønskelige egenskab at være konstant over steder. Læseren bør ikke være overrasket over, at den synonyme sats falder ud fra ligning (3.1). Når man laver statistisk slutning, har synonyme substitutioner information om de neutrale mutationshastigheder og informerer således værdien af . Tilsvarende er den relative synonyme hastighed på sted k
figur 1a viser et eksempel på rbcl-genet af blomstrende planter. Fitnessværdier blev estimeret under Halpern-Bruno-modellen af Tamuri et al. , og vi bruger deres værdier til at beregne YK og YK her. De gennemsnitlige satser på tværs af steder erog. Bemærk, at for mange steder er synonyme satser hurtigere end for en neutralt udviklende sekvens (dvs.yk > 1). Dette skyldes den finurlige karakter af den genetiske kode kombineret med mutationsforstyrrelserne (
den ikke-synonyme hastighed under adaptiv udvikling
når aminosyrernes egnethed er konstant gennem tiden, vil Steder bruge det meste af tiden fast for den optimale aminosyre. Lejlighedsvis kan suboptimale aminosyrer blive faste og derefter substitueret efter en kort periode med evolutionær tid. Dette betyder, at den ikke-synonyme hastighed på steder reduceres sammenlignet med hastigheden for neutralt udviklende sekvenser (dvs.UK < 1). Når fitnesses på steder varierer over tid (for eksempel efter et miljøskift eller under intens frekvensafhængig udvælgelse ), kan den ikke-synonyme hastighed accelereres sammenlignet med hastigheden for neutralt udviklende sekvenser (uge > 1). Vi studerer nu sagen, hvor fitnesses ændres som en tilpasning til et nyt miljø.
overvej et sted k, hvor I ‘s egnethed er I Miljø A. De stationære frekvenser og øjeblikkelige substitutionshastigheder er . Forestil dig nu, at miljøet skifter (for eksempel en population af pattedyr, der lever i et pludselig koldere klima, eller en virus, der koloniserer en ny vært, hvor det intracellulære miljø i den nye vært er forskelligt fra reservoirværten). Fitness af I i det nye miljø B er nu . Sandsynligheden for, at stedet i øjeblikket er fast for i i øjeblikket af miljøskiftet, er , men substitutionshastigheden er nu den for det nye miljø . Således er de forventede absolutte og relative ikke-synonyme satser ved miljøskiftet
Hvis skiftet i fitnessværdier er stort, vil hastigheden blive meget accelereret (). Dette sker, fordi stedet sandsynligvis vil finde sig fast for en suboptimal aminosyre i det nye miljø, og nye mutationer til optimale aminosyrer vil blive rettet hurtigt. Men hvis fitnessskiftet er moderat, kan hastigheden stadig være lavere end den neutrale hastighed ().
figur 1b viser et eksempel på pb2-genet af virus. Fitnessværdier blev estimeret under Halpern-Bruno-modellen af Tamuri et al. . En delmængde af 25 adaptive steder (hvor fitnesses er forskellige for vira, der udvikler sig i humane versus aviær værter ) blev identificeret af Tamuri et al. , og deres egnethed estimeret af Tamuri et al. . Vi bruger estimaterne til at beregne uge, yk og her. Den klassiske afstamning af menneskelig påvirkning stammer sandsynligvis fra et værtsskift fra en fugl til et pattedyrreservoir i det tidlige tyvende århundrede . We calculate at the putative host shift. The average rate at adaptive sites is (across all sites and ). Note that for 16 sites for which fitnesses are different between hosts, we find that . Dette indikerer, at kriteriet UK > 1 For at detektere adaptiv evolution er konservativ i dette tilfælde.
sandsynligheden for, at stedet er fast for I, tid t efter miljøskiftet er
hvorer overgangen sandsynligheder opnået ved hjælp af standard Markov teori, dvs.ved beregning. Således er de absolutte og relative ikke-synonyme satser, tid t efter skiftet,
overgangssandsynlighederne i ligning (4.2) er eksponentielle henfaldsfunktioner af tid, og såer også et eksponentielt henfald. Indledningsvis vil værdien afvære høj, og som tiden går til uendelig,vil nærme sig den stationære værdi givet ved ligning (3.1). Med andre ord, kort efter et miljøskift, en udbrud af adaptive substitutioner vil forekomme på steder, hvor fitnesses er ændret, og substitutioner akkumuleres, indtil det proteinkodende gen når en tilstand af adaptiv ligevægt. For eksempel viser figur 2A henfaldet affor de 25 adaptive steder i pb2-genet efter et værtsskift.
konklusion
tidligere forfattere har vist , at forholdet mellem den ikke-synonyme hastighed og udvælgelseskoefficienten er ca. Ligninger (3.1) og (4.1) giver mere realistiske tilnærmelser, men er svære at visualisere. Overvej et sted, der er rettet til I. Sandsynligheden for, at den næste mutation vil være J,er for i kurr J. over tid vil andelen af I til J-mutationer på stedet være nI, kPIJ. Således er den gennemsnitlige udvælgelseskoefficient på mutationer på sted k
figur 2b viser uge som en funktion affor simulerede steder, når fitnesses er konstante, eller når de skifter med miljøet. Bemærk, at tilnærmelsen er = s/(1 − eksp(−S)) giver en rimelig nedre grænse på uge. Genereltstiger med, men forholdet er ikke så simpelt som i de foregående tilnærmelser .
i den stedvise mutationsvalgsmodel beregner man først selektionskoefficienterne, og man kan derfor vide, om et sted har været under positiv Udvælgelse uden at beregne uge . Modellen er imidlertid overparametriseret, beregningsmæssigt dyr, og fitnesses kan kun estimeres godt i store datasæt . I stedet skal modellen være til fordel i evolutionær ræsonnement og i modelopbygning. F. eks.kan adfærd under mere komplekse modeller (f. eks. frekvensafhængig selektion , tilpasning til gradvise miljøændringer eller selektion ved brug af kodon ) også undersøges under den stedvise mutationsudvælgelsesramme. Dette vil være en værdifuld indsats, da det vil kaste lys over vores evne til at opdage adaptiv udvikling i molekylære sekvenser.
datatilgængelighed
de data, der ledsager denne undersøgelse, er tilgængelige på Dryad doi:10.5061 / dryad.3r3k4.
anerkendelser
Jeg takker Richard Goldstein og Asif Tamuri for værdifulde kommentarer.
finansieringsoversigt
M. d.R. understøttes af bbsrc (UK) grant no. BB / J009709 / 1 tildelt til Yang.
interessekonflikter
Jeg har ingen konkurrerende interesser.
fodnoter
- 1
Halpern AL& Bruno VJ. 1998evolutionære afstande for proteinkodende sekvenser: modellering af stedsspecifikke restfrekvenser. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oksfordjournals.molbev.a025995). Crossref, PubMed, Isi, Google Scholar
- 2
Fisher R. 1930den genetiske teori om naturlig udvælgelse. Det Forenede Kongerige: Clarendon Press. Google Scholar
- 3
Vrig S. 1931evolution i Mendelske populationer. Genetik 16, 97-159. PubMed, Google Scholar
- 4
Holder MT, DJ& Dessimos C. 2008evaluering af fylogenetiske metoders robusthed til variabilitet på stedet i substitutionsprocesser. Phil. Trans. R. Soc. B 363, 4013-4021. (doi: 10.1098 / rstb.2008.0162). Link, Isi, Google Scholar
- 5
Spielman SJ& Vilke CO. 2015 forholdet mellem dN / dS og skalerede udvælgelseskoefficienter. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, Isi, Google Scholar
- 6
Yang& Nielsen R. 2008mutation–selection modeller af codon substitution og deres anvendelse til at estimere selektive styrker på codon brug. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093 / molbev / msm284). Crossref, PubMed, Isi, Google Scholar
- 7
Rodrigue N, Philippe H& Lartillot N. 2010mutation–udvælgelses modeller af kodende sekvensudvikling med Site-heterogene aminosyre fitness profiler. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi: 10.1073 / pnas.0910915107). Crossref, PubMed, Isi, Google Scholar
- 8
Tamuri AU, dos Reis M& Goldstein RA. 2012estimering af fordelingen af selektionskoefficienter fra fylogenetiske data ved hjælp af stedvis mutationsudvælgelsesmodeller. Genetik 190, 1101-1115. (doi: 10.1534 / genetik.111.136432). Crossref, PubMed, Isi, Google Scholar
- 9
Tamuri AU, Goldman N& dos Reis M. 2014A Straffet sandsynlighedsmetode til at estimere fordelingen af udvælgelseskoefficienter fra fylogenetiske data. Genetik 197, 257-271. (doi: 10.1534 / genetik.114.162263). Crossref, PubMed, Isi, Google Scholar
- 10
dos Reis M. 2013populationsgenetik og substitutionsmodeller for adaptiv evolution. (http://arxiv.org/abs/1311.6682). Google Scholar
- 11
Tamuri AU, dos Reis M, Hay aj& Goldstein RA. 2009 identifikation af ændringer i selektive begrænsninger: værtsskift i indflydelse. PLoS Comput. Biol. 5, e1000564. (doi: 10.1371 / tidsskrift.pcbi.1000564). Crossref, PubMed, Isi, Google Scholar
- 12
dos Reis M, Hay AJ& Goldstein RA. 2009 brug af ikke-homogene modeller af nukleotidsubstitution til at identificere værtsskifthændelser: anvendelse på oprindelsen af 1918 ‘spansk’ influencepandemisk virus. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-h). Crossref, PubMed, Isi, Google Scholar
- 13
Nielsen R& Yang fra 2003estimering af fordelingen af selektionskoefficienter fra fylogenetiske data med applikationer til mitokondrie-og viralt DNA. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093 / molbev / msg147). Crossref, PubMed, Isi, Google Scholar
- 14
Bustamante CD. 2005populationsgenetik af molekylær evolution. Statistiske metoder i molekylær evolution (Red. & Nielsen R), S.63-99. København: Springer. Crossref, Google Scholar