Sådan beregnes det ikke–synonymt med synonymt hastighedsforhold for proteinkodende gener under Fisher-Vright-mutationsvalgsrammen

introduktion

Halpern &

formålet med denne note er at foreslå en måde at definere og beregne en ækvivalent af det klassiske koncept for det ikke-synonyme til synonyme hastighedsforhold i sammenhæng med mutationsvalgsmodellen for Halpern & Bruno . Man håber, at ved at bruge de første principper for populationsgenetik, vi kan opnå et udtryk for kur som en funktion af selektionskoefficienterne, der virker på kodonsteder i det proteinkodende gen. Dette skulle give meget indsigt i den evolutionære dynamik på kodonsteder, og det bør være en fordel ved opbygningen af statistiske modeller til at detektere adaptiv udvikling i proteinkodende gener.

den stedvise mutationsvalgsmodel

overvej udviklingen af et kodonsted k i et proteinkodende gen i en population med N haploide genomer. Antag, at stedet i øjeblikket er fast for codon i (dvs.alle n alleler bærer I på sted k). I mutationsudvælgelsesrammen er substitutionshastigheden (den hastighed , hvormed nye mutantkodoner J vises og til sidst bliver faste i befolkningen)

Visningsformel

2.1

her er kristij den neutrale mutationshastighed (pr.generation) Fra I til J, og SIJ,k = FJ,k–FI,k er selektionskoefficienten til fordel for codon J og FJ,k,k = 2nfj, k er den skalerede malthusianske egnethed af J. naturlig udvælgelse påvirker den relative substitutionshastighed. Når mutationen er fordelagtig (SIJ,k > 0), er substitutionshastigheden højere end den neutrale hastighed (CHIJ,k > kristij), men hvis mutationen er skadelig (SIJ,k < 0), reduceres substitutionshastigheden (sij,k < 0) K < krisij). Her antager vi,at synonyme substitutioner er neutrale (SIJ, k = 0), og således bestemmes evolution På sted k af 20 aminosyretilpasninger. Kristij kan konstrueres ud fra standard DNA-substitutionsmodeller (for eksempel hvis I = TTT og J = TTC, såInline formelunder HKY-substitutionsmodellen, se for detaljer).

ligning (2.1) beskriver codonsubstitution i populationer som en kontinuerlig Markov-proces. Dette er fornuftigt, hvis mutationshastigheden pr.generation er lille sammenlignet med populationsstørrelsen (Inline formel), så der er ringe polymorfisme i befolkningen, og højst to alleler adskiller sig på et sted ad gangen. Andelen af tid,nI, k, det sted k bruger fast for i (dvs.den stationære frekvens af I) er

Displayformel

, hvorInline formeler frekvensen for en neutralt udviklende sekvens (div), der er dvs. et pseudo-gen). Således er substitutionshastigheden ved k, i gennemsnit over tid,

Displayformel

hvor summen er over alle kodonpar i Kurt J. denne hastighed kan opdeles i dens ikke-synonyme og synonyme komponenthastigheder, pk = pN, k + pS,k,hvor

Displayformel

og hvor indikatoren er opdelt i funktion i = 1 hvis substitutionen er ikke-synonymt og = 0 hvis ellers. Bemærk,at den synonyme sats pS, k varierer mellem steder (for eksempel hvis et sted er bevaret for methionin, så er den synonyme Sats nul). For en neutralt udviklende sekvens er satserne angivet med

Displayformel

Bemærk, at ligning (2.1) giver den øjeblikkelige substitutionshastighed, det vil sige den hastighed, der konditioneres på stedet k, fastsættes for I på nuværende tidspunkt. På den anden side er pk hastigheden ved ligevægt, i gennemsnit over alle kodoner og vægtet af deres stationære frekvenser.

den relative ikke-synonyme substitutionshastighed

det absolutte ikke-synonymt med synonymt substitutionshastighedsforhold på sted k er pN,k / pS,k. Men fordi synonyme satser varierer over steder, er vi nødt til at normalisere forholdet med stedets synonyme rate ratio, Inline formel, og normaliser derefter med Inline formel (at korrigere for de forskellige proportioner af synonyme og ikke-synonyme substitutioner ved neutralitet). Dette fører til følgende definition:

Visningsformel

3.1

Alternativt kan vi definere hk som den relative ikke-synonyme hastighed HK = cpN, k hvor konstant c er indstillet,så forholdet er et for neutralt udviklende sekvenser, det vil sige under begrænsningenInline formel. Den åbenlyse løsning er Inline formel fører til den samme definition som ovenfor. Bemærk, at c har den ønskelige egenskab at være konstant over steder. Læseren bør ikke være overrasket over, at den synonyme sats falder ud fra ligning (3.1). Når man laver statistisk slutning, har synonyme substitutioner information om de neutrale mutationshastigheder og informerer således værdien af Inline formel. Tilsvarende er den relative synonyme hastighed på sted k

Displayformel

3.2

figur 1a viser et eksempel på rbcl-genet af blomstrende planter. Fitnessværdier blev estimeret under Halpern-Bruno-modellen af Tamuri et al. , og vi bruger deres værdier til at beregne YK og YK her. De gennemsnitlige satser på tværs af steder erInline formelogInline formel. Bemærk, at for mange steder er synonyme satser hurtigere end for en neutralt udviklende sekvens (dvs.yk > 1). Dette skyldes den finurlige karakter af den genetiske kode kombineret med mutationsforstyrrelserne (Inline formel

Figur 1.

Figur 1. De relative ikke-synonyme (UK) og synonyme (yk) substitutionsrater. (a) satser for rbcl-chloroplastgenet af monocots (blomstrende planter). (B) rater for PB2–genet af influensa A. In (a,b), fitneserne på hvert sted (FIJ,k) og mutationsparametrene (Inline formel) blev estimeret under Halpern-Bruno-modellen ved strafferet Sandsynlighed (straffekrus = 0,01) og er fra . Derefter bruges ligninger (3.1) og (3.2) til at beregne YK og YK. I (b) blev 25 adaptive steder (rød) identificeret, hvor fitnesses er forskellige mellem vira, der udvikler sig i humane versus aviær (det naturlige reservoir) værter . Egnethed til disse steder under hver vært blev estimeret uden straf og er fra . Derefter bruges ligning (4.1) til at beregne Inline formel ved værtsskiftet. Området Inline formel er 0,231–7,64 (de største værdier afkortes i figuren).

den ikke-synonyme hastighed under adaptiv udvikling

når aminosyrernes egnethed er konstant gennem tiden, vil Steder bruge det meste af tiden fast for den optimale aminosyre. Lejlighedsvis kan suboptimale aminosyrer blive faste og derefter substitueret efter en kort periode med evolutionær tid. Dette betyder, at den ikke-synonyme hastighed på steder reduceres sammenlignet med hastigheden for neutralt udviklende sekvenser (dvs.UK < 1). Når fitnesses på steder varierer over tid (for eksempel efter et miljøskift eller under intens frekvensafhængig udvælgelse ), kan den ikke-synonyme hastighed accelereres sammenlignet med hastigheden for neutralt udviklende sekvenser (uge > 1). Vi studerer nu sagen, hvor fitnesses ændres som en tilpasning til et nyt miljø.

overvej et sted k, hvor I ‘s egnethed er Inline formel I Miljø A. De stationære frekvenser og øjeblikkelige substitutionshastigheder er Inline formel. Forestil dig nu, at miljøet skifter (for eksempel en population af pattedyr, der lever i et pludselig koldere klima, eller en virus, der koloniserer en ny vært, hvor det intracellulære miljø i den nye vært er forskelligt fra reservoirværten). Fitness af I i det nye miljø B er nu Inline formel. Sandsynligheden for, at stedet i øjeblikket er fast for i i øjeblikket af miljøskiftet, er Inline formel, men substitutionshastigheden er nu den for det nye miljø Inline formel. Således er de forventede absolutte og relative ikke-synonyme satser ved miljøskiftet

Displayformel

4.1

Hvis skiftet i fitnessværdier er stort, vil hastigheden blive meget accelereret (Inline formel). Dette sker, fordi stedet sandsynligvis vil finde sig fast for en suboptimal aminosyre i det nye miljø, og nye mutationer til optimale aminosyrer vil blive rettet hurtigt. Men hvis fitnessskiftet er moderat, kan hastigheden stadig være lavere end den neutrale hastighed (Inline formel).

figur 1b viser et eksempel på pb2-genet af virus. Fitnessværdier blev estimeret under Halpern-Bruno-modellen af Tamuri et al. . En delmængde af 25 adaptive steder (hvor fitnesses er forskellige for vira, der udvikler sig i humane versus aviær værter ) blev identificeret af Tamuri et al. , og deres egnethed estimeret af Tamuri et al. . Vi bruger estimaterne til at beregne uge, yk og Inline formel her. Den klassiske afstamning af menneskelig påvirkning stammer sandsynligvis fra et værtsskift fra en fugl til et pattedyrreservoir i det tidlige tyvende århundrede . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is Inline Formula (across all sites Inline Formula and Inline Formula). Note that for 16 sites for which fitnesses are different between hosts, we find that Inline Formula. Dette indikerer, at kriteriet UK > 1 For at detektere adaptiv evolution er konservativ i dette tilfælde.

sandsynligheden for, at stedet er fast for I, tid t efter miljøskiftet er

Displayformel

4.2

hvorInline formeler overgangen sandsynligheder opnået ved hjælp af standard Markov teori, dvs.ved beregninginline formel. Således er de absolutte og relative ikke-synonyme satser, tid t efter skiftet,

Displayformel

overgangssandsynlighederne i ligning (4.2) er eksponentielle henfaldsfunktioner af tid, og såInline formeler også et eksponentielt henfald. Indledningsvis vil værdien afInline formelvære høj, og som tiden går til uendelig,Inline formelvil nærme sig den stationære værdi givet ved ligning (3.1). Med andre ord, kort efter et miljøskift, en udbrud af adaptive substitutioner vil forekomme på steder, hvor fitnesses er ændret, og substitutioner akkumuleres, indtil det proteinkodende gen når en tilstand af adaptiv ligevægt. For eksempel viser figur 2A henfaldet afInline formelfor de 25 adaptive steder i pb2-genet efter et værtsskift.

figur 2.

figur 2. (a) henfald i den relative ikke-synonyme hastighed efter et værtsskift for 25 adaptive steder (grå linjer) i PB2-genet af indflydelse. Den faste linje er gennemsnittet på tværs af de 25 steder, Inline formel. Efterhånden som tiden går,Inline formel nærmer sig det langsigtede gennemsnitInline formel (stiplet linje). B) den relative ikke-synonyme sats som funktion af den gennemsnitlige udvælgelseskoefficient på lokaliteter. Lyserøde prikker: fitnessværdier for 10 000 steder blev udtaget fra normale fordelinger med Middel 0 og kr = 0, … , 10. Derefter blev ligninger (3.1) og (5.1) brugt til at beregne uge og Inline formel. Grå prikker: et andet sæt på 10 000 fitnessværdier blev samplet som ovenfor, derefter blev ligninger (4.2) og (5.1) brugt til at beregne Inline formel og inline formel under Miljø skift model. Fast linje: S / (1-udl. (- S)).

konklusion

tidligere forfattere har vist , at forholdet mellem den ikke-synonyme hastighed og udvælgelseskoefficienten er ca. Ligninger (3.1) og (4.1) giver mere realistiske tilnærmelser, men er svære at visualisere. Overvej et sted, der er rettet til I. Sandsynligheden for, at den næste mutation vil være J,er Inline-formel for i kurr J. over tid vil andelen af I til J-mutationer på stedet være nI, kPIJ. Således er den gennemsnitlige udvælgelseskoefficient på mutationer på sted k

Displayformel

5.1

figur 2b viser uge som en funktion afInline formelfor simulerede steder, når fitnesses er konstante, eller når de skifter med miljøet. Bemærk, at tilnærmelsen er = s/(1 − eksp(−S)) giver en rimelig nedre grænse på uge. GenereltInline formelstiger medInline formel, men forholdet er ikke så simpelt som i de foregående tilnærmelser .

i den stedvise mutationsvalgsmodel beregner man først selektionskoefficienterne, og man kan derfor vide, om et sted har været under positiv Udvælgelse uden at beregne uge . Modellen er imidlertid overparametriseret, beregningsmæssigt dyr, og fitnesses kan kun estimeres godt i store datasæt . I stedet skal modellen være til fordel i evolutionær ræsonnement og i modelopbygning. F. eks.kan adfærd under mere komplekse modeller (f. eks. frekvensafhængig selektion , tilpasning til gradvise miljøændringer eller selektion ved brug af kodon ) også undersøges under den stedvise mutationsudvælgelsesramme. Dette vil være en værdifuld indsats, da det vil kaste lys over vores evne til at opdage adaptiv udvikling i molekylære sekvenser.

datatilgængelighed

de data, der ledsager denne undersøgelse, er tilgængelige på Dryad doi:10.5061 / dryad.3r3k4.

anerkendelser

Jeg takker Richard Goldstein og Asif Tamuri for værdifulde kommentarer.

finansieringsoversigt

M. d.R. understøttes af bbsrc (UK) grant no. BB / J009709 / 1 tildelt til Yang.

interessekonflikter

Jeg har ingen konkurrerende interesser.

fodnoter

2015 forfatteren(e) udgivet af Royal Society. Alle rettigheder forbeholdes.
  • 1
    Halpern AL& Bruno VJ. 1998evolutionære afstande for proteinkodende sekvenser: modellering af stedsspecifikke restfrekvenser. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oksfordjournals.molbev.a025995). Crossref, PubMed, Isi, Google Scholar
  • 2
    Fisher R. 1930den genetiske teori om naturlig udvælgelse. Det Forenede Kongerige: Clarendon Press. Google Scholar
  • 3
    Vrig S. 1931evolution i Mendelske populationer. Genetik 16, 97-159. PubMed, Google Scholar
  • 4
    Holder MT, DJ& Dessimos C. 2008evaluering af fylogenetiske metoders robusthed til variabilitet på stedet i substitutionsprocesser. Phil. Trans. R. Soc. B 363, 4013-4021. (doi: 10.1098 / rstb.2008.0162). Link, Isi, Google Scholar
  • 5
    Spielman SJ& Vilke CO. 2015 forholdet mellem dN / dS og skalerede udvælgelseskoefficienter. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, Isi, Google Scholar
  • 6
    Yang& Nielsen R. 2008mutation–selection modeller af codon substitution og deres anvendelse til at estimere selektive styrker på codon brug. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093 / molbev / msm284). Crossref, PubMed, Isi, Google Scholar
  • 7
    Rodrigue N, Philippe H& Lartillot N. 2010mutation–udvælgelses modeller af kodende sekvensudvikling med Site-heterogene aminosyre fitness profiler. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi: 10.1073 / pnas.0910915107). Crossref, PubMed, Isi, Google Scholar
  • 8
    Tamuri AU, dos Reis M& Goldstein RA. 2012estimering af fordelingen af selektionskoefficienter fra fylogenetiske data ved hjælp af stedvis mutationsudvælgelsesmodeller. Genetik 190, 1101-1115. (doi: 10.1534 / genetik.111.136432). Crossref, PubMed, Isi, Google Scholar
  • 9
    Tamuri AU, Goldman N& dos Reis M. 2014A Straffet sandsynlighedsmetode til at estimere fordelingen af udvælgelseskoefficienter fra fylogenetiske data. Genetik 197, 257-271. (doi: 10.1534 / genetik.114.162263). Crossref, PubMed, Isi, Google Scholar
  • 10
    dos Reis M. 2013populationsgenetik og substitutionsmodeller for adaptiv evolution. (http://arxiv.org/abs/1311.6682). Google Scholar
  • 11
    Tamuri AU, dos Reis M, Hay aj& Goldstein RA. 2009 identifikation af ændringer i selektive begrænsninger: værtsskift i indflydelse. PLoS Comput. Biol. 5, e1000564. (doi: 10.1371 / tidsskrift.pcbi.1000564). Crossref, PubMed, Isi, Google Scholar
  • 12
    dos Reis M, Hay AJ& Goldstein RA. 2009 brug af ikke-homogene modeller af nukleotidsubstitution til at identificere værtsskifthændelser: anvendelse på oprindelsen af 1918 ‘spansk’ influencepandemisk virus. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-h). Crossref, PubMed, Isi, Google Scholar
  • 13
    Nielsen R& Yang fra 2003estimering af fordelingen af selektionskoefficienter fra fylogenetiske data med applikationer til mitokondrie-og viralt DNA. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093 / molbev / msg147). Crossref, PubMed, Isi, Google Scholar
  • 14
    Bustamante CD. 2005populationsgenetik af molekylær evolution. Statistiske metoder i molekylær evolution (Red. & Nielsen R), S.63-99. København: Springer. Crossref, Google Scholar

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.