hvordan beregne ikke-synonymt til synonymt rate ratio av protein-kodende gener under Fisher–wright mutation–selection framework

Introduksjon

Halpern & Bruno utviklet en modell for å studere divergens av protein-kodende gener basert På Fisher–Wright modell av mutasjon, seleksjon og tilfeldig genetisk drift . I modellen er hvert bestemt kodonsted i genet tildelt sitt eget sett med aminosyre-fitner, og Deretter Brukes Fisher-Wright-modellen til å utarbeide evolusjonsraten på nettstedet. Modellen har sett en gjenoppblomstring de siste årene, og variasjoner av den har blitt brukt til for eksempel å studere ytelse av fylogenetiske slutningsmetoder , for å studere kodonbruk og å estimere fordelingen av seleksjonskoeffisienter i proteinkodende gener . Kanskje overraskende har modellen ikke blitt brukt til å studere dynamikken i det ikke-synonyme til synonyme hastighetsforholdet (også kjent som ω = dn/dS) av proteinkodende gener og dens betydning i studiet av adaptiv molekylær evolusjon.

hensikten med dette notatet er å foreslå en måte å definere og beregne en ekvivalent av det klassiske konseptet av det ikke-synonyme til synonyme hastighetsforholdet, i sammenheng med mutasjonseleksjonsmodellen Av Halpern & Bruno . Det er å håpe at ved å bruke første prinsipper for populasjonsgenetikk, kan vi få et uttrykk for ω som en funksjon av seleksjonskoeffisientene som virker på kodonsteder i det proteinkodende genet. Dette bør gi mye innsikt i den evolusjonære dynamikken i kodon områder, og det bør være til nytte i bygging av statistiske modeller for å oppdage adaptiv evolusjon i protein-kodende gener.

den stedsvis mutasjons-seleksjonsmodellen

Vurder utviklingen av et kodonsted k i et proteinkodende gen i en populasjon med N haploide genomer. Anta at nettstedet for øyeblikket er løst for kodon I (dvs. alle n alleler bærer jeg på nettsted k). I rammeverket for mutasjonsvalg er substitusjonsraten (hastigheten der nye mutantkodoner j vises Og til slutt blir faste i populasjonen)

Visningsformel

2.1

her µ er den nøytrale mutasjonsraten (per generasjon) fra I Til J , OG SIJ, k = FJ,k–FI,k er seleksjonskoeffisienten til fordel for kodon J OG FJ,k = 2nfj,k er den skalerte malthusian fitness av j. naturlig utvalg Påvirker den relative substitusjonsraten. Når mutasjonen er fordelaktig (SIJ,k > 0), er substitusjonsraten høyere enn den nøytrale frekvensen (qIJ,k > µ), men hvis mutasjonen er skadelig (SIJ,k < 0), reduseres substitusjonsraten (qIJ,k).k < µ). Her antar vi at synonyme substitusjoner er nøytrale (SIJ,k = 0), og dermed er evolusjonen på stedet k bestemt av 20 aminosyre-fitnesser. Μ kan bygges fra standard DNA-substitusjonsmodeller (for eksempel hvis I = TTT OG J = TTC, så

Inline Formelunder HKY-substitusjonsmodellen, se for detaljer).

Ligning (2.1) beskriver kodonsubstitusjon i populasjoner som en kontinuerlig Tid Markov-prosess. Dette er fornuftig hvis mutasjonsraten per generasjon er liten sammenlignet med populasjonsstørrelsen (Inline Formel), slik at det er lite polymorfisme i befolkningen, og høyst to alleler segregerer på et sted om gangen. Den stasjonære frekvensen til I) er

Visningsformel

, hvorInline Formeler frekvensen for en nøytralt utviklende sekvens (et pseudo-gen). Dermed er substitusjonsraten ved k, gjennomsnittlig over tid,

Vis Formel

hvor summen er over alle kodonpar I ≠ J. denne satsen kan deles inn i sine ikke-synonyme og synonyme komponentrater, pk = pN, k + pS,k,hvor

Vis Formel

og hvor indikatoren funksjon i = 1 hvis substitusjonen er ikke-synonymt og = 0 hvis ellers. Merk at synonymt rate pS, k varierer mellom nettsteder (for eksempel hvis et nettsted er bevart for metionin, så er synonymt rate null). For en nøytralt utviklende sekvens er satsene gitt ved

Visningsformel

Merk at ligning (2.1) gir den øyeblikkelige substitusjonsraten, det vil si at frekvensen betinget på stedet k blir løst for I på nåværende tidspunkt. På den annen side er pk hastigheten ved likevekt, i gjennomsnitt over alle kodoner og vektet av deres stasjonære frekvenser.

den relative ikke-synonyme substitusjonsraten

den absolutte ikke-synonyme substitusjonsraten på stedet k er pN, k / pS, k. Men fordi synonyme priser varierer over nettsteder, må vi normalisere forholdet ved nettstedets synonyme rate ratio, Inline Formel, og deretter normalisere ved Inline Formel (til korrekt for de forskjellige proporsjonene av synonyme og ikke-synonyme substitusjoner ved nøytralitet). Dette fører til følgende definisjon:

Visningsformel

3.1

Alternativt kan vi definere wk som den relative ikke-synonyme hastigheten wk = cpN, k hvor konstant c er satt slik at forholdet er en for nøytralt utviklende sekvenser, det vil si under begrensningen Inline Formel. Den åpenbare løsningen er Inline Formel fører til samme definisjon som ovenfor. Merk at c har den ønskelige egenskapen til å være konstant over nettsteder. Leseren bør ikke bli overrasket over at synonymt faller ut fra ligningen (3.1). Når du gjør statistisk inferens, har synonyme substitusjoner informasjon om de nøytrale mutasjonsratene, og informerer dermed verdien av Inline Formel. På samme måte er den relative synonyme frekvensen på stedet k

Visningsformel

3.2

Figur 1a viser et eksempel på rbcl-genet av blomstrende planter. Fitness verdier ble estimert Under Halpern-Bruno modell Av Tamuri et al. , og vi bruker deres verdier til å beregne wk og yk her. Gjennomsnittlige priser på tvers av nettsteder er

Inline FormelogInline Formel. Merk at for mange nettsteder er synonyme priser raskere enn for en nøytralt utviklende sekvens (dvs. yk > 1). Dette skyldes den særegne naturen til den genetiske koden kombinert med mutasjonsforskjellene (Inline Formel

Figur 1.

Figur 1. Den relative ikke-synonymt (wk) og synonymt (yk) substitusjonsrater. (A) Priser for rbcL kloroplast genet av monocots (blomstrende planter). (b) Rater for pb2–genet av influensa a. I (a,b) ble fitnessene på hvert sted (FIJ, k) og mutasjonsparametrene (Inline Formel) estimert under Halpern-Bruno-modellen ved straffesannsynlighet (straff α = 0,01) og er fra . Deretter brukes ligninger (3.1) og (3.2) til å beregne wk og yk. I (b) ble det identifisert 25 adaptive steder (rød) hvor fitnesses er forskjellige mellom virus som utvikler seg i menneske versus fugl (det naturlige reservoaret) verter . Fitnesses for disse nettstedene under hver vert ble estimert uten straff og er fra . Deretter brukes ligning (4.1) til å beregne Inline Formel ved vertsskiftet. Utvalget av Inline Formel er 0.231–7.64 (de største verdiene er avkortet i figuren).

den ikke-synonyme frekvensen under adaptiv evolusjon

når aminosyrene er konstante gjennom tid, vil nettsteder tilbringe mesteparten av tiden fast for den optimale aminosyren. Av og til kan suboptimale aminosyrer bli faste, og deretter erstattet etter en kort periode med evolusjonær tid. Dette betyr at den ikke-synonyme frekvensen på steder er redusert sammenlignet med frekvensen for nøytralt utviklende sekvenser (dvs. wk < 1). Men når fitnesses på steder varierer over tid (for eksempel etter et miljøskift eller under intens frekvensavhengig utvalg), kan den ikke-synonyme frekvensen akselereres sammenlignet med frekvensen for nøytralt utviklende sekvenser (wk > 1). Vi studerer nå saken der fitnesses endres som en tilpasning til et nytt miljø.

Vurder et nettsted k hvor egnetheten til I er Inline Formel i miljø A. De stasjonære frekvensene og øyeblikkelige substitusjonsratene er Inline Formel. Forestill deg nå at miljøet skifter (for eksempel en populasjon av pattedyr som lever i et plutselig kaldere klima, eller et virus som koloniserer en ny vert, hvor det intracellulære miljøet i den nye verten er forskjellig fra reservoarverten). Egnetheten til I I det nye miljøet B er nå Inline Formel. Sannsynligheten for at området for øyeblikket er løst for jeg i øyeblikket av miljøskiftet er Inline Formel, men substitusjonsraten er nå den for det nye miljøet Inline Formel. Dermed er de forventede absolutte og relative ikke-synonyme prisene ved miljøskiftet

Visningsformel

4.1

hvis skiftet i treningsverdier er stort, vil hastigheten bli mye akselerert (Inline Formel). Dette skjer fordi området er sannsynlig å finne seg fast for en suboptimal aminosyre i det nye miljøet, og nye mutasjoner til optimale aminosyrer vil bli løst raskt. Men hvis treningsskiftet er moderat, kan satsen fortsatt være lavere enn den nøytrale satsen (Inline Formel).

Figur 1b viser et eksempel på pb2-genet av influensaviruset. Fitness verdier ble estimert Under Halpern-Bruno modell Av Tamuri et al. . En undergruppe av 25 adaptive steder (hvor fitnesses er forskjellige for virus som utvikler seg i menneskelige versus aviære verter ) ble identifisert Av Tamuri et al. , og deres fitnesses estimert Av Tamuri et al. . Vi bruker estimatene til å beregne wk, yk ogInline Formel her. Den klassiske linjen av menneskelig influensa stammer sannsynligvis fra et vertsskifte fra en fugl til et pattedyrreservoar i begynnelsen av det tjuende århundre . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is Inline Formula (across all sites Inline Formula and Inline Formula). Note that for 16 sites for which fitnesses are different between hosts, we find that Inline Formula. Dette indikerer at kriteriet wk > 1 for å oppdage adaptiv evolusjon er konservativ i dette tilfellet.

sannsynligheten for at området er fast for I, tid t etter miljøskiftet er

Visningsformel

4.2

hvorInline Formeler overgangen sannsynligheter oppnådd ved hjelp av standard markov Teori, dvs.ved å beregneinline formel. Dermed er de absolutte og relative ikke-synonyme prisene, tid t etter skiftet,

Visningsformel

overgangssannsynlighetene i ligning (4.2) er eksponentielle forfallsfunksjoner av tid, og såInline Formeler også en eksponentiell forfall. I utgangspunktet vil verdien avInline Formelvære høy, og når tiden går til uendelig, vilInline Formelnærme seg den stasjonære verdien gitt ved ligning (3.1). Med andre ord, kort tid etter et miljøskifte, vil det oppstå en utbrudd av adaptive substitusjoner på steder der fitnesses har endret seg, og substitusjoner vil akkumulere til det proteinkodende genet når en tilstand av adaptiv likevekt. Figur 2a viser for eksempel forfallet avInline Formelfor de 25 adaptive stedene i pb2-genet etter et vertsskift.

Figur 2.

Figur 2. (A) Forfall i den relative ikke-synonyme frekvensen etter et vertsskift for 25 adaptive steder (grå linjer) i pb2-genet av influensa. Den heltrukne linjen er gjennomsnittet på tvers av de 25 områdene,Inline Formel. Etter hvert som tiden går, nærmer Inline Formel det langsiktige gjennomsnittet Inline Formel (stiplet linje). (b) den relative ikke-synonyme frekvensen som en funksjon av gjennomsnittlig utvalgskoeffisient på steder. Rosa prikker: fitnessverdiene for 10 000 nettsteder ble samplet fra normalfordelinger med gjennomsnittlig 0 og σ = 0,…, 10. Deretter ble ligninger (3.1) og (5.1) brukt til å beregne wk og Inline Formel. Grå prikker: et annet sett med 10 000 treningsverdier ble samplet som ovenfor, da ligninger (4.2) og (5.1) ble brukt til å beregne Inline Formel og inline formel under miljø shift-modellen. Heltrukket linje: S / (1-exp (- S)).

Konklusjon

Tidligere forfattere har vist at forholdet mellom den ikke-synonyme raten og seleksjonskoeffisienten er omtrent ω = S/(1 − exp (- s)), men tilnærmingen er avhengig av infinite-sites-modellen eller antar at alle mutante aminosyrer har samme egnethet. Ligninger (3.1) og (4.1) gir mer realistiske tilnærminger, men er vanskelig å visualisere. Vurder et nettsted fast For I. Sannsynligheten For at neste mutasjon Vil Være J erInline Formel for i ≠ J. over tid vil andelen av i til j mutasjoner på stedet være nI, kPIJ. Dermed er gjennomsnittlig seleksjonskoeffisient på mutasjoner på stedet k

Visningsformel

5.1

Figur 2b viser wk som en funksjon avInline Formelfor simulerte steder når fitnesses er konstant eller når de skifter med miljøet. Merk at tiln rmingen ω = s/(1-exp (−s)) gir en rimelig nedre grense pa wk. Generelt økerInline FormelmedInline Formel, men forholdet er ikke så enkelt som i de forrige tilnærmingene .

i site-wise mutation-selection-modellen beregner man utvalgskoeffisientene først, og dermed kan man vite om et nettsted har vært under positivt utvalg uten å beregne wk . Modellen er imidlertid overparametrisk, beregningsmessig dyr, og fitnesses kan godt estimeres bare i store datasett . I stedet bør modellen være til nytte i evolusjonær resonnement og i modellbygging. For eksempel kan oppførselen til wk under mer komplekse modeller (som frekvensavhengig seleksjon , tilpasning til gradvise miljøendringer eller seleksjon ved kodonbruk ) også studeres under rammeverket for mutasjonsvalg på stedet. Dette vil være en verdig innsats, da det vil kaste lys over vår evne til å oppdage adaptiv evolusjon i molekylære sekvenser.

datatilgjengelighet

dataene som følger med denne studien er tilgjengelige På Dryad doi:10.5061 / dryad.3r3q4.

Takk

Jeg takker Ziheng Yang, Richard Goldstein og Asif Tamuri for verdifulle kommentarer.

Finansieringserklæring

M. d.R. støttes AV BBSRC (UK) grant nr. BB / J009709 / 1 tildelt Ziheng Yang.

Interessekonflikter

jeg har ingen konkurrerende interesser.

Fotnoter

© 2015 Forfatteren(E) Utgitt Av Royal Society. Alle rettigheter reservert.
  • 1
    Halpern AL& Bruno WJ. 1998evolusjonære avstander for proteinkodende sekvenser: modellering av stedsspesifikke restfrekvenser. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
  • 2
    Fisher R. 1930den genetiske teorien om naturlig utvalg. Oxford, STORBRITANNIA: Clarendon Press. Google Scholar
  • 3
    Wright S. 1931evolusjon I Mendelsk populasjoner. Genetikk 16, 97-159. PubMed, Google Scholar
  • 4
    Holder MT, Zwickl DJ & Dessimoz C. 2008evaluerer robustheten av fylogenetiske metoder til variabilitet i substitusjonsprosesser på stedet. Phil. Trans. R. Soc. B 363, 4013-4021. (doi:10.1098 / rstb.2008.0162). Link, ISI, Google Scholar
  • 5
    Spielman SJ & Wilke CO. 2015 forholdet mellom dN / dS og skalerte utvalgskoeffisienter. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, ISI, Google Scholar
  • 6
    Yang Z & Nielsen R. 2008mutation – utvalgsmodeller av kodonsubstitusjon og deres bruk for å estimere selektive styrker på kodonbruk. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093 / molbev / msm284). Crossref, PubMed, ISI, Google Scholar
  • 7
    Rodrigue N, Philippe h & Lartillot N. 2010mutasjon–utvalg modeller av koding sekvens evolusjon med site-heterogene aminosyre fitness profiler. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi: 10.1073 / pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
  • 8
    Tamuri AU, dos Reis M& Goldstein RA. 2012estimere fordelingen av seleksjonskoeffisienter fra fylogenetiske data ved hjelp av sitewise mutation-seleksjonsmodeller. Genetikk 190, 1101-1115. (doi:10.1534 / genetikk.111.136432). Crossref, PubMed, ISI, Google Scholar
  • 9
    Tamuri AU, Goldman n& dos Reis M. 2014a straffet-sannsynlighetsmetode for å estimere fordelingen av utvalgskoeffisienter fra fylogenetiske data. Genetikk 197, 257-271. (doi:10.1534 / genetikk.114.162263). Crossref, PubMed, ISI, Google Scholar
  • 10
    dos Reis M. 2013befolkningsgenetikk og substitusjonsmodeller av adaptiv evolusjon. (http://arxiv.org/abs/1311.6682). Google Scholar
  • 11
    Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009identifisere endringer i selektive begrensninger: vertskift i influensa. PLoS Comput. Biol. 5, e1000564. (doi:10.1371 / tidsskrift.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
  • 12
    dos Reis M, Hay AJ& Goldstein RA. 2009 bruk av ikke-homogene modeller av nukleotidsubstitusjon for å identifisere vertsskifthendelser: søknad om opprinnelsen til 1918′ spansk ‘ influensapandemisk virus. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
  • 13
    Nielsen r & Yang Z. 2003estimerer fordelingen av utvalgskoeffisienter fra fylogenetiske data med applikasjoner til mitokondrielt OG viralt DNA. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093 / molbev / msg147). Crossref, PubMed, ISI, Google Scholar
  • 14
    Bustamante CD. 2005 populasjonsgenetikk av molekylær evolusjon. Statistiske metoder i molekylær evolusjon (ed. & Nielsen R), s.63-99. New York: Springers offisielle nettsted Google Scholar

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.