hoe de niet–synoniem aan synoniem rate ratio van eiwitcoderende genen te berekenen Onder het Fisher-Wright mutatie-selectie framework

Inleiding

Halpern & Bruno bedacht een model om de divergentie van eiwitcoderende genen te bestuderen op basis van het Fisher–Wright mutatiemodel, selectie en willekeurige genetische afwijking . In het model, wordt elke bijzondere codonplaats in het gen toegewezen zijn eigen reeks aminozuur fitnesses, en dan wordt het Fisher–Wright model gebruikt om het evolutionaire tarief van de plaats uit te werken. Het model heeft een heropleving in recente jaren gezien, en de variaties van het zijn gebruikt, bijvoorbeeld , om prestaties van phylogenetic gevolgtrekking methodes te bestuderen, om codongebruik te bestuderen en om de distributie van selectiecoëfficiënten in eiwit-codeert genen te schatten . Misschien verrassend, is het model niet gebruikt om de dynamica van de niet-synonieme aan synonieme snelheidsverhouding (ook bekend als ω = dN/dS) van eiwitcoderende genen en zijn betekenis in de studie van adaptieve moleculaire evolutie te bestuderen.

het doel van deze noot is een manier voor te stellen om een equivalent van het klassieke concept van de niet-synoniem met synonieme ratio te definiëren en te berekenen, in de context van het mutatieselectiemodel van Halpern & Bruno . Men hoopt dat door eerste principes van populatiegenetica te gebruiken, wij een uitdrukking van ω als functie van de selectiecoëfficiënten kunnen verkrijgen die op codonplaatsen in het eiwit-codeert gen handelen. Dit zou veel inzicht in de evolutionaire dynamica van codonplaatsen moeten verstrekken en het zou van voordeel in de bouw van statistische modellen moeten zijn om adaptieve evolutie in eiwit-codeert genen te ontdekken.

het locatiegewijze mutatieselectiemodel

houdt rekening met de evolutie van een codonplaats k in een eiwitcoderend gen in een populatie met n haploïde genomen. Stel dat de site is momenteel vast voor codon I (dat wil zeggen Alle N allelen dragen I op site k). In de mutatie–selectie kader , de vervangingsratio (de snelheid waarmee de roman mutant codons J verschijnen en uiteindelijk opgelost in de bevolking) is

Beeldscherm Formule

2.1

Hier µIJ is de neutrale mutatie tarief (per generatie) van I naar J, en SI,k) = FJ,k – FI,k is de selectie-coëfficiënt in het voordeel van codon J en FJ,k = 2NfJ,k is de schaal Malthusian geschiktheid van J. Natuurlijke selectie beïnvloedt de relatieve vervanging tarief. Wanneer de mutatie voordelig is (SIJ,k > 0), is de substitutiesnelheid hoger dan de neutrale (qIJ,k > µIJ), maar als de mutatie schadelijk is (SIJ,k < 0), wordt de substitutiesnelheid verlaagd (qIJ,k < µij). Hier gaan we ervan uit dat synonieme substituties neutraal zijn (SIJ,k = 0), en dus wordt de evolutie op site k bepaald door 20 aminozuur fitnesses. De µIJ kan worden geconstrueerd uit standaard DNA-substitutiemodellen (bijvoorbeeld als I = TTT en J = TTC, dan

Inline formuleOnder het HKY-substitutiemodel, zie voor details).

vergelijking (2.1) beschrijft codonsubstitutie in populaties als een continu Markovproces. Dit is zinvol als de per generatie mutatiesnelheid klein is in vergelijking met de populatiegrootte (Inline formule), zodat er weinig polymorfisme is in de populatie, en ten hoogste twee allelen per plaats scheiden. Het deel van de tijd, nI, k, dat site k vast doorbrengt voor I (d.w.z. de stationaire frequentie van I) is

Displayformule

, waarbijInlineformulede frequentie is voor een neutraal evoluerende sequentie (d.w.z. een pseudo-gen). De substitutiesnelheid bij k, gemiddeld in de tijd, is dus

Display formule

waar de som is over alle codonparen i ≠ J. deze snelheid kan worden verdeeld in de niet-synonieme en synonieme componentsnelheden, pk = pN, k + pS,k,waar

Display formule

en waar de indicatorfunctie in = 1 als de substitutie niet-synoniem is en = 0 indien anders. Merk op dat het synonieme tarief pS,k varieert tussen de plaatsen (bijvoorbeeld, als een plaats voor methionine wordt behouden, dan is het synonieme tarief nul). Voor een neutraal evoluerende sequentie worden de snelheden gegeven door

Displayformule

merk op dat vergelijking (2.1) de momentane substitutiesnelheid geeft, dat wil zeggen de op locatie k bepaalde snelheid die op dit moment voor I wordt vastgesteld. Aan de andere kant is pk De snelheid bij evenwicht, gemiddeld over alle codons en gewogen door hun stationaire frequenties.

de relatieve niet-synonieme substitutiegraad

de absolute niet-synonieme substitutiegraad op locatie k is pN,k / pS,k. Echter, omdat synonieme percentages variëren over sites, moeten we de verhouding normaliseren met de synonieme ratio van de site, Inline formule, en dan normaliseren met Inline formule (om te corrigeren voor de verschillende verhoudingen van synonieme en niet-synonieme substituties bij neutraliteit). Dit leidt tot de volgende definitie:

Display Formula

3.1

alternatief kunnen we wk definiëren als de relatieve niet-synonieme snelheid wk = cpN, k waar constante c is ingesteld zodat de verhouding één is voor neutraal evoluerende sequenties, dat wil zeggen, onder de beperking Inline formule. De voor de hand liggende oplossing is Inline formule wat leidt tot dezelfde definitie als hierboven. Merk op dat c de wenselijke eigenschap heeft om constant over sites te zijn. De lezer moet niet verbaasd zijn dat de synonieme snelheid daalt uit vergelijking (3.1). Bij statistische gevolgtrekking hebben synonieme substituties informatie over de neutrale mutatiesnelheden, en dus de waarde van Inline formule. Evenzo is de relatieve synonieme snelheid op locatie k

Displayformule

3.2

figuur 1a toont een voorbeeld voor het rbcl-gen van bloeiende planten. Fitness waarden werden geschat onder de Halpern-Bruno model door Tamuri et al. , en we gebruiken hun waarden om wk en yk hier te berekenen. De gemiddelde percentages tussen sites zijn

Inline formuleenInline formule. Merk op dat Voor veel sites synonieme snelheden sneller zijn dan voor een neutraal evoluerende sequentie (d.w.z. yk > 1). Dit is te wijten aan de eigenzinnige aard van de genetische code in combinatie met de mutationele vooroordelen (Inline formule

figuur 1.

figuur 1. De relatieve niet-synonieme (wk) en synonieme (yk) substitutiepercentages. a) percentages voor het chloroplastgen van rbcl van monocots (bloeiende planten). (B) de percentages voor het pb2–gen van influenza A. In (a,b), de fitnesswaarden op elke plaats (FIJ,k) en de mutatieparameters (Inline formule) werden geschat volgens het Halpern-Bruno-model op basis van penale waarschijnlijkheid (penalty α = 0,01) en zijn van . Vervolgens worden vergelijkingen (3.1) en (3.2) gebruikt om wk en yk te berekenen. Onder b) werden 25 adaptieve plaatsen (rood) geïdentificeerd waar de fitnessmogelijkheden verschillen tussen virussen die zich ontwikkelen in gastheren van mensen en vogels (het natuurlijke reservoir). Fitnessfaciliteiten voor deze sites onder elke gastheer werden geschat zonder boete en zijn van . Vervolgens wordt vergelijking (4.1) gebruikt om Inline formule bij de host shift te berekenen. Het bereik van Inline formule is 0,231–7,64 (de grootste waarden worden afgekapt in de figuur).

de niet-synonieme snelheid tijdens adaptieve evolutie

wanneer de fitnesswaarden van aminozuren constant zijn gedurende de tijd, zullen sites het grootste deel van de tijd doorbrengen die is vastgesteld voor het optimale aminozuur. Af en toe, suboptimale aminozuren kunnen vaste raken, en dan vervangen na een korte periode van evolutionaire tijd. Dit betekent dat de niet-synonieme snelheid op locaties wordt verminderd in vergelijking met de snelheid voor neutraal evoluerende sequenties (dwz wk < 1). Wanneer de fitnessmogelijkheden op locaties echter in de loop van de tijd variëren (bijvoorbeeld na een omgevingsverschuiving of bij intensieve frequentieafhankelijke selectie), kan de niet-synonieme snelheid worden versneld ten opzichte van de snelheid voor neutraal evoluerende sequenties (wk > 1). We bestuderen nu het geval waarin fitnessmogelijkheden veranderen als een aanpassing aan een nieuwe omgeving.

overweeg een site k waar de geschiktheid van I Inline formule in omgeving A. De stationaire frequenties en momentane substitutiesnelheden zijn Inline formule. Stel je nu voor dat de omgeving verschuift (bijvoorbeeld een populatie zoogdieren die in een plotseling kouder klimaat leven, of een virus dat een nieuwe gastheer koloniseert, waarbij de intracellulaire omgeving in de nieuwe gastheer verschilt van de reservoir-gastheer). De geschiktheid van I in de nieuwe omgeving B is nu Inline formule. De kans dat de site momenteel vast staat voor I op het moment van de omgevingsverschuiving is Inline formule, maar de substitutiesnelheid is nu die van de nieuwe omgeving Inline formule. De verwachte absolute en relatieve niet-synonieme percentages bij de omgevingsverschuiving zijn dus

Displayformule

4.1

als de verschuiving in fitness waarden groot is, dan zal de snelheid veel versneld worden (Inline formule). Dit komt voor omdat de plaats zich waarschijnlijk voor een suboptimaal aminozuur in de nieuwe omgeving zal bevinden, en nieuwe veranderingen aan optimale aminozuren snel zullen worden vastgesteld. Als de geschiktheidsverschuiving echter matig is, kan de snelheid nog steeds lager zijn dan de neutrale snelheid (Inline formule).

figuur 1b toont een voorbeeld voor het pb2-gen van het influenzavirus. Fitness waarden werden geschat onder de Halpern-Bruno model door Tamuri et al. . Een subset van 25 adaptieve locaties (waar de fitnessmogelijkheden verschillen voor virussen die evolueren in menselijke versus vogelgastheren ) werden geïdentificeerd door Tamuri et al. , en hun fitness geschat door Tamuri et al. . We gebruiken de schattingen om wk, yk en Inline formule hier te berekenen. De klassieke afstamming van de menselijke griep kwam waarschijnlijk voort uit een gastheerverschuiving van een vogel naar een zoogdierreservoir in het begin van de twintigste eeuw . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is Inline Formula (across all sites Inline Formula and Inline Formula). Note that for 16 sites for which fitnesses are different between hosts, we find that Inline Formula. Dit geeft aan dat het criterium wk > 1 om adaptieve evolutie te detecteren in dit geval conservatief is.

de kans dat De site wordt opgelost want ik, de tijd t na de milieu-shift

Beeldscherm Formule

4.2

waarInline Formulede overgang waarschijnlijkheid verkregen met behulp van standaard Markov-theorie, d.w.z. door het berekenenInline Formule. De absolute en relatieve niet-synonieme percentages, tijd t na de verschuiving, zijn dus

Displayformule

de overgangswaarschijnlijkheden in vergelijking (4.2) zijn exponentiële vervalfuncties van de tijd, en dusInlineformuleis ook een exponentieel verval. Aanvankelijk zal de waarde vanInline formulehoog zijn, en naarmate de tijd oneindig wordt, zalInline formulede stationaire waarde benaderen die wordt gegeven door vergelijking (3.1). Met andere woorden, kort na een omgevingsverschuiving zal een uitbarsting van adaptieve substituties plaatsvinden op plaatsen waar de fitnessverhoudingen zijn veranderd, en substituties zullen zich ophopen totdat het eiwitcoderende gen een staat van adaptief evenwicht bereikt. Bijvoorbeeld, figuur 2a toont het verval vanInline formulevoor de 25 adaptieve sites in het PB2 gen na een host shift.

Figuur 2.

Figuur 2. (a) verval van het relatieve niet-synonieme percentage na een gastheerverschuiving voor 25 adaptieve plaatsen (grijze lijnen) in het PB2-gen van influenza. De vaste lijn is het gemiddelde over de 25 sites, Inline formule. Naarmate de tijd verstrijkt, benadert Inlineformule Het gemiddelde op lange termijn Inlineformule (stippellijn). b) het relatieve niet-synonieme percentage als functie van de gemiddelde selectiecoëfficiënt op locaties. Roze stippen: de geschiktheidswaarden voor 10 000 locaties werden bemonsterd op basis van normale distributies met gemiddelde 0 en σ = 0, … , 10. Vervolgens werden vergelijkingen (3.1) en (5.1) gebruikt om wk en Inline formulete berekenen. Grijze punten: een andere set van 10 000 fitnesswaarden werd als hierboven bemonsterd, vervolgens werden vergelijkingen (4.2) en (5.1) gebruikt om Inline formule en Inline formule Onder het omgevingsverschuivingsmodel. Vaste lijn: S / (1 − exp (- s)).

conclusie

eerdere auteurs hebben aangetoond dat de relatie tussen de niet-synonieme snelheid en de selectiecoëfficiënt ongeveer ω = S/(1 − exp(−s)) is , maar de benadering berust ofwel op het infinite-sites-model of gaat ervan uit dat alle mutante aminozuren dezelfde geschiktheid hebben. Vergelijkingen (3.1) en (4.1) bieden meer realistische benaderingen, maar zijn moeilijk te visualiseren. Overweeg een vaste locatie voor mij. De kans dat de volgende mutatie J zal zijn is Inline formule voor i ≠ J. na verloop van tijd zal het aandeel van I-en J-mutaties op de site nI, kPIJ zijn. De gemiddelde selectiecoëfficiënt op mutaties op locatie k is dus

Display formule

5.1

figuur 2b toont wk als functie vanInline formulevoor gesimuleerde locaties wanneer de fitnessniveaus constant zijn of wanneer ze verschuiven met de omgeving. Merk op dat de benadering ω = S/(1 − exp(−S)) een redelijke ondergrens geeft aan wk. In het algemeen neemtInline formuletoe metInline formule, maar de relatie is niet zo eenvoudig als in de vorige benaderingen .

in het site-wise mutation-selection model berekent men eerst de selectiecoëfficiënten, zodat men kan weten of een locatie positief is geselecteerd zonder wk te berekenen . Het model is echter over-geparametriseerd, rekenkundig duur, en fitnesses kunnen alleen goed worden geschat in grote datasets . In plaats daarvan moet het model van voordeel zijn in evolutionair redeneren en in modelbouw. Bijvoorbeeld, het gedrag van wk Onder complexere modellen (zoals frequentieafhankelijke selectie , aanpassing aan geleidelijke omgevingsveranderingen of selectie op codongebruik ) kan ook worden bestudeerd onder het site-wise mutatie-selectie raamwerk. Dit zal een waardevolle inspanning zijn omdat het licht zal werpen op ons vermogen om adaptieve evolutie in moleculaire sequenties te detecteren.

toegankelijkheid van gegevens

de gegevens die bij deze studie zijn gevoegd, zijn beschikbaar op Dryad doi:10.5061 / dryad.3r3q4.

Dankbetuigingen

Ik dank Ziheng Yang, Richard Goldstein en Asif Tamuri voor waardevolle opmerkingen.

financieringsverklaring

M. d.R. wordt ondersteund door BBSRC (UK) grant no. BB / J009709 / 1 toegekend aan Ziheng Yang.

belangenconflicten

Ik heb geen concurrerende belangen.

voetnoten

© 2015 de Auteur (s) gepubliceerd door The Royal Society. Alle rechten voorbehouden.
  • 1
    Halpern AL& Bruno WJ. 1998evolutionaire afstanden voor eiwitcoderende sequenties: modellering van locatiespecifieke residufrequenties. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, Isi, Google Scholar
  • 2
    Fisher R. 1930The genetic theory of natural selection. Oxford, UK: Clarendon Press. Google Scholar
  • 3
    Wright S. 1931evolutie in Mendeliaanse populaties. Genetica 16, 97-159. PubMed, Google Scholar
  • 4
    Holder MT, Zwickl DJ& Dessimoz C. 2008Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Phil. Transvetzuren. R. Soc. B 363, 4013-4021. (doi: 10.1098 / rstb.2008.0162). Link, Isi, Google Scholar
  • 5
    Spielman SJ& Wilke CO. 2015de relatie tussen dN / dS en geschaalde selectiecoëfficiënten. Mol. Biol. Evol. 32. (doi: 10.1093/molbev / msv003). Crossref, PubMed, ISI, Google Scholar
  • 6
    Yang Z& Nielsen R. 2008Mutation–selection models of codon substitution and their use to estimate selective strengths on codon usage. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093/molbev / msm284). Crossref, PubMed, ISI, Google Scholar
  • 7
    Rodrigue N, Philippe H& Lartillot N. 2010Mutation–selection models of coding sequence evolution with site-heterogeneous amino acid fitness profiles. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi: 10.1073 / pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
  • 8
    Tamuri AU, dos Reis m& Goldstein RA. 2012Estimating de verdeling van selectiecoëfficiënten van fylogenetic gegevens gebruikend sitewise mutatie–selectie modellen. Genetica 190, 1101-1115. (doi: 10.1534 / genetics.111.136432). Crossref, PubMed, Isi, Google Scholar
  • 9
    Tamuri AU, Goldman N& dos Reis M. 2014A penalised-likelihood method to estimate the distribution of selection coefficients from phylogenetic data. Genetica 197, 257-271. (doi: 10.1534 / genetics.114.162263). Crossref, PubMed, Isi, Google Scholar
  • 10
    dos Reis M. 2013populatie genetica en substitutiemodellen van adaptieve evolutie. (http://arxiv.org/abs/1311.6682). Google Scholar
  • 11
    Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009 het identificeren van veranderingen in selectieve beperkingen: gastheer verschuivingen in influenza. PLoS Berekenen. Biol. 5, e1000564. (doi: 10.1371 / journal.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
  • 12
    dos Reis M, Hay AJ& Goldstein RA. 2009 gebruikend niet-homogene modellen van nucleotide substitutie om gastheerverschuivingsgebeurtenissen te identificeren: toepassing op de oorsprong van het ‘Spaanse’ influenzapandemisch virus van 1918. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
  • 13
    Nielsen R& Yang Z. 2003Estimating the distribution of selection coefficients from phylogenetic data with applications to mitochondrial and viral DNA. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093/molbev / msg147). Crossref, PubMed, ISI, Google Scholar
  • 14
    Bustamante CD. 2005populatie genetica van moleculaire evolutie. Statistical methods in molecular evolution (ed. & Nielsen R), blz. 63-99. New York, NY: Springer. Crossref, Google Scholar

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.