Inleiding
Halpern & Bruno bedacht een model om de divergentie van eiwitcoderende genen te bestuderen op basis van het Fisher–Wright mutatiemodel, selectie en willekeurige genetische afwijking . In het model, wordt elke bijzondere codonplaats in het gen toegewezen zijn eigen reeks aminozuur fitnesses, en dan wordt het Fisher–Wright model gebruikt om het evolutionaire tarief van de plaats uit te werken. Het model heeft een heropleving in recente jaren gezien, en de variaties van het zijn gebruikt, bijvoorbeeld , om prestaties van phylogenetic gevolgtrekking methodes te bestuderen, om codongebruik te bestuderen en om de distributie van selectiecoëfficiënten in eiwit-codeert genen te schatten . Misschien verrassend, is het model niet gebruikt om de dynamica van de niet-synonieme aan synonieme snelheidsverhouding (ook bekend als ω = dN/dS) van eiwitcoderende genen en zijn betekenis in de studie van adaptieve moleculaire evolutie te bestuderen.
het doel van deze noot is een manier voor te stellen om een equivalent van het klassieke concept van de niet-synoniem met synonieme ratio te definiëren en te berekenen, in de context van het mutatieselectiemodel van Halpern & Bruno . Men hoopt dat door eerste principes van populatiegenetica te gebruiken, wij een uitdrukking van ω als functie van de selectiecoëfficiënten kunnen verkrijgen die op codonplaatsen in het eiwit-codeert gen handelen. Dit zou veel inzicht in de evolutionaire dynamica van codonplaatsen moeten verstrekken en het zou van voordeel in de bouw van statistische modellen moeten zijn om adaptieve evolutie in eiwit-codeert genen te ontdekken.
het locatiegewijze mutatieselectiemodel
houdt rekening met de evolutie van een codonplaats k in een eiwitcoderend gen in een populatie met n haploïde genomen. Stel dat de site is momenteel vast voor codon I (dat wil zeggen Alle N allelen dragen I op site k). In de mutatie–selectie kader , de vervangingsratio (de snelheid waarmee de roman mutant codons J verschijnen en uiteindelijk opgelost in de bevolking) is
Hier µIJ is de neutrale mutatie tarief (per generatie) van I naar J, en SI,k) = FJ,k – FI,k is de selectie-coëfficiënt in het voordeel van codon J en FJ,k = 2NfJ,k is de schaal Malthusian geschiktheid van J. Natuurlijke selectie beïnvloedt de relatieve vervanging tarief. Wanneer de mutatie voordelig is (SIJ,k > 0), is de substitutiesnelheid hoger dan de neutrale (qIJ,k > µIJ), maar als de mutatie schadelijk is (SIJ,k < 0), wordt de substitutiesnelheid verlaagd (qIJ,k < µij). Hier gaan we ervan uit dat synonieme substituties neutraal zijn (SIJ,k = 0), en dus wordt de evolutie op site k bepaald door 20 aminozuur fitnesses. De µIJ kan worden geconstrueerd uit standaard DNA-substitutiemodellen (bijvoorbeeld als I = TTT en J = TTC, dan
Onder het HKY-substitutiemodel, zie voor details).
vergelijking (2.1) beschrijft codonsubstitutie in populaties als een continu Markovproces. Dit is zinvol als de per generatie mutatiesnelheid klein is in vergelijking met de populatiegrootte (), zodat er weinig polymorfisme is in de populatie, en ten hoogste twee allelen per plaats scheiden. Het deel van de tijd, nI, k, dat site k vast doorbrengt voor I (d.w.z. de stationaire frequentie van I) is
, waarbijde frequentie is voor een neutraal evoluerende sequentie (d.w.z. een pseudo-gen). De substitutiesnelheid bij k, gemiddeld in de tijd, is dus
waar de som is over alle codonparen i ≠ J. deze snelheid kan worden verdeeld in de niet-synonieme en synonieme componentsnelheden, pk = pN, k + pS,k,waar
en waar de indicatorfunctie in = 1 als de substitutie niet-synoniem is en = 0 indien anders. Merk op dat het synonieme tarief pS,k varieert tussen de plaatsen (bijvoorbeeld, als een plaats voor methionine wordt behouden, dan is het synonieme tarief nul). Voor een neutraal evoluerende sequentie worden de snelheden gegeven door
merk op dat vergelijking (2.1) de momentane substitutiesnelheid geeft, dat wil zeggen de op locatie k bepaalde snelheid die op dit moment voor I wordt vastgesteld. Aan de andere kant is pk De snelheid bij evenwicht, gemiddeld over alle codons en gewogen door hun stationaire frequenties.
de relatieve niet-synonieme substitutiegraad
de absolute niet-synonieme substitutiegraad op locatie k is pN,k / pS,k. Echter, omdat synonieme percentages variëren over sites, moeten we de verhouding normaliseren met de synonieme ratio van de site, , en dan normaliseren met (om te corrigeren voor de verschillende verhoudingen van synonieme en niet-synonieme substituties bij neutraliteit). Dit leidt tot de volgende definitie:
alternatief kunnen we wk definiëren als de relatieve niet-synonieme snelheid wk = cpN, k waar constante c is ingesteld zodat de verhouding één is voor neutraal evoluerende sequenties, dat wil zeggen, onder de beperking . De voor de hand liggende oplossing is wat leidt tot dezelfde definitie als hierboven. Merk op dat c de wenselijke eigenschap heeft om constant over sites te zijn. De lezer moet niet verbaasd zijn dat de synonieme snelheid daalt uit vergelijking (3.1). Bij statistische gevolgtrekking hebben synonieme substituties informatie over de neutrale mutatiesnelheden, en dus de waarde van . Evenzo is de relatieve synonieme snelheid op locatie k
figuur 1a toont een voorbeeld voor het rbcl-gen van bloeiende planten. Fitness waarden werden geschat onder de Halpern-Bruno model door Tamuri et al. , en we gebruiken hun waarden om wk en yk hier te berekenen. De gemiddelde percentages tussen sites zijn
en. Merk op dat Voor veel sites synonieme snelheden sneller zijn dan voor een neutraal evoluerende sequentie (d.w.z. yk > 1). Dit is te wijten aan de eigenzinnige aard van de genetische code in combinatie met de mutationele vooroordelen (
de niet-synonieme snelheid tijdens adaptieve evolutie
wanneer de fitnesswaarden van aminozuren constant zijn gedurende de tijd, zullen sites het grootste deel van de tijd doorbrengen die is vastgesteld voor het optimale aminozuur. Af en toe, suboptimale aminozuren kunnen vaste raken, en dan vervangen na een korte periode van evolutionaire tijd. Dit betekent dat de niet-synonieme snelheid op locaties wordt verminderd in vergelijking met de snelheid voor neutraal evoluerende sequenties (dwz wk < 1). Wanneer de fitnessmogelijkheden op locaties echter in de loop van de tijd variëren (bijvoorbeeld na een omgevingsverschuiving of bij intensieve frequentieafhankelijke selectie), kan de niet-synonieme snelheid worden versneld ten opzichte van de snelheid voor neutraal evoluerende sequenties (wk > 1). We bestuderen nu het geval waarin fitnessmogelijkheden veranderen als een aanpassing aan een nieuwe omgeving.
overweeg een site k waar de geschiktheid van I in omgeving A. De stationaire frequenties en momentane substitutiesnelheden zijn . Stel je nu voor dat de omgeving verschuift (bijvoorbeeld een populatie zoogdieren die in een plotseling kouder klimaat leven, of een virus dat een nieuwe gastheer koloniseert, waarbij de intracellulaire omgeving in de nieuwe gastheer verschilt van de reservoir-gastheer). De geschiktheid van I in de nieuwe omgeving B is nu . De kans dat de site momenteel vast staat voor I op het moment van de omgevingsverschuiving is , maar de substitutiesnelheid is nu die van de nieuwe omgeving . De verwachte absolute en relatieve niet-synonieme percentages bij de omgevingsverschuiving zijn dus
als de verschuiving in fitness waarden groot is, dan zal de snelheid veel versneld worden (). Dit komt voor omdat de plaats zich waarschijnlijk voor een suboptimaal aminozuur in de nieuwe omgeving zal bevinden, en nieuwe veranderingen aan optimale aminozuren snel zullen worden vastgesteld. Als de geschiktheidsverschuiving echter matig is, kan de snelheid nog steeds lager zijn dan de neutrale snelheid ().
figuur 1b toont een voorbeeld voor het pb2-gen van het influenzavirus. Fitness waarden werden geschat onder de Halpern-Bruno model door Tamuri et al. . Een subset van 25 adaptieve locaties (waar de fitnessmogelijkheden verschillen voor virussen die evolueren in menselijke versus vogelgastheren ) werden geïdentificeerd door Tamuri et al. , en hun fitness geschat door Tamuri et al. . We gebruiken de schattingen om wk, yk en hier te berekenen. De klassieke afstamming van de menselijke griep kwam waarschijnlijk voort uit een gastheerverschuiving van een vogel naar een zoogdierreservoir in het begin van de twintigste eeuw . We calculate at the putative host shift. The average rate at adaptive sites is (across all sites and ). Note that for 16 sites for which fitnesses are different between hosts, we find that . Dit geeft aan dat het criterium wk > 1 om adaptieve evolutie te detecteren in dit geval conservatief is.
de kans dat De site wordt opgelost want ik, de tijd t na de milieu-shift
waarde overgang waarschijnlijkheid verkregen met behulp van standaard Markov-theorie, d.w.z. door het berekenen. De absolute en relatieve niet-synonieme percentages, tijd t na de verschuiving, zijn dus
de overgangswaarschijnlijkheden in vergelijking (4.2) zijn exponentiële vervalfuncties van de tijd, en dusis ook een exponentieel verval. Aanvankelijk zal de waarde vanhoog zijn, en naarmate de tijd oneindig wordt, zalde stationaire waarde benaderen die wordt gegeven door vergelijking (3.1). Met andere woorden, kort na een omgevingsverschuiving zal een uitbarsting van adaptieve substituties plaatsvinden op plaatsen waar de fitnessverhoudingen zijn veranderd, en substituties zullen zich ophopen totdat het eiwitcoderende gen een staat van adaptief evenwicht bereikt. Bijvoorbeeld, figuur 2a toont het verval vanvoor de 25 adaptieve sites in het PB2 gen na een host shift.
conclusie
eerdere auteurs hebben aangetoond dat de relatie tussen de niet-synonieme snelheid en de selectiecoëfficiënt ongeveer ω = S/(1 − exp(−s)) is , maar de benadering berust ofwel op het infinite-sites-model of gaat ervan uit dat alle mutante aminozuren dezelfde geschiktheid hebben. Vergelijkingen (3.1) en (4.1) bieden meer realistische benaderingen, maar zijn moeilijk te visualiseren. Overweeg een vaste locatie voor mij. De kans dat de volgende mutatie J zal zijn is voor i ≠ J. na verloop van tijd zal het aandeel van I-en J-mutaties op de site nI, kPIJ zijn. De gemiddelde selectiecoëfficiënt op mutaties op locatie k is dus
figuur 2b toont wk als functie vanvoor gesimuleerde locaties wanneer de fitnessniveaus constant zijn of wanneer ze verschuiven met de omgeving. Merk op dat de benadering ω = S/(1 − exp(−S)) een redelijke ondergrens geeft aan wk. In het algemeen neemttoe met, maar de relatie is niet zo eenvoudig als in de vorige benaderingen .
in het site-wise mutation-selection model berekent men eerst de selectiecoëfficiënten, zodat men kan weten of een locatie positief is geselecteerd zonder wk te berekenen . Het model is echter over-geparametriseerd, rekenkundig duur, en fitnesses kunnen alleen goed worden geschat in grote datasets . In plaats daarvan moet het model van voordeel zijn in evolutionair redeneren en in modelbouw. Bijvoorbeeld, het gedrag van wk Onder complexere modellen (zoals frequentieafhankelijke selectie , aanpassing aan geleidelijke omgevingsveranderingen of selectie op codongebruik ) kan ook worden bestudeerd onder het site-wise mutatie-selectie raamwerk. Dit zal een waardevolle inspanning zijn omdat het licht zal werpen op ons vermogen om adaptieve evolutie in moleculaire sequenties te detecteren.
toegankelijkheid van gegevens
de gegevens die bij deze studie zijn gevoegd, zijn beschikbaar op Dryad doi:10.5061 / dryad.3r3q4.
Dankbetuigingen
Ik dank Ziheng Yang, Richard Goldstein en Asif Tamuri voor waardevolle opmerkingen.
financieringsverklaring
M. d.R. wordt ondersteund door BBSRC (UK) grant no. BB / J009709 / 1 toegekend aan Ziheng Yang.
belangenconflicten
Ik heb geen concurrerende belangen.
voetnoten
- 1
Halpern AL& Bruno WJ. 1998evolutionaire afstanden voor eiwitcoderende sequenties: modellering van locatiespecifieke residufrequenties. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, Isi, Google Scholar
- 2
Fisher R. 1930The genetic theory of natural selection. Oxford, UK: Clarendon Press. Google Scholar
- 3
Wright S. 1931evolutie in Mendeliaanse populaties. Genetica 16, 97-159. PubMed, Google Scholar
- 4
Holder MT, Zwickl DJ& Dessimoz C. 2008Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Phil. Transvetzuren. R. Soc. B 363, 4013-4021. (doi: 10.1098 / rstb.2008.0162). Link, Isi, Google Scholar
- 5
Spielman SJ& Wilke CO. 2015de relatie tussen dN / dS en geschaalde selectiecoëfficiënten. Mol. Biol. Evol. 32. (doi: 10.1093/molbev / msv003). Crossref, PubMed, ISI, Google Scholar
- 6
Yang Z& Nielsen R. 2008Mutation–selection models of codon substitution and their use to estimate selective strengths on codon usage. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093/molbev / msm284). Crossref, PubMed, ISI, Google Scholar
- 7
Rodrigue N, Philippe H& Lartillot N. 2010Mutation–selection models of coding sequence evolution with site-heterogeneous amino acid fitness profiles. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi: 10.1073 / pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
- 8
Tamuri AU, dos Reis m& Goldstein RA. 2012Estimating de verdeling van selectiecoëfficiënten van fylogenetic gegevens gebruikend sitewise mutatie–selectie modellen. Genetica 190, 1101-1115. (doi: 10.1534 / genetics.111.136432). Crossref, PubMed, Isi, Google Scholar
- 9
Tamuri AU, Goldman N& dos Reis M. 2014A penalised-likelihood method to estimate the distribution of selection coefficients from phylogenetic data. Genetica 197, 257-271. (doi: 10.1534 / genetics.114.162263). Crossref, PubMed, Isi, Google Scholar
- 10
dos Reis M. 2013populatie genetica en substitutiemodellen van adaptieve evolutie. (http://arxiv.org/abs/1311.6682). Google Scholar
- 11
Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009 het identificeren van veranderingen in selectieve beperkingen: gastheer verschuivingen in influenza. PLoS Berekenen. Biol. 5, e1000564. (doi: 10.1371 / journal.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
- 12
dos Reis M, Hay AJ& Goldstein RA. 2009 gebruikend niet-homogene modellen van nucleotide substitutie om gastheerverschuivingsgebeurtenissen te identificeren: toepassing op de oorsprong van het ‘Spaanse’ influenzapandemisch virus van 1918. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
- 13
Nielsen R& Yang Z. 2003Estimating the distribution of selection coefficients from phylogenetic data with applications to mitochondrial and viral DNA. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093/molbev / msg147). Crossref, PubMed, ISI, Google Scholar
- 14
Bustamante CD. 2005populatie genetica van moleculaire evolutie. Statistical methods in molecular evolution (ed. & Nielsen R), blz. 63-99. New York, NY: Springer. Crossref, Google Scholar