Hoe de niet-synoniem aan synoniem rate ratio van eiwitcoderende genen te berekenen Onder het Fisher-Wright mutatie–selectie framework | Biology Letters

Inleiding

Halpern & Bruno bedacht een model om de divergentie van eiwitcoderende genen te bestuderen op basis van het Fisher–Wright mutatiemodel, selectie en willekeurige genetische afwijking . In het model, wordt elke bijzondere codonplaats in het gen toegewezen zijn eigen reeks aminozuur fitnesses, en dan wordt het Fisher–Wright model gebruikt om het evolutionaire tarief van de plaats uit te werken. Het model heeft een heropleving in recente jaren gezien, en de variaties van het zijn gebruikt, bijvoorbeeld , om prestaties van phylogenetic gevolgtrekking methodes te bestuderen, om codongebruik te bestuderen en om de distributie van selectiecoëfficiënten in eiwit-codeert genen te schatten . Misschien verrassend, is het model niet gebruikt om de dynamica van de niet-synonieme aan synonieme snelheidsverhouding (ook bekend als ω = dN/dS) van eiwitcoderende genen en zijn betekenis in de studie van adaptieve moleculaire evolutie te bestuderen.

het doel van deze noot is een manier voor te stellen om een equivalent van het klassieke concept van de niet-synoniem met synonieme ratio te definiëren en te berekenen, in de context van het mutatieselectiemodel van Halpern & Bruno . Men hoopt dat door eerste principes van populatiegenetica te gebruiken, wij een uitdrukking van ω als functie van de selectiecoëfficiënten kunnen verkrijgen die op codonplaatsen in het eiwit-codeert gen handelen. Dit zou veel inzicht in de evolutionaire dynamica van codonplaatsen moeten verstrekken en het zou van voordeel in de bouw van statistische modellen moeten zijn om adaptieve evolutie in eiwit-codeert genen te ontdekken.

het locatiegewijze mutatieselectiemodel

houdt rekening met de evolutie van een codonplaats k in een eiwitcoderend gen in een populatie met n haploïde genomen. Stel dat de site is momenteel vast voor codon I (dat wil zeggen Alle N allelen dragen I op site k). In de mutatie–selectie kader , de vervangingsratio (de snelheid waarmee de roman mutant codons J verschijnen en uiteindelijk opgelost in de bevolking) is

2.1

Hier µIJ is de neutrale mutatie tarief (per generatie) van I naar J, en SI,k) = FJ,k – FI,k is de selectie-coëfficiënt in het voordeel van codon J en FJ,k = 2NfJ,k is de schaal Malthusian geschiktheid van J. Natuurlijke selectie beïnvloedt de relatieve vervanging tarief. Wanneer de mutatie voordelig is (SIJ,k > 0), is de substitutiesnelheid hoger dan de neutrale (qIJ,k > µIJ), maar als de mutatie schadelijk is (SIJ,k < 0), wordt de substitutiesnelheid verlaagd (qIJ,k < µij). Hier gaan we ervan uit dat synonieme substituties neutraal zijn (SIJ,k = 0), en dus wordt de evolutie op site k bepaald door 20 aminozuur fitnesses. De µIJ kan worden geconstrueerd uit standaard DNA-substitutiemodellen (bijvoorbeeld als I = TTT en J = TTC, dan

Inline formule Onder het HKY-substitutiemodel, zie voor details).

vergelijking (2.1) beschrijft codonsubstitutie in populaties als een continu Markovproces. Dit is zinvol als de per generatie mutatiesnelheid klein is in vergelijking met de populatiegrootte ( Inline formule ), zodat er weinig polymorfisme is in de populatie, en ten hoogste twee allelen per plaats scheiden. Het deel van de tijd, nI, k, dat site k vast doorbrengt voor I (d.w.z. de stationaire frequentie van I) is

, waarbij Inlineformule de frequentie is voor een neutraal evoluerende sequentie (d.w.z. een pseudo-gen). De substitutiesnelheid bij k, gemiddeld in de tijd, is dus

waar de som is over alle codonparen i ≠ J. deze snelheid kan worden verdeeld in de niet-synonieme en synonieme componentsnelheden, pk = pN, k + pS,k,waar

en waar de indicatorfunctie in = 1 als de substitutie niet-synoniem is en = 0 indien anders. Merk op dat het synonieme tarief pS,k varieert tussen de plaatsen (bijvoorbeeld, als een plaats voor methionine wordt behouden, dan is het synonieme tarief nul). Voor een neutraal evoluerende sequentie worden de snelheden gegeven door

merk op dat vergelijking (2.1) de momentane substitutiesnelheid geeft, dat wil zeggen de op locatie k bepaalde snelheid die op dit moment voor I wordt vastgesteld. Aan de andere kant is pk De snelheid bij evenwicht, gemiddeld over alle codons en gewogen door hun stationaire frequenties.

de relatieve niet-synonieme substitutiegraad

de absolute niet-synonieme substitutiegraad op locatie k is pN,k / pS,k. Echter, omdat synonieme percentages variëren over sites, moeten we de verhouding normaliseren met de synonieme ratio van de site, Inline formule , en dan normaliseren met (om te corrigeren voor de verschillende verhoudingen van synonieme en niet-synonieme substituties bij neutraliteit). Dit leidt tot de volgende definitie:

3.1

alternatief kunnen we wk definiëren als de relatieve niet-synonieme snelheid wk = cpN, k waar constante c is ingesteld zodat de verhouding één is voor neutraal evoluerende sequenties, dat wil zeggen, onder de beperking Inline formule . De voor de hand liggende oplossing is wat leidt tot dezelfde definitie als hierboven. Merk op dat c de wenselijke eigenschap heeft om constant over sites te zijn. De lezer moet niet verbaasd zijn dat de synonieme snelheid daalt uit vergelijking (3.1). Bij statistische gevolgtrekking hebben synonieme substituties informatie over de neutrale mutatiesnelheden, en dus de waarde van Inline formule . Evenzo is de relatieve synonieme snelheid op locatie k

3.2

figuur 1a toont een voorbeeld voor het rbcl-gen van bloeiende planten. Fitness waarden werden geschat onder de Halpern-Bruno model door Tamuri et al. , en we gebruiken hun waarden om wk en yk hier te berekenen. De gemiddelde percentages tussen sites zijn

Inline formule en. Merk op dat Voor veel sites synonieme snelheden sneller zijn dan voor een neutraal evoluerende sequentie (d.w.z. yk > 1). Dit is te wijten aan de eigenzinnige aard van de genetische code in combinatie met de mutationele vooroordelen (

figuur 1. De relatieve niet-synonieme (wk) en synonieme (yk) substitutiepercentages. a) percentages voor het chloroplastgen van rbcl van monocots (bloeiende planten). (B) de percentages voor het pb2–gen van influenza A. In (a,b), de fitnesswaarden op elke plaats (FIJ,k) en de mutatieparameters () werden geschat volgens het Halpern-Bruno-model op basis van penale waarschijnlijkheid (penalty α = 0,01) en zijn van . Vervolgens worden vergelijkingen (3.1) en (3.2) gebruikt om wk en yk te berekenen. Onder b) werden 25 adaptieve plaatsen (rood) geïdentificeerd waar de fitnessmogelijkheden verschillen tussen virussen die zich ontwikkelen in gastheren van mensen en vogels (het natuurlijke reservoir). Fitnessfaciliteiten voor deze sites onder elke gastheer werden geschat zonder boete en zijn van . Vervolgens wordt vergelijking (4.1) gebruikt om bij de host shift te berekenen. Het bereik van is 0,231–7,64 (de grootste waarden worden afgekapt in de figuur).

de niet-synonieme snelheid tijdens adaptieve evolutie

wanneer de fitnesswaarden van aminozuren constant zijn gedurende de tijd, zullen sites het grootste deel van de tijd doorbrengen die is vastgesteld voor het optimale aminozuur. Af en toe, suboptimale aminozuren kunnen vaste raken, en dan vervangen na een korte periode van evolutionaire tijd. Dit betekent dat de niet-synonieme snelheid op locaties wordt verminderd in vergelijking met de snelheid voor neutraal evoluerende sequenties (dwz wk < 1). Wanneer de fitnessmogelijkheden op locaties echter in de loop van de tijd variëren (bijvoorbeeld na een omgevingsverschuiving of bij intensieve frequentieafhankelijke selectie), kan de niet-synonieme snelheid worden versneld ten opzichte van de snelheid voor neutraal evoluerende sequenties (wk > 1). We bestuderen nu het geval waarin fitnessmogelijkheden veranderen als een aanpassing aan een nieuwe omgeving.

overweeg een site k waar de geschiktheid van I Inline formule in omgeving A. De stationaire frequenties en momentane substitutiesnelheden zijn . Stel je nu voor dat de omgeving verschuift (bijvoorbeeld een populatie zoogdieren die in een plotseling kouder klimaat leven, of een virus dat een nieuwe gastheer koloniseert, waarbij de intracellulaire omgeving in de nieuwe gastheer verschilt van de reservoir-gastheer). De geschiktheid van I in de nieuwe omgeving B is nu Inline formule . De kans dat de site momenteel vast staat voor I op het moment van de omgevingsverschuiving is , maar de substitutiesnelheid is nu die van de nieuwe omgeving . De verwachte absolute en relatieve niet-synonieme percentages bij de omgevingsverschuiving zijn dus

4.1

als de verschuiving in fitness waarden groot is, dan zal de snelheid veel versneld worden ( Inline formule ). Dit komt voor omdat de plaats zich waarschijnlijk voor een suboptimaal aminozuur in de nieuwe omgeving zal bevinden, en nieuwe veranderingen aan optimale aminozuren snel zullen worden vastgesteld. Als de geschiktheidsverschuiving echter matig is, kan de snelheid nog steeds lager zijn dan de neutrale snelheid ( Inline formule ).

figuur 1b toont een voorbeeld voor het pb2-gen van het influenzavirus. Fitness waarden werden geschat onder de Halpern-Bruno model door Tamuri et al. . Een subset van 25 adaptieve locaties (waar de fitnessmogelijkheden verschillen voor virussen die evolueren in menselijke versus vogelgastheren ) werden geïdentificeerd door Tamuri et al. , en hun fitness geschat door Tamuri et al. . We gebruiken de schattingen om wk, yk en Inline formule hier te berekenen. De klassieke afstamming van de menselijke griep kwam waarschijnlijk voort uit een gastheerverschuiving van een vogel naar een zoogdierreservoir in het begin van de twintigste eeuw . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is (across all sites and ). Note that for 16 sites for which fitnesses are different between hosts, we find that . Dit geeft aan dat het criterium wk > 1 om adaptieve evolutie te detecteren in dit geval conservatief is.

de kans dat De site wordt opgelost want ik, de tijd t na de milieu-shift

4.2

waar Inline Formule de overgang waarschijnlijkheid verkregen met behulp van standaard Markov-theorie, d.w.z. door het berekenen. De absolute en relatieve niet-synonieme percentages, tijd t na de verschuiving, zijn dus

de overgangswaarschijnlijkheden in vergelijking (4.2) zijn exponentiële vervalfuncties van de tijd, en dus Inlineformule is ook een exponentieel verval. Aanvankelijk zal de waarde van Inline formule hoog zijn, en naarmate de tijd oneindig wordt, zalde stationaire waarde benaderen die wordt gegeven door vergelijking (3.1). Met andere woorden, kort na een omgevingsverschuiving zal een uitbarsting van adaptieve substituties plaatsvinden op plaatsen waar de fitnessverhoudingen zijn veranderd, en substituties zullen zich ophopen totdat het eiwitcoderende gen een staat van adaptief evenwicht bereikt. Bijvoorbeeld, figuur 2a toont het verval van Inline formule voor de 25 adaptieve sites in het PB2 gen na een host shift.

Figuur 2. (a) verval van het relatieve niet-synonieme percentage na een gastheerverschuiving voor 25 adaptieve plaatsen (grijze lijnen) in het PB2-gen van influenza. De vaste lijn is het gemiddelde over de 25 sites, . Naarmate de tijd verstrijkt, benadert Het gemiddelde op lange termijn (stippellijn). b) het relatieve niet-synonieme percentage als functie van de gemiddelde selectiecoëfficiënt op locaties. Roze stippen: de geschiktheidswaarden voor 10 000 locaties werden bemonsterd op basis van normale distributies met gemiddelde 0 en σ = 0, … , 10. Vervolgens werden vergelijkingen (3.1) en (5.1) gebruikt om wk en te berekenen. Grijze punten: een andere set van 10 000 fitnesswaarden werd als hierboven bemonsterd, vervolgens werden vergelijkingen (4.2) en (5.1) gebruikt om en Onder het omgevingsverschuivingsmodel. Vaste lijn: S / (1 − exp (- s)).

Figuur 2. (a) verval van het relatieve niet-synonieme percentage na een gastheerverschuiving voor 25 adaptieve plaatsen (grijze lijnen) in het PB2-gen van influenza. De vaste lijn is het gemiddelde over de 25 sites, . Naarmate de tijd verstrijkt, benadert Het gemiddelde op lange termijn (stippellijn). b) het relatieve niet-synonieme percentage als functie van de gemiddelde selectiecoëfficiënt op locaties. Roze stippen: de geschiktheidswaarden voor 10 000 locaties werden bemonsterd op basis van normale distributies met gemiddelde 0 en σ = 0, … , 10. Vervolgens werden vergelijkingen (3.1) en (5.1) gebruikt om wk en te berekenen. Grijze punten: een andere set van 10 000 fitnesswaarden werd als hierboven bemonsterd, vervolgens werden vergelijkingen (4.2) en (5.1) gebruikt om en Onder het omgevingsverschuivingsmodel. Vaste lijn: S / (1 − exp (- s)).

conclusie

eerdere auteurs hebben aangetoond dat de relatie tussen de niet-synonieme snelheid en de selectiecoëfficiënt ongeveer ω = S/(1 − exp(−s)) is , maar de benadering berust ofwel op het infinite-sites-model of gaat ervan uit dat alle mutante aminozuren dezelfde geschiktheid hebben. Vergelijkingen (3.1) en (4.1) bieden meer realistische benaderingen, maar zijn moeilijk te visualiseren. Overweeg een vaste locatie voor mij. De kans dat de volgende mutatie J zal zijn is Inline formule voor i ≠ J. na verloop van tijd zal het aandeel van I-en J-mutaties op de site nI, kPIJ zijn. De gemiddelde selectiecoëfficiënt op mutaties op locatie k is dus

5.1

figuur 2b toont wk als functie van Inline formule voor gesimuleerde locaties wanneer de fitnessniveaus constant zijn of wanneer ze verschuiven met de omgeving. Merk op dat de benadering ω = S/(1 − exp(−S)) een redelijke ondergrens geeft aan wk. In het algemeen neemttoe met, maar de relatie is niet zo eenvoudig als in de vorige benaderingen .

in het site-wise mutation-selection model berekent men eerst de selectiecoëfficiënten, zodat men kan weten of een locatie positief is geselecteerd zonder wk te berekenen . Het model is echter over-geparametriseerd, rekenkundig duur, en fitnesses kunnen alleen goed worden geschat in grote datasets . In plaats daarvan moet het model van voordeel zijn in evolutionair redeneren en in modelbouw. Bijvoorbeeld, het gedrag van wk Onder complexere modellen (zoals frequentieafhankelijke selectie , aanpassing aan geleidelijke omgevingsveranderingen of selectie op codongebruik ) kan ook worden bestudeerd onder het site-wise mutatie-selectie raamwerk. Dit zal een waardevolle inspanning zijn omdat het licht zal werpen op ons vermogen om adaptieve evolutie in moleculaire sequenties te detecteren.

toegankelijkheid van gegevens

de gegevens die bij deze studie zijn gevoegd, zijn beschikbaar op Dryad doi:10.5061 / dryad.3r3q4.

Dankbetuigingen

Ik dank Ziheng Yang, Richard Goldstein en Asif Tamuri voor waardevolle opmerkingen.

financieringsverklaring

M. d.R. wordt ondersteund door BBSRC (UK) grant no. BB / J009709 / 1 toegekend aan Ziheng Yang.

belangenconflicten

Ik heb geen concurrerende belangen.

voetnoten

1
Halpern AL& Bruno WJ. 1998evolutionaire afstanden voor eiwitcoderende sequenties: modellering van locatiespecifieke residufrequenties. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, Isi, Google Scholar
2
Fisher R. 1930The genetic theory of natural selection. Oxford, UK: Clarendon Press. Google Scholar
3
Wright S. 1931evolutie in Mendeliaanse populaties. Genetica 16, 97-159. PubMed, Google Scholar
4
Holder MT, Zwickl DJ& Dessimoz C. 2008Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Phil. Transvetzuren. R. Soc. B 363, 4013-4021. (doi: 10.1098 / rstb.2008.0162). Link, Isi, Google Scholar
5
Spielman SJ& Wilke CO. 2015de relatie tussen dN / dS en geschaalde selectiecoëfficiënten. Mol. Biol. Evol. 32. (doi: 10.1093/molbev / msv003). Crossref, PubMed, ISI, Google Scholar
6
Yang Z& Nielsen R. 2008Mutation–selection models of codon substitution and their use to estimate selective strengths on codon usage. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093/molbev / msm284). Crossref, PubMed, ISI, Google Scholar
7
Rodrigue N, Philippe H& Lartillot N. 2010Mutation–selection models of coding sequence evolution with site-heterogeneous amino acid fitness profiles. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi: 10.1073 / pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
8
Tamuri AU, dos Reis m& Goldstein RA. 2012Estimating de verdeling van selectiecoëfficiënten van fylogenetic gegevens gebruikend sitewise mutatie–selectie modellen. Genetica 190, 1101-1115. (doi: 10.1534 / genetics.111.136432). Crossref, PubMed, Isi, Google Scholar
9
Tamuri AU, Goldman N& dos Reis M. 2014A penalised-likelihood method to estimate the distribution of selection coefficients from phylogenetic data. Genetica 197, 257-271. (doi: 10.1534 / genetics.114.162263). Crossref, PubMed, Isi, Google Scholar
10
dos Reis M. 2013populatie genetica en substitutiemodellen van adaptieve evolutie. (http://arxiv.org/abs/1311.6682). Google Scholar
11
Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009 het identificeren van veranderingen in selectieve beperkingen: gastheer verschuivingen in influenza. PLoS Berekenen. Biol. 5, e1000564. (doi: 10.1371 / journal.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
12
dos Reis M, Hay AJ& Goldstein RA. 2009 gebruikend niet-homogene modellen van nucleotide substitutie om gastheerverschuivingsgebeurtenissen te identificeren: toepassing op de oorsprong van het ‘Spaanse’ influenzapandemisch virus van 1918. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
13
Nielsen R& Yang Z. 2003Estimating the distribution of selection coefficients from phylogenetic data with applications to mitochondrial and viral DNA. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093/molbev / msg147). Crossref, PubMed, ISI, Google Scholar
14
Bustamante CD. 2005populatie genetica van moleculaire evolutie. Statistical methods in molecular evolution (ed. & Nielsen R), blz. 63-99. New York, NY: Springer. Crossref, Google Scholar

hoe de niet–synoniem aan synoniem rate ratio van eiwitcoderende genen te berekenen Onder het Fisher-Wright mutatie-selectie framework

hoe de niet–synoniem aan synoniem rate ratio van eiwitcoderende genen te berekenen Onder het Fisher-Wright mutatie-selectie framework

Inleiding

het locatiegewijze mutatieselectiemodel

de relatieve niet-synonieme substitutiegraad

de niet-synonieme snelheid tijdens adaptieve evolutie

conclusie

toegankelijkheid van gegevens

Dankbetuigingen

financieringsverklaring

belangenconflicten

voetnoten

Geef een antwoord Antwoord annuleren

Inleiding

het locatiegewijze mutatieselectiemodel

de relatieve niet-synonieme substitutiegraad

de niet-synonieme snelheid tijdens adaptieve evolutie

conclusie

toegankelijkheid van gegevens

Dankbetuigingen

financieringsverklaring

belangenconflicten

voetnoten

Geef een antwoord Antwoord annuleren

You may like this....