cum se calculează raportul ratei non–sinonime La Sinonime a genelor care codifică proteinele în cadrul cadrului de selecție a mutației Fisher–Wright

Introducere

Halpern & Bruno a conceput un model pentru a studia divergența genelor care codifică proteinele pe baza modelului de mutație Fisher-Wright, Modelul de și deriva genetică aleatorie . În model, fiecărui situs de codon particular din genă i se atribuie propriul set de fitnessuri de aminoacizi, iar apoi modelul Fisher–Wright este utilizat pentru a elabora rata evolutivă a sitului. Modelul a cunoscut o renaștere în ultimii ani, iar variațiile acestuia au fost utilizate, de exemplu, pentru a studia performanța metodelor de inferență filogenetică , pentru a studia utilizarea codonilor și pentru a estima distribuția coeficienților de selecție în genele care codifică proteinele . Poate în mod surprinzător, modelul nu a fost folosit pentru a studia dinamica raportului ratei non-sinonime cu sinonime (cunoscut și sub numele de XV = dN/dS) al genelor care codifică proteinele și semnificația sa în studiul evoluției moleculare adaptive.

scopul acestei note este de a propune o modalitate de a defini și calcula un echivalent al conceptului clasic al raportului ratei non-sinonime La Sinonime, în contextul modelului de selecție a mutației lui Halpern& Bruno . Se speră că, prin utilizarea primelor principii ale geneticii populației, putem obține o expresie a ecuentului în funcție de coeficienții de selecție care acționează la situsurile codonice din gena codificatoare a proteinelor. Acest lucru ar trebui să ofere o perspectivă asupra dinamicii evolutive a siturilor de codon și ar trebui să fie de avantaj în construirea de modele statistice pentru a detecta evoluția adaptivă în genele care codifică proteinele.

modelul de selecție a mutațiilor în situs

ia în considerare evoluția unui situs codonic k într-o genă codificatoare de proteine într–o populație cu n genomi haploizi. Să presupunem că site-ul este fixat în prezent pentru codonul I (adică toate alelele n poartă I la site-ul k). În cadrul mutației–selecție , rata de substituție (rata la care apar noi codoni mutanți J și devin în cele din urmă fixați în populație) este

formula de afișare

2.1

aici, inktactij este rata mutației neutre (pe generație) de la I la J,iar SIJ,k = FJ,k – FI,k este coeficientul de selecție în favoarea codonului J și FJ,k = 2nfj, K este capacitatea malthusiană scalată a lui J. selecția naturală afectează rata relativă de substituție. Atunci când mutația este avantajoasă (SIJ,k > 0), rata de substituție este mai mare decât rata neutră (qIJ,k > unktij), dar dacă mutația este dăunătoare (SIJ,k < 0), atunci rata de substituție este redusă (qij,k < unktij). Aici, presupunem că substituțiile sinonime sunt neutre (SIJ,k = 0) și, astfel, evoluția la locul k este determinată de 20 de fitnessuri de aminoacizi. De exemplu, dacă i = TTT și J = TTC, atunci

Formula Inlinesub modelul de substituție HKY, a se vedea pentru detalii).

ecuația (2.1) descrie substituția codonilor în populații ca un proces Markov în timp continuu. Acest lucru este sensibil dacă rata mutației pe generație este mică în comparație cu dimensiunea populației (Formula Inline), astfel încât există un polimorfism redus în populație și, cel mult, două alele se separă la un loc la un moment dat. Proporția de timp,nI, k, pe care site-ul k o petrece fix pentru I (adică frecvența staționară a lui I) este

formula de afișare

, undeFormula Inlineeste frecvența pentru o secvență în evoluție neutră (adică o pseudo-genă). Astfel, rata de substituție la k, medie în timp, este

formula de afișare

unde suma este peste toate perechile de codoni i J. această rată poate fi împărțită în ratele sale componente non-sinonime și sinonime, pk = pN,k + pS,k, unde

formula de afișare

funcția în = 1 dacă substituția este non-sinonimă și = 0 dacă altfel. Rețineți că rata sinonimă pS,k variază între site-uri (de exemplu, dacă un site este conservat pentru metionină, atunci rata sinonimă este zero). Pentru o secvență în evoluție neutră, ratele sunt date de

formula de afișare

rețineți că ecuația (2.1) Dă rata de substituție instantanee, adică rata condiționată pe site-ul k fiind fixată pentru I în prezent. Pe de altă parte, pk este rata la echilibru, medie pe toți codonii și ponderată de frecvențele lor staționare.

rata relativă de substituție non-sinonimă

raportul absolut non-sinonim cu rata de substituție sinonimă la locul k este pN,k / pS,k. Cu toate acestea, deoarece ratele sinonime variază în funcție de site-uri, trebuie să normalizăm raportul după raportul ratei Sinonime a site-ului, Formula Inline și apoi să normalizăm prin Formula Inline pentru diferitele proporții de substituții sinonime și non-sinonime la neutralitate). Aceasta duce la următoarea definiție:

formula de afișare

3.1

alternativ, putem defini wk ca rata relativă non-sinonimă wk = cpN,k unde Constanta c este setată astfel încât raportul să fie unul pentru secvențele cu evoluție neutră, adică sub constrângereaFormula Inline. Soluția evidentă esteFormula Inline care duce la aceeași definiție ca mai sus. Rețineți că c are proprietatea dorită de a fi constantă peste site-uri. Cititorul nu ar trebui să fie surprins de faptul că rata sinonimă scade din ecuația (3.1). Când faceți inferență statistică, substituțiile sinonime au informații despre ratele de mutație neutre și, astfel, informează valoarea Formula Inline. În mod similar, rata relativă sinonimă la locul k este

formula de afișare

3.2

figura 1a prezintă un exemplu pentru gena rbcL a plantelor cu flori. Valorile de Fitness au fost estimate sub modelul Halpern-Bruno De Tamuri și colab. , și folosim valorile lor pentru a calcula wk și yk aici. Ratele medii între site-uri sunt

Formula InlineșiFormula Inline. Rețineți că pentru multe site-uri, ratele sinonime sunt mai rapide decât pentru o secvență în evoluție neutră (adică yk > 1). Acest lucru se datorează naturii ciudate a codului genetic cuplat cu prejudecățile mutaționale (Formula Inline

Figura 1.

Figura 1. Ratele relative de substituție non-sinonime (wk) și sinonime (yk). (a) ratele pentru gena cloroplastului rbcL a monocotilor (plante cu flori). (b) ratele pentru gena PB2 a gripei A. In (a,b), fitnessurile la fiecare situs (FIJ,k) și parametrii de mutație (Formula Inline) au fost estimate în cadrul modelului Halpern–Bruno prin probabilitate penalizată (penalizare = 0,01) și sunt din . Apoi, ecuațiile (3.1) și (3.2) sunt utilizate pentru a calcula wk și yk. În (b), au fost identificate 25 de site-uri adaptive (roșu) în care fitnessurile sunt diferite între virusurile care evoluează în gazdele umane și aviare (rezervorul natural). Fitnesses pentru aceste site-uri sub fiecare gazdă au fost estimate fără penalități și sunt de la . Apoi, ecuația (4.1) este utilizată pentru a calcula Formula Inline la schimbarea gazdei. IntervalulFormula Inline este de 0,231–7,64 (cele mai mari valori sunt trunchiate în figură).

rata non-sinonimă în timpul evoluției adaptive

când fitnessurile aminoacizilor sunt constante în timp, Site-urile vor petrece cea mai mare parte a timpului fixat pentru aminoacidul optim. Ocazional, aminoacizii suboptimali pot deveni fixați și apoi înlocuiți după o perioadă scurtă de timp evolutiv. Aceasta înseamnă că rata non-sinonimă la site-uri este redusă în comparație cu rata pentru secvențele cu evoluție neutră (adică wk < 1). Cu toate acestea, atunci când fitnessurile la site-uri variază în timp (de exemplu, după o schimbare de mediu sau sub o selecție intensă dependentă de frecvență), rata non-sinonimă poate fi accelerată în comparație cu rata pentru secvențele care evoluează neutru (wk > 1). Acum studiem cazul în care fitnessurile se schimbă ca o adaptare la un mediu nou.

luați în considerare un site k unde aptitudinea lui I esteFormula Inline în mediul A. Frecvențele staționare și ratele de substituție instantanee suntFormula Inline. Acum, imaginați-vă că mediul se schimbă (de exemplu, o populație de mamifere care trăiesc într-un climat brusc mai rece sau un virus care colonizează o nouă gazdă, unde mediul intracelular din noua gazdă este diferit de gazda rezervorului). Fitness-ul lui I în noul mediu B este acumFormula Inline. Probabilitatea ca site-ul să fie fixat în prezent pentru I în momentul schimbării mediului esteFormula Inline, dar rata de substituție este acum cea a noului mediuFormula Inline. Astfel, ratele absolute și relative ne-sinonime așteptate la schimbarea mediului sunt

formula de afișare

4.1

dacă schimbarea valorilor de fitness este mare, atunci rata va fi mult accelerată (Formula Inline). Acest lucru se întâmplă deoarece site-ul este probabil să se găsească fixat pentru un aminoacid suboptimal în noul mediu, iar mutațiile noi la aminoacizii optimi vor deveni fixați rapid. Cu toate acestea, dacă schimbarea de fitness este moderată, rata poate fi în continuare mai mică decât rata neutră (Formula Inline).

figura 1b prezintă un exemplu pentru gena pb2 a virusului gripal. Valorile de Fitness au fost estimate sub modelul Halpern-Bruno De Tamuri și colab. . Un subset de 25 de site-uri adaptive (unde fitnessurile sunt diferite pentru virușii care evoluează în gazdele umane față de cele aviare ) au fost identificate de Tamuri și colab. , și potrivirile lor estimate de Tamuri și colab. . Folosim estimările pentru a calcula WK, yk și Formula Inline aici. Descendența clasică a gripei umane a provenit probabil dintr-o schimbare a gazdei de la un aviar la un rezervor de mamifere la începutul secolului al XX-lea . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is Inline Formula (across all sites Inline Formula and Inline Formula). Note that for 16 sites for which fitnesses are different between hosts, we find that Inline Formula. Acest lucru indică faptul că criteriul wk > 1 pentru a detecta evoluția adaptivă este conservator în acest caz.

probabilitatea ca site-ul să fie fixat pentru I, timpul t după schimbarea mediului este

formula de afișare

4.2

undeFormula InlineSunt probabilități obținute folosind teoria Markov standard, adică prin calculareaformula inline. Astfel, ratele absolute și relative non-sinonime, timpul t după schimbare, sunt

formula de afișare

probabilitățile de tranziție din ecuația (4.2) sunt funcții de descompunere exponențiale ale timpului și astfelFormula Inlineeste, de asemenea, o decădere exponențială. Inițial, valoareaFormula Inlineva fi ridicată și, pe măsură ce timpul trece la infinit,Formula Inlinese va apropia de valoarea staționară dată de ecuația (3.1). Cu alte cuvinte, la scurt timp după o schimbare de mediu, o explozie de substituții adaptive va avea loc în locurile în care fitnessurile s-au schimbat, iar substituțiile se vor acumula până când gena care codifică proteinele atinge o stare de echilibru adaptiv. De exemplu, figura 2a arată decădereaFormula Inlinepentru cele 25 de site-uri adaptive din gena pb2 după o schimbare de gazdă.

Figura 2.

Figura 2. (a) decăderea ratei relative non-sinonime după o schimbare a gazdei pentru 25 de site-uri adaptive (linii gri) în gena PB2 a gripei. Linia solidă este media pe cele 25 de site-uri, Formula Inline. Odată cu trecerea timpului, Formula Inline se apropie de media pe termen lung Formula Inline (linie punctată). (b) rata relativă non-sinonimă în funcție de coeficientul mediu de selecție în situri. Puncte roz: valorile de fitness pentru 10 000 de site-uri au fost eșantionate din distribuțiile normale cu media 0 și 0,…, 10. Apoi, ecuațiile (3.1) și (5.1) au fost folosite pentru a calcula WK și Formula Inline. Puncte Gri: un alt set de 10 000 de valori de fitness au fost eșantionate ca mai sus, apoi ecuațiile (4.2) și (5.1) au fost utilizate pentru a calcula Formula Inline și formula inline sub modelul de schimbare a mediului. Linie solidă: S/(1−exp (- S)).

concluzie

autorii precedenți au arătat că relația dintre rata non-sinonimă și coeficientul de selecție este de aproximativ hectolitru = s / (1 − exp(−s)) , dar aproximarea se bazează fie pe modelul site-urilor infinite, fie presupune că toți aminoacizii mutanți au aceeași capacitate. Ecuațiile (3.1) și (4.1) oferă aproximări mai realiste, dar sunt greu de vizualizat. Luați în considerare un site fix pentru I. Probabilitatea ca următoarea mutație să fie J este Formula Inline pentru I J. de-a lungul timpului, proporția mutațiilor I la J la locul respectiv va fi nI,kPIJ. Astfel, coeficientul mediu de selecție a mutațiilor la situsul k este

formula de afișare

5.1

figura 2b arată wk în funcție deFormula Inlinepentru situsurile simulate atunci când fitnesses sunt constante sau atunci când se schimbă cu mediul. Rețineți că apropierea ω = S/(1 − exp(−S)) prevede un termen rezonabil de limita inferioară de pe săpt. În general,Formula Inlinecrește cuFormula Inline, dar relația nu este la fel de simplă ca în aproximările anterioare .

în modelul de selecție a mutațiilor pe site, se calculează mai întâi coeficienții de selecție și, prin urmare, se poate ști dacă un site a fost selectat pozitiv fără a calcula wk . Cu toate acestea, modelul este supra-parametrizat, scump din punct de vedere al calculului, iar fitnessurile pot fi bine estimate numai în seturi de date mari . În schimb, modelul ar trebui să fie de avantaj în raționamentul evolutiv și în construirea modelului. De exemplu , comportamentul wk în modele mai complexe (cum ar fi selecția dependentă de frecvență, adaptarea la schimbările treptate ale mediului sau selecția la utilizarea codonului ) poate fi, de asemenea, studiat în cadrul mutației-selecție în funcție de site. Acesta va fi un efort util, deoarece va arunca lumină asupra capacității noastre de a detecta evoluția adaptivă în secvențe moleculare.

accesibilitatea datelor

datele care însoțesc acest studiu sunt disponibile la Dryad doi:10.5061 / dryad.3r3q4.

mulțumiri

îi mulțumesc lui Ziheng Yang, Richard Goldstein și Asif Tamuri pentru comentarii valoroase.

declarație de finanțare

MD este susținută de BBSRC (UK) grant nr. BB / J009709 / 1 acordat lui Ziheng Yang.

conflicte de interese

nu am interese concurente.

note de subsol

2015 autorul(autorii) publicat (e) de Royal Society. Toate drepturile rezervate.
  • 1
    Halpern AL& Bruno WJ. 1998distanțe evolutive pentru secvențele de codificare a proteinelor: modelarea frecvențelor reziduurilor specifice site-ului. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093/oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
  • 2
    Fisher R. 1930teoria genetică a selecției naturale. Oxford, Marea Britanie: Clarendon Press. Google Scholar
  • 3
    Wright S. 1931evoluția în populațiile mendeliene. Genetica 16, 97-159. PubMed, Google Scholar
  • 4
    Holder Mt, Zwickl DJ & Dessimoz C. 2008evaluarea robusteții metodelor filogenetice la variabilitatea între site-uri în procesele de substituție. Phil. Trans. R. Soc. B 363, 4013-4021. (doi: 10.1098/rstb.2008.0162). Link, ISI, Google Scholar
  • 5
    Spielman SJ & Wilke CO. 2015relația dintre DN/dS și coeficienții de selecție scalați. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, ISI, Google Scholar
  • 6
    Yang Z& Nielsen R. 2008mutare–selecție modele de substituție codon și utilizarea lor pentru a estima punctele forte selective privind utilizarea codon. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093 / molbev/msm284). Crossref, PubMed, ISI, Google Scholar
  • 7
    Rodrigue n, Philippe H& lartillot N. 2010mutație–modele de selecție a evoluției secvenței de codificare cu profiluri de fitness ale aminoacizilor eterogeni ai site-ului. Proc. Natl Acad. Sci. SUA 107, 4629-4634. (doi: 10.1073 / pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
  • 8
    Tamuri AU, dos Reis M& Goldstein RA. 2012estimarea distribuției coeficienților de selecție din datele filogenetice utilizând modele de selecție a mutațiilor sitewise. Genetica 190, 1101-1115. (doi: 10.1534/genetică.111.136432). Crossref, PubMed, ISI, Google Scholar
  • 9
    Tamuri AU, Goldman n & dos Reis M. 2014A penalizat-metoda de probabilitate pentru a estima distribuția coeficienților de selecție din datele filogenetice. Genetica 197, 257-271. (doi: 10.1534/genetică.114.162263). Crossref, PubMed, ISI, Google Scholar
  • 10
    dos Reis M. 2013populația genetică și modelele de substituție ale evoluției adaptive. (http://arxiv.org/abs/1311.6682). Google Scholar
  • 11
    Tamuri AU, dos Reis M, fân AJ & Goldstein RA. 2009 identificarea schimbărilor în constrângerile selective: schimbări de gazdă în gripă. PLoS Calcul. Biol. 5, e1000564. (doi: 10.1371/jurnal.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
  • 12
    dos Reis M, Hay AJ & Goldstein RA. 2009utilizarea modelelor neomogene de substituție nucleotidică pentru identificarea evenimentelor de schimbare a gazdei: aplicarea la originea virusului pandemic de gripă spaniolă din 1918. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
  • 13
    Nielsen R& Yang Z. 2003estimarea distribuției coeficienților de selecție din datele filogenetice cu aplicații la ADN-ul mitocondrial și viral. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093 / molbev / msg147). Crossref, PubMed, ISI, Google Scholar
  • 14
    Bustamante CD. 2005populația genetică a evoluției moleculare. Metode statistice în evoluția moleculară (ed. & Nielsen R), PP. 63-99. New York, NY: Springer. Crossref, Google Scholar

Lasă un răspuns

Adresa ta de email nu va fi publicată.