Come calcolare il non-sinonimo di sinonimo rapporto di tasso di geni codificanti proteine sotto la Fisher–Wright mutazione–selezione framework

Introduzione

Halpern & Bruno ideato un modello per studiare la divergenza di proteine geni di codifica basato su Fisher–Wright modello di mutazione, selezione e deriva genetica casuale . Nel modello, ad ogni particolare sito di codone nel gene viene assegnato il proprio set di fitnesses di aminoacidi, e quindi il modello di Fisher–Wright viene utilizzato per calcolare il tasso evolutivo del sito. Il modello ha visto una rinascita negli ultimi anni, e variazioni di esso sono stati utilizzati, ad esempio, per studiare le prestazioni dei metodi di inferenza filogenetica , per studiare l’uso del codone e per stimare la distribuzione dei coefficienti di selezione nei geni codificanti proteine . Forse sorprendentemente, il modello non è stato utilizzato per studiare la dinamica del rapporto di velocità non sinonimo (noto anche come ω = dN/dS) dei geni codificanti proteine e il suo significato nello studio dell’evoluzione molecolare adattiva.

Lo scopo di questa nota è quello di proporre un modo per definire e calcolare un equivalente del concetto classico del rapporto di velocità non sinonimo a sinonimo, nel contesto del modello di mutazione-selezione di Halpern & Bruno . Si spera che utilizzando i primi principi della genetica delle popolazioni, possiamo ottenere un’espressione di ω in funzione dei coefficienti di selezione che agiscono nei siti del codone nel gene codificante per le proteine. Ciò dovrebbe fornire molte informazioni sulle dinamiche evolutive dei siti di codoni e dovrebbe essere di vantaggio nella costruzione di modelli statistici per rilevare l’evoluzione adattiva nei geni codificanti proteine.

Il modello di selezione delle mutazioni sito-saggio

Considera l’evoluzione di un codone sito k in un gene codificante per proteine in una popolazione con N genomi aploidi. Supponiamo che il sito sia attualmente corretto per il codone I (cioè tutti gli alleli N portano I al sito k). Nella mutazione–selezione quadro , il tasso di sostituzione (il tasso a cui il romanzo mutante codoni J apparire e diventare fisso nella popolazione)

Display Formula

2.1

Qui µIJ è il neutro tasso di mutazione (per generazione) da I a J, e dell’articolazione sacroiliaca,k = FJ,k – FI,k è il coefficiente di selezione a favore di codone e di J FJ,k = 2NfJ,k è la scala Malthusiano fitness di J. selezione Naturale colpisce il relativo tasso di sostituzione. Quando la mutazione è vantaggioso (articolazione sacroiliaca,k > 0), il tasso di sostituzione è superiore al neutro tasso (qIJ,k > µIJ), ma se la mutazione è deleterio (articolazione sacroiliaca,k < 0), quindi il tasso di sostituzione è ridotto (qIJ,k < µIJ). Qui, assumiamo che le sostituzioni sinonimi siano neutre (SIJ, k = 0), e quindi l’evoluzione nel sito k è determinata da 20 adattamenti di aminoacidi. Il µIJ può essere costruito da modelli standard di sostituzione del DNA (ad esempio, se I = TTT e J = TTC, quindi

Formula inlinesotto il modello di sostituzione HKY, vedere per i dettagli).

Equazione (2.1) descrive la sostituzione del codone nelle popolazioni come un processo di Markov a tempo continuo. Questo è sensato se il tasso di mutazione per generazione è piccolo rispetto alla dimensione della popolazione (Formula inline), in modo che ci sia poco polimorfismo nella popolazione e al massimo due alleli si segregano in un sito alla volta. La proporzione di tempo, nI,k, il sito k spende fisso per I (cioè il fermo di frequenza del I)

Display Formula

, doveInline Formulaè la frequenza per un neutrale evoluzione sequenza (cioè di uno pseudo-gene). Così, il tasso di sostituzione a k, in media nel corso del tempo, è

Display Formula

dove la sommatoria è sopra tutti codone coppie I ≠ J. Questo tasso può essere partizionato in non-sinonimo e sinonimo componente di costo, pk = pN,k + pS,k, dove

Display Formula

e dove l’indicatore di funzione = 1 se la sostituzione non è sinonimo di e = 0 in caso contrario. Si noti che il tasso sinonimo pS,k varia tra i siti (ad esempio, se un sito è conservato per la metionina, allora il tasso sinonimo è zero). Per una sequenza in evoluzione neutra, i tassi sono dati da

Visualizza la formula

Si noti che l’equazione (2.1) fornisce il tasso di sostituzione istantaneo, cioè il tasso condizionato al sito k che viene fissato per I al momento attuale. D’altra parte, pk è la velocità all’equilibrio, media su tutti i codoni e ponderata dalle loro frequenze stazionarie.

Il tasso di sostituzione relativo non sinonimo

Il rapporto assoluto non sinonimo di tasso di sostituzione nel sito k è pN,k/pS,k. Tuttavia, poiché sinonimo di tariffe variano su siti, abbiamo bisogno di normalizzare il rapporto dal sito della sinonimo rate ratio, Inline Formula e quindi normalizzare con Inline Formula (per correggere le diverse proporzioni dei sinonimi e non-sinonimo di sostituzioni presso la neutralità). Questo porta alla seguente definizione:

Visualizza la formula

3.1

In alternativa, possiamo definire wk come il tasso relativo non sinonimo wk = cpN,k dove la costante c è impostata in modo che il rapporto sia uno per sequenze in evoluzione neutra, cioè sotto il vincoloFormula inline. La soluzione ovvia èFormula inline che porta alla stessa definizione di cui sopra. Si noti che c ha la proprietà desiderabile di essere costante sui siti. Il lettore non dovrebbe essere sorpreso dal fatto che il tasso sinonimico esca dall’equazione (3.1). Quando si esegue l’inferenza statistica, le sostituzioni sinonimi hanno informazioni sui tassi di mutazione neutri e quindi informano il valore diFormula inline. Allo stesso modo, il tasso relativo sinonimo al sito k è

Visualizza la formula

3.2

La figura 1a mostra un esempio per il gene rbcL delle piante da fiore. I valori di fitness sono stati stimati sotto il modello Halpern-Bruno da Tamuri et al. , e usiamo i suoi valori per calcolare wk e yk qui. Le tariffe medie tra i siti sonoFormula inlineeFormula inline. Si noti che per molti siti, i tassi sinonimi sono più veloci rispetto a una sequenza in evoluzione neutra (ad esempio yk > 1). Ciò è dovuto alla natura eccentrica del codice genetico accoppiato con i pregiudizi mutazionali (Formula inline

Figura 1.

Figura 1. I tassi di sostituzione relativi non sinonimi (wk) e sinonimi (yk). (a) Tassi per il gene del cloroplasto rbcL delle monocotiledoni (piante da fiore). (b) Tassi per il gene pb2 dell’influenza A. In (a,b), le fitnesses in ciascun sito (FIJ,k) e i parametri di mutazione (Formula inline) sono stati stimati sotto il modello Halpern–Bruno per probabilità penalizzata (penalty α = 0.01) e sono da . Quindi, le equazioni (3.1) e (3.2) vengono utilizzate per calcolare wk e yk. In (b), sono stati identificati 25 siti adattivi (red) in cui le fitness sono diverse tra i virus che si evolvono negli ospiti umani rispetto a quelli aviari (il serbatoio naturale). Fitnesses per questi siti sotto ogni host sono stati stimati senza penalità e sono da . Quindi, l’equazione (4.1) viene utilizzata per calcolare Formula inline allo spostamento dell’host. L’intervallo diFormula inline è 0.231-7.64 (i valori più grandi sono troncati nella figura).

Il tasso non sinonimo durante l’evoluzione adattiva

Quando le fitnesses degli amminoacidi sono costanti nel tempo, i siti trascorreranno la maggior parte del tempo fissato per l’amminoacido ottimale. Occasionalmente, gli amminoacidi subottimali possono diventare fissi e quindi sostituiti dopo un breve periodo di tempo evolutivo. Ciò significa che il tasso non sinonimo nei siti è ridotto rispetto al tasso per le sequenze in evoluzione neutra (cioè wk < 1). Tuttavia, quando i fitnesses nei siti variano nel tempo (ad esempio, dopo uno spostamento dell’ambiente o sotto un’intensa selezione dipendente dalla frequenza), il tasso non sinonimo può essere accelerato rispetto al tasso per le sequenze in evoluzione neutra (wk > 1). Ora studiamo il caso in cui le fitnesses cambiano come adattamento a un ambiente nuovo.

Considera un sito k dove l’idoneità di I èFormula inline nell’ambiente A. Le frequenze stazionarie e i tassi di sostituzione istantanei sonoFormula inline. Ora, immagina che l’ambiente si sposti (ad esempio, una popolazione di mammiferi che vivono in un clima improvvisamente più freddo, o un virus che colonizza un nuovo ospite, dove l’ambiente intracellulare nel nuovo ospite è diverso dall’ospite del serbatoio). L’idoneità di I nel nuovo ambiente B è oraFormula inline. La probabilità che il sito sia attualmente fisso per I al momento dello spostamento dell’ambiente èFormula inline, ma il tasso di sostituzione è ora quello del nuovo ambienteFormula inline. Pertanto, i tassi assoluti e relativi non sinonimi previsti allo spostamento dell’ambiente sono

Visualizza la formula

4.1

Se lo spostamento dei valori di fitness è grande, la velocità sarà molto accelerata (Formula inline). Ciò si verifica perché è probabile che il sito si trovi fissato per un amminoacido non ottimale nel nuovo ambiente e nuove mutazioni agli amminoacidi ottimali si fisseranno rapidamente. Tuttavia, se il cambio di fitness è moderato, il tasso potrebbe essere ancora inferiore al tasso neutro (Formula inline).

La figura 1b mostra un esempio per il gene pb2 del virus dell’influenza. I valori di fitness sono stati stimati sotto il modello Halpern-Bruno da Tamuri et al. . Un sottoinsieme di 25 siti adattivi (in cui le fitnesses sono diverse per i virus che si evolvono negli ospiti umani rispetto a quelli aviari ) sono stati identificati da Tamuri et al. , e le loro fitnesses stimate da Tamuri et al. . Usiamo le stime per calcolare wk, yk eFormula inline qui. Il lignaggio classico dell’influenza umana probabilmente ha avuto origine da uno spostamento dell’ospite da un aviario a un serbatoio di mammiferi all’inizio del XX secolo . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is Inline Formula (across all sites Inline Formula and Inline Formula). Note that for 16 sites for which fitnesses are different between hosts, we find that Inline Formula. Ciò indica che il criterio wk > 1 per rilevare l’evoluzione adattiva è conservativo in questo caso.

La probabilità che il sito è fissato per I, un tempo t dopo l’ambiente shift

Display Formula

4.2

doveInline Formulasono le probabilità di transizione ottenuti utilizzando standard di Markov teoria, cioè calcolandoInline Formula. Pertanto, i tassi assoluti e relativi non sinonimi, il tempo t dopo lo spostamento, sono

Visualizza Formula

Le probabilità di transizione nell’equazione (4.2) sono funzioni di decadimento esponenziale del tempo, e quindiFormula inlineè anche un decadimento esponenziale. Inizialmente, il valore diFormula inlinesarà alto e, man mano che il tempo passa all’infinito,Formula inlinesi avvicinerà al valore stazionario dato dall’equazione (3.1). In altre parole, subito dopo uno spostamento dell’ambiente, una raffica di sostituzioni adattive si verificherà nei siti in cui le fitnesses sono cambiate e le sostituzioni si accumuleranno fino a quando il gene codificante la proteina raggiunge uno stato di equilibrio adattativo. Ad esempio, la figura 2a mostra il decadimento diFormula inlineper i 25 siti adattivi nel gene pb2 dopo uno spostamento dell’host.

Figura 2.

Figura 2. (a) Decadimento del tasso relativo non sinonimo dopo uno spostamento ospite per 25 siti adattivi (linee grigie) nel gene pb2 dell’influenza. La linea continua è la media tra i 25 siti,Formula inline. Con il passare del tempo, Formula inline si avvicina alla media a lungo termine Formula inline (linea tratteggiata). b) Il tasso relativo non sinonimo in funzione del coefficiente di selezione medio nei siti. Puntini rosa: i valori di idoneità per 10 000 siti sono stati campionati da distribuzioni normali con media 0 e σ = 0,…, 10. Quindi, le equazioni (3.1) e (5.1) sono state utilizzate per calcolare wk e Formula inline. Punti di grigio: un altro set di 10 000 fitness valori sono stati campionati come sopra, quindi le equazioni (4.2) e (5.1) sono stati utilizzati per calcolare Inline Formula e Inline Formula in ambiente modello di turno. Linea continua: S/(1−exp (- S)).

Conclusione

Gli autori precedenti hanno dimostrato che la relazione tra il tasso non sinonimo e il coefficiente di selezione è approssimativamente ω = S / (1-exp (−S)) , ma l’approssimazione si basa sul modello di siti infiniti o presuppone che tutti gli amminoacidi mutanti abbiano la stessa forma fisica. Le equazioni (3.1) e (4.1) forniscono approssimazioni più realistiche ma sono difficili da visualizzare. Si consideri un sito fisso per I. La probabilità che la mutazione successiva sia J èFormula inline per I J J. Nel corso del tempo, la proporzione di mutazioni da I a J nel sito sarà nI,kPIJ. In media, il coefficiente di selezione sulle mutazioni nel sito k è

Display Formula

5.1

Figura 2b mostra wk come una funzione diInline Formulaper simulati siti quando fitnesses sono costanti o quando si spostano con l’ambiente. Si noti che l’approssimazione ω = S / (1−exp (- S)) fornisce un limite inferiore ragionevole su wk. In generale,Formula inlineaumenta conFormula inline, ma la relazione non è così semplice come nelle approssimazioni precedenti .

Nel modello di selezione delle mutazioni del sito, si calcolano prima i coefficienti di selezione, e quindi si può sapere se un sito è stato sottoposto a selezione positiva senza calcolare wk . Tuttavia, il modello è troppo parametrizzato, computazionalmente costoso, e fitnesses può essere ben stimato solo in grandi set di dati . Invece, il modello dovrebbe essere di vantaggio nel ragionamento evolutivo e nella costruzione di modelli. Ad esempio , il comportamento di wk in modelli più complessi (come la selezione dipendente dalla frequenza, l’adattamento ai cambiamenti graduali dell’ambiente o la selezione sull’uso del codone ) può anche essere studiato sotto il framework di selezione delle mutazioni in loco. Questo sarà uno sforzo utile in quanto farà luce sulla nostra capacità di rilevare l’evoluzione adattiva nelle sequenze molecolari.

Accessibilità dei dati

I dati che accompagnano questo studio sono disponibili presso Dryad doi:10.5061 / dryad.3r3q4.

Ringraziamenti

Ringrazio Ziheng Yang, Richard Goldstein e Asif Tamuri per i preziosi commenti.

Dichiarazione di finanziamento

M. d.R. è supportato da BBSRC (UK) grant no. BB / J009709 / 1 assegnato a Ziheng Yang.

Conflitti di interesse

Non ho interessi concorrenti.

Note a piè di pagina

© 2015 Gli autori pubblicati dalla Royal Society. Tutti i diritti riservati.
  • 1
    Halpern AL& Bruno WJ. 1998distanze evolutive per sequenze codificanti proteine: modellazione delle frequenze di residui site-specific. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
  • 2
    Fisher R. 1930la teoria genetica della selezione naturale. Oxford, Regno Unito: Clarendon Press. Google Scholar
  • 3
    Wright S. 1931evoluzione nelle popolazioni mendeliane. Genetica 16, 97-159. PubMed, Google Scholar
  • 4
    Holder MT, Zwickl DJ & Dessimoz C. 2008valutando la robustezza dei metodi filogenetici alla variabilità tra siti nei processi di sostituzione. Phil. Trans. R. Soc. B 363, 4013-4021. (doi: 10.1098 / rstb.2008.0162). In questo caso, il sito è stato creato da Google Scholar
  • 5
    Spielman SJ& Wilke CO. 2015la relazione tra DN / dS e coefficienti di selezione scalati. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, ISI, Google Scholar
  • 6
    Yang Z& Nielsen R. 2008Mutation–selection models of codon substitution and their use to estimate selective strengths on codon usage. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093 / molbev / msm284). Crossref, PubMed, ISI, Google Scholar
  • 7
    Rodrigue N, Philippe H& Lartillot N. 2010Mutation–selection models of coding sequence evolution with site-heterogeneous amino acid fitness profiles. Proc. Natl Acad. Sic. Stati Uniti 107, 4629-4634. (doi: 10.1073 / pnas.0910915107). In questo modo, il sistema di gestione delle risorse umane è in grado di garantire la sicurezza e la sicurezza dei propri utenti. 2012stimating the distribution of selection coefficients from phylogenetic data using sitewise mutation – selection models. Genetica 190, 1101-1115. (doi: 10.1534 / genetica.111.136432). Crossref, PubMed, ISI, Google Scholar
  • 9
    Tamuri AU, Goldman N& dos Reis M. 2014UN metodo di probabilità penalizzata per stimare la distribuzione dei coefficienti di selezione dai dati filogenetici. Genetica 197, 257-271. (doi: 10.1534 / genetica.114.162263). Crossref, PubMed, ISI, Google Scholar
  • 10
    dos Reis M. 2013Population genetics and substitution models of adaptive evolution. (http://arxiv.org/abs/1311.6682). Google Scholar
  • 11
    Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009identificare i cambiamenti nei vincoli selettivi: cambiamenti dell’ospite nell’influenza. PLoS Comput. Biol. 5, e1000564. (doi: 10.1371 / giornale.pcbi.1000564). 12

    dos Reis M, Hay AJ & Goldstein RA. 2009 Utilizzo di modelli non omogenei di sostituzione nucleotidica per identificare gli eventi di spostamento dell’ospite: applicazione all’origine del virus pandemico influenzale “spagnolo” del 1918. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
  • 13
    Nielsen R& Yang Z. 2003stimating the distribution of selection coefficients from phylogenetic data with applications to mitochondrial and viral DNA. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093 / molbev / msg147). Crossref, PubMed, ISI, Google Scholar
  • 14
    Bustamante CD. 2005Population genetics of molecular evolution. Metodi statistici nell’evoluzione molecolare (ed. & Nielsen R), pp. 63-99. Il suo nome deriva dal nome di “Springer”. Crossref, Google Scholar