Como calcular o não-sinônimo sinônimo de taxa de proporção de genes codificadores de proteínas sob a Fisher–Wright mutação–seleção framework

Introdução

Halpern & Bruno desenvolveu um modelo para o estudo da divergência de proteína-codificação de genes com base na Fisher–Wright modelo de mutação, selecção e deriva genética ao acaso . No modelo, cada local de codon particular no gene é atribuído seu próprio conjunto de fitnesses de aminoácidos, e então o modelo Fisher–Wright é usado para trabalhar a taxa evolutiva do local. O modelo tem visto um ressurgimento nos últimos anos, e variações dele têm sido usadas, por exemplo , para estudar o desempenho dos métodos de inferência filogenética, para estudar o uso do codão e para estimar a distribuição de coeficientes de seleção em genes codificadores de proteínas . Talvez surpreendentemente, o modelo não tem sido usado para estudar a dinâmica da razão de taxa não sinônima (também conhecida como ω = dN/dS) de genes codificadores de proteínas e sua significância no estudo da evolução molecular adaptativa.

a finalidade desta nota é propor uma forma de definir e calcular um equivalente do conceito clássico da razão taxa não sinônimo para sinônimo, no contexto do modelo de seleção de mutação de Halpern & Bruno . Espera-se que usando os primeiros princípios da genética populacional, podemos obter uma expressão de ω como uma função dos coeficientes de seleção atuando em locais de codon no gene de codificação de proteínas. Isto deve fornecer uma grande visão sobre a dinâmica evolutiva dos locais de codon e deve ser de vantagem na construção de modelos estatísticos para detectar a evolução adaptativa em genes codificadores de proteínas.

the site-wise mutation–selection model

Consider the evolution of a codon site k in a protein-coding gene in a population with n haploid genomes. Suponha que o local está atualmente fixado para o codon i (ou seja, todos os n alelos carregam I no local k). Na mutação–seleção do quadro , a taxa de substituição (a taxa em que a novela mutantes códons J aparecer e, eventualmente, tornar-se fixos na população) é

Exibir Fórmula

2.1

Aqui µIJ é o neutro, a taxa de mutação (por geração) entre I e J, e SIJ,k = FJ,k – FI,k é o coeficiente de seleção em favor de codões J e FJ,k = 2NfJ,k é a escala Malthusiana de fitness, de J. seleção Natural afeta a relativa taxa de substituição. Quando a mutação é vantajoso (SIJ,k > 0), a taxa de substituição é maior do que o neutro taxa (qIJ,k > µIJ), mas se a mutação é deletéria (SIJ,k < 0), então a taxa de substituição é reduzida (qIJ,k < µIJ). Aqui, assumimos que substituições sinônimas são neutras (SIJ, k = 0), e assim, a evolução no local k é determinada por 20 fitnesses de aminoácidos. The µIJ can be constructed from standard DNA substitution models (for example, if I = TTT and J = TTC, then

Inline Formulaunder the HKY substitution model, see for details).

equação (2.1) descreve a substituição de codon em populações como um processo de Markov em tempo contínuo. Isto é útil se por geração de taxa de mutação é pequeno comparado com o tamanho da população (Inline Fórmula), de modo que há pouco polimorfismo na população, e, no máximo, dois alelos segregam em um site de cada vez. A proporção de tempo, nI,k, que site k passa fixo para eu (i.e. o estacionário frequência de I)

Exibir Fórmula

, ondeInline Fórmulaé a frequência de uma forma neutra evolução seqüência (isto é, um pseudo-gene). Assim, a taxa de substituição em k, a média ao longo do tempo, é

Exibir Fórmula

onde a soma é sobre todos os códons pares I ≠ J. Esta taxa pode ser particionado em sua não-sinônimos e sinônimo de componente de taxas, pk = pN,k + pS,k, onde

Exibir Fórmula

e onde a função do indicador NO = 1, se a substituição não é sinônimo de e = 0, caso contrário. Note que a taxa sinônima pS, k varia entre os sites (por exemplo, se um site é conservado para metionina, então a taxa sinônima é zero). De uma forma neutra evolução sequência, as taxas são dadas por

Exibir Fórmula

Note que a equação (2.1) dá instantânea a taxa de substituição, isto é, a taxa condicionado no site k fixo para I no tempo presente. Por outro lado, pk é a taxa em equilíbrio, média em todos os codões e ponderada por suas frequências estacionárias.

a taxa de substituição relativa não sinónima

a razão absoluta não sinónima de taxa de substituição sinónima no local k é pN,k / pS,K. No entanto, como sinônimo de taxas variam de sites, precisamos normalizar a taxa pelo site é sinônimo de taxa de proporção, Inline Fórmula e, em seguida, normalizar por Inline Fórmula (para corrigir, para as diferentes proporções de sinônimas e não-sinônimas substituições de neutralidade). Isto leva à seguinte definição:

Display Formula

3.1

em Alternativa, podemos definir wk como as relativas não-sinônimo de taxa de wk = cpN,k, onde a constante c é definido de modo que a proporção é de uma para “neutra” a evolução de seqüências, isto é, sob a restrição de Inline Fórmula. A solução óbvia é fórmula incorporada levando à mesma definição que acima. Note que c tem a propriedade desejável de ser constante sobre os sites. O leitor não deve ficar surpreso que a taxa sinônima saia da equação (3.1). Ao fazer inferência estatística, substituições sinônimas têm informações sobre as taxas de mutação neutra, e assim informar o valor de fórmula Inline. Similarmente, a taxa de sinônimo relativa no local k é

exibe a fórmula

3.2

a figura 1a mostra um exemplo para o gene rbcL das plantas com flor. Valores de Fitness foram estimados sob o modelo Halpern-Bruno por Tamuri et al. e usamos os valores deles para calcular wk e yk aqui. A média de taxas através de sites

Inline FórmulaeInline Fórmula. Note que para muitos sites, as taxas sinônimas são mais rápidas do que para uma sequência em evolução Neutral (i.e. yk > 1). Isto é devido à peculiar natureza do código genético, juntamente com o mutacional preconceitos (Inline Fórmula

Figura 1.Figura 1. As taxas de substituição relativas não sinónimas (wk) e sinónimas (yk). a) taxas para o gene rbcL cloroplastos de monocotiledóneas (plantas com flor). (b) as Tarifas para o pb2 gene da gripe A. Em (a,b), a adequação em cada site (FIJ,k) e a mutação parâmetros (Inline Fórmula) foram estimadas sob o Halpern–Bruno modelo penalizado probabilidade de punição (α = 0,01) e a partir de . Em seguida, equações (3.1) e (3.2) são usadas para calcular wk e yk. Na alínea b), foram identificados 25 sítios adaptáveis (vermelho) onde as fitnesses são diferentes entre os vírus que evoluem em hospedeiros humanos e aves (reservatório natural). As frequências para estes locais sob cada hospedeiro foram estimadas sem penalidade e são de . Então, a equação (4.1) é usada para calcular fórmula Inline no deslocamento da máquina. O intervalo de Inline Fórmula é 0.231–7.64 (os maiores valores são truncados na figura).

a taxa não sinónima durante a evolução adaptativa

quando as fitness dos aminoácidos são constantes ao longo do tempo, os locais passarão a maior parte do tempo fixado para o aminoácido ideal. Ocasionalmente, aminoácidos suboptimais podem tornar-se fixos, e depois substituídos após um curto período de tempo evolutivo. Isto significa que a taxa não sinónima nos locais é reduzida em comparação com a taxa para sequências de evolução neutralizada (isto é, wk < 1). No entanto, quando as fitnessias em locais variam ao longo do tempo (por exemplo, após uma mudança de ambiente ou sob intensa seleção dependente de frequência ), a taxa não-sinônimo pode ser acelerada em comparação com a taxa para sequências em evolução Neutral (wk > 1). Agora estudamos o caso em que as fitnesses mudam como uma adaptação a um ambiente novo.

considere um site k onde a aptidão de I é fórmula Inline no ambiente A. As frequências estacionárias e as taxas de substituição instantâneas são fórmula Inline. Agora, imagine que o ambiente muda (por exemplo, uma população de mamíferos vivendo em um clima repentinamente mais frio, ou um vírus colonizando um novo hospedeiro, onde o ambiente intracelular no novo hospedeiro é diferente do hospedeiro reservatório). The fitness of I in the new environment B is now Inline Formula. A probabilidade de que o site está atualmente fixado para eu no momento em que o ambiente de mudança é Inline Fórmula, mas a taxa de substituição é de agora que o novo ambiente Inline Fórmula. Assim, as taxas absolutas e relativas não sinônimas esperadas no deslocamento do ambiente são

exibe a fórmula

4.1

Se a mudança nos valores de aptidão é grande, então a taxa será muito acelerada (fórmula Inline). Isto ocorre porque é provável que o local se encontre fixado para um aminoácido suboptimal no novo ambiente, e novas mutações para aminoácidos ótimos se fixarão rapidamente. No entanto, se o deslocamento de fitness for moderado, a taxa ainda pode ser inferior à taxa neutra (fórmula Inline).a figura 1b mostra um exemplo para o gene pb2 do vírus da gripe. Valores de Fitness foram estimados sob o modelo Halpern-Bruno por Tamuri et al. . Um subconjunto de 25 locais adaptativos (onde as fitnesses são diferentes para vírus que evoluem em hospedeiros humanos versus aves ) foi identificado pela Tamuri et al. , e suas fitness estimated by Tamuri et al. . Nós usamos as estimativas para calcular wk, yk e fórmula Inline aqui. A linhagem clássica da gripe humana provavelmente se originou de uma mudança hospedeira de uma ave para um reservatório mamífero no início do século XX. We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is Inline Formula (across all sites Inline Formula and Inline Formula). Note that for 16 sites for which fitnesses are different between hosts, we find that Inline Formula. Isto indica que o critério wk > 1 para detectar a evolução adaptativa é conservador neste caso.

a probabilidade de que O site é fixo para eu, o tempo t após o ambiente de mudança

Exibir Fórmula

4.2

ondeInline Fórmulasão as probabilidades de transição obtidos utilizando o padrão de Markov teoria, por exemplo, calculandoInline Fórmula. Assim, a absoluta e a relativa não-sinônimo de taxas, o tempo t após a mudança, são

Exibir Fórmula

As probabilidades de transição na equação (4.2) são decaimento exponencial função do tempo, e, portanto,Inline Fórmulaé também um declínio exponencial. Inicialmente, o valor deInline Fórmulaserá alta, e como o tempo vai para o infinito,Inline Fórmulavai abordar o estacionário valor dado pela equação (3.1). Em outras palavras, logo após uma mudança de ambiente, uma explosão de substituições adaptativas ocorrerá em locais onde as fitness mudaram, e substituições se acumularão até que o gene de codificação de proteínas atinja um estado de equilíbrio adaptativo. Por exemplo, a figura 2a mostra o decaimento defórmula Inlinepara os 25 locais adaptativos no gene pb2 após um deslocamento do hospedeiro.

Figura 2.Figura 2. a) decaimento na taxa relativa não sinónima após mudança do hospedeiro para 25 locais adaptativos (linhas cinzentas) no gene pb2 da gripe. A linha sólida é a média através dos 25 locais,fórmula Inline. Como o tempo passa, Inline Fórmula aproxima da média a longo prazo Inline Fórmula (linha pontilhada). b) a taxa relativa não sinónima em função do coeficiente de selecção médio nos locais. Pontos rosa: os valores de aptidão para 10 000 locais foram amostrados a partir de distribuições normais com média 0 e σ = 0, … , 10. Então, equações (3.1) e (5.1) foram usadas para calcular wk e fórmula em linha. Pontos cinza: outro conjunto de 10 000 fitness valores foram amostrados como acima, em seguida, as equações (4.2) e (5.1) foram utilizados para calcular Inline Fórmula e Inline Fórmula em um ambiente de mudança de modelo. Linha sólida: S / (1-exp (- s)).

Conclusão

autores Anteriores têm mostrado que a relação entre o não-sinônimo de taxa de seleção e o coeficiente é de aproximadamente ω = S/(1 − exp(−S)) , mas a aproximação baseia-se no infinito-sites ou modelo assume que todos os mutantes aminoácidos têm a mesma aptidão. Equações (3.1) e (4.1) fornecem aproximações mais realistas, mas são difíceis de visualizar. Considere um local fixo para mim. A probabilidade de que a próxima mutação será J é fórmula Inline para i ≠ J. com o tempo, a proporção de mutações I A J no local será nI,kPIJ. Assim, a seleção média coeficiente de mutações no site k é

Exibir Fórmula

5.1

Figura 2b mostra wk como uma função deInline Fórmulapara simular a sites quando adequação são constantes ou quando mudam com o meio ambiente. Note que a aproximação ω = S/(1−exp (- S)) fornece um limite inferior razoável em wk. Em geral,Inline Fórmulaaumenta comInline Fórmula, mas a relação não é tão simples como no anterior aproximações .

no modelo de seleção de mutação-local, calcula-se primeiro os coeficientes de seleção, e, portanto, pode-se saber se um site esteve sob seleção positiva sem calcular wk . No entanto, o modelo é super parametrizado, computacionalmente caro, e fitness pode ser bem estimado apenas em grandes conjuntos de dados . Em vez disso, o modelo deve ser de vantagem no raciocínio evolutivo e na construção de modelos. Por exemplo , o comportamento da wk sob modelos mais complexos (tais como seleção dependente de frequência, adaptação a mudanças graduais do ambiente ou seleção de codon ) também pode ser estudado sob o site-wise mutation-selection framework. Este será um esforço que valerá a pena, pois irá lançar luz sobre a nossa capacidade de detectar evolução adaptativa em sequências moleculares.

acessibilidade dos dados

os dados que acompanham este estudo estão disponíveis Em Dryad doi: 10.5061 / dryad.3r3q4.agradeço a Ziheng Yang, Richard Goldstein e Asif Tamuri por comentários valiosos.

Declaração de financiamento

M. D. R. é apoiada pela BBSRC (UK) grant no. BB / J009709 / 1 concedido a Ziheng Yang.Não tenho interesses concorrentes.

notas

© 2015 o autor(es) publicado pela Royal Society. Todos os direitos reservados.
  • 1
    Halpern AL& Bruno WJ. 1998diversas distâncias para sequências de codificação de proteínas: modelagem de frequências de resíduos específicas do local. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
  • 2
    Fisher R. 1930The genetic theory of natural selection. Oxford, UK: Clarendon Press. Google Scholar
  • 3
    Wright s. 1931Evolution in Mendelian populations. Genetics 16, 97-159. PubMed, Google Scholar
  • 4
    Titular MT, Zwickl DJ& Dessimoz C. 2008Evaluating a robustez do filogenética métodos para entre-site variabilidade na substituição de processos. Phil. Transexual. R. Soc. B 363, 4013-4021. (doi: 10.1098 / rstb.2008.0162). Link, ISI, Google Scholar
  • 5
    Spielman SJ& Wilke CO. 2015relação entre dN / dS e coeficientes de selecção dimensionados. Mol. Biol. Evol. 32. (doi:10.1093/molbev/msv003). Crossref, PubMed, ISI, o Google Scholar
  • 6
    Yang Z& Nielsen R. 2008Mutation–seleção de modelos de codões de substituição e de seu uso para estimar seletiva forças no uso de codons. Mol. Biol. Evol. 25, 568–579. (doi:10.1093/molbev/msm284). Crossref, PubMed, ISI, Google Scholar
  • 7
    Rodrigue N, Philippe H& Lartillot N. 2010Mutation–selection models of coding sequence evolution with site-heterogeneous amino acid fitness profiles. Procedimento. Natl Acad. Ciência. USA 107, 4629-4634. (doi: 10.1073 / pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
  • 8
    Tamuri AU, dos Reis M& Goldstein RA. 2012 estimating the distribution of selection coefficients from phylogenetic data using sitewise mutation–selection models. Genetics 190, 1101-1115. (doi:10.1534/genetics.111.136432). Crossref, PubMed, ISI, Google Scholar
  • 9
    Tamuri AU, Goldman n& dos Reis M. 2014A penalized-likelihood method to estimate the distribution of selection coefficients from phylogenetic data. Genetics 197, 257-271. (doi:10.1534/genetics.114.162263). Crossref, PubMed, ISI, Google Scholar
  • 10
    dos Reis m. 2013Population genetics and substitution models of adaptive evolution. (http://arxiv.org/abs/1311.6682). Google Scholar
  • 11
    Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009identificação de alterações nas restrições selectivas: mudança de hospedeiro na gripe. PLoS Comput. Biol. 5, e1000564. (doi:10.1371/journal.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
  • 12
    dos Reis M, Hay AJ& Goldstein RA. 2009utilização de modelos não homogéneos de substituição de nucleótidos para identificar os eventos de mudança do hospedeiro: aplicação à origem do vírus da pandemia de gripe “espanhola” de 1918. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
  • 13
    Nielsen R& Yang Z. 2003Estimating the distribution of selection coefficients from phylogenetic data with applications to mitochondrial and viral DNA. Mol. Biol. Evol. 20, 1231–1239. (doi:10.1093/molbev/msg147). Crossref, PubMed, ISI, Google Scholar
  • 14
    Bustamante CD. 2005população genética da evolução molecular. Statistical methods in molecular evolution (ed. & Nielsen R), pp. 63-99. New York, NY: Springer. Crossref, Google Scholar

Deixe uma resposta

O seu endereço de email não será publicado.