Introdução
Halpern & Bruno desenvolveu um modelo para o estudo da divergência de proteína-codificação de genes com base na Fisher–Wright modelo de mutação, selecção e deriva genética ao acaso . No modelo, cada local de codon particular no gene é atribuído seu próprio conjunto de fitnesses de aminoácidos, e então o modelo Fisher–Wright é usado para trabalhar a taxa evolutiva do local. O modelo tem visto um ressurgimento nos últimos anos, e variações dele têm sido usadas, por exemplo , para estudar o desempenho dos métodos de inferência filogenética, para estudar o uso do codão e para estimar a distribuição de coeficientes de seleção em genes codificadores de proteínas . Talvez surpreendentemente, o modelo não tem sido usado para estudar a dinâmica da razão de taxa não sinônima (também conhecida como ω = dN/dS) de genes codificadores de proteínas e sua significância no estudo da evolução molecular adaptativa.
a finalidade desta nota é propor uma forma de definir e calcular um equivalente do conceito clássico da razão taxa não sinônimo para sinônimo, no contexto do modelo de seleção de mutação de Halpern & Bruno . Espera-se que usando os primeiros princípios da genética populacional, podemos obter uma expressão de ω como uma função dos coeficientes de seleção atuando em locais de codon no gene de codificação de proteínas. Isto deve fornecer uma grande visão sobre a dinâmica evolutiva dos locais de codon e deve ser de vantagem na construção de modelos estatísticos para detectar a evolução adaptativa em genes codificadores de proteínas.
the site-wise mutation–selection model
Consider the evolution of a codon site k in a protein-coding gene in a population with n haploid genomes. Suponha que o local está atualmente fixado para o codon i (ou seja, todos os n alelos carregam I no local k). Na mutação–seleção do quadro , a taxa de substituição (a taxa em que a novela mutantes códons J aparecer e, eventualmente, tornar-se fixos na população) é
Aqui µIJ é o neutro, a taxa de mutação (por geração) entre I e J, e SIJ,k = FJ,k – FI,k é o coeficiente de seleção em favor de codões J e FJ,k = 2NfJ,k é a escala Malthusiana de fitness, de J. seleção Natural afeta a relativa taxa de substituição. Quando a mutação é vantajoso (SIJ,k > 0), a taxa de substituição é maior do que o neutro taxa (qIJ,k > µIJ), mas se a mutação é deletéria (SIJ,k < 0), então a taxa de substituição é reduzida (qIJ,k < µIJ). Aqui, assumimos que substituições sinônimas são neutras (SIJ, k = 0), e assim, a evolução no local k é determinada por 20 fitnesses de aminoácidos. The µIJ can be constructed from standard DNA substitution models (for example, if I = TTT and J = TTC, then
under the HKY substitution model, see for details).
equação (2.1) descreve a substituição de codon em populações como um processo de Markov em tempo contínuo. Isto é útil se por geração de taxa de mutação é pequeno comparado com o tamanho da população (), de modo que há pouco polimorfismo na população, e, no máximo, dois alelos segregam em um site de cada vez. A proporção de tempo, nI,k, que site k passa fixo para eu (i.e. o estacionário frequência de I)
, ondeé a frequência de uma forma neutra evolução seqüência (isto é, um pseudo-gene). Assim, a taxa de substituição em k, a média ao longo do tempo, é
onde a soma é sobre todos os códons pares I ≠ J. Esta taxa pode ser particionado em sua não-sinônimos e sinônimo de componente de taxas, pk = pN,k + pS,k, onde
e onde a função do indicador NO = 1, se a substituição não é sinônimo de e = 0, caso contrário. Note que a taxa sinônima pS, k varia entre os sites (por exemplo, se um site é conservado para metionina, então a taxa sinônima é zero). De uma forma neutra evolução sequência, as taxas são dadas por
Note que a equação (2.1) dá instantânea a taxa de substituição, isto é, a taxa condicionado no site k fixo para I no tempo presente. Por outro lado, pk é a taxa em equilíbrio, média em todos os codões e ponderada por suas frequências estacionárias.
a taxa de substituição relativa não sinónima
a razão absoluta não sinónima de taxa de substituição sinónima no local k é pN,k / pS,K. No entanto, como sinônimo de taxas variam de sites, precisamos normalizar a taxa pelo site é sinônimo de taxa de proporção, e, em seguida, normalizar por (para corrigir, para as diferentes proporções de sinônimas e não-sinônimas substituições de neutralidade). Isto leva à seguinte definição:
em Alternativa, podemos definir wk como as relativas não-sinônimo de taxa de wk = cpN,k, onde a constante c é definido de modo que a proporção é de uma para “neutra” a evolução de seqüências, isto é, sob a restrição de . A solução óbvia é levando à mesma definição que acima. Note que c tem a propriedade desejável de ser constante sobre os sites. O leitor não deve ficar surpreso que a taxa sinônima saia da equação (3.1). Ao fazer inferência estatística, substituições sinônimas têm informações sobre as taxas de mutação neutra, e assim informar o valor de . Similarmente, a taxa de sinônimo relativa no local k é
a figura 1a mostra um exemplo para o gene rbcL das plantas com flor. Valores de Fitness foram estimados sob o modelo Halpern-Bruno por Tamuri et al. e usamos os valores deles para calcular wk e yk aqui. A média de taxas através de sites
e. Note que para muitos sites, as taxas sinônimas são mais rápidas do que para uma sequência em evolução Neutral (i.e. yk > 1). Isto é devido à peculiar natureza do código genético, juntamente com o mutacional preconceitos (
a taxa não sinónima durante a evolução adaptativa
quando as fitness dos aminoácidos são constantes ao longo do tempo, os locais passarão a maior parte do tempo fixado para o aminoácido ideal. Ocasionalmente, aminoácidos suboptimais podem tornar-se fixos, e depois substituídos após um curto período de tempo evolutivo. Isto significa que a taxa não sinónima nos locais é reduzida em comparação com a taxa para sequências de evolução neutralizada (isto é, wk < 1). No entanto, quando as fitnessias em locais variam ao longo do tempo (por exemplo, após uma mudança de ambiente ou sob intensa seleção dependente de frequência ), a taxa não-sinônimo pode ser acelerada em comparação com a taxa para sequências em evolução Neutral (wk > 1). Agora estudamos o caso em que as fitnesses mudam como uma adaptação a um ambiente novo.
considere um site k onde a aptidão de I é no ambiente A. As frequências estacionárias e as taxas de substituição instantâneas são . Agora, imagine que o ambiente muda (por exemplo, uma população de mamíferos vivendo em um clima repentinamente mais frio, ou um vírus colonizando um novo hospedeiro, onde o ambiente intracelular no novo hospedeiro é diferente do hospedeiro reservatório). The fitness of I in the new environment B is now . A probabilidade de que o site está atualmente fixado para eu no momento em que o ambiente de mudança é , mas a taxa de substituição é de agora que o novo ambiente . Assim, as taxas absolutas e relativas não sinônimas esperadas no deslocamento do ambiente são
Se a mudança nos valores de aptidão é grande, então a taxa será muito acelerada (). Isto ocorre porque é provável que o local se encontre fixado para um aminoácido suboptimal no novo ambiente, e novas mutações para aminoácidos ótimos se fixarão rapidamente. No entanto, se o deslocamento de fitness for moderado, a taxa ainda pode ser inferior à taxa neutra ().a figura 1b mostra um exemplo para o gene pb2 do vírus da gripe. Valores de Fitness foram estimados sob o modelo Halpern-Bruno por Tamuri et al. . Um subconjunto de 25 locais adaptativos (onde as fitnesses são diferentes para vírus que evoluem em hospedeiros humanos versus aves ) foi identificado pela Tamuri et al. , e suas fitness estimated by Tamuri et al. . Nós usamos as estimativas para calcular wk, yk e aqui. A linhagem clássica da gripe humana provavelmente se originou de uma mudança hospedeira de uma ave para um reservatório mamífero no início do século XX. We calculate at the putative host shift. The average rate at adaptive sites is (across all sites and ). Note that for 16 sites for which fitnesses are different between hosts, we find that . Isto indica que o critério wk > 1 para detectar a evolução adaptativa é conservador neste caso.
a probabilidade de que O site é fixo para eu, o tempo t após o ambiente de mudança
ondesão as probabilidades de transição obtidos utilizando o padrão de Markov teoria, por exemplo, calculando. Assim, a absoluta e a relativa não-sinônimo de taxas, o tempo t após a mudança, são
As probabilidades de transição na equação (4.2) são decaimento exponencial função do tempo, e, portanto,é também um declínio exponencial. Inicialmente, o valor deserá alta, e como o tempo vai para o infinito,vai abordar o estacionário valor dado pela equação (3.1). Em outras palavras, logo após uma mudança de ambiente, uma explosão de substituições adaptativas ocorrerá em locais onde as fitness mudaram, e substituições se acumularão até que o gene de codificação de proteínas atinja um estado de equilíbrio adaptativo. Por exemplo, a figura 2a mostra o decaimento depara os 25 locais adaptativos no gene pb2 após um deslocamento do hospedeiro.
Conclusão
autores Anteriores têm mostrado que a relação entre o não-sinônimo de taxa de seleção e o coeficiente é de aproximadamente ω = S/(1 − exp(−S)) , mas a aproximação baseia-se no infinito-sites ou modelo assume que todos os mutantes aminoácidos têm a mesma aptidão. Equações (3.1) e (4.1) fornecem aproximações mais realistas, mas são difíceis de visualizar. Considere um local fixo para mim. A probabilidade de que a próxima mutação será J é para i ≠ J. com o tempo, a proporção de mutações I A J no local será nI,kPIJ. Assim, a seleção média coeficiente de mutações no site k é
Figura 2b mostra wk como uma função depara simular a sites quando adequação são constantes ou quando mudam com o meio ambiente. Note que a aproximação ω = S/(1−exp (- S)) fornece um limite inferior razoável em wk. Em geral,aumenta com, mas a relação não é tão simples como no anterior aproximações .
no modelo de seleção de mutação-local, calcula-se primeiro os coeficientes de seleção, e, portanto, pode-se saber se um site esteve sob seleção positiva sem calcular wk . No entanto, o modelo é super parametrizado, computacionalmente caro, e fitness pode ser bem estimado apenas em grandes conjuntos de dados . Em vez disso, o modelo deve ser de vantagem no raciocínio evolutivo e na construção de modelos. Por exemplo , o comportamento da wk sob modelos mais complexos (tais como seleção dependente de frequência, adaptação a mudanças graduais do ambiente ou seleção de codon ) também pode ser estudado sob o site-wise mutation-selection framework. Este será um esforço que valerá a pena, pois irá lançar luz sobre a nossa capacidade de detectar evolução adaptativa em sequências moleculares.
acessibilidade dos dados
os dados que acompanham este estudo estão disponíveis Em Dryad doi: 10.5061 / dryad.3r3q4.agradeço a Ziheng Yang, Richard Goldstein e Asif Tamuri por comentários valiosos.
Declaração de financiamento
M. D. R. é apoiada pela BBSRC (UK) grant no. BB / J009709 / 1 concedido a Ziheng Yang.Não tenho interesses concorrentes.
notas
- 1
Halpern AL& Bruno WJ. 1998diversas distâncias para sequências de codificação de proteínas: modelagem de frequências de resíduos específicas do local. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
- 2
Fisher R. 1930The genetic theory of natural selection. Oxford, UK: Clarendon Press. Google Scholar
- 3
Wright s. 1931Evolution in Mendelian populations. Genetics 16, 97-159. PubMed, Google Scholar
- 4
Titular MT, Zwickl DJ& Dessimoz C. 2008Evaluating a robustez do filogenética métodos para entre-site variabilidade na substituição de processos. Phil. Transexual. R. Soc. B 363, 4013-4021. (doi: 10.1098 / rstb.2008.0162). Link, ISI, Google Scholar
- 5
Spielman SJ& Wilke CO. 2015relação entre dN / dS e coeficientes de selecção dimensionados. Mol. Biol. Evol. 32. (doi:10.1093/molbev/msv003). Crossref, PubMed, ISI, o Google Scholar
- 6
Yang Z& Nielsen R. 2008Mutation–seleção de modelos de codões de substituição e de seu uso para estimar seletiva forças no uso de codons. Mol. Biol. Evol. 25, 568–579. (doi:10.1093/molbev/msm284). Crossref, PubMed, ISI, Google Scholar
- 7
Rodrigue N, Philippe H& Lartillot N. 2010Mutation–selection models of coding sequence evolution with site-heterogeneous amino acid fitness profiles. Procedimento. Natl Acad. Ciência. USA 107, 4629-4634. (doi: 10.1073 / pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
- 8
Tamuri AU, dos Reis M& Goldstein RA. 2012 estimating the distribution of selection coefficients from phylogenetic data using sitewise mutation–selection models. Genetics 190, 1101-1115. (doi:10.1534/genetics.111.136432). Crossref, PubMed, ISI, Google Scholar
- 9
Tamuri AU, Goldman n& dos Reis M. 2014A penalized-likelihood method to estimate the distribution of selection coefficients from phylogenetic data. Genetics 197, 257-271. (doi:10.1534/genetics.114.162263). Crossref, PubMed, ISI, Google Scholar
- 10
dos Reis m. 2013Population genetics and substitution models of adaptive evolution. (http://arxiv.org/abs/1311.6682). Google Scholar
- 11
Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009identificação de alterações nas restrições selectivas: mudança de hospedeiro na gripe. PLoS Comput. Biol. 5, e1000564. (doi:10.1371/journal.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
- 12
dos Reis M, Hay AJ& Goldstein RA. 2009utilização de modelos não homogéneos de substituição de nucleótidos para identificar os eventos de mudança do hospedeiro: aplicação à origem do vírus da pandemia de gripe “espanhola” de 1918. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
- 13
Nielsen R& Yang Z. 2003Estimating the distribution of selection coefficients from phylogenetic data with applications to mitochondrial and viral DNA. Mol. Biol. Evol. 20, 1231–1239. (doi:10.1093/molbev/msg147). Crossref, PubMed, ISI, Google Scholar
- 14
Bustamante CD. 2005população genética da evolução molecular. Statistical methods in molecular evolution (ed. & Nielsen R), pp. 63-99. New York, NY: Springer. Crossref, Google Scholar