Introducción
Halpern & Bruno ideó un modelo para estudiar la divergencia de genes codificadores de proteínas basado en el modelo de mutación, selección y deriva genética aleatoria . En el modelo, a cada sitio de codón en particular en el gen se le asigna su propio conjunto de ajustes de aminoácidos, y luego se utiliza el modelo de Fisher–Wright para calcular la velocidad evolutiva del sitio. El modelo ha experimentado un resurgimiento en los últimos años, y se han utilizado variaciones del mismo, por ejemplo, para estudiar el rendimiento de los métodos de inferencia filogenética , para estudiar el uso de codones y para estimar la distribución de coeficientes de selección en genes codificadores de proteínas . Tal vez sorprendentemente, el modelo no se ha utilizado para estudiar la dinámica de la relación de velocidad no sinónimo a sinónimo (también conocida como ω = dN/dS) de genes codificadores de proteínas y su importancia en el estudio de la evolución molecular adaptativa.
El propósito de esta nota es proponer una forma de definir y calcular un equivalente del concepto clásico de la relación de tasa no sinónimo a sinónimo, en el contexto del modelo de selección de mutaciones de Halpern & Bruno . Se espera que utilizando los primeros principios de la genética de poblaciones, podamos obtener una expresión de ω en función de los coeficientes de selección que actúan en los sitios de codones en el gen codificador de proteínas. Esto debería proporcionar mucha información sobre la dinámica evolutiva de los sitios de codones y debería ser de ventaja en la construcción de modelos estadísticos para detectar la evolución adaptativa en genes codificadores de proteínas.
El modelo de selección de mutaciones en el sitio
Considera la evolución de un sitio de codón k en un gen codificador de proteínas en una población con genomas haploides N. Supongamos que el sitio está actualmente fijo para el codón I (es decir, todos los N alelos llevan I en el sitio k). En el marco de selección de mutaciones , la tasa de sustitución (la tasa a la que aparecen nuevos codones mutantes J y finalmente se fijan en la población) es
Aquí µIJ es la tasa de mutación neutra (por generación) de I a J, y SIJ,k = FJ,k – FI,k es el coeficiente de selección a favor del codón J y FJ,k = 2NfJ,k es la aptitud maltusiana a escala de J. La selección natural afecta la tasa de sustitución relativa. Cuando la mutación es ventajosa (SIJ,k > 0), la tasa de sustitución es mayor que la tasa neutra (qIJ,k > µIJ), pero si la mutación es perjudicial (SIJ,k < 0), entonces la tasa de sustitución se reduce (qIJ,k < µIJ). Aquí, asumimos que las sustituciones sinónimas son neutras (SIJ,k = 0), y por lo tanto, la evolución en el sitio k está determinada por 20 ajustes de aminoácidos. El µIJ se puede construir a partir de modelos de sustitución de ADN estándar (por ejemplo, si I = TTT y J = TTC, entonces
bajo el modelo de sustitución HKY, consulte para más detalles).
La ecuación (2.1) describe la sustitución de codones en poblaciones como un proceso de Markov en tiempo continuo. Esto es sensato si la tasa de mutación por generación es pequeña en comparación con el tamaño de la población (), de modo que hay poco polimorfismo en la población, y como máximo, dos alelos se segregan en un sitio a la vez. La proporción de tiempo, nI,k, que el sitio k pasa fijo para I (es decir, la frecuencia estacionaria de I) es
, dondees la frecuencia para una secuencia en evolución neutra (es decir, un pseudo-gen). Por lo tanto, la tasa de sustitución en k, promediada a lo largo del tiempo, es
donde la suma está sobre todos los pares de codones I ≠ J. Esta tasa se puede dividir en sus tasas de componentes no sinónimos y sinónimos, pk = pN,k + pS,k, donde
y donde función IN = 1 si la sustitución no es sinónimo y = 0 si no es así. Tenga en cuenta que la tasa sinónima pS,k varía entre los sitios (por ejemplo, si un sitio se conserva para metionina, entonces la tasa sinónima es cero). Para una secuencia de evolución neutra, las tasas se dan por
Tenga en cuenta que la ecuación (2.1) da la tasa de sustitución instantánea, es decir, la tasa condicionada en el sitio k que se fija para I en el momento actual. Por otro lado, pk es la tasa en equilibrio, promediada sobre todos los codones y ponderada por sus frecuencias estacionarias.
La tasa de sustitución relativa no sinónima
La tasa de sustitución absoluta no sinónima a sinónima en el sitio k es pN, k / pS, k. Sin embargo, debido a que las tasas sinónimas varían entre los sitios, necesitamos normalizar la relación por la relación de tasa sinónima del sitio, , y luego normalizar por (para corregir las diferentes proporciones de sustituciones sinónimas y no sinónimas en neutralidad). Esto conduce a la siguiente definición:
Alternativamente, podemos definir wk como la tasa relativa no sinónimo wk = cpN, k donde la constante c se establece de modo que la relación sea una para secuencias en evolución neutra, es decir, bajo la restricción . La solución obvia es que conduce a la misma definición que la anterior. Tenga en cuenta que c tiene la propiedad deseable de ser constante sobre los sitios. El lector no debería sorprenderse de que la tasa sinónima se caiga de la ecuación (3.1). Al hacer inferencias estadísticas, las sustituciones sinónimas tienen información sobre las tasas de mutación neutras, y por lo tanto informan el valor de . De manera similar, la tasa de sinónimos relativa en el sitio k es
La Figura 1a muestra un ejemplo para el gen rbcL de plantas con flores. Los valores de aptitud física fueron estimados bajo el modelo de Halpern–Bruno por Tamuri et al. y usamos sus valores para calcular wk y yk aquí. El promedio de las tasas a través de los sitios sony. Tenga en cuenta que para muchos sitios, las tasas sinónimas son más rápidas que para una secuencia de evolución neutra (es decir, yk > 1). Esto se debe a la naturaleza peculiar del código genético junto con los sesgos mutacionales (
La tasa no sinónimo durante la evolución adaptativa
Cuando los ajustes de los aminoácidos son constantes a través del tiempo, los sitios pasarán la mayor parte del tiempo fijos para el aminoácido óptimo. Ocasionalmente, los aminoácidos subóptimos se pueden fijar y luego sustituir después de un corto período de tiempo evolutivo. Esto significa que la velocidad no sinónima en los sitios se reduce en comparación con la velocidad para secuencias en evolución neutra (es decir, wk < 1). Sin embargo, cuando los ajustes en los sitios varían con el tiempo (por ejemplo, después de un cambio de entorno o bajo una selección intensa dependiente de la frecuencia), la velocidad no sinónimo puede acelerarse en comparación con la velocidad para secuencias en evolución neutra (wk > 1). Ahora estudiamos el caso en el que los ajustes cambian como adaptación a un entorno novedoso.
Considere un sitio k donde la aptitud de I es en el entorno A. Las frecuencias estacionarias y las tasas de sustitución instantáneas son . Ahora, imagine que el entorno cambia (por ejemplo, una población de mamíferos que vive en un clima repentinamente más frío, o un virus que coloniza un nuevo huésped, donde el entorno intracelular en el nuevo huésped es diferente del huésped reservorio). La aptitud de I en el nuevo entorno B es ahora . La probabilidad de que el sitio esté actualmente fijo para I en el momento del cambio de entorno es , pero la tasa de sustitución es ahora la del nuevo entorno . Por lo tanto, las tasas de no sinónimos absolutas y relativas esperadas en el cambio de entorno son
Si el cambio en los valores de aptitud física es grande, la velocidad se acelerará mucho (). Esto ocurre porque es probable que el sitio se encuentre fijo para un aminoácido subóptimo en el nuevo entorno, y las mutaciones novedosas a aminoácidos óptimos se fijarán rápidamente. Sin embargo, si el cambio de aptitud es moderado, la tasa puede seguir siendo inferior a la tasa neutral ().
La Figura 1b muestra un ejemplo del gen pb2 del virus de la gripe. Los valores de aptitud física fueron estimados bajo el modelo de Halpern–Bruno por Tamuri et al. . Tamuri et al.identificaron un subconjunto de 25 sitios adaptativos (donde las condiciones de adaptación son diferentes para los virus que evolucionan en los huéspedes humanos frente a los aviares). , y sus características estimadas por Tamuri et al. . Utilizamos las estimaciones para calcular wk yk y aquí. El linaje clásico de la gripe humana probablemente se originó a partir de un cambio de huésped de un reservorio de aves a un reservorio de mamíferos a principios del siglo XX . We calculate at the putative host shift. The average rate at adaptive sites is (across all sites and ). Note that for 16 sites for which fitnesses are different between hosts, we find that . Esto indica que el criterio wk > 1 para detectar la evolución adaptativa es conservador en este caso.
La probabilidad de que el sitio esté fijo para I, tiempo t después del cambio de entorno es
dondeson la transición probabilidades obtenidas usando la teoría estándar de Markov, es decir, calculando. Por lo tanto, las tasas absolutas y relativas no sinónimos, tiempo t después del cambio, son
Las probabilidades de transición en la ecuación (4.2) son funciones de decaimiento exponencial del tiempo, por lo quetambién es un decaimiento exponencial. Inicialmente, el valor deserá alto, y como el tiempo tiende a infinito,acercamos a la estacionario valor dado por la ecuación (3.1). En otras palabras, poco después de un cambio de entorno, se producirá una explosión de sustituciones adaptativas en sitios donde las condiciones de adaptación han cambiado, y las sustituciones se acumularán hasta que el gen codificador de proteínas alcance un estado de equilibrio adaptativo. Por ejemplo, la figura 2a muestra la desintegración depara los 25 sitios adaptativos en el gen pb2 después de un cambio de huésped.
Conclusión
Autores anteriores han demostrado que la relación entre la tasa no sinónima y el coeficiente de selección es aproximadamente ω = S / (1-exp (−S)) , pero la aproximación se basa en el modelo de sitios infinitos o asume que todos los aminoácidos mutantes tienen la misma aptitud. Las ecuaciones (3.1) y (4.1) proporcionan aproximaciones más realistas, pero son difíciles de visualizar. Considere un sitio fijo para I. La probabilidad de que la siguiente mutación sea J es para I ≠ J. Con el tiempo, la proporción de mutaciones de I a J en el sitio será nI,kPIJ. Por lo tanto, el coeficiente de selección promedio en mutaciones en el sitio k es
La Figura 2b muestra wk como una función depara sitios simulados son constantes o cuando cambian con el entorno. Tenga en cuenta que la aproximación ω = S/(1 − exp(−S)) proporciona un límite inferior razonable en wk. En general,aumenta con la etiqueta, pero la relación no es tan simple como en las anteriores aproximaciones .
En el modelo de selección de mutaciones por sitio, primero se calculan los coeficientes de selección y, por lo tanto, se puede saber si un sitio ha estado en selección positiva sin calcular wk . Sin embargo, el modelo es parametrizada, computacionalmente caro, y eficacias puede ser bien estima que sólo en grandes conjuntos de datos . En cambio, el modelo debe ser de ventaja en el razonamiento evolutivo y en la construcción de modelos. Por ejemplo , el comportamiento de wk bajo modelos más complejos (como la selección dependiente de la frecuencia, la adaptación a cambios graduales en el entorno o la selección en el uso de codones ) también se puede estudiar bajo el marco de selección de mutaciones en el sitio. Este será un esfuerzo valioso, ya que arrojará luz sobre nuestra capacidad para detectar la evolución adaptativa en secuencias moleculares.
Accesibilidad de los datos
Los datos que acompañan a este estudio están disponibles en Dryad doi: 10.5061 / dryad.3r3q4.
Agradecimientos
Agradezco a Ziheng Yang, Richard Goldstein y Asif Tamuri sus valiosos comentarios.
La declaración de financiación
M. d.R. cuenta con el apoyo de BBSRC (Reino Unido) grant no. BB/J009709 / 1 otorgado a Ziheng Yang.
Conflictos de intereses
No tengo intereses en conflicto.
Notas a pie de página
- 1
Halpern AL& Bruno WJ. 1998volutionary distances for protein-coding sequences: modeling site-specific residue frequencies. Mol. Biol. Evol. 15, 910–917. (doi:10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, Google, Google Scholar
- 2
Fisher R. 1930la teoría genética de la selección natural. Oxford, Reino Unido: Clarendon Press. Google Scholar
- 3
Wright S. 1931Evolución en poblaciones mendelianas. Genetics 16, 97-159. PubMed, Google Scholar
- 4
Holder MT, Zwickl DJ& Dessimoz C. 2008evaluando la robustez de los métodos filogenéticos a la variabilidad entre sitios en los procesos de sustitución. Phil. Trans. R. Soc. B 363, 4013-4021. (doi:10.1098 / rstb.2008.0162). Link, Google, Google Scholar
- 5
Spielman SJ & Wilke CO. 2015La relación entre dN / dS y coeficientes de selección escalados. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, Google, Google Scholar
- 6
Yang Z& Nielsen R. 2008mutation-modelos de selección de sustitución de codones y su uso para estimar las fuerzas selectivas en el uso de codones. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093 / molbev / msm284). Crossref, PubMed, Google, Google Scholar
- 7
Rodrigue N, Philippe H& Lartillot N. 2010mutation-selection models of coding sequence evolution with site-heterogeneous amino acid fitness profiles. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi:10.1073 / pnas.0910915107). Crossref, PubMed, Google, Google Scholar
- 8
Tamuri AU, dos Reis M& Goldstein RA. 2012estimando la distribución de los coeficientes de selección a partir de datos filogenéticos utilizando modelos de selección de mutaciones en el sitio. Genetics 190, 1101-1115. (doi:10.1534/genética.111.136432). Crossref, PubMed, Google, Google Scholar
- 9
Tamuri AU, Goldman N& dos Reis M. 2014A método de verosimilitud penalizada para estimar la distribución de coeficientes de selección a partir de datos filogenéticos. Genetics 197, 257-271. (doi:10.1534/genética.114.162263). Crossref, PubMed, Google, Google Scholar
- 10
dos Reis M. 2013 Genética de la población y modelos de sustitución de evolución adaptativa. (http://arxiv.org/abs/1311.6682). Google Scholar
- 11
Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009identificación de los cambios en las restricciones selectivas: cambios de huésped en la gripe. PLoS Comput. Biol. 5, e1000564. (doi: 10.1371 / journal.pcbi.1000564). Crossref, PubMed, Google, Google Scholar
- 12
dos Reis M, Hay AJ& Goldstein RA. 2009 using non-homogeneous models of nucleotide substitution to identify host shift events: application to the origin of the 1918 ‘Spanish’ influenza pandemic virus. J. Mol. Evol. 69, 333–345. (doi:10.1007 / s00239-009-9282-x). Crossref, PubMed, Google, Google Scholar
- 13
Nielsen R& Yang Z. 2003estimando la distribución de coeficientes de selección de datos filogenéticos con aplicaciones al ADN mitocondrial y viral. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093 / molbev / msg147). Crossref, PubMed, Google, Google Scholar
- 14
Bustamante CD. 2005poblation genetics of molecular evolution. Statistical methods in molecular evolution (ed. & Nielsen R), pp 63-99. Nueva York, NY: Springer. Crossref, Google Scholar