Cómo calcular la relación de velocidad no sinónimo a sinónimo de genes codificadores de proteínas bajo el marco de selección de mutaciones de Fisher-Wright | Letras de Biología

Introducción

Halpern & Bruno ideó un modelo para estudiar la divergencia de genes codificadores de proteínas basado en el modelo de mutación, selección y deriva genética aleatoria . En el modelo, a cada sitio de codón en particular en el gen se le asigna su propio conjunto de ajustes de aminoácidos, y luego se utiliza el modelo de Fisher–Wright para calcular la velocidad evolutiva del sitio. El modelo ha experimentado un resurgimiento en los últimos años, y se han utilizado variaciones del mismo, por ejemplo, para estudiar el rendimiento de los métodos de inferencia filogenética , para estudiar el uso de codones y para estimar la distribución de coeficientes de selección en genes codificadores de proteínas . Tal vez sorprendentemente, el modelo no se ha utilizado para estudiar la dinámica de la relación de velocidad no sinónimo a sinónimo (también conocida como ω = dN/dS) de genes codificadores de proteínas y su importancia en el estudio de la evolución molecular adaptativa.

El propósito de esta nota es proponer una forma de definir y calcular un equivalente del concepto clásico de la relación de tasa no sinónimo a sinónimo, en el contexto del modelo de selección de mutaciones de Halpern & Bruno . Se espera que utilizando los primeros principios de la genética de poblaciones, podamos obtener una expresión de ω en función de los coeficientes de selección que actúan en los sitios de codones en el gen codificador de proteínas. Esto debería proporcionar mucha información sobre la dinámica evolutiva de los sitios de codones y debería ser de ventaja en la construcción de modelos estadísticos para detectar la evolución adaptativa en genes codificadores de proteínas.

El modelo de selección de mutaciones en el sitio

Considera la evolución de un sitio de codón k en un gen codificador de proteínas en una población con genomas haploides N. Supongamos que el sitio está actualmente fijo para el codón I (es decir, todos los N alelos llevan I en el sitio k). En el marco de selección de mutaciones , la tasa de sustitución (la tasa a la que aparecen nuevos codones mutantes J y finalmente se fijan en la población) es

2.1

Aquí µIJ es la tasa de mutación neutra (por generación) de I a J, y SIJ,k = FJ,k – FI,k es el coeficiente de selección a favor del codón J y FJ,k = 2NfJ,k es la aptitud maltusiana a escala de J. La selección natural afecta la tasa de sustitución relativa. Cuando la mutación es ventajosa (SIJ,k > 0), la tasa de sustitución es mayor que la tasa neutra (qIJ,k > µIJ), pero si la mutación es perjudicial (SIJ,k < 0), entonces la tasa de sustitución se reduce (qIJ,k < µIJ). Aquí, asumimos que las sustituciones sinónimas son neutras (SIJ,k = 0), y por lo tanto, la evolución en el sitio k está determinada por 20 ajustes de aminoácidos. El µIJ se puede construir a partir de modelos de sustitución de ADN estándar (por ejemplo, si I = TTT y J = TTC, entonces

Fórmula en línea bajo el modelo de sustitución HKY, consulte para más detalles).

La ecuación (2.1) describe la sustitución de codones en poblaciones como un proceso de Markov en tiempo continuo. Esto es sensato si la tasa de mutación por generación es pequeña en comparación con el tamaño de la población ( Fórmula en línea ), de modo que hay poco polimorfismo en la población, y como máximo, dos alelos se segregan en un sitio a la vez. La proporción de tiempo, nI,k, que el sitio k pasa fijo para I (es decir, la frecuencia estacionaria de I) es

, donde Fórmula en línea es la frecuencia para una secuencia en evolución neutra (es decir, un pseudo-gen). Por lo tanto, la tasa de sustitución en k, promediada a lo largo del tiempo, es

donde la suma está sobre todos los pares de codones I ≠ J. Esta tasa se puede dividir en sus tasas de componentes no sinónimos y sinónimos, pk = pN,k + pS,k, donde

y donde función IN = 1 si la sustitución no es sinónimo y = 0 si no es así. Tenga en cuenta que la tasa sinónima pS,k varía entre los sitios (por ejemplo, si un sitio se conserva para metionina, entonces la tasa sinónima es cero). Para una secuencia de evolución neutra, las tasas se dan por

Tenga en cuenta que la ecuación (2.1) da la tasa de sustitución instantánea, es decir, la tasa condicionada en el sitio k que se fija para I en el momento actual. Por otro lado, pk es la tasa en equilibrio, promediada sobre todos los codones y ponderada por sus frecuencias estacionarias.

La tasa de sustitución relativa no sinónima

La tasa de sustitución absoluta no sinónima a sinónima en el sitio k es pN, k / pS, k. Sin embargo, debido a que las tasas sinónimas varían entre los sitios, necesitamos normalizar la relación por la relación de tasa sinónima del sitio, Fórmula en línea , y luego normalizar por (para corregir las diferentes proporciones de sustituciones sinónimas y no sinónimas en neutralidad). Esto conduce a la siguiente definición:

3.1

Alternativamente, podemos definir wk como la tasa relativa no sinónimo wk = cpN, k donde la constante c se establece de modo que la relación sea una para secuencias en evolución neutra, es decir, bajo la restricción Fórmula en línea . La solución obvia es que conduce a la misma definición que la anterior. Tenga en cuenta que c tiene la propiedad deseable de ser constante sobre los sitios. El lector no debería sorprenderse de que la tasa sinónima se caiga de la ecuación (3.1). Al hacer inferencias estadísticas, las sustituciones sinónimas tienen información sobre las tasas de mutación neutras, y por lo tanto informan el valor de Fórmula en línea . De manera similar, la tasa de sinónimos relativa en el sitio k es

3.2

La Figura 1a muestra un ejemplo para el gen rbcL de plantas con flores. Los valores de aptitud física fueron estimados bajo el modelo de Halpern–Bruno por Tamuri et al. y usamos sus valores para calcular wk y yk aquí. El promedio de las tasas a través de los sitios son Inline Fórmula y. Tenga en cuenta que para muchos sitios, las tasas sinónimas son más rápidas que para una secuencia de evolución neutra (es decir, yk > 1). Esto se debe a la naturaleza peculiar del código genético junto con los sesgos mutacionales ( Fórmula en línea

Figura 1. Las tasas de sustitución relativas no sinónimos (wk) y sinónimos (yk). a) Tasas para el gen del cloroplasto rbcL de monocotiledóneas (plantas con flores). (b) Las tasas para el gen pb2 de influenza A. In (a,b), las condiciones en cada sitio (FIJ,k) y los parámetros de mutación () se estimaron bajo el modelo de Halpern–Bruno por probabilidad penalizada (penalización α = 0,01) y son de . Luego, se utilizan las ecuaciones (3.1) y (3.2) para calcular wk y yk. En (b), se identificaron 25 sitios adaptativos (red) en los que las características son diferentes entre los virus que evolucionan en los huéspedes humanos y los aviares (el reservorio natural). Las instalaciones para estos sitios bajo cada anfitrión se estimaron sin penalización y son de . Luego, se usa la ecuación (4.1) para calcular en el turno de host. El rango de es 0.231–7.64 (los valores más grandes se truncan en la figura).

La tasa no sinónimo durante la evolución adaptativa

Cuando los ajustes de los aminoácidos son constantes a través del tiempo, los sitios pasarán la mayor parte del tiempo fijos para el aminoácido óptimo. Ocasionalmente, los aminoácidos subóptimos se pueden fijar y luego sustituir después de un corto período de tiempo evolutivo. Esto significa que la velocidad no sinónima en los sitios se reduce en comparación con la velocidad para secuencias en evolución neutra (es decir, wk < 1). Sin embargo, cuando los ajustes en los sitios varían con el tiempo (por ejemplo, después de un cambio de entorno o bajo una selección intensa dependiente de la frecuencia), la velocidad no sinónimo puede acelerarse en comparación con la velocidad para secuencias en evolución neutra (wk > 1). Ahora estudiamos el caso en el que los ajustes cambian como adaptación a un entorno novedoso.

Considere un sitio k donde la aptitud de I es Fórmula en línea en el entorno A. Las frecuencias estacionarias y las tasas de sustitución instantáneas son . Ahora, imagine que el entorno cambia (por ejemplo, una población de mamíferos que vive en un clima repentinamente más frío, o un virus que coloniza un nuevo huésped, donde el entorno intracelular en el nuevo huésped es diferente del huésped reservorio). La aptitud de I en el nuevo entorno B es ahora Fórmula en línea . La probabilidad de que el sitio esté actualmente fijo para I en el momento del cambio de entorno es , pero la tasa de sustitución es ahora la del nuevo entorno . Por lo tanto, las tasas de no sinónimos absolutas y relativas esperadas en el cambio de entorno son

4.1

Si el cambio en los valores de aptitud física es grande, la velocidad se acelerará mucho ( Fórmula en línea ). Esto ocurre porque es probable que el sitio se encuentre fijo para un aminoácido subóptimo en el nuevo entorno, y las mutaciones novedosas a aminoácidos óptimos se fijarán rápidamente. Sin embargo, si el cambio de aptitud es moderado, la tasa puede seguir siendo inferior a la tasa neutral ( Fórmula en línea ).

La Figura 1b muestra un ejemplo del gen pb2 del virus de la gripe. Los valores de aptitud física fueron estimados bajo el modelo de Halpern–Bruno por Tamuri et al. . Tamuri et al.identificaron un subconjunto de 25 sitios adaptativos (donde las condiciones de adaptación son diferentes para los virus que evolucionan en los huéspedes humanos frente a los aviares). , y sus características estimadas por Tamuri et al. . Utilizamos las estimaciones para calcular wk yk y Inline Fórmula aquí. El linaje clásico de la gripe humana probablemente se originó a partir de un cambio de huésped de un reservorio de aves a un reservorio de mamíferos a principios del siglo XX . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is (across all sites and ). Note that for 16 sites for which fitnesses are different between hosts, we find that . Esto indica que el criterio wk > 1 para detectar la evolución adaptativa es conservador en este caso.

La probabilidad de que el sitio esté fijo para I, tiempo t después del cambio de entorno es

4.2

donde Fórmula en línea son la transición probabilidades obtenidas usando la teoría estándar de Markov, es decir, calculando. Por lo tanto, las tasas absolutas y relativas no sinónimos, tiempo t después del cambio, son

Las probabilidades de transición en la ecuación (4.2) son funciones de decaimiento exponencial del tiempo, por lo que Fórmula en línea también es un decaimiento exponencial. Inicialmente, el valor de Inline Fórmula será alto, y como el tiempo tiende a infinito,acercamos a la estacionario valor dado por la ecuación (3.1). En otras palabras, poco después de un cambio de entorno, se producirá una explosión de sustituciones adaptativas en sitios donde las condiciones de adaptación han cambiado, y las sustituciones se acumularán hasta que el gen codificador de proteínas alcance un estado de equilibrio adaptativo. Por ejemplo, la figura 2a muestra la desintegración de Fórmula en línea para los 25 sitios adaptativos en el gen pb2 después de un cambio de huésped.

Figura 2. a) Disminución de la tasa relativa no sinónima después de un desplazamiento del huésped para 25 sitios adaptativos (líneas grises) en el gen pb2 de la gripe. La línea continua es la media de los 25 sitios, . A medida que pasa el tiempo, se acerca a la media a largo plazo (línea de puntos). b) La tasa relativa no sinónima en función del coeficiente de selección medio en los lugares. Puntos rosas: los valores de aptitud para 10 000 sitios fueron muestreados de distribuciones normales con media 0 y σ = 0,…, 10. Luego, se utilizaron las ecuaciones (3.1) y (5.1) para calcular wk y . Puntos grises: se muestreó otro conjunto de 10 000 valores de aptitud como se indica anteriormente, luego se utilizaron las ecuaciones (4.2) y (5.1) para calcular y bajo el modelo de cambio de entorno. Línea continua: S/(1-exp (- S)).

Figura 2. a) Disminución de la tasa relativa no sinónima después de un desplazamiento del huésped para 25 sitios adaptativos (líneas grises) en el gen pb2 de la gripe. La línea continua es la media de los 25 sitios, . A medida que pasa el tiempo, se acerca a la media a largo plazo (línea de puntos). b) La tasa relativa no sinónima en función del coeficiente de selección medio en los lugares. Puntos rosas: los valores de aptitud para 10 000 sitios fueron muestreados de distribuciones normales con media 0 y σ = 0,…, 10. Luego, se utilizaron las ecuaciones (3.1) y (5.1) para calcular wk y . Puntos grises: se muestreó otro conjunto de 10 000 valores de aptitud como se indica anteriormente, luego se utilizaron las ecuaciones (4.2) y (5.1) para calcular y bajo el modelo de cambio de entorno. Línea continua: S/(1-exp (- S)).

Conclusión

Autores anteriores han demostrado que la relación entre la tasa no sinónima y el coeficiente de selección es aproximadamente ω = S / (1-exp (−S)) , pero la aproximación se basa en el modelo de sitios infinitos o asume que todos los aminoácidos mutantes tienen la misma aptitud. Las ecuaciones (3.1) y (4.1) proporcionan aproximaciones más realistas, pero son difíciles de visualizar. Considere un sitio fijo para I. La probabilidad de que la siguiente mutación sea J es Fórmula en línea para I ≠ J. Con el tiempo, la proporción de mutaciones de I a J en el sitio será nI,kPIJ. Por lo tanto, el coeficiente de selección promedio en mutaciones en el sitio k es

5.1

La Figura 2b muestra wk como una función de Fórmula en línea para sitios simulados son constantes o cuando cambian con el entorno. Tenga en cuenta que la aproximación ω = S/(1 − exp(−S)) proporciona un límite inferior razonable en wk. En general, Inline Fórmula aumenta con la etiqueta, pero la relación no es tan simple como en las anteriores aproximaciones .

En el modelo de selección de mutaciones por sitio, primero se calculan los coeficientes de selección y, por lo tanto, se puede saber si un sitio ha estado en selección positiva sin calcular wk . Sin embargo, el modelo es parametrizada, computacionalmente caro, y eficacias puede ser bien estima que sólo en grandes conjuntos de datos . En cambio, el modelo debe ser de ventaja en el razonamiento evolutivo y en la construcción de modelos. Por ejemplo , el comportamiento de wk bajo modelos más complejos (como la selección dependiente de la frecuencia, la adaptación a cambios graduales en el entorno o la selección en el uso de codones ) también se puede estudiar bajo el marco de selección de mutaciones en el sitio. Este será un esfuerzo valioso, ya que arrojará luz sobre nuestra capacidad para detectar la evolución adaptativa en secuencias moleculares.

Accesibilidad de los datos

Los datos que acompañan a este estudio están disponibles en Dryad doi: 10.5061 / dryad.3r3q4.

Agradecimientos

Agradezco a Ziheng Yang, Richard Goldstein y Asif Tamuri sus valiosos comentarios.

La declaración de financiación

M. d.R. cuenta con el apoyo de BBSRC (Reino Unido) grant no. BB/J009709 / 1 otorgado a Ziheng Yang.

Conflictos de intereses

No tengo intereses en conflicto.

Notas a pie de página

1
Halpern AL& Bruno WJ. 1998volutionary distances for protein-coding sequences: modeling site-specific residue frequencies. Mol. Biol. Evol. 15, 910–917. (doi:10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, Google, Google Scholar
2
Fisher R. 1930la teoría genética de la selección natural. Oxford, Reino Unido: Clarendon Press. Google Scholar
3
Wright S. 1931Evolución en poblaciones mendelianas. Genetics 16, 97-159. PubMed, Google Scholar
4
Holder MT, Zwickl DJ& Dessimoz C. 2008evaluando la robustez de los métodos filogenéticos a la variabilidad entre sitios en los procesos de sustitución. Phil. Trans. R. Soc. B 363, 4013-4021. (doi:10.1098 / rstb.2008.0162). Link, Google, Google Scholar
5
Spielman SJ & Wilke CO. 2015La relación entre dN / dS y coeficientes de selección escalados. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, Google, Google Scholar
6
Yang Z& Nielsen R. 2008mutation-modelos de selección de sustitución de codones y su uso para estimar las fuerzas selectivas en el uso de codones. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093 / molbev / msm284). Crossref, PubMed, Google, Google Scholar
7
Rodrigue N, Philippe H& Lartillot N. 2010mutation-selection models of coding sequence evolution with site-heterogeneous amino acid fitness profiles. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi:10.1073 / pnas.0910915107). Crossref, PubMed, Google, Google Scholar
8
Tamuri AU, dos Reis M& Goldstein RA. 2012estimando la distribución de los coeficientes de selección a partir de datos filogenéticos utilizando modelos de selección de mutaciones en el sitio. Genetics 190, 1101-1115. (doi:10.1534/genética.111.136432). Crossref, PubMed, Google, Google Scholar
9
Tamuri AU, Goldman N& dos Reis M. 2014A método de verosimilitud penalizada para estimar la distribución de coeficientes de selección a partir de datos filogenéticos. Genetics 197, 257-271. (doi:10.1534/genética.114.162263). Crossref, PubMed, Google, Google Scholar
10
dos Reis M. 2013 Genética de la población y modelos de sustitución de evolución adaptativa. (http://arxiv.org/abs/1311.6682). Google Scholar
11
Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009identificación de los cambios en las restricciones selectivas: cambios de huésped en la gripe. PLoS Comput. Biol. 5, e1000564. (doi: 10.1371 / journal.pcbi.1000564). Crossref, PubMed, Google, Google Scholar
12
dos Reis M, Hay AJ& Goldstein RA. 2009 using non-homogeneous models of nucleotide substitution to identify host shift events: application to the origin of the 1918 ‘Spanish’ influenza pandemic virus. J. Mol. Evol. 69, 333–345. (doi:10.1007 / s00239-009-9282-x). Crossref, PubMed, Google, Google Scholar
13
Nielsen R& Yang Z. 2003estimando la distribución de coeficientes de selección de datos filogenéticos con aplicaciones al ADN mitocondrial y viral. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093 / molbev / msg147). Crossref, PubMed, Google, Google Scholar
14
Bustamante CD. 2005poblation genetics of molecular evolution. Statistical methods in molecular evolution (ed. & Nielsen R), pp 63-99. Nueva York, NY: Springer. Crossref, Google Scholar