Comment calculer le rapport de taux non synonyme à synonyme des gènes codant pour les protéines dans le cadre de sélection des mutations de Fisher-Wright | Lettres de biologie

Introduction

Halpern &Bruno a conçu un modèle pour étudier la divergence des gènes codant pour les protéines sur la base du modèle Fisher–Wright de mutation, de sélection et dérive génétique aléatoire. Dans le modèle, chaque site de codon particulier du gène se voit attribuer son propre ensemble d’ajustements d’acides aminés, puis le modèle de Fisher–Wright est utilisé pour déterminer le taux d’évolution du site. Le modèle a connu une résurgence ces dernières années, et des variations de celui-ci ont été utilisées, par exemple, pour étudier la performance des méthodes d’inférence phylogénétique, pour étudier l’utilisation des codon et pour estimer la distribution des coefficients de sélection dans les gènes codant pour les protéines. De manière peut-être surprenante, le modèle n’a pas été utilisé pour étudier la dynamique du rapport de taux non synonyme sur synonyme (également connu sous le nom de ω = dN / dS) des gènes codant pour les protéines et sa signification dans l’étude de l’évolution moléculaire adaptative.

Le but de cette note est de proposer un moyen de définir et de calculer un équivalent du concept classique du rapport de taux non synonyme sur synonyme, dans le contexte du modèle de sélection de mutation de Halpern &Bruno. On espère qu’en utilisant les premiers principes de la génétique des populations, on pourra obtenir une expression de ω en fonction des coefficients de sélection agissant au niveau des sites de codon dans le gène codant la protéine. Cela devrait fournir un bon aperçu de la dynamique évolutive des sites de codon et devrait être utile pour la construction de modèles statistiques permettant de détecter l’évolution adaptative des gènes codant pour les protéines.

Le modèle de sélection de mutation par site

Considère l’évolution d’un site de codon k dans un gène codant une protéine dans une population avec N génomes haploïdes. Supposons que le site est actuellement fixé pour le codon I (c’est-à-dire que tous les allèles N portent I au site k). Dans le cadre de sélection de mutations, le taux de substitution (le taux auquel les nouveaux codons mutants J apparaissent et finissent par se fixer dans la population) est

2.1

Ici µIJ est le taux de mutation neutre (par génération) de I à J, et SIJ, k = FJ, k–FI, k est le coefficient de sélection en faveur du codon J et FJ, k = 2NfJ, k est la fitness malthusienne à l’échelle de J. La sélection naturelle affecte le taux de substitution relatif. Lorsque la mutation est avantageuse (SIJ, k > 0), le taux de substitution est supérieur au taux neutre (qIJ, k > µIJ), mais si la mutation est délétère (SIJ, k <0), alors le taux de substitution est réduit (SIJ, k <0 qIJ, k < µIJ). Ici, nous supposons que les substitutions synonymes sont neutres (SIJ, k = 0), et donc, l’évolution au site k est déterminée par 20 fitnesses d’acides aminés. Le µIJ peut être construit à partir de modèles de substitution d’ADN standard (par exemple, si I = TTT et J =TTC, alors

Formule en ligne sous le modèle de substitution HKY, voir pour plus de détails).

L’équation (2.1) décrit la substitution de codon dans les populations comme un processus de Markov à temps continu. Ceci est raisonnable si le taux de mutation par génération est faible par rapport à la taille de la population ( Formule en ligne ), de sorte qu’il y a peu de polymorphisme dans la population, et tout au plus, deux allèles se séparent à un site à la fois. La proportion de temps, nI, k, que le site k passe fixe pour I (c’est-à-dire la fréquence stationnaire de I) est

, où La Formule en ligne est la fréquence d’une séquence évoluant de manière neutre ( c’est-à-dire un pseudo-gène). Ainsi, le taux de substitution à k, moyenné dans le temps, est

où la somme est sur toutes les paires de codon I ≠ J. Ce taux peut être partitionné en ses taux de composantes non synonymes et synonymes, pk= pN, k + pS, k, où

et où l’indicateur fonctionne dans = 1 si la substitution n’est pas synonyme et = 0 dans le cas contraire. Notez que le taux synonyme pS,k varie d’un site à l’autre (par exemple, si un site est conservé pour la méthionine, le taux synonyme est nul). Pour une séquence évoluant de manière neutre, les taux sont donnés par

On note que l’équation (2.1) donne le taux de substitution instantané, c’est-à-dire le taux conditionné sur le site k étant fixé pour I à l’instant présent. D’autre part, pk est le taux à l’équilibre, moyenné sur tous les codons et pondéré par leurs fréquences stationnaires.

Le taux de substitution relatif non synonyme

Le rapport absolu de taux de substitution non synonyme à synonyme au site k est pN, k/pS, k. Cependant, étant donné que les taux de synonymes varient d’un site à l’autre, nous devons normaliser le rapport par le rapport de taux de synonymes du site, Formule en ligne , puis normaliser par (pour corriger pour les différentes proportions de substitutions synonymes et non synonymes à la neutralité). Cela conduit à la définition suivante:

3.1

Alternativement, nous pouvons définir wk comme le taux relatif non synonyme wk = cpN, k où la constante c est définie de sorte que le rapport soit un pour les séquences évoluant de manière neutre, c’est-à-dire sous la contrainte Formule en ligne . La solution évidente est conduisant à la même définition que ci-dessus. Notez que c a la propriété souhaitable d’être constant sur les sites. Le lecteur ne doit pas être surpris que le taux synonyme tombe de l’équation (3.1). Lors de l’inférence statistique, les substitutions synonymes ont des informations sur les taux de mutation neutres, et informent ainsi la valeur de Formule en ligne . De même, le taux de synonymes relatif au site k est

3.2

La figure 1a montre un exemple pour le gène rbcL des plantes à fleurs. Les valeurs de fitness ont été estimées selon le modèle de Halpern–Bruno par Tamuri et al. , et nous utilisons leurs valeurs pour calculer wk et yk ici. Les taux moyens entre les sites sont Formule en ligne et. Notez que pour de nombreux sites, les taux synonymes sont plus rapides que pour une séquence évoluant de manière neutre (i.e. yk >1). Ceci est dû à la nature excentrique du code génétique couplé aux biais mutationnels (

Figure 1. Les taux de substitution relatifs non synonymes (sem) et synonymes (yk). (a) Taux pour le gène chloroplaste rbcL des monocots (plantes à fleurs). (b) Taux pour le gène pb2 de la grippe A. En (a, b), les ajustages à chaque site (FIJ, k) et les paramètres de mutation () ont été estimés sous le modèle de Halpern–Bruno par probabilité pénalisée (pénalité α = 0,01) et sont de. Ensuite, les équations (3.1) et (3.2) sont utilisées pour calculer wk et yk. En (b), 25 sites adaptatifs (en rouge) ont été identifiés où les fitnesses sont différentes entre les virus évoluant chez les hôtes humains et aviaires (le réservoir naturel). Les capacités de ces sites sous chaque hôte ont été estimées sans pénalité et sont de. Ensuite, l’équation (4.1) est utilisée pour calculer au décalage hôte. La plage de est de 0,231 à 7,64 (les valeurs les plus grandes sont tronquées sur la figure).

Le taux non synonyme lors de l’évolution adaptative

Lorsque les ajustages des acides aminés sont constants dans le temps, les sites passeront la majeure partie du temps fixe pour l’acide aminé optimal. Parfois, les acides aminés sous-optimaux peuvent se fixer, puis se substituer après une courte période d’évolution. Cela signifie que le taux de non-synonymes aux sites est réduit par rapport au taux pour les séquences évoluant de manière neutre (c’est-à-dire wk <1). Cependant, lorsque les ajustements aux sites varient dans le temps (par exemple, après un changement d’environnement ou sous une sélection dépendante de la fréquence intense), le taux non synonyme peut être accéléré par rapport au taux pour les séquences évoluant de manière neutre (wk >1). Nous étudions maintenant le cas où les ajustements changent en tant qu’adaptation à un nouvel environnement.

Considérons un site k où la fitness de I est Formule en ligne dans l’environnement A. Les fréquences stationnaires et les taux de substitution instantanés sont . Maintenant, imaginez que l’environnement change (par exemple, une population de mammifères vivant dans un climat soudainement plus froid, ou un virus colonisant un nouvel hôte, où l’environnement intracellulaire du nouvel hôte est différent de l’hôte réservoir). L’aptitude de I dans le nouvel environnement B est maintenant Formule en ligne . La probabilité que le site soit actuellement fixé pour I au moment du changement d’environnement est , mais le taux de substitution est maintenant celui du nouvel environnement . Ainsi, les taux absolus et relatifs non synonymes attendus au changement d’environnement sont

4.1

Si le décalage des valeurs de fitness est important, le taux sera beaucoup accéléré ( Formule en ligne ). Cela se produit parce que le site est susceptible de se trouver fixé pour un acide aminé sous-optimal dans le nouvel environnement, et de nouvelles mutations en acides aminés optimaux se fixeront rapidement. Cependant, si le changement de condition physique est modéré, le taux peut toujours être inférieur au taux neutre ( Formule en ligne ).

La figure 1b montre un exemple pour le gène pb2 du virus de la grippe. Les valeurs de fitness ont été estimées selon le modèle de Halpern–Bruno par Tamuri et al. . Tamuri et al. ont identifié un sous-ensemble de 25 sites adaptatifs (où les fitnesses sont différentes pour les virus évoluant chez les hôtes humains par rapport aux hôtes aviaires). , et leurs propriétés estimées par Tamuri et al. . Nous utilisons les estimations pour calculer wk, yk et Formule en ligne ici. La lignée classique de la grippe humaine est probablement née d’un changement d’hôte d’un réservoir aviaire à un réservoir de mammifères au début du XXe siècle. We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is (across all sites and ). Note that for 16 sites for which fitnesses are different between hosts, we find that . Cela indique que le critère wk >1 pour détecter l’évolution adaptative est conservateur dans ce cas.

La probabilité que le site soit fixé pendant I, le temps t après le changement d’environnement est

4.2

où Formule en ligne sont la transition probabilités obtenues en utilisant la théorie de Markov standard, c’est-à-dire en calculant. Ainsi, les taux absolus et relatifs non synonymes, le temps t après le décalage, sont

Les probabilités de transition dans l’équation (4.2) sont des fonctions de décroissance exponentielle du temps, et donc La formule en ligne est également une décroissance exponentielle. Initialement, la valeur desera élevée et, à l’infini,approchera de la valeur stationnaire donnée par l’équation (3.1). En d’autres termes, peu de temps après un changement d’environnement, une explosion de substitutions adaptatives se produira aux sites où les fitnesses ont changé, et les substitutions s’accumuleront jusqu’à ce que le gène codant les protéines atteigne un état d’équilibre adaptatif. Par exemple, la figure 2a montre la désintégration de Formule en ligne pour les 25 sites adaptatifs du gène pb2 après un changement d’hôte.

Figure 2. (a) Décroissance du taux relatif non synonyme après un changement d’hôte pour 25 sites adaptatifs (lignes grises) dans le gène pb2 de la grippe. La ligne continue est la moyenne sur les 25 sites, . Au fil du temps, se rapproche de la moyenne à long terme (ligne pointillée). b) Le taux relatif non synonyme en fonction du coefficient de sélection moyen aux sites. Pois roses: les valeurs d’aptitude pour 10 000 sites ont été échantillonnées à partir de distributions normales avec une moyenne de 0 et σ = 0, …, 10. Ensuite, les équations (3.1) et (5.1) ont été utilisées pour calculer wk et . Points gris : un autre ensemble de 10 000 valeurs de fitness ont été échantillonnées comme ci-dessus, puis les équations (4.2) et (5.1) ont été utilisées pour calculer et sous le modèle de changement d’environnement. Ligne continue: S/(1-exp(-S)).

Figure 2. (a) Décroissance du taux relatif non synonyme après un changement d’hôte pour 25 sites adaptatifs (lignes grises) dans le gène pb2 de la grippe. La ligne continue est la moyenne sur les 25 sites, . Au fil du temps, se rapproche de la moyenne à long terme (ligne pointillée). b) Le taux relatif non synonyme en fonction du coefficient de sélection moyen aux sites. Pois roses: les valeurs d’aptitude pour 10 000 sites ont été échantillonnées à partir de distributions normales avec une moyenne de 0 et σ = 0, …, 10. Ensuite, les équations (3.1) et (5.1) ont été utilisées pour calculer wk et . Points gris : un autre ensemble de 10 000 valeurs de fitness ont été échantillonnées comme ci-dessus, puis les équations (4.2) et (5.1) ont été utilisées pour calculer et sous le modèle de changement d’environnement. Ligne continue: S/(1-exp(-S)).

Conclusion

Des auteurs précédents ont montré que la relation entre le taux non synonyme et le coefficient de sélection est approximativement ω = S/(1-exp(−S)), mais l’approximation repose sur le modèle des sites infinis ou suppose que tous les acides aminés mutants ont la même fitness. Les équations (3.1) et (4.1) fournissent des approximations plus réalistes mais sont difficiles à visualiser. Considérez un site fixé pour I. La probabilité que la mutation suivante soit J est Formule en ligne pour I ≠ J. Au fil du temps, la proportion de mutations I à J sur le site sera nI, kPIJ. Ainsi, le coefficient de sélection moyen sur les mutations au site k est

5.1

La figure 2b montre wk en fonction de Formule en ligne pour les sites simulés lorsque les ajustages sont constants ou lorsqu’ils changent avec l’environnement. Notez que l’approximation ω = S/(1−exp(-S)) fournit une limite inférieure raisonnable sur wk. En général, La Formule en ligne augmente avec, mais la relation n’est pas aussi simple que dans les approximations précédentes.

Dans le modèle de sélection de mutation par site, on calcule d’abord les coefficients de sélection, et on peut donc savoir si un site a fait l’objet d’une sélection positive sans calculer wk. Cependant, le modèle est sur-paramétré, coûteux en calcul, et les ajustements ne peuvent être bien estimés que dans de grands ensembles de données. Au lieu de cela, le modèle devrait être avantageux dans le raisonnement évolutif et dans la construction de modèles. Par exemple, le comportement de wk dans des modèles plus complexes (tels que la sélection dépendante de la fréquence, l’adaptation aux changements d’environnement graduels ou la sélection sur l’utilisation du codon) peut également être étudié dans le cadre de sélection de mutation par site. Ce sera un effort utile car il mettra en lumière notre capacité à détecter l’évolution adaptative dans les séquences moléculaires.

Accessibilité des données

Les données accompagnant cette étude sont disponibles à la Dryade doi: 10.5061/dryade.3r3q4.

Remerciements

Je remercie Ziheng Yang, Richard Goldstein et Asif Tamuri pour leurs précieux commentaires.

Déclaration de financement

M.d.R. est soutenu par BBSRC (UK) grant no. BB/J009709/1 attribué à Ziheng Yang.

Conflits d’intérêts

Je n’ai pas d’intérêts concurrents.

Notes de bas de page

1
Halpern AL & Bruno WJ. 1998 Distances évolutives pour les séquences codantes pour les protéines : modélisation des fréquences de résidus spécifiques au site. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093/ oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
2
Fisher R. 1930la théorie génétique de la sélection naturelle. Oxford, Royaume-Uni : Clarendon Press. Google Scholar
3
Wright S. 1931Évolution dans les populations mendéliennes. Génétique 16, 97-159. PubMed, Google Scholar
4
Holder MT, Zwickl DJ &Dessimoz C. 2008évaluer la robustesse des méthodes phylogénétiques à la variabilité entre sites dans les processus de substitution. Phil. Trans. R. Soc. B 363, 4013-4021. (doi: 10.1098/rstb.2008.0162). Lien, ISI, Google Scholar
5
Spielman SJ &Wilke CO. 2015la relation entre dN/dS et les coefficients de sélection mis à l’échelle. Mol. Biol. Evol. 32. (doi: 10.1093/molbev/msv003). Crossref, PubMed, ISI, Google Scholar
6
Yang Z &Nielsen R. 2008mutation – modèles de sélection de substitution de codon et leur utilisation pour estimer les forces sélectives sur l’utilisation de codon. Mol. Biol. Evol. 25, 568–579. (doi: 10.1093/molbev/msm284). Crossref, PubMed, ISI, Google Scholar
7
Rodrigue N, Philippe H &Lartillot N. 2010mutation-selection models of coding sequence evolution with site-heterogeneous amino acid fitness profiles. Proc. Natl Acad. Sci. États-Unis 107, 4629-4634. (doi: 10.1073/pnas.0910915107). Il s’agit d’un système de gestion des données qui permet de gérer les données et les données de la base de données. 2012Estimating the distribution of selection coefficients from phylogenetic data using sitewise mutation-selection models. Génétique 190, 1101-1115. (doi: 10.1534/ génétique.111.136432). Crossref, PubMed, ISI, Google Scholar
9
Tamuri AU, Goldman N &dos Reis M. 2014A Méthode de probabilité pénalisée pour estimer la distribution des coefficients de sélection à partir de données phylogénétiques. Génétique 197, 257-271. (doi: 10.1534/ génétique.114.162263). Crossref, PubMed, ISI, Google Scholar
10
dos Reis M. 2013Population genetics and substitution models of adaptive evolution. (http://arxiv.org/abs/1311.6682). Google Scholar
11
Tamuri AU, dos Reis M, Hay AJ &Goldstein RA. 2009Identifiant les changements dans les contraintes sélectives: changements d’hôtes dans la grippe. PLOS Comput. Biol. 5, e1000564. (doi: 10.1371/ journal.pcbi.1000564). Il s’agit d’un système de gestion des données qui permet de gérer les données et les données de la base de données. 2009 Utilisation de modèles non homogènes de substitution nucléotidique pour identifier les événements de changement d’hôte: application à l’origine du virus pandémique de la grippe espagnole de 1918. J. Mol. Evol. 69, 333–345. (doi:10.1007/s00239-009-9282- x). Crossref, PubMed, ISI, Google Scholar
13
Nielsen R &Yang Z. 2003Estimation de la distribution des coefficients de sélection à partir de données phylogénétiques avec des applications à l’ADN mitochondrial et viral. Mol. Biol. Evol. 20, 1231–1239. (doi: 10.1093/molbev/msg147). Il s’agit de la première édition du CD Bustamante. 2005Population genetics of molecular evolution. Méthodes statistiques dans l’évolution moléculaire (ed. &Nielsen R), pp. 63-99. New York, NY : Springer. Crossref, Google Scholar