Wie berechnet man das nicht-synonyme zu synonym Ratenverhältnis von Protein-kodierenden Genen unter dem Fisher–Wright Mutation–Selection Framework | Biology Letters

Einführung

Halpern & Bruno entwickelte ein Modell zur Untersuchung der Divergenz von Protein-kodierenden Genen basierend auf dem Fisher–Wright-Modell von Mutation, Selektion und zufälliger genetische Drift . Im Modell wird jeder bestimmten Codonstelle im Gen ein eigener Satz von Aminosäure–Fitnesspunkten zugewiesen, und dann wird das Fisher-Wright-Modell verwendet, um die Evolutionsrate der Stelle zu ermitteln. Das Modell hat in den letzten Jahren ein Wiederaufleben erlebt, und Variationen davon wurden beispielsweise verwendet, um die Leistung phylogenetischer Inferenzmethoden zu untersuchen , die Codonnutzung zu untersuchen und die Verteilung der Selektionskoeffizienten in proteinkodierenden Genen abzuschätzen . Überraschenderweise wurde das Modell nicht verwendet, um die Dynamik des nicht-synonymen zu synonymen Ratenverhältnisses (auch bekannt als ω = dN / dS) von proteinkodierenden Genen und seine Bedeutung für die Untersuchung der adaptiven molekularen Evolution zu untersuchen.

Der Zweck dieser Notiz ist es, einen Weg vorzuschlagen, ein Äquivalent des klassischen Konzepts des nicht-synonymen zu synonymen Ratenverhältnisses im Kontext des Mutations–Selektionsmodells von Halpern zu definieren und zu berechnen & Bruno . Es ist zu hoffen, dass wir unter Verwendung erster Prinzipien der Populationsgenetik eine Expression von ω als Funktion der Selektionskoeffizienten erhalten können, die an Codonstellen im proteinkodierenden Gen wirken. Dies sollte viel Einblick in die evolutionäre Dynamik von Codonstellen geben und beim Aufbau statistischer Modelle zum Nachweis der adaptiven Evolution in proteinkodierenden Genen von Vorteil sein.

Das site-wise Mutation–Selection-Modell

Betrachten Sie die Entwicklung einer Codonstelle k in einem proteinkodierenden Gen in einer Population mit N haploiden Genomen. Angenommen, die Site ist derzeit für Codon I festgelegt (dh alle N Allele tragen I an Site k). Im Rahmen der Mutationsauswahl beträgt die Substitutionsrate (die Rate, mit der neuartige mutierte Codons J auftreten und schließlich in der Population fixiert werden)

2.1

Hier ist µIJ die neutrale Mutationsrate (pro Generation) von I nach J, und SIJ,k = FJ,k – FI,k ist der Selektionskoeffizient zugunsten von Codon J und FJ,k = 2NfJ, k ist die skalierte malthusianische Fitness von J. Die natürliche Selektion beeinflusst die relative Substitutionsrate. Wenn die Mutation vorteilhaft ist (SIJ,k > 0), ist die Substitutionsrate höher als die neutrale Rate (qIJ,k > qIJ), aber wenn die Mutation schädlich ist (SIJ,k < 0), dann ist die Substitutionsrate reduziert (qIJ,k < µIJ). Hier nehmen wir an, dass synonyme Substitutionen neutral sind (SIJ, k = 0), und somit wird die Evolution an Stelle k durch 20 Aminosäurenpassungen bestimmt. Die µIJ kann aus Standard-DNA-Substitutionsmodellen konstruiert werden (zum Beispiel, wenn I = TTT und J = TTC, dann

Inline-Formel unter dem HKY-Substitutionsmodell, siehe für Details).

Gleichung (2.1) beschreibt die Codonsubstitution in Populationen als zeitkontinuierlichen Markov-Prozess. Dies ist sinnvoll, wenn die Mutationsrate pro Generation im Vergleich zur Populationsgröße gering ist ( Inline-Formel ), so dass es wenig Polymorphismus in der Population gibt und höchstens zwei Allele an einer Stelle gleichzeitig segregieren. Der Anteil der Zeit, nI,k, die k für I festlegt (d. h. die stationäre Frequenz von I), ist

, wobei Inline-Formel die Frequenz für eine sich neutral entwickelnde Sequenz (d. H. ein Pseudogen) ist. Somit ist die Substitutionsrate bei k, gemittelt über die Zeit,

wobei die Summe über alle Codonpaare I ≠ J. Diese Rate kann in ihre nicht-synonymen und synonymen Komponentenraten unterteilt werden, pk = pN,k + pS,k, wobei

und wobei die Indikatorfunktion IN = 1 ist, wenn die Substitution nicht -gleichbedeutend und = 0, falls nicht anders angegeben. Beachten Sie, dass die Synonym-Rate pS, k zwischen den Standorten variiert (wenn beispielsweise eine Site für Methionin konserviert ist, ist die Synonym-Rate Null). Für eine sich neutral entwickelnde Sequenz sind die Raten gegeben durch

Beachten Sie, dass Gleichung (2.1) die momentane Substitutionsrate angibt, dh die an der Stelle k bedingte Rate, die derzeit für I festgelegt ist. Andererseits ist pk die Gleichgewichtsrate, gemittelt über alle Codons und gewichtet mit ihren stationären Frequenzen.

Die relative nicht-synonyme Substitutionsrate

Das absolute Verhältnis von nicht-synonym zu synonym Substitutionsrate an der Stelle k ist pN,k/pS,k. Da die synonymen Raten jedoch über die Sites variieren, müssen wir das Verhältnis durch das synonyme Ratenverhältnis der Site normalisieren, Inline-Formel , und dann normalisieren durch (um die unterschiedlichen Anteile von synonymen und -synonyme Substitutionen bei Neutralität). Dies führt zu folgender Definition:

3.1

Alternativ können wir wk als relative nicht-synonyme Rate wk = cpN,k definieren, wobei die Konstante c so eingestellt ist, dass das Verhältnis eins für sich neutral entwickelnde Sequenzen ist, dh unter der Einschränkung Inline-Formel . Die offensichtliche Lösung ist , die zu derselben Definition wie oben führt. Beachten Sie, dass c die wünschenswerte Eigenschaft hat, über sites konstant zu sein. Der Leser sollte sich nicht wundern, dass die synonyme Rate aus Gleichung (3.1) herausfällt. Bei der statistischen Inferenz haben synonyme Substitutionen Informationen über die neutralen Mutationsraten und informieren somit den Wert der Inline-Formel . In ähnlicher Weise ist die relative Wachstumsrate an der Stelle k

3.2

Abbildung 1a zeigt ein Beispiel für das rbcL-Gen von Blütenpflanzen. Die Fitnesswerte wurden nach dem Halpern–Bruno-Modell von Tamuri et al. , und wir verwenden ihre Werte, um wk und yk hier zu berechnen. Die durchschnittlichen Raten zwischen den Standorten sind Inline-Formel und. Beachten Sie, dass für viele Sites die Übertragungsraten schneller sind als für eine sich neutral entwickelnde Sequenz (dh yk > 1). Dies liegt an der eigenartigen Natur des genetischen Codes in Verbindung mit den Mutationsverzerrungen (

Abbildung 1. Die relativen nicht-synonymen (wk) und synonymen (yk) Substitutionsraten. (a) Raten für das rbcL-Chloroplastengen von monokotylen (Blütenpflanzen). (b) Raten für das pb2–Gen von Influenza A. In (a, b) wurden die Passungen an jeder Stelle (FIJ, k) und die Mutationsparameter () unter dem Halpern-Bruno-Modell durch Penalized Likelihood (Strafe α = 0,01) geschätzt und sind von . Dann werden die Gleichungen (3.1) und (3.2) verwendet, um wk und yk zu berechnen. In (b) wurden 25 adaptive Stellen (rot) identifiziert, an denen die Eignung zwischen Viren, die sich in menschlichen und aviären Wirten (dem natürlichen Reservoir) entwickeln, unterschiedlich ist . Fitnesses für diese Seiten unter jedem Host wurden ohne Strafe geschätzt und sind aus . Dann wird Gleichung (4.1) verwendet, um bei der Host-Schicht zu berechnen. Der Bereich der beträgt 0,231-7,64 (die größten Werte sind in der Abbildung abgeschnitten).

Die nicht-synonyme Rate während der adaptiven Evolution

Wenn die Passungen der Aminosäuren über die Zeit konstant sind, werden Sie die meiste Zeit für die optimale Aminosäure fixiert verbringen. Gelegentlich können suboptimale Aminosäuren fixiert und nach kurzer Evolutionszeit substituiert werden. Dies bedeutet, dass die nicht-synonyme Rate an Stellen im Vergleich zur Rate für sich neutral entwickelnde Sequenzen reduziert ist (dh wk < 1). Wenn jedoch die Passungen an Orten im Laufe der Zeit variieren (z. B. nach einer Umgebungsverschiebung oder unter intensiver frequenzabhängiger Selektion), kann die nicht-synonyme Rate im Vergleich zu der Rate für sich neutral entwickelnde Sequenzen beschleunigt werden (wk > 1). Wir untersuchen nun den Fall, in dem sich die Fitness als Anpassung an eine neuartige Umgebung ändert.

Betrachten Sie eine Site k, bei der die Eignung von I Inline-Formel in Umgebung A ist. Die stationären Frequenzen und momentanen Substitutionsraten sind . Stellen Sie sich nun vor, die Umgebung verschiebt sich (z. B. eine Population von Säugetieren, die in einem plötzlich kälteren Klima leben, oder ein Virus, das einen neuen Wirt besiedelt, wobei sich die intrazelluläre Umgebung im neuen Wirt vom Reservoirwirt unterscheidet). Die Fitness von I in der neuen Umgebung B ist jetzt Inline-Formel . Die Wahrscheinlichkeit, dass die Site zum Zeitpunkt der Umgebungsverschiebung derzeit für I festgelegt ist, beträgt , aber die Substitutionsrate ist jetzt die der neuen Umgebung . Somit sind die erwarteten absoluten und relativen nicht-synonymen Raten bei der Umgebungsverschiebung

4.1

Wenn die Verschiebung der Fitnesswerte groß ist, wird die Rate stark beschleunigt ( Inline-Formel ). Dies liegt daran, dass die Stelle in der neuen Umgebung wahrscheinlich für eine suboptimale Aminosäure fixiert ist und neuartige Mutationen zu optimalen Aminosäuren schnell fixiert werden. Wenn die Fitnessverschiebung jedoch moderat ist, kann die Rate immer noch niedriger sein als die neutrale Rate ( Inline-Formel ).

Abbildung 1b zeigt ein Beispiel für das pb2-Gen des Influenzavirus. Die Fitnesswerte wurden nach dem Halpern–Bruno-Modell von Tamuri et al. . Eine Teilmenge von 25 adaptiven Stellen (bei denen die Eignung für Viren, die sich in menschlichen und aviären Wirten entwickeln, unterschiedlich ist) wurden von Tamuri et al. , und ihre von Tamuri et al. . Wir verwenden die Schätzungen, um wk, yk und Inline-Formel hier zu berechnen. Die klassische Linie der menschlichen Influenza entstand wahrscheinlich aus einer Wirtsverschiebung von einem Vogel zu einem Säugetierreservoir im frühen zwanzigsten Jahrhundert . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is (across all sites and ). Note that for 16 sites for which fitnesses are different between hosts, we find that . Dies zeigt an, dass das Kriterium wk > 1 zur Erkennung der adaptiven Evolution in diesem Fall konservativ ist.

Die Wahrscheinlichkeit, dass die Site für I, Zeit t nach der Umgebungsverschiebung festgelegt ist, ist

4.2

wobeisind die Übergangswahrscheinlichkeiten, die unter Verwendung der Standard-Markov-Theorie erhalten werden, dh durch Berechnen der Inline-Formel Inline Formula . Somit sind die absoluten und relativen nicht-synonymen Raten, Zeit t nach der Verschiebung,

Die Übergangswahrscheinlichkeiten in Gleichung (4.2) sind exponentielle Zerfallsfunktionen der Zeit, und so Inline-Formel ist auch ein exponentieller Zerfall. Anfangs ist der Wert derhoch, und wenn die Zeit bis unendlich geht,nähert sich dem stationären Wert, der durch Gleichung (3.1) gegeben ist. Mit anderen Worten, kurz nach einer Umweltverschiebung tritt an Stellen, an denen sich die Fitness geändert hat, ein Ausbruch adaptiver Substitutionen auf, und Substitutionen akkumulieren sich, bis das proteinkodierende Gen einen Zustand des adaptiven Gleichgewichts erreicht. Zum Beispiel zeigt Abbildung 2a den Zerfall der Inline-Formel für die 25 adaptiven Stellen im pb2-Gen nach einer Wirtsverschiebung.

Abbildung 2. (a) Zerfall der relativen nicht-synonymen Rate nach einer Wirtsverschiebung für 25 adaptive Stellen (graue Linien) im pb2-Gen der Influenza. Die durchgezogene Linie ist der Mittelwert über die 25 Seiten, . Im Laufe der Zeit nähert sich dem langfristigen Mittelwert (gepunktete Linie). b) Die relative Nichtsynonymrate als Funktion des mittleren Selektionskoeffizienten an den Standorten. Rosa Punkte: Fitnesswerte für 10 000 Standorte wurden aus Normalverteilungen mit Mittelwert 0 und σ = 0, … , 10 entnommen. Dann wurden die Gleichungen (3.1) und (5.1) verwendet, um wk und zu berechnen. Graue Punkte: Ein weiterer Satz von 10 000 Fitnesswerten wurde wie oben abgetastet, dann wurden die Gleichungen (4.2) und (5.1) verwendet, um und umwelt-Shift-Modell. Durchgezogene Linie: S/(1 – exp(-S)).

Abbildung 2. (a) Zerfall der relativen nicht-synonymen Rate nach einer Wirtsverschiebung für 25 adaptive Stellen (graue Linien) im pb2-Gen der Influenza. Die durchgezogene Linie ist der Mittelwert über die 25 Seiten, . Im Laufe der Zeit nähert sich dem langfristigen Mittelwert (gepunktete Linie). b) Die relative Nichtsynonymrate als Funktion des mittleren Selektionskoeffizienten an den Standorten. Rosa Punkte: Fitnesswerte für 10 000 Standorte wurden aus Normalverteilungen mit Mittelwert 0 und σ = 0, … , 10 entnommen. Dann wurden die Gleichungen (3.1) und (5.1) verwendet, um wk und zu berechnen. Graue Punkte: Ein weiterer Satz von 10 000 Fitnesswerten wurde wie oben abgetastet, dann wurden die Gleichungen (4.2) und (5.1) verwendet, um und umwelt-Shift-Modell. Durchgezogene Linie: S/(1 – exp(-S)).

Schlussfolgerung

Frühere Autoren haben gezeigt, dass die Beziehung zwischen der Nicht-Synonymrate und dem Selektionskoeffizienten ungefähr ω = S/(1 − exp(−S)) beträgt , aber die Näherung beruht entweder auf dem Infinite-Sites-Modell oder geht davon aus, dass alle mutierten Aminosäuren die gleiche Fitness haben. Die Gleichungen (3.1) und (4.1) liefern realistischere Näherungen, sind jedoch schwer zu visualisieren. Betrachten Sie eine für I feste Site. Die Wahrscheinlichkeit, dass die nächste Mutation J ist, ist Inline-Formel für I ≠ J. Im Laufe der Zeit beträgt der Anteil der I-zu-J-Mutationen an der Stelle nI,kPIJ. Somit beträgt der durchschnittliche Selektionskoeffizient für Mutationen an Standort k

5.1

Abbildung 2b zeigt wk als Funktion von Inline-Formel für simulierte Standorte, wenn die Passungen konstant sind oder sich mit der Umgebung verschieben. Beachten Sie, dass die Approximation ω = S / (1 − exp(−S)) eine vernünftige untere Grenze für wk liefert. Im Allgemeinenerhöht sich mit, aber die Beziehung ist nicht so einfach wie in den vorherigen Annäherungen .

Im standortweisen Mutationsauswahlmodell berechnet man zuerst die Auswahlkoeffizienten, und daher kann man wissen, ob eine Stelle unter positiver Selektion war, ohne wk zu berechnen . Das Modell ist jedoch überparametrisiert, rechenintensiv und die Passungen können nur in großen Datensätzen gut geschätzt werden . Stattdessen sollte das Modell im evolutionären Denken und in der Modellbildung von Vorteil sein. Zum Beispiel kann das Verhalten von wk unter komplexeren Modellen (wie frequenzabhängige Selektion , Anpassung an allmähliche Umgebungsänderungen oder Selektion auf Codonnutzung) auch unter dem site-wise Mutation-Selection Framework untersucht werden. Dies wird sich lohnen, da es Aufschluss über unsere Fähigkeit geben wird, adaptive Evolution in molekularen Sequenzen nachzuweisen.

Datenzugänglichkeit

Die dieser Studie beigefügten Daten sind verfügbar unter Dryad doi:10.5061/dryad.3r3q4.

Danksagung

Ich danke Ziheng Yang, Richard Goldstein und Asif Tamuri für wertvolle Kommentare.

Finanzierungserklärung

M.d.R. wird von BBSRC (UK) grant No. BB/J009709/1 an Ziheng Yang verliehen.

Interessenkonflikte

Ich habe keine konkurrierenden Interessen.

Fußnoten

1
Halpern AL& Bruno WJ. 1998Evolutionäre Distanzen für protein-kodierende Sequenzen: Modellierung ortsspezifischer Rückstandshäufigkeiten. Mol. Biol. In: Evol. 15, 910–917. (doi:10.1093/oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
2
Fisher R. 1930Die genetische Theorie der natürlichen Selektion. Oxford, Vereinigtes Königreich: Clarendon Press. Google Scholar
3
Wright S. 1931Evolution in mendelschen Populationen. Genetik 16, 97-159. PubMed, Google Scholar
4
Holder MT, Zwickl DJ& Dessimoz C. 2008Evaluating the robustness of phylogenetic methods to multi-site variability in substitution processes. Phil. Transeuropäischen. R. Soc. B 363, 4013-4021. (doi:10.1098/rstb.2008.0162). Link, ISI, Google Scholar
5
Spielman SJ& Wilke CO. 2015Die Beziehung zwischen dN / dS und skalierten Auswahlkoeffizienten. Mol. Biol. In: Evol. 32. (doi:10.1093/molbev/msv003). Crossref, PubMed, ISI, Google Scholar
6
Yang Z& Nielsen R. 2008mutationsauswahlmodelle der Codonsubstitution und ihre Verwendung zur Schätzung selektiver Stärken bei der Codonnutzung. Mol. Biol. In: Evol. 25, 568–579. (doi:10.1093/molbev/msm284). Crossref, PubMed, ISI, Google Scholar
7
Rodrigue N, Philippe H& Lartillot N. 2010mutationsauswahlmodelle der kodierenden Sequenzevolution mit standortheterogenen Aminosäure–Fitnessprofilen. Prok. In: Natl Acad. Sci. USA 107, 4629-4634. (doi:10.1073/pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
8
Tamuri AU, dos Reis M& Goldstein RA. 2012schätzung der Verteilung von Selektionskoeffizienten aus phylogenetischen Daten unter Verwendung von Sitewise-Mutations-Selektionsmodellen. Genetik 190, 1101-1115. (doi:10.1534/Genetik.111.136432). Crossref, PubMed, ISI, Google Scholar
9
Tamuri AU, Goldman N& dos Reis M. 2014A Penalized-Likelihood-Methode zur Schätzung der Verteilung von Selektionskoeffizienten aus phylogenetischen Daten. Genetik 197, 257-271. (doi:10.1534/Genetik.114.162263). Crossref, PubMed, ISI, Google Scholar
10
dos Reis M. 2013populationsgenetik und Substitutionsmodelle der adaptiven Evolution. (http://arxiv.org/abs/1311.6682). Google Scholar
11
Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009Identifying changes in selective constraints: host shifts in influenza. PLoS Comput. Biol. 5, e1000564. (doi:10.1371/Zeitschrift.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
12
dos Reis M, Hay AJ& Goldstein RA. 2009verwendung inhomogener Modelle der Nukleotidsubstitution zur Identifizierung von Wirtsverschiebungsereignissen: Anwendung auf den Ursprung des spanischen Influenza-Pandemievirus von 1918. In: J. Mol. In: Evol. 69, 333–345. (doi:10.1007/s00239-009-9282- x). Crossref, PubMed, ISI, Google Scholar
13
Nielsen R& Yang Z. 2003schätzung der Verteilung von Selektionskoeffizienten aus phylogenetischen Daten mit Anwendungen auf mitochondriale und virale DNA. Mol. Biol. In: Evol. 20, 1231–1239. (doi:10.1093/molbev/msg147). Crossref, PubMed, ISI, Google Scholar
14
Bustamante CD. 2005POPULATIONSGENETIK der molekularen Evolution. Statistische Methoden in der molekularen Evolution (Hrsg. & Nielsen R), S. 63-99. New York, NY: Springer. Querverweis, Google Scholar