Wie berechnet man das nicht-synonyme zu synonym Ratenverhältnis von Protein-kodierenden Genen unter dem Fisher–Wright Mutation–Selection Framework

Einführung

Halpern & Bruno entwickelte ein Modell zur Untersuchung der Divergenz von Protein-kodierenden Genen basierend auf dem Fisher–Wright-Modell von Mutation, Selektion und zufälliger genetische Drift . Im Modell wird jeder bestimmten Codonstelle im Gen ein eigener Satz von Aminosäure–Fitnesspunkten zugewiesen, und dann wird das Fisher-Wright-Modell verwendet, um die Evolutionsrate der Stelle zu ermitteln. Das Modell hat in den letzten Jahren ein Wiederaufleben erlebt, und Variationen davon wurden beispielsweise verwendet, um die Leistung phylogenetischer Inferenzmethoden zu untersuchen , die Codonnutzung zu untersuchen und die Verteilung der Selektionskoeffizienten in proteinkodierenden Genen abzuschätzen . Überraschenderweise wurde das Modell nicht verwendet, um die Dynamik des nicht-synonymen zu synonymen Ratenverhältnisses (auch bekannt als ω = dN / dS) von proteinkodierenden Genen und seine Bedeutung für die Untersuchung der adaptiven molekularen Evolution zu untersuchen.

Der Zweck dieser Notiz ist es, einen Weg vorzuschlagen, ein Äquivalent des klassischen Konzepts des nicht-synonymen zu synonymen Ratenverhältnisses im Kontext des Mutations–Selektionsmodells von Halpern zu definieren und zu berechnen & Bruno . Es ist zu hoffen, dass wir unter Verwendung erster Prinzipien der Populationsgenetik eine Expression von ω als Funktion der Selektionskoeffizienten erhalten können, die an Codonstellen im proteinkodierenden Gen wirken. Dies sollte viel Einblick in die evolutionäre Dynamik von Codonstellen geben und beim Aufbau statistischer Modelle zum Nachweis der adaptiven Evolution in proteinkodierenden Genen von Vorteil sein.

Das site-wise Mutation–Selection-Modell

Betrachten Sie die Entwicklung einer Codonstelle k in einem proteinkodierenden Gen in einer Population mit N haploiden Genomen. Angenommen, die Site ist derzeit für Codon I festgelegt (dh alle N Allele tragen I an Site k). Im Rahmen der Mutationsauswahl beträgt die Substitutionsrate (die Rate, mit der neuartige mutierte Codons J auftreten und schließlich in der Population fixiert werden)

Anzeigeformel

2.1

Hier ist µIJ die neutrale Mutationsrate (pro Generation) von I nach J, und SIJ,k = FJ,k – FI,k ist der Selektionskoeffizient zugunsten von Codon J und FJ,k = 2NfJ, k ist die skalierte malthusianische Fitness von J. Die natürliche Selektion beeinflusst die relative Substitutionsrate. Wenn die Mutation vorteilhaft ist (SIJ,k > 0), ist die Substitutionsrate höher als die neutrale Rate (qIJ,k > qIJ), aber wenn die Mutation schädlich ist (SIJ,k < 0), dann ist die Substitutionsrate reduziert (qIJ,k < µIJ). Hier nehmen wir an, dass synonyme Substitutionen neutral sind (SIJ, k = 0), und somit wird die Evolution an Stelle k durch 20 Aminosäurenpassungen bestimmt. Die µIJ kann aus Standard-DNA-Substitutionsmodellen konstruiert werden (zum Beispiel, wenn I = TTT und J = TTC, dann

Inline-Formelunter dem HKY-Substitutionsmodell, siehe für Details).

Gleichung (2.1) beschreibt die Codonsubstitution in Populationen als zeitkontinuierlichen Markov-Prozess. Dies ist sinnvoll, wenn die Mutationsrate pro Generation im Vergleich zur Populationsgröße gering ist (Inline-Formel), so dass es wenig Polymorphismus in der Population gibt und höchstens zwei Allele an einer Stelle gleichzeitig segregieren. Der Anteil der Zeit, nI,k, die k für I festlegt (d. h. die stationäre Frequenz von I), ist

Anzeigeformel

, wobeiInline-Formeldie Frequenz für eine sich neutral entwickelnde Sequenz (d. H. ein Pseudogen) ist. Somit ist die Substitutionsrate bei k, gemittelt über die Zeit,

Anzeigeformel

wobei die Summe über alle Codonpaare I ≠ J. Diese Rate kann in ihre nicht-synonymen und synonymen Komponentenraten unterteilt werden, pk = pN,k + pS,k, wobei

Anzeigeformel

und wobei die Indikatorfunktion IN = 1 ist, wenn die Substitution nicht -gleichbedeutend und = 0, falls nicht anders angegeben. Beachten Sie, dass die Synonym-Rate pS, k zwischen den Standorten variiert (wenn beispielsweise eine Site für Methionin konserviert ist, ist die Synonym-Rate Null). Für eine sich neutral entwickelnde Sequenz sind die Raten gegeben durch

Anzeigeformel

Beachten Sie, dass Gleichung (2.1) die momentane Substitutionsrate angibt, dh die an der Stelle k bedingte Rate, die derzeit für I festgelegt ist. Andererseits ist pk die Gleichgewichtsrate, gemittelt über alle Codons und gewichtet mit ihren stationären Frequenzen.

Die relative nicht-synonyme Substitutionsrate

Das absolute Verhältnis von nicht-synonym zu synonym Substitutionsrate an der Stelle k ist pN,k/pS,k. Da die synonymen Raten jedoch über die Sites variieren, müssen wir das Verhältnis durch das synonyme Ratenverhältnis der Site normalisieren, Inline-Formel, und dann normalisieren durch Inline-Formel (um die unterschiedlichen Anteile von synonymen und -synonyme Substitutionen bei Neutralität). Dies führt zu folgender Definition:

Anzeigeformel

3.1

Alternativ können wir wk als relative nicht-synonyme Rate wk = cpN,k definieren, wobei die Konstante c so eingestellt ist, dass das Verhältnis eins für sich neutral entwickelnde Sequenzen ist, dh unter der Einschränkung Inline-Formel. Die offensichtliche Lösung ist Inline-Formel, die zu derselben Definition wie oben führt. Beachten Sie, dass c die wünschenswerte Eigenschaft hat, über sites konstant zu sein. Der Leser sollte sich nicht wundern, dass die synonyme Rate aus Gleichung (3.1) herausfällt. Bei der statistischen Inferenz haben synonyme Substitutionen Informationen über die neutralen Mutationsraten und informieren somit den Wert der Inline-Formel. In ähnlicher Weise ist die relative Wachstumsrate an der Stelle k

Anzeigeformel

3.2

Abbildung 1a zeigt ein Beispiel für das rbcL-Gen von Blütenpflanzen. Die Fitnesswerte wurden nach dem Halpern–Bruno-Modell von Tamuri et al. , und wir verwenden ihre Werte, um wk und yk hier zu berechnen. Die durchschnittlichen Raten zwischen den Standorten sindInline-FormelundInline-Formel. Beachten Sie, dass für viele Sites die Übertragungsraten schneller sind als für eine sich neutral entwickelnde Sequenz (dh yk > 1). Dies liegt an der eigenartigen Natur des genetischen Codes in Verbindung mit den Mutationsverzerrungen (Inline-Formel

Abbildung 1.

Abbildung 1. Die relativen nicht-synonymen (wk) und synonymen (yk) Substitutionsraten. (a) Raten für das rbcL-Chloroplastengen von monokotylen (Blütenpflanzen). (b) Raten für das pb2–Gen von Influenza A. In (a, b) wurden die Passungen an jeder Stelle (FIJ, k) und die Mutationsparameter (Inline-Formel) unter dem Halpern-Bruno-Modell durch Penalized Likelihood (Strafe α = 0,01) geschätzt und sind von . Dann werden die Gleichungen (3.1) und (3.2) verwendet, um wk und yk zu berechnen. In (b) wurden 25 adaptive Stellen (rot) identifiziert, an denen die Eignung zwischen Viren, die sich in menschlichen und aviären Wirten (dem natürlichen Reservoir) entwickeln, unterschiedlich ist . Fitnesses für diese Seiten unter jedem Host wurden ohne Strafe geschätzt und sind aus . Dann wird Gleichung (4.1) verwendet, um Inline-Formel bei der Host-Schicht zu berechnen. Der Bereich der Inline–Formel beträgt 0,231-7,64 (die größten Werte sind in der Abbildung abgeschnitten).

Die nicht-synonyme Rate während der adaptiven Evolution

Wenn die Passungen der Aminosäuren über die Zeit konstant sind, werden Sie die meiste Zeit für die optimale Aminosäure fixiert verbringen. Gelegentlich können suboptimale Aminosäuren fixiert und nach kurzer Evolutionszeit substituiert werden. Dies bedeutet, dass die nicht-synonyme Rate an Stellen im Vergleich zur Rate für sich neutral entwickelnde Sequenzen reduziert ist (dh wk < 1). Wenn jedoch die Passungen an Orten im Laufe der Zeit variieren (z. B. nach einer Umgebungsverschiebung oder unter intensiver frequenzabhängiger Selektion), kann die nicht-synonyme Rate im Vergleich zu der Rate für sich neutral entwickelnde Sequenzen beschleunigt werden (wk > 1). Wir untersuchen nun den Fall, in dem sich die Fitness als Anpassung an eine neuartige Umgebung ändert.

Betrachten Sie eine Site k, bei der die Eignung von I Inline-Formel in Umgebung A ist. Die stationären Frequenzen und momentanen Substitutionsraten sind Inline-Formel. Stellen Sie sich nun vor, die Umgebung verschiebt sich (z. B. eine Population von Säugetieren, die in einem plötzlich kälteren Klima leben, oder ein Virus, das einen neuen Wirt besiedelt, wobei sich die intrazelluläre Umgebung im neuen Wirt vom Reservoirwirt unterscheidet). Die Fitness von I in der neuen Umgebung B ist jetzt Inline-Formel. Die Wahrscheinlichkeit, dass die Site zum Zeitpunkt der Umgebungsverschiebung derzeit für I festgelegt ist, beträgt Inline-Formel, aber die Substitutionsrate ist jetzt die der neuen Umgebung Inline-Formel. Somit sind die erwarteten absoluten und relativen nicht-synonymen Raten bei der Umgebungsverschiebung

Anzeigeformel

4.1

Wenn die Verschiebung der Fitnesswerte groß ist, wird die Rate stark beschleunigt (Inline-Formel). Dies liegt daran, dass die Stelle in der neuen Umgebung wahrscheinlich für eine suboptimale Aminosäure fixiert ist und neuartige Mutationen zu optimalen Aminosäuren schnell fixiert werden. Wenn die Fitnessverschiebung jedoch moderat ist, kann die Rate immer noch niedriger sein als die neutrale Rate (Inline-Formel).

Abbildung 1b zeigt ein Beispiel für das pb2-Gen des Influenzavirus. Die Fitnesswerte wurden nach dem Halpern–Bruno-Modell von Tamuri et al. . Eine Teilmenge von 25 adaptiven Stellen (bei denen die Eignung für Viren, die sich in menschlichen und aviären Wirten entwickeln, unterschiedlich ist) wurden von Tamuri et al. , und ihre von Tamuri et al. . Wir verwenden die Schätzungen, um wk, yk und Inline-Formel hier zu berechnen. Die klassische Linie der menschlichen Influenza entstand wahrscheinlich aus einer Wirtsverschiebung von einem Vogel zu einem Säugetierreservoir im frühen zwanzigsten Jahrhundert . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is Inline Formula (across all sites Inline Formula and Inline Formula). Note that for 16 sites for which fitnesses are different between hosts, we find that Inline Formula. Dies zeigt an, dass das Kriterium wk > 1 zur Erkennung der adaptiven Evolution in diesem Fall konservativ ist.

Die Wahrscheinlichkeit, dass die Site für I, Zeit t nach der Umgebungsverschiebung festgelegt ist, ist

Anzeigeformel

4.2

wobeiInline-Formelsind die Übergangswahrscheinlichkeiten, die unter Verwendung der Standard-Markov-Theorie erhalten werden, dh durch Berechnen der Inline-FormelInline Formula. Somit sind die absoluten und relativen nicht-synonymen Raten, Zeit t nach der Verschiebung,

Anzeigeformel

Die Übergangswahrscheinlichkeiten in Gleichung (4.2) sind exponentielle Zerfallsfunktionen der Zeit, und soInline-Formelist auch ein exponentieller Zerfall. Anfangs ist der Wert derInline-Formelhoch, und wenn die Zeit bis unendlich geht,Inline-Formelnähert sich dem stationären Wert, der durch Gleichung (3.1) gegeben ist. Mit anderen Worten, kurz nach einer Umweltverschiebung tritt an Stellen, an denen sich die Fitness geändert hat, ein Ausbruch adaptiver Substitutionen auf, und Substitutionen akkumulieren sich, bis das proteinkodierende Gen einen Zustand des adaptiven Gleichgewichts erreicht. Zum Beispiel zeigt Abbildung 2a den Zerfall derInline-Formelfür die 25 adaptiven Stellen im pb2-Gen nach einer Wirtsverschiebung.

Abbildung 2.

Abbildung 2. (a) Zerfall der relativen nicht-synonymen Rate nach einer Wirtsverschiebung für 25 adaptive Stellen (graue Linien) im pb2-Gen der Influenza. Die durchgezogene Linie ist der Mittelwert über die 25 Seiten, Inline-Formel. Im Laufe der Zeit nähert sich Inline-Formel dem langfristigen Mittelwert Inline-Formel (gepunktete Linie). b) Die relative Nichtsynonymrate als Funktion des mittleren Selektionskoeffizienten an den Standorten. Rosa Punkte: Fitnesswerte für 10 000 Standorte wurden aus Normalverteilungen mit Mittelwert 0 und σ = 0, … , 10 entnommen. Dann wurden die Gleichungen (3.1) und (5.1) verwendet, um wk und Inline-Formelzu berechnen. Graue Punkte: Ein weiterer Satz von 10 000 Fitnesswerten wurde wie oben abgetastet, dann wurden die Gleichungen (4.2) und (5.1) verwendet, um Inline-Formel und Inline-Formel umwelt-Shift-Modell. Durchgezogene Linie: S/(1 – exp(-S)).

Schlussfolgerung

Frühere Autoren haben gezeigt, dass die Beziehung zwischen der Nicht-Synonymrate und dem Selektionskoeffizienten ungefähr ω = S/(1 − exp(−S)) beträgt , aber die Näherung beruht entweder auf dem Infinite-Sites-Modell oder geht davon aus, dass alle mutierten Aminosäuren die gleiche Fitness haben. Die Gleichungen (3.1) und (4.1) liefern realistischere Näherungen, sind jedoch schwer zu visualisieren. Betrachten Sie eine für I feste Site. Die Wahrscheinlichkeit, dass die nächste Mutation J ist, ist Inline-Formel für I ≠ J. Im Laufe der Zeit beträgt der Anteil der I-zu-J-Mutationen an der Stelle nI,kPIJ. Somit beträgt der durchschnittliche Selektionskoeffizient für Mutationen an Standort k

Anzeigeformel

5.1

Abbildung 2b zeigt wk als Funktion vonInline-Formelfür simulierte Standorte, wenn die Passungen konstant sind oder sich mit der Umgebung verschieben. Beachten Sie, dass die Approximation ω = S / (1 − exp(−S)) eine vernünftige untere Grenze für wk liefert. Im AllgemeinenInline-Formelerhöht sich mitInline-Formel, aber die Beziehung ist nicht so einfach wie in den vorherigen Annäherungen .

Im standortweisen Mutationsauswahlmodell berechnet man zuerst die Auswahlkoeffizienten, und daher kann man wissen, ob eine Stelle unter positiver Selektion war, ohne wk zu berechnen . Das Modell ist jedoch überparametrisiert, rechenintensiv und die Passungen können nur in großen Datensätzen gut geschätzt werden . Stattdessen sollte das Modell im evolutionären Denken und in der Modellbildung von Vorteil sein. Zum Beispiel kann das Verhalten von wk unter komplexeren Modellen (wie frequenzabhängige Selektion , Anpassung an allmähliche Umgebungsänderungen oder Selektion auf Codonnutzung) auch unter dem site-wise Mutation-Selection Framework untersucht werden. Dies wird sich lohnen, da es Aufschluss über unsere Fähigkeit geben wird, adaptive Evolution in molekularen Sequenzen nachzuweisen.

Datenzugänglichkeit

Die dieser Studie beigefügten Daten sind verfügbar unter Dryad doi:10.5061/dryad.3r3q4.

Danksagung

Ich danke Ziheng Yang, Richard Goldstein und Asif Tamuri für wertvolle Kommentare.

Finanzierungserklärung

M.d.R. wird von BBSRC (UK) grant No. BB/J009709/1 an Ziheng Yang verliehen.

Interessenkonflikte

Ich habe keine konkurrierenden Interessen.

Fußnoten

© 2015 Der Autor(en) Veröffentlicht von der Royal Society. Alle Rechte vorbehalten.
  • 1
    Halpern AL& Bruno WJ. 1998Evolutionäre Distanzen für protein-kodierende Sequenzen: Modellierung ortsspezifischer Rückstandshäufigkeiten. Mol. Biol. In: Evol. 15, 910–917. (doi:10.1093/oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
  • 2
    Fisher R. 1930Die genetische Theorie der natürlichen Selektion. Oxford, Vereinigtes Königreich: Clarendon Press. Google Scholar
  • 3
    Wright S. 1931Evolution in mendelschen Populationen. Genetik 16, 97-159. PubMed, Google Scholar
  • 4
    Holder MT, Zwickl DJ& Dessimoz C. 2008Evaluating the robustness of phylogenetic methods to multi-site variability in substitution processes. Phil. Transeuropäischen. R. Soc. B 363, 4013-4021. (doi:10.1098/rstb.2008.0162). Link, ISI, Google Scholar
  • 5
    Spielman SJ& Wilke CO. 2015Die Beziehung zwischen dN / dS und skalierten Auswahlkoeffizienten. Mol. Biol. In: Evol. 32. (doi:10.1093/molbev/msv003). Crossref, PubMed, ISI, Google Scholar
  • 6
    Yang Z& Nielsen R. 2008mutationsauswahlmodelle der Codonsubstitution und ihre Verwendung zur Schätzung selektiver Stärken bei der Codonnutzung. Mol. Biol. In: Evol. 25, 568–579. (doi:10.1093/molbev/msm284). Crossref, PubMed, ISI, Google Scholar
  • 7
    Rodrigue N, Philippe H& Lartillot N. 2010mutationsauswahlmodelle der kodierenden Sequenzevolution mit standortheterogenen Aminosäure–Fitnessprofilen. Prok. In: Natl Acad. Sci. USA 107, 4629-4634. (doi:10.1073/pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
  • 8
    Tamuri AU, dos Reis M& Goldstein RA. 2012schätzung der Verteilung von Selektionskoeffizienten aus phylogenetischen Daten unter Verwendung von Sitewise-Mutations-Selektionsmodellen. Genetik 190, 1101-1115. (doi:10.1534/Genetik.111.136432). Crossref, PubMed, ISI, Google Scholar
  • 9
    Tamuri AU, Goldman N& dos Reis M. 2014A Penalized-Likelihood-Methode zur Schätzung der Verteilung von Selektionskoeffizienten aus phylogenetischen Daten. Genetik 197, 257-271. (doi:10.1534/Genetik.114.162263). Crossref, PubMed, ISI, Google Scholar
  • 10
    dos Reis M. 2013populationsgenetik und Substitutionsmodelle der adaptiven Evolution. (http://arxiv.org/abs/1311.6682). Google Scholar
  • 11
    Tamuri AU, dos Reis M, Hay AJ& Goldstein RA. 2009Identifying changes in selective constraints: host shifts in influenza. PLoS Comput. Biol. 5, e1000564. (doi:10.1371/Zeitschrift.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
  • 12
    dos Reis M, Hay AJ& Goldstein RA. 2009verwendung inhomogener Modelle der Nukleotidsubstitution zur Identifizierung von Wirtsverschiebungsereignissen: Anwendung auf den Ursprung des spanischen Influenza-Pandemievirus von 1918. In: J. Mol. In: Evol. 69, 333–345. (doi:10.1007/s00239-009-9282- x). Crossref, PubMed, ISI, Google Scholar
  • 13
    Nielsen R& Yang Z. 2003schätzung der Verteilung von Selektionskoeffizienten aus phylogenetischen Daten mit Anwendungen auf mitochondriale und virale DNA. Mol. Biol. In: Evol. 20, 1231–1239. (doi:10.1093/molbev/msg147). Crossref, PubMed, ISI, Google Scholar
  • 14
    Bustamante CD. 2005POPULATIONSGENETIK der molekularen Evolution. Statistische Methoden in der molekularen Evolution (Hrsg. & Nielsen R), S. 63-99. New York, NY: Springer. Querverweis, Google Scholar

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.