jak obliczyć stosunek szybkości genów kodujących białko w ramach mutacji Fisher-Wright

wprowadzenie

Halpern & Bruno opracował model do badania dywergencji genów kodujących białko w oparciu o model Fishera–Wrighta mutacji, selekcji i losowego dryfu genetycznego . W modelu każdemu konkretnemu miejscu kodonu w genie przypisuje się własny zestaw dopasowań aminokwasów, a następnie model Fishera–Wrighta jest używany do opracowania ewolucyjnego tempa miejsca. Model ten odradzał się w ostatnich latach, a jego odmiany były używane, na przykład, do badania wydajności metod wnioskowania filogenetycznego , do badania użycia kodonu i oszacowania rozkładu współczynników selekcji w genach kodujących białka . Być może zaskakujące jest to, że model ten nie został wykorzystany do badania dynamiki niesynonimicznego stosunku szybkości (znanego również jako ω = DN/dS) genów kodujących białka i jego znaczenia w badaniach adaptacyjnej ewolucji molekularnej.

celem niniejszej notki jest zaproponowanie sposobu zdefiniowania i obliczenia odpowiednika klasycznego pojęcia wskaźnika szybkości, w kontekście modelu doboru mutacji Halpern&. Mamy nadzieję, że wykorzystując pierwsze zasady genetyki populacyjnej, możemy uzyskać ekspresję ω jako funkcję współczynników selekcji działających w miejscach kodonowych w genie kodującym białko. Powinno to zapewnić duży wgląd w ewolucyjną dynamikę miejsc kodonowych i powinno być korzystne w budowaniu modeli statystycznych do wykrywania ewolucji adaptacyjnej w genach kodujących białka.

model site-wise mutation–selection

rozważa ewolucję miejsca kodonu k w genie kodującym białko w populacji z N genomami haploidalnymi. Załóżmy, że strona jest obecnie ustalona dla kodonu i (tzn. wszystkie N allele niosą I w miejscu k). W ramach selekcji mutacji wskaźnik substytucji (szybkość , z jaką nowe zmutowane kodony J pojawiają się i ostatecznie stają się stałe w populacji) wynosi

wyświetl wzór

2.1

tutaj µIJ jest neutralną szybkością mutacji (na pokolenie) od I do J, A SIJ,k = FJ,K–FI,K jest współczynnikiem selekcji na korzyść kodonu J i FJ,K = 2nfj,K jest skalowaną zdolnością maltuzjańską J. dobór naturalny wpływa na względną szybkość substytucji. Gdy mutacja jest korzystna (SIJ,k > 0), stopa podstawienia jest wyższa niż stopa neutralna (qIJ,k > µIJ), ale jeśli mutacja jest szkodliwa (SIJ,k < 0), to stopa podstawienia jest zmniejszona (qIJ,k < 0).< Tutaj Zakładamy,że substytucje synonimiczne są neutralne (SIJ, k = 0), a zatem ewolucja w miejscu k jest określona przez 20 pasowań aminokwasowych. ΜIJ można skonstruować na podstawie standardowych modeli substytucji DNA (na przykład, jeśli I = TTT I J = TTC, To

wzór Inlinew modelu substytucji HKY, zobacz szczegóły).

równanie (2.1) opisuje podstawienie kodonu w populacjach jako proces Markowa w czasie ciągłym. Jest to rozsądne, jeśli wskaźnik mutacji na pokolenie jest mały w porównaniu z wielkością populacji (wzór Inline), tak że w populacji występuje niewielki polimorfizm, a co najwyżej dwa allele segregują się w jednym miejscu naraz. Proporcja czasu,nI, k, którego miejsce K spędza stałe dla I (tj. stacjonarna częstotliwość I) wynosi

wyświetl wzór

, gdziewzór Inlinejest częstotliwością dla neutralnie rozwijającej się sekwencji (tj. pseudo-Gen). Tak więc, stopa substytucji w k, uśredniona w czasie, wynosi

wyświetla wzór

, gdzie suma jest nad wszystkimi parami kodonów i ≠ J. współczynnik ten można podzielić na nie synonimiczne i synonimiczne stawki składowe,pk = pN,k + pS, K, gdzie

wyświetla wzór

I gdzie funkcja wskaźnika w = 1, jeśli podstawienie nie jest synonimiczne, a = 0, jeśli jest inaczej. Należy zauważyć,że synonimiczna szybkość pS, k różni się w zależności od miejsca (na przykład, jeśli miejsce jest zachowane dla metioniny, to synonimiczna szybkość wynosi zero). Dla neutralnie rozwijającej się sekwencji, stawki są podane przez

wyświetl wzór

zwróć uwagę, że równanie (2.1) daje chwilową szybkość podstawienia, to znaczy szybkość uwarunkowaną na miejscu k ustaloną dla I w chwili obecnej. Z drugiej strony, pk jest szybkością w równowadze, uśrednioną dla wszystkich kodonów i ważoną przez ich stacjonarne częstotliwości.

względna stopa substytucji bez synonimu

bezwzględny stosunek stopy substytucji bez synonimu do synonimu w miejscu k wynosi pN,k/pS,K. Jednak, ponieważ stawki synonimiczne różnią się w zależności od witryn, musimy znormalizować stosunek przez stosunek synonimiczny witryny, formuła Inline, a następnie normalizować przez formuła Inline (aby skorygować różne proporcje substytucji synonimicznych i nie synonimicznych w neutralności). Prowadzi to do następującej definicji:

wyświetl formułę

3.1

alternatywnie, możemy zdefiniować WK jako względną niezwiązaną szybkość WK = cpN,K gdzie stała C jest ustawiona tak, że stosunek jest jeden dla neutralnie rozwijających się sekwencji, to jest pod ograniczeniemwzór Inline. Oczywistym rozwiązaniem jestformuła Inline prowadząca do tej samej definicji, co powyżej. Zauważ, że c ma pożądaną właściwość bycia stałym nad miejscami. Czytelnik nie powinien się dziwić, że wskaźnik synonimiczny wypada z równania (3.1). Podczas wykonywania wnioskowania statystycznego, substytucje synonimiczne mają informacje o szybkości mutacji neutralnej, a tym samym informują o wartościwzoru Inline. Podobnie, względna szybkość synonimiczna w miejscu k wynosi

wyświetl wzór

3.2

rysunek 1a pokazuje przykład genu rbcl roślin kwitnących. Wartości sprawności zostały oszacowane w modelu Halpern-Bruno przez Tamuri et al. i używamy ich wartości do obliczenia wk i yk tutaj. Średnie stawki w witrynach toformuła InlineIformuła Inline. Zauważ, że dla wielu stron, stawki synonimiczne są szybsze niż dla neutralnie ewoluującej sekwencji (tj. yk > 1). Wynika to z dziwacznej natury kodu genetycznego połączonego z tendencjami mutacyjnymi (wzór Inline

Rysunek 1.

Rysunek 1. Względne stopy substytucji inne niż synonimiczne (wk) i synonimiczne (yk). a) stawki dla genu chloroplastu rbcl monokotów (roślin kwitnących). (b) wskaźniki dla genu pb2 grypy A. In (A, b), dopasowania w każdym miejscu (FIJ, k) i parametry mutacji (wzór Inline) oszacowano w modelu Halpern–Bruno według prawdopodobieństwa ukarania (kara α = 0,01) i pochodzą z . Następnie równania (3.1) i (3.2) są używane do obliczania wk i yk. W lit. b) zidentyfikowano 25 miejsc adaptacyjnych (czerwonych), w których dopasowania są różne między wirusami rozwijającymi się u ludzi a ptasimi (naturalnymi rezerwuarami) gospodarzami . Dopasowania do tych miejsc pod każdym gospodarzem zostały oszacowane bez kary i pochodzą z . Następnie, równanie (4.1) jest używane do obliczenia formuła Inline przy zmianie hosta. Zakres formuła Inline wynosi 0,231–7,64 (największe wartości są obcięte na rysunku).

niesymetryczna szybkość podczas ewolucji adaptacyjnej

gdy dopasowanie aminokwasów jest stałe w czasie, witryny spędzają większość czasu na ustalaniu optymalnego aminokwasu. Czasami, nieoptymalne aminokwasy mogą stać się stałe, a następnie podstawione po krótkim okresie czasu ewolucyjnego. Oznacza to, że szybkość niezwiązana w miejscach jest zmniejszona w porównaniu z szybkością dla sekwencji ewoluujących neutralnie (tj. wk < 1). Jednakże, gdy dopasowanie w miejscach zmienia się w czasie (na przykład po przesunięciu otoczenia lub przy intensywnej selekcji zależnej od częstotliwości), szybkość niesynonimiczna może być przyspieszona w porównaniu z szybkością dla neutralnie rozwijających się sekwencji (wk > 1). Obecnie badamy przypadek, w którym dopasowanie zmienia się jako adaptacja do nowego środowiska.

rozważmy stronę k, w której sprawność i wynosiformuła Inline w środowisku A. Częstotliwości stacjonarne i chwilowe zastępowanie wynoszą wzór Inline. Teraz wyobraźmy sobie, że środowisko się zmienia (na przykład populacja ssaków żyjących w nagle chłodniejszym klimacie lub wirus kolonizujący nowego żywiciela, gdzie środowisko wewnątrzkomórkowe nowego żywiciela różni się od żywiciela rezerwuarowego). Sprawność I w nowym środowisku B wynosi terazformuła Inline. Prawdopodobieństwo, że witryna jest obecnie stała dla I w momencie zmiany środowiska, wynosi formuła Inline, ale stopa substytucji jest teraz taka, że dla nowego środowiska formuła Inline. Tak więc, oczekiwane bezwzględne i względne niezwiązane stawki przy zmianie środowiska to

wyświetl wzór

4.1

Jeśli przesunięcie wartości sprawności jest duże, szybkość będzie znacznie przyspieszona (formuła Inline). Dzieje się tak, ponieważ miejsce to prawdopodobnie znajdzie się stałe dla nieoptymalnego aminokwasu w nowym środowisku, a nowe mutacje do optymalnych aminokwasów zostaną szybko ustalone. Jeśli jednak zmiana sprawności jest umiarkowana, stawka może być nadal niższa niż stawka neutralna (formuła Inline).

rysunek 1b przedstawia przykład genu pb2 wirusa grypy. Wartości sprawności zostały oszacowane w modelu Halpern-Bruno przez Tamuri et al. . Podgrupa 25 miejsc adaptacyjnych (gdzie dopasowania są różne dla wirusów ewoluujących u ludzi w porównaniu do nosicieli ptaków ) została zidentyfikowana przez Tamuri i wsp. , a ich dopasowanie oszacowane przez Tamuri et al. . Używamy szacunków do obliczenia wk, yk iformuła Inline tutaj. Klasyczna linia ludzka grypa prawdopodobnie pochodzi od zmiany gospodarza z ptactwa do zbiornika ssaka na początku XX wieku . We calculate Inline Formula at the putative host shift. The average rate at adaptive sites is Inline Formula (across all sites Inline Formula and Inline Formula). Note that for 16 sites for which fitnesses are different between hosts, we find that Inline Formula. Oznacza to, że kryterium WK > 1 do wykrywania ewolucji adaptacyjnej jest w tym przypadku zachowawcze.

prawdopodobieństwo, że strona jest stała dla I, czas t po zmianie środowiska wynosi

wyświetl wzór

4.2

gdziewzór Inlineto przejście prawdopodobieństwa uzyskane za pomocą standardowej teorii Markowa, tj. poprzez obliczeniewzoru inline. Tak więc, bezwzględne i względne współczynniki niezwiązane, czas t Po przesunięciu, wynoszą

wyświetl wzór

prawdopodobieństwo przejścia w równaniu (4.2) są wykładniczymi funkcjami rozkładu czasu, a więcformuła Inlinejest również wykładniczą funkcją rozkładu czasu.rozpad. Początkowo wartośćInline Formulabędzie wysoka, a gdy czas pójdzie do nieskończoności,Inline Formulazbliży się do stacjonarnej wartości podanej przez równanie (3.1). Innymi słowy, wkrótce po zmianie środowiska, wybuch adaptacyjnych podstawień nastąpi w miejscach, w których zmieniły się dopasowania, i podstawienia będą się gromadzić, dopóki gen kodujący białko nie osiągnie stanu równowagi adaptacyjnej. Na przykład, Fig. 2A przedstawia rozkładwzór Inlinedla 25 miejsc adaptacyjnych w genie pb2 po zmianie gospodarza.

Rysunek 2.

Rysunek 2. a) rozkład we względnym tempie niesymetrycznym po przesunięciu gospodarza dla 25 miejsc adaptacyjnych (szare linie) w genie PB2 grypy. Ciągła linia jest średnią w 25 miejscach, wzór Inline. W miarę upływu czasu formuła Inline zbliża się do średniej długoterminowej formuła Inline (linia przerywana). B) względny wskaźnik niesynonimiczny jako funkcja średniego współczynnika doboru miejsc. Różowe kropki: wartości sprawności dla 10 000 miejsc Pobrano z rozkładów normalnych o średniej 0 i σ = 0,…, 10. Następnie do obliczenia WK wykorzystano równania (3.1) i (5.1) oraz wzór Inline. Szare kropki: inny zestaw 10 000 wartości sprawności próbkowano jak powyżej, następnie równania (4.2) i (5.1) zostały użyte do obliczenia wzór Inline I wzór Inline w modelu zmiany środowiska. Linia ciągła: S / (1−exp (- s)).

wniosek

poprzedni autorzy wykazali , że zależność między Nie synonimiczną szybkością a współczynnikiem selekcji wynosi w przybliżeniu ω = s / (1-exp (−S)), ale przybliżenie opiera się albo na modelu nieskończonych miejsc, albo zakłada, że wszystkie zmutowane aminokwasy mają taką samą przydatność. Równania (3.1) i (4.1) dostarczają bardziej realistycznych przybliżeń, ale trudno je zwizualizować. Rozważ stronę naprawioną dla I. Prawdopodobieństwo, że następna mutacja będzie J wynosi wzór Inline dla I ≠ J. z czasem proporcja mutacji I do J w miejscu będzie wynosić nI,kPIJ. Tak więc, średni współczynnik selekcji mutacji w miejscu k wynosi

wyświetl wzór

5.1

rysunek 2b pokazuje wk jako funkcjęwzór Inlinedla symulowanych miejsc, gdy dopasowania są stałe lub gdy zmieniają się z otoczeniem. Należy zauważyć, że przybliżenie ω = s/(1 − exp(−S)) zapewnia rozsądną dolną granicę wk. Ogólnie rzecz biorąc,formuła Inlinezwiększa się oformuła Inline, ale relacja nie jest tak prosta jak w poprzednich przybliżeniach .

w site-wise mutation–selection model najpierw oblicza się współczynniki selekcji, a zatem można wiedzieć, czy dana strona była pod pozytywną selekcją bez obliczania wk . Jednak model jest zbyt parametryzowany, obliczeniowo drogi, a dopasowania można dobrze oszacować tylko w dużych zestawach danych . Zamiast tego model powinien być korzystny w rozumowaniu ewolucyjnym i w budowaniu modeli. Na przykład, zachowanie wk w bardziej złożonych modelach (takich jak selekcja zależna od częstotliwości , adaptacja do stopniowych zmian środowiska lub selekcja przy użyciu kodonów ) może być również badane w ramach site-wise mutation-selection framework. Będzie to opłacalny wysiłek, ponieważ rzuci światło na naszą zdolność do wykrywania ewolucji adaptacyjnej w sekwencjach molekularnych.

dostępność danych

dane towarzyszące temu badaniu są dostępne na stronie Dryad doi:10.5061/dryad.3r3q4.

podziękowania

dziękuję Ziheng Yang, Richard Goldstein i Asif Tamuri za cenne komentarze.

Oświadczenie o finansowaniu

M. d.R. jest wspierane przez bbsrc (UK) grant no. BB/J009709 / 1 przyznane Ziheng Yang.

konflikty interesów

nie mam konkurencyjnych interesów.

Przypisy

© 2015 the Author(s) Published by the Royal Society. Wszelkie prawa zastrzeżone.
  • 1
    Halpern AL& 1998Evolutionary distances for protein-coding sequences: modeling site-specific residue frequencies. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
  • 2
    Fisher R. 1930the genetic theory of natural selection. Oxford, UK: Clarendon Press. Google Scholar
  • 3
    Wright S. 1931evolution in Mendelian populations. Genetyczna 16, 97-159 PubMed, Google Scholar
  • 4
    Holder MT, Zwickl DJ& Dessimoz C. 2008evaluating the solidness of phylogenetic methods to among-site variability in substitution processes. Phil. Trans. R. Soc. B 363, 4013-4021. (doi: 10.1098 / rstb.2008.0162). Link, ISI, Google Scholar
  • 5
    Spielman SJ& Wilke CO. 2015związek między dN / dS a skalowanymi współczynnikami selekcji. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, ISI, Google Scholar
  • 6
    Yang z& Nielsen R. 2008mutation–selection models of codon substitution and their use to estimate selective strengths on codon usage. Mol. Biol. Evol. 25, 568–579. (doi:10.1093/molbev/msm284). Crossref, PubMed, ISI, Google Scholar
  • 7
    Rodrigue N, Philippe H& Lartillot N. 2010mutation–selection models of coding sequence evolution with site-heterogenious amino acid fitness profiles. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi:10.1073/pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
  • 8
    Tamuri AU, dos Reis m& 2012Estimating the distribution of selection coefficients from phylogenetic data using sitewise mutation-selection models. Genetic 190, 1101-1115. (doi:10.1534/genetics.111.136432). Crossref, PubMed, ISI, Google Scholar
  • 9
    Tamuri AU, Goldman N& dos Reis M. 2014a penalized-likelihood method to estimate the distribution of selection coefficients from phylogenetic data. Genetyka 197, 257-271. (doi:10.1534/genetics.114.162263). Crossref, PubMed, ISI, Google Scholar
  • 10
    dos Reis M. 2013population genetics and substitution models of adaptive evolution. (http://arxiv.org/abs/1311.6682). Google Scholar
  • 11
    Tamuri AU, dos Reis M, Hay AJ& 2009 identifying changes in selective constraints: host shifts in influenza. PLoS Comput. Biol. 5, e1000564. (doi:10.1371/journal.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
  • 12
    dos Reis M, Hay AJ& 2009 using niejednorodne modele nucleotide substitution to identify host shift events: application to the origin of the 1918 'Spanish’ influenza Pandemic virus. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
  • 13
    Nielsen R& Yang Z. 2003. Mol. Biol. Evol. 20, 1231–1239. (doi:10.1093/molbev/msg147). Crossref, PubMed, ISI, Google Scholar
  • 14
    2005population genetics of molecular evolution. Metody statystyczne w ewolucji molekularnej (wyd. & New York, NY: Springer. Crossref, Google Scholar

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.