wprowadzenie
Halpern & Bruno opracował model do badania dywergencji genów kodujących białko w oparciu o model Fishera–Wrighta mutacji, selekcji i losowego dryfu genetycznego . W modelu każdemu konkretnemu miejscu kodonu w genie przypisuje się własny zestaw dopasowań aminokwasów, a następnie model Fishera–Wrighta jest używany do opracowania ewolucyjnego tempa miejsca. Model ten odradzał się w ostatnich latach, a jego odmiany były używane, na przykład, do badania wydajności metod wnioskowania filogenetycznego , do badania użycia kodonu i oszacowania rozkładu współczynników selekcji w genach kodujących białka . Być może zaskakujące jest to, że model ten nie został wykorzystany do badania dynamiki niesynonimicznego stosunku szybkości (znanego również jako ω = DN/dS) genów kodujących białka i jego znaczenia w badaniach adaptacyjnej ewolucji molekularnej.
celem niniejszej notki jest zaproponowanie sposobu zdefiniowania i obliczenia odpowiednika klasycznego pojęcia wskaźnika szybkości, w kontekście modelu doboru mutacji Halpern&. Mamy nadzieję, że wykorzystując pierwsze zasady genetyki populacyjnej, możemy uzyskać ekspresję ω jako funkcję współczynników selekcji działających w miejscach kodonowych w genie kodującym białko. Powinno to zapewnić duży wgląd w ewolucyjną dynamikę miejsc kodonowych i powinno być korzystne w budowaniu modeli statystycznych do wykrywania ewolucji adaptacyjnej w genach kodujących białka.
model site-wise mutation–selection
rozważa ewolucję miejsca kodonu k w genie kodującym białko w populacji z N genomami haploidalnymi. Załóżmy, że strona jest obecnie ustalona dla kodonu i (tzn. wszystkie N allele niosą I w miejscu k). W ramach selekcji mutacji wskaźnik substytucji (szybkość , z jaką nowe zmutowane kodony J pojawiają się i ostatecznie stają się stałe w populacji) wynosi
tutaj µIJ jest neutralną szybkością mutacji (na pokolenie) od I do J, A SIJ,k = FJ,K–FI,K jest współczynnikiem selekcji na korzyść kodonu J i FJ,K = 2nfj,K jest skalowaną zdolnością maltuzjańską J. dobór naturalny wpływa na względną szybkość substytucji. Gdy mutacja jest korzystna (SIJ,k > 0), stopa podstawienia jest wyższa niż stopa neutralna (qIJ,k > µIJ), ale jeśli mutacja jest szkodliwa (SIJ,k < 0), to stopa podstawienia jest zmniejszona (qIJ,k < 0).< Tutaj Zakładamy,że substytucje synonimiczne są neutralne (SIJ, k = 0), a zatem ewolucja w miejscu k jest określona przez 20 pasowań aminokwasowych. ΜIJ można skonstruować na podstawie standardowych modeli substytucji DNA (na przykład, jeśli I = TTT I J = TTC, To
w modelu substytucji HKY, zobacz szczegóły).
równanie (2.1) opisuje podstawienie kodonu w populacjach jako proces Markowa w czasie ciągłym. Jest to rozsądne, jeśli wskaźnik mutacji na pokolenie jest mały w porównaniu z wielkością populacji (), tak że w populacji występuje niewielki polimorfizm, a co najwyżej dwa allele segregują się w jednym miejscu naraz. Proporcja czasu,nI, k, którego miejsce K spędza stałe dla I (tj. stacjonarna częstotliwość I) wynosi
, gdziejest częstotliwością dla neutralnie rozwijającej się sekwencji (tj. pseudo-Gen). Tak więc, stopa substytucji w k, uśredniona w czasie, wynosi
, gdzie suma jest nad wszystkimi parami kodonów i ≠ J. współczynnik ten można podzielić na nie synonimiczne i synonimiczne stawki składowe,pk = pN,k + pS, K, gdzie
I gdzie funkcja wskaźnika w = 1, jeśli podstawienie nie jest synonimiczne, a = 0, jeśli jest inaczej. Należy zauważyć,że synonimiczna szybkość pS, k różni się w zależności od miejsca (na przykład, jeśli miejsce jest zachowane dla metioniny, to synonimiczna szybkość wynosi zero). Dla neutralnie rozwijającej się sekwencji, stawki są podane przez
zwróć uwagę, że równanie (2.1) daje chwilową szybkość podstawienia, to znaczy szybkość uwarunkowaną na miejscu k ustaloną dla I w chwili obecnej. Z drugiej strony, pk jest szybkością w równowadze, uśrednioną dla wszystkich kodonów i ważoną przez ich stacjonarne częstotliwości.
względna stopa substytucji bez synonimu
bezwzględny stosunek stopy substytucji bez synonimu do synonimu w miejscu k wynosi pN,k/pS,K. Jednak, ponieważ stawki synonimiczne różnią się w zależności od witryn, musimy znormalizować stosunek przez stosunek synonimiczny witryny, , a następnie normalizować przez (aby skorygować różne proporcje substytucji synonimicznych i nie synonimicznych w neutralności). Prowadzi to do następującej definicji:
alternatywnie, możemy zdefiniować WK jako względną niezwiązaną szybkość WK = cpN,K gdzie stała C jest ustawiona tak, że stosunek jest jeden dla neutralnie rozwijających się sekwencji, to jest pod ograniczeniem. Oczywistym rozwiązaniem jest prowadząca do tej samej definicji, co powyżej. Zauważ, że c ma pożądaną właściwość bycia stałym nad miejscami. Czytelnik nie powinien się dziwić, że wskaźnik synonimiczny wypada z równania (3.1). Podczas wykonywania wnioskowania statystycznego, substytucje synonimiczne mają informacje o szybkości mutacji neutralnej, a tym samym informują o wartości. Podobnie, względna szybkość synonimiczna w miejscu k wynosi
rysunek 1a pokazuje przykład genu rbcl roślin kwitnących. Wartości sprawności zostały oszacowane w modelu Halpern-Bruno przez Tamuri et al. i używamy ich wartości do obliczenia wk i yk tutaj. Średnie stawki w witrynach toI. Zauważ, że dla wielu stron, stawki synonimiczne są szybsze niż dla neutralnie ewoluującej sekwencji (tj. yk > 1). Wynika to z dziwacznej natury kodu genetycznego połączonego z tendencjami mutacyjnymi (
niesymetryczna szybkość podczas ewolucji adaptacyjnej
gdy dopasowanie aminokwasów jest stałe w czasie, witryny spędzają większość czasu na ustalaniu optymalnego aminokwasu. Czasami, nieoptymalne aminokwasy mogą stać się stałe, a następnie podstawione po krótkim okresie czasu ewolucyjnego. Oznacza to, że szybkość niezwiązana w miejscach jest zmniejszona w porównaniu z szybkością dla sekwencji ewoluujących neutralnie (tj. wk < 1). Jednakże, gdy dopasowanie w miejscach zmienia się w czasie (na przykład po przesunięciu otoczenia lub przy intensywnej selekcji zależnej od częstotliwości), szybkość niesynonimiczna może być przyspieszona w porównaniu z szybkością dla neutralnie rozwijających się sekwencji (wk > 1). Obecnie badamy przypadek, w którym dopasowanie zmienia się jako adaptacja do nowego środowiska.
rozważmy stronę k, w której sprawność i wynosi w środowisku A. Częstotliwości stacjonarne i chwilowe zastępowanie wynoszą . Teraz wyobraźmy sobie, że środowisko się zmienia (na przykład populacja ssaków żyjących w nagle chłodniejszym klimacie lub wirus kolonizujący nowego żywiciela, gdzie środowisko wewnątrzkomórkowe nowego żywiciela różni się od żywiciela rezerwuarowego). Sprawność I w nowym środowisku B wynosi teraz. Prawdopodobieństwo, że witryna jest obecnie stała dla I w momencie zmiany środowiska, wynosi , ale stopa substytucji jest teraz taka, że dla nowego środowiska . Tak więc, oczekiwane bezwzględne i względne niezwiązane stawki przy zmianie środowiska to
Jeśli przesunięcie wartości sprawności jest duże, szybkość będzie znacznie przyspieszona (). Dzieje się tak, ponieważ miejsce to prawdopodobnie znajdzie się stałe dla nieoptymalnego aminokwasu w nowym środowisku, a nowe mutacje do optymalnych aminokwasów zostaną szybko ustalone. Jeśli jednak zmiana sprawności jest umiarkowana, stawka może być nadal niższa niż stawka neutralna ().
rysunek 1b przedstawia przykład genu pb2 wirusa grypy. Wartości sprawności zostały oszacowane w modelu Halpern-Bruno przez Tamuri et al. . Podgrupa 25 miejsc adaptacyjnych (gdzie dopasowania są różne dla wirusów ewoluujących u ludzi w porównaniu do nosicieli ptaków ) została zidentyfikowana przez Tamuri i wsp. , a ich dopasowanie oszacowane przez Tamuri et al. . Używamy szacunków do obliczenia wk, yk i tutaj. Klasyczna linia ludzka grypa prawdopodobnie pochodzi od zmiany gospodarza z ptactwa do zbiornika ssaka na początku XX wieku . We calculate at the putative host shift. The average rate at adaptive sites is (across all sites and ). Note that for 16 sites for which fitnesses are different between hosts, we find that . Oznacza to, że kryterium WK > 1 do wykrywania ewolucji adaptacyjnej jest w tym przypadku zachowawcze.
prawdopodobieństwo, że strona jest stała dla I, czas t po zmianie środowiska wynosi
gdzieto przejście prawdopodobieństwa uzyskane za pomocą standardowej teorii Markowa, tj. poprzez obliczenie. Tak więc, bezwzględne i względne współczynniki niezwiązane, czas t Po przesunięciu, wynoszą
prawdopodobieństwo przejścia w równaniu (4.2) są wykładniczymi funkcjami rozkładu czasu, a więcjest również wykładniczą funkcją rozkładu czasu.rozpad. Początkowo wartośćbędzie wysoka, a gdy czas pójdzie do nieskończoności,zbliży się do stacjonarnej wartości podanej przez równanie (3.1). Innymi słowy, wkrótce po zmianie środowiska, wybuch adaptacyjnych podstawień nastąpi w miejscach, w których zmieniły się dopasowania, i podstawienia będą się gromadzić, dopóki gen kodujący białko nie osiągnie stanu równowagi adaptacyjnej. Na przykład, Fig. 2A przedstawia rozkładdla 25 miejsc adaptacyjnych w genie pb2 po zmianie gospodarza.
wniosek
poprzedni autorzy wykazali , że zależność między Nie synonimiczną szybkością a współczynnikiem selekcji wynosi w przybliżeniu ω = s / (1-exp (−S)), ale przybliżenie opiera się albo na modelu nieskończonych miejsc, albo zakłada, że wszystkie zmutowane aminokwasy mają taką samą przydatność. Równania (3.1) i (4.1) dostarczają bardziej realistycznych przybliżeń, ale trudno je zwizualizować. Rozważ stronę naprawioną dla I. Prawdopodobieństwo, że następna mutacja będzie J wynosi dla I ≠ J. z czasem proporcja mutacji I do J w miejscu będzie wynosić nI,kPIJ. Tak więc, średni współczynnik selekcji mutacji w miejscu k wynosi
rysunek 2b pokazuje wk jako funkcjędla symulowanych miejsc, gdy dopasowania są stałe lub gdy zmieniają się z otoczeniem. Należy zauważyć, że przybliżenie ω = s/(1 − exp(−S)) zapewnia rozsądną dolną granicę wk. Ogólnie rzecz biorąc,zwiększa się o, ale relacja nie jest tak prosta jak w poprzednich przybliżeniach .
w site-wise mutation–selection model najpierw oblicza się współczynniki selekcji, a zatem można wiedzieć, czy dana strona była pod pozytywną selekcją bez obliczania wk . Jednak model jest zbyt parametryzowany, obliczeniowo drogi, a dopasowania można dobrze oszacować tylko w dużych zestawach danych . Zamiast tego model powinien być korzystny w rozumowaniu ewolucyjnym i w budowaniu modeli. Na przykład, zachowanie wk w bardziej złożonych modelach (takich jak selekcja zależna od częstotliwości , adaptacja do stopniowych zmian środowiska lub selekcja przy użyciu kodonów ) może być również badane w ramach site-wise mutation-selection framework. Będzie to opłacalny wysiłek, ponieważ rzuci światło na naszą zdolność do wykrywania ewolucji adaptacyjnej w sekwencjach molekularnych.
dostępność danych
dane towarzyszące temu badaniu są dostępne na stronie Dryad doi:10.5061/dryad.3r3q4.
podziękowania
dziękuję Ziheng Yang, Richard Goldstein i Asif Tamuri za cenne komentarze.
Oświadczenie o finansowaniu
M. d.R. jest wspierane przez bbsrc (UK) grant no. BB/J009709 / 1 przyznane Ziheng Yang.
konflikty interesów
nie mam konkurencyjnych interesów.
Przypisy
- 1
Halpern AL& 1998Evolutionary distances for protein-coding sequences: modeling site-specific residue frequencies. Mol. Biol. Evol. 15, 910–917. (doi: 10.1093 / oxfordjournals.molbev.a025995). Crossref, PubMed, ISI, Google Scholar
- 2
Fisher R. 1930the genetic theory of natural selection. Oxford, UK: Clarendon Press. Google Scholar
- 3
Wright S. 1931evolution in Mendelian populations. Genetyczna 16, 97-159 PubMed, Google Scholar
- 4
Holder MT, Zwickl DJ& Dessimoz C. 2008evaluating the solidness of phylogenetic methods to among-site variability in substitution processes. Phil. Trans. R. Soc. B 363, 4013-4021. (doi: 10.1098 / rstb.2008.0162). Link, ISI, Google Scholar
- 5
Spielman SJ& Wilke CO. 2015związek między dN / dS a skalowanymi współczynnikami selekcji. Mol. Biol. Evol. 32. (doi: 10.1093 / molbev / msv003). Crossref, PubMed, ISI, Google Scholar
- 6
Yang z& Nielsen R. 2008mutation–selection models of codon substitution and their use to estimate selective strengths on codon usage. Mol. Biol. Evol. 25, 568–579. (doi:10.1093/molbev/msm284). Crossref, PubMed, ISI, Google Scholar
- 7
Rodrigue N, Philippe H& Lartillot N. 2010mutation–selection models of coding sequence evolution with site-heterogenious amino acid fitness profiles. Proc. Natl Acad. Sci. USA 107, 4629-4634. (doi:10.1073/pnas.0910915107). Crossref, PubMed, ISI, Google Scholar
- 8
Tamuri AU, dos Reis m& 2012Estimating the distribution of selection coefficients from phylogenetic data using sitewise mutation-selection models. Genetic 190, 1101-1115. (doi:10.1534/genetics.111.136432). Crossref, PubMed, ISI, Google Scholar
- 9
Tamuri AU, Goldman N& dos Reis M. 2014a penalized-likelihood method to estimate the distribution of selection coefficients from phylogenetic data. Genetyka 197, 257-271. (doi:10.1534/genetics.114.162263). Crossref, PubMed, ISI, Google Scholar
- 10
dos Reis M. 2013population genetics and substitution models of adaptive evolution. (http://arxiv.org/abs/1311.6682). Google Scholar
- 11
Tamuri AU, dos Reis M, Hay AJ& 2009 identifying changes in selective constraints: host shifts in influenza. PLoS Comput. Biol. 5, e1000564. (doi:10.1371/journal.pcbi.1000564). Crossref, PubMed, ISI, Google Scholar
- 12
dos Reis M, Hay AJ& 2009 using niejednorodne modele nucleotide substitution to identify host shift events: application to the origin of the 1918 'Spanish’ influenza Pandemic virus. J. Mol. Evol. 69, 333–345. (doi: 10.1007 / s00239-009-9282-x). Crossref, PubMed, ISI, Google Scholar
- 13
Nielsen R& Yang Z. 2003. Mol. Biol. Evol. 20, 1231–1239. (doi:10.1093/molbev/msg147). Crossref, PubMed, ISI, Google Scholar
- 14
2005population genetics of molecular evolution. Metody statystyczne w ewolucji molekularnej (wyd. & New York, NY: Springer. Crossref, Google Scholar