Design and analysis of ChIP-seq experiments for DNA-binding proteins

Tag distribution around protein binding positions

ogólnie rzecz biorąc, immunoprecipitation wybiera zestaw nakładających się fragmentów DNA wokół związanych pozycji. Sekwencjonowanie o wysokiej przepustowości identyfikuje krótkie (∼35 bp dla platform Solexa lub SOLiD) znaczniki na 5 ’ końcach fragmentów z obu nici DNA. Pozycje znaczników są następnie określane przez dopasowanie ich do zespołu genomu, przy czym niejednoznaczne dopasowania są zazwyczaj odrzucane. Otrzymany rozkład przestrzenny zdarzeń znacznika wokół stabilnej pozycji wiązania będzie zatem wykazywał oddzielne piki gęstości znacznika na dodatnich i ujemnych pasmach (Fig. 1b, c). Odległość między szczytami powinna odzwierciedlać wielkość chronionego obszaru, choć może na nią również wpływać rozkład wielkości fragmentów DNA. Odległość ta nie wykazuje silnej zależności od liczby tagów w pikach (tabela uzupełniająca 1 online).

sygnatura całego genomu tego wzoru znacznika może być oceniona przez obliczenie korelacji krzyżowej gęstości znacznika dodatniego i ujemnego, przesuwając pasma względem siebie poprzez zwiększenie odległości. Wszystkie badane zbiory danych wykazują wyraźny pik w profilu korelacji krzyżowej pasma, odpowiadający przeważającej wielkości obszaru chronionego (rys. 1D i dodatkowe rys. 1 online). Wielkość piku odzwierciedla ułamek znaczników w zbiorze danych, który pojawia się zgodnie z oczekiwanym wzorcem znaczników wiązania. W idealnym przypadku, gdy wszystkie zsekwencjonowane znaczniki uczestniczą w takich wzorcach wiązania, wielkość korelacji osiąga wartość maksymalną. Odwrotnie, wielkość zmniejsza się, gdy pozycje znaczników są randomizowane (dodatkowe rys. 2 online).

używanie dopasowania znaczników o zmiennej jakości

chociaż niektóre znaczniki idealnie dopasowują się do genomu referencyjnego, inne tylko częściowo, z przerwami lub niedopasowaniami. Słabo wyrównane znaczniki mogą wynikać z problemów eksperymentalnych, takich jak zanieczyszczenie próbki, odpowiadać polimorficznym lub niezmontowanym regionom genomu lub odzwierciedlać błędy sekwencjonowania. W przypadku platformy Solexa błędy sekwencjonowania są bardziej obfite w kierunku 3 'końców sekwencjonowanych fragmentów, często skutkując częściowymi wyrównaniami, które obejmują tylko części tagów w pobliżu 5′ końców. Szacujemy, że ten wzrost częstotliwości niedopasowania w kierunku 3′ termini stanowi 41-75% wszystkich zaobserwowanych niedopasowań w badanych zestawach danych (dodatkowe rys. 3 online). Ponieważ nie jest niczym niezwykłym, że >50% wszystkich tagów powoduje tylko częściowe wyrównanie, włączenie tagów,które są częściowo wyrównane, ale nadal mają charakter informacyjny, jest ważne dla optymalizacji wykorzystania dowolnego zestawu danych11, 12. Dlatego zdecydowaliśmy się wykorzystać długość dopasowania i liczbę nukleotydów objętych niedopasowaniami i lukami do klasyfikacji jakości dopasowania znaczników (Tabela 1 i tabela uzupełniająca 2 online).

Tabela 1 Klasyfikacja wyrównań tagów na podstawie długości dopasowania i liczby niedopasowań

biorąc pod uwagę klasyfikację tagów według jakości wyrównania, proponujemy użyć profilu korelacji krzyżowej nici do określenia, czy dana klasa tagów powinna być uwzględnione w dalszej analizie. Zestaw znaczników informacyjnych o pozycjach wiązania powinien zwiększyć wielkość korelacji krzyżowej, podczas gdy losowo zmapowany zestaw znaczników powinien ją zmniejszyć (dodatkowe rys. 2). Zastosowanie tego podejścia do zbioru danych NRSF (rys. 2), odkryliśmy, że dopasowania z dopasowaniami obejmującymi co najmniej 18 PB i zero niedopasowań poprawiły profil korelacji krzyżowej. Jednak tylko mecze pełnowymiarowe (25 pb) powinny być brane pod uwagę w przypadku tagów z dwoma niedopasowaniami. Zastosowanie tego kryterium do przyjmowania znaczników zwiększyło ich liczbę w stosunku do zestawu idealnie dopasowanych znaczników o 27% dla zestawu danych NRSF, 30% dla zestawu danych CTCF i 36% dla zestawu danych STAT1 (dodatkowe rys. 4 online). Włączenie tych znaczników poprawiło czułość i dokładność zidentyfikowanych pozycji wiązania (dodatkowe rys. 5 online).

Rysunek 2: wybór klas znaczników informacyjnych na podstawie zmiany wielkości korelacji krzyżowej nici.

dla każdej klasy jakości wyrównania znaczników wymienionych w tabeli 1 wykresy pokazują zmianę średniego profilu korelacji krzyżowej nici, gdy ta klasa znaczników jest rozpatrywana razem z podstawową klasą idealnie wyrównanych znaczników (25 bp, brak rozbieżności). (a–c) trzy wykresy odpowiadają klasom znaczników bez niedopasowania (a), z pojedynczym niedopasowaniem (b) i z dwoma niedopasowaniami (c). Informacyjne klasy znaczników poprawiają korelację krzyżową (oznaczone*) i są włączane do końcowego zestawu znaczników. Oś y daje średnią zmianę profilu korelacji krzyżowej w granicach 40 bp wokół piku korelacji krzyżowej (rys. 1d).

kontrolowanie rozkładu znaczników tła

znaczenie statystyczne grupowania znaczników obserwowanego dla przypuszczalnej pozycji wiązania białek zależy od oczekiwanego wzorca tła. Najprostszy model zakłada, że gęstość znacznika tła jest równomiernie rozłożona wzdłuż genomu i niezależnie między strandami11. Oprócz próbki chipów Nrsf, Johnson et al.2 zsekwencjonowały próbkę wejściową kontrolną, zapewniając eksperymentalną ocenę rozkładu znaczników tła. Odkryliśmy, że rozkład tagu tła wykazuje stopień klastrowania, który jest znacznie większy niż oczekiwano w homogenicznym procesie Poissona sugerowanym przez wspomniany prosty model (p < 10-6, dodatkowe rys. 6 online).

nasze badanie gęstości znaczników wejściowych identyfikuje trzy główne typy anomalii tła. Pierwszy typ powoduje pojedyncze piki gęstości znacznika w pozycji pojedynczego chromosomu o wiele rzędów wielkości wyższej niż gęstość otaczająca (Fig. 3A). Takie piki często występują w tej samej pozycji na obu pasmach chromosomu. Drugi typ anomalii powoduje nieuniform, szerokie (>1,000 bp) skupiska zwiększonej gęstości znaczników pojawiające się na jednej lub obu nici (Fig. 3b). Trzeci typ wykazuje małe skupiska gęstości znacznika specyficznego dla nici, przypominające wzór oczekiwany ze stabilnej pozycji wiązania białek, chociaż zwykle wykazuje mniejsze oddzielenie pików nici (Fig. 3c). Podobny zestaw anomalii można zaobserwować w sekwencjonowaniu wejściowym innych organizmów (dane nie pokazane).

Rysunek 3: Przykłady anomalii w rozkładach znaczników tła.

(a) pojedyncze pozycje o bardzo dużej liczbie znaczników. (b) większe, niejednorodne regiony o zwiększonej gęstości tła. (c) wzorce gęstości tła przypominające prawdziwe pozycje wiązania białek. Każdy wykres pokazuje gęstość znaczników z chipa i próbek wejściowych. Histogramy znaczników dają połączone liczby znaczników.

pierwszy typ anomalii może być łatwo wykryty i wyeliminowany ze względu na jego skrajne odchylenie od otaczającej gęstości znaczników. Jednak inne rodzaje anomalii, w szczególności trzecia, są trudne do odróżnienia w danych chipowych. Oznacza to, że sekwencjonowanie materiału wejściowego jest niezbędne do prawidłowego uwzględnienia rozkładu znaczników tła. Sekwencjonowanie próbnego eksperymentu kontrolnego (niespecyficzne przeciwciało lub brak przeciwciała) może być również konieczne.

aby kontrolować nierównomierny rozkład tła, zaproponowane poniżej metody wiązania odejmują przeskalowaną gęstość tła przed określeniem pozycji wiązania, jeśli takie dane są dostępne. Ponadto akceptowane są tylko pozycje wiązania w regionach o znaczących proporcjach ChIP/input-tag2. Efekt takich korekt tła będzie scharakteryzowany w kolejnych sekcjach.

metody wykrywania wiązań i względne pokrycie miejsc wiązania

zbadaliśmy pięć różnych metod wywoływania pozycji wiązania, w tym dwa wcześniej opublikowane algorytmy (CSP, XSET) i trzy własne metody. W skrócie, metoda ChIPSeq Peak locator (CSP) identyfikuje regiony znacznego wzbogacenia w porównaniu z profilem wejściowym i określa pozycje wiązania jako te z największą liczbą znaczników w takich regionach2. Metoda extended set (XSET) rozszerza znaczniki nici dodatnich i ujemnych o oczekiwaną długość fragmentu DNA i określa pozycje wiązania jako te o największej liczbie nakładających się fragmentów11.

nasze metody wykorzystują specyficzny dla nici wzór znacznika obserwowany w miejscach wiązania (rys. 1c). Pierwsza taka metoda, window tag density (WTD), jest podobna do XSET, ale punktuje pozycje na podstawie znacznika specyficznego dla nici zlicza się w górę i w dół badanej pozycji (rys. 4a). Druga metoda, matching strand peaks (MSP), określa lokalne szczyty gęstości tagów specyficznych dla nici i identyfikuje pozycje otoczone dodatnimi i ujemnymi pikami nici o porównywalnej wielkości w oczekiwanej odległości (Fig. 4B). Trzecia metoda, mirror tag correlation (MTC), skanuje Genom w celu identyfikacji pozycji wykazujących wyraźne dodatnie i ujemne wzory tagów, które odzwierciedlają się nawzajem (Fig. 4c). Kod źródłowy jest dostępny online (dodatkowy kod źródłowy), a aktualny pakiet R można pobrać pod adresem http://compbio.med.harvard.edu/Supplements/ChIP-seq.

Rysunek 4: metody wykrywania pozycji wiązania i ich względna czułość.

(a) schematyczna ilustracja metody WTD. Aby zidentyfikować pozycje o wzorze znacznika oczekiwanym od silnego wiązania, metoda oblicza różnicę między średnią geometryczną zliczeń znaczników w regionach oznaczonych kolorem pomarańczowym (p1 i n2), a średnią zliczeń znaczników w regionach oznaczonych kolorem zielonym (n1 i p2). B) metoda MSP najpierw identyfikuje lokalne maksima na dodatnich i ujemnych pasmach (kręgi otwarte), a następnie określa pozycje, w których takie dwa piki są obecne we właściwej kolejności, z oczekiwanym rozdzieleniem i porównywalną wielkością. C) metoda MTC opiera się na lustrzanej korelacji gęstości znaczników pasm dodatnich i ujemnych. Lustrzane odbicie ujemnej gęstości znacznika jest pokazane przez łamaną niebieską linię. Znaczniki w odległości 15 bp od pozycji środkowej są pomijane. D) pokrycie meczów motywu NRSF o wysokiej pewności przez najwyższe szczyty. Wykres pokazuje ułamek instancji motif, które pokrywają się (z 50 bp) ze zidentyfikowanymi pozycjami wiązania, jako funkcja zwiększania liczby najwyższych pozycji wiązania zidentyfikowanych różnymi metodami. Większość metod, z wyjątkiem MSP i CSP, jest w stanie osiągnąć podobnie wysoki zasięg.

chociaż pełna lista prawdziwych miejsc wiązania nie jest znana dla żadnego z badanych zestawów danych, wszystkie trzy białka wykazują znaną specyficzność sekwencji wiązania. Podczas gdy metody wykrywania wiązań opisane w niniejszej pracy nie opierają się na informacjach o sekwencji, wykorzystaliśmy instancje sekwencji motif o wysokiej punktacji do oceny względnej wydajności różnych metod wykrywania wiązań. W ten sposób Zakładamy jedynie, że instancje motywów o wysokiej punktacji zawierają reprezentatywny podzbiór prawdziwych pozycji wiążących i nie wymagają wiązania wszystkich motywów o wysokiej punktacji lub że wszystkie prawdziwe miejsca wiązania zawierają sygnaturę motywu. Oceniliśmy wydajność przy użyciu kanonicznych motywów sekwencji do wiązania za pomocą NRSF i CTCF14,15 oraz motywu miejsca aktywowanego gamma (gazu) jako predyktora wiązania STAT15,11. Metody wykrywania wiązania zapewniają szczytowe wyniki wielkości związane ze zidentyfikowanymi pozycjami wiązania, umożliwiając w ten sposób priorytetyzację pozycji wiązania określonych przez każdą metodę.

aby porównać czułość różnych metod, wybraliśmy rosnącą liczbę górnych pozycji wiązania zwracanych przez każdą metodę i zbadaliśmy ułamek wystąpień motywu, dla których zidentyfikowano pozycję wiązania (rys. 4d). Okazało się, że 89% wybranych meczów motywu nrsf o najwyższej punktacji pokrywało się z wykrytymi pozycjami wiązania. Współczynnik pokrycia motif wyraźnie przekracza wartość oczekiwaną z predykcji losowej, umożliwiając porównanie względnych wyników różnych metod wykrywania wiązań. Z wyjątkiem MSP i CSP, wszystkie metody osiągają podobnie wysokie pokrycie motywów. Metoda CSP działa gorzej dla bardziej widocznych pozycji wiązania (top 500), podczas gdy podejście MSP działa słabo w całym zakresie. Analizy wiązania STAT1 i CTCF wykazują analogiczne wyniki pod względem względnej wydajności różnych metod (dodatkowe rys. 7 online). Wyniki te są również potwierdzone analizą loci wiążących zatwierdzonych metodą PCR z literatury2, 11, 15 (Fig.uzupełniające. 8 i 9 online). Zauważamy, że zestawy testowe zatwierdzone przez motif i PCR reprezentują tylko ułamek prawdziwych miejsc wiązania. Ponieważ ułamek ten jest mniejszy dla CTCF i STAT1, większe zestawy górnych pozycji wiązania są używane do zilustrowania pokrycia zestawu testowego za pomocą różnych metod.

metody odejmowania tła opisane w poprzedniej sekcji poprawiają pokrycie motywu nrsf, osiągając ten sam poziom pokrycia Przy do 11% mniejszej górnej pozycji wiązania (dodatkowe rys. 10 online). Korekty mają niewielki wpływ na 1500 najlepszych pozycji wiązania, które są związane z większą liczbą znaczników niż jakiekolwiek fałszywie dodatnie szczyty wynikające z nierównego tła. Pozycje fałszywie dodatnie oparte na tle są na ogół mniejsze i zaczynają wpływać na przewidywania, ponieważ rozważane są bardziej wiążące pozycje.

precyzja pozycji wiązania

aby ocenić dokładność przestrzenną, z jaką pozycje wiązania białek są identyfikowane różnymi metodami, przeanalizowaliśmy odległości między przewidywanymi pozycjami a lokalizacjami trafień motywów o wysokiej punktacji (rys. 5A). Dla zestawu danych NRSF metoda WTD przewiduje pozycje wiązania z największą precyzją, przy czym>60% przewidywanych pików znajduje się w granicach 10 bp od środka motif (rys. 5B i dodatkowe rys. 11A online). Następnie stosuje się metody XSET, MTC i MSP, przy czym CSP wywołuje ∼40% pików w granicach 10 bp motywów. Korekty tła mają ograniczony wpływ na precyzję przewidywanych pozycji, przy czym tylko metoda WTD wykazuje poprawę o 3% dla silnych pozycji wiązania (dane nie są pokazane).

Rysunek 5: dokładność ustalonych pozycji wiązania.

(a) rozkład odległości między instancjami motif nrsf o wysokim zaufaniu i lokalizacjami pozycji wiązania identyfikowanymi różnymi metodami. S. d. otrzymanego rozkładu (σ) jest pokazany dla każdej metody. Rozważano jedynie motywy zawierające pozycję wiążącą w granicach 100 bp. b) ułamek zidentyfikowanych pozycji wiążących w obrębie 10 PB pozycji motywu nrsf jest pokazany dla rosnącej liczby najwyższych pozycji wiążących zidentyfikowanych różnymi metodami. Do analizy włączane są tylko pozycje wiążące występujące w obrębie 300 bp instancji sekwencji motif. Mediana odległości do środka motywu została odjęta dla każdej metody, aby uwzględnić niecentralne położenie motywu sekwencji względem środka chronionego obszaru wiązania. Analogiczne wykresy przedstawiono dla CTCF (C) i STAT1 (D). Metoda MTC osiąga najwyższą dokładność dla ctcf i STAT1; jednak WTD daje dokładniejsze pozycje dla wiązania NRSF.

dla prognoz CTCF i STAT1 metoda MTC osiąga jednak lepszą precyzję niż WTD (rys. 5c, D i dodatkowe rys. 11b, c). Różnicę można wyjaśnić właściwościami dystrybucji znaczników bezpośrednio w pobliżu centrum chronionego regionu. W przeciwieństwie do WTD i XSET, metoda MTC nie uwzględnia znaczników w Regionie Centralnym (30 bp) podczas punktowania pozycji wiążących. Zmiana metody MTC w celu uwzględnienia takich pozycji zmniejsza precyzję określonych pozycji wiązania do poziomu podobnego do przewidywań WTD. Badając ogólny rozkład pozycji znaczników w stosunku do trafień motywów o wysokiej punktacji, odkryliśmy, że CTCF i STAT1 wykazały nieoczekiwane szczyty gęstości znaczników bezpośrednio sąsiadujących (w granicach 10-15 bp) z pozycją motywu(dodatkowe rys. 12 online). Ten wzór, w którym małe zestawy znaczników nici ujemnych pojawiają się bezpośrednio przed obszarem chronionym i są odzwierciedlane przez znaczniki nici dodatnich bezpośrednio za nim, może wynikać z interakcji sieciujących zachodzących poza centralnym obszarem chronionym (rys. 1B, linia przerywana). W rezultacie, metody wykrywania pików, które biorą pod uwagę znaczniki w pobliżu regionu centralnego, mają tendencję do wywoływania pozycji 15-20 bp w górę lub w dół od prawdziwego miejsca wiązania.

pozycje istotne statystycznie

metody wykrywania wiązania powinny ograniczyć pozycje wiązania do tych, które prawdopodobnie nie wystąpiły przypadkowo. Pożądany poziom istotności statystycznej jest powszechnie podawany w kategoriach wskaźnika fałszywego wykrywania (FDR) lub liczby oczekiwanych pozycji fałszywie dodatnich (wartość E).

metody wykrywania mogą następnie wykorzystywać rozkład znaczników tła do określenia minimalnego wyniku pozycji wiązania spełniającego określony poziom istotności. Wiele fałszywie pozytywnych połączeń pochodzi z dużych anomalnych regionów opisanych wcześniej. Te błędy systematyczne można filtrować przed określeniem progów istotności. Na podstawie danych wejściowych próbki dla NRSF, za pomocą metody WTD znaleźliśmy w sumie 2755 pozycji wiązania dla progu FDR wynoszącego 0,01. Odpowiada to ściśle liczbie szczytów, które były wymagane do osiągnięcia maksymalnego pokrycia pozycji motywów o wysokiej punktacji stosowanych w poprzednich sekcjach (rys. 4d).

w przypadku braku empirycznego oszacowania rozkładu znaczników tła, możliwe jest oparcie się na modelu analitycznym. Najprostszym takim modelem jest przestrzenny proces Poissona, w którym znaczniki są równomiernie rozmieszczone w dostępnych regionach genomu11. Ponieważ jednak rzeczywiste rozkłady znaczników tła wykazują znaczny stopień klastrowania znaczników, ten próg oparty na Poissonie jest znacznie niższy niż ten uzyskany z empirycznego pomiaru tła, co skutkuje zawyżeniem liczby znaczących pozycji wiązania (9,206 wobec 2,755 dla FDR wynoszącego 0,01). Porównanie z obliczeniami FDR opartymi na danych wejściowych pokazuje, że model oparty na Poissonie niedoszacowuje FDR od 8 do 20-krotnie, w zależności od docelowego FDR (tabela uzupełniająca 3 online).

bliższe oszacowanie progów statystycznych można uzyskać, uwzględniając stopień klastrowania obecny w rozkładzie tagu tła. Prostym podejściem jest użycie randomizacji, która utrzymuje znaczniki występujące w tych samych lub pobliskich pozycjach razem, zamiast przypisywać im niezależne pozycje, jak to robiono za pomocą modelu Poissona. Liczba istotnych pozycji określonych przy użyciu takich modeli randomizacji z różnymi rozmiarami pojemników przedstawiono w dodatkowej Tabeli 3. Dla FDR 0.01, Model randomizacji, który utrzymuje razem znaczniki występujące dokładnie w tej samej pozycji w genomie, daje porównywalną liczbę pozycji wiążących NRSF (2,985). Zastosowaliśmy taką randomizację do określenia liczby statystycznie istotnych pozycji wiązania dla zestawów danych CTCF (2,3981 pozycji dla FDR 0,01) i STAT1 (44,921 pozycji dla FDR 0,01). Dopasowanie liczby pozycji wiązania dla bardziej rygorystycznych wartości FDR wymaga większych bloków randomizacji znaczników (tabela uzupełniająca 3), co wskazuje, że proste strategie randomizacji nie mogą właściwie uwzględniać właściwości klastrowania tła.

testowanie wystarczającej głębokości sekwencjonowania

aby ocenić, czy głębokość sekwencjonowania osiągnęła punkt nasycenia, poza którym nie wykryto żadnych dodatkowych miejsc wiązania, przeanalizowaliśmy, w jaki sposób zestaw przewidywanych miejsc wiązania zmienił się, gdy tylko podzbiór danych znaczników został użyty do przewidywania. Próbkowanie rosnących ułamków danych znacznika, ustaliliśmy pozycje wiązania i porównaliśmy te prognozy z zestawem referencyjnych miejsc wiązania zidentyfikowanych na podstawie pełnych danych (rys. 6a i dodatkowe rys. 13 online).

Rysunek 6: Analiza głębokości sekwencjonowania.

(a) biorąc pod uwagę pozycje wiązania nrsf określone przy użyciu pełnego zestawu danych (oś y), stała czarna krzywa pokazuje ułamek pozycji, które można przewidzieć (w granicach 50 bp) przy użyciu mniejszych porcji danych znacznika (oś x). Wszystkie przewidywania wiązania są generowane z FDR 0.01 przy użyciu metody WTD. Krzywa nie osiąga poziomej asymptoty, co wskazuje, że zestaw wykrytych miejsc wiązania NRSF nie ustabilizował się na głębokości sekwencjonowania. Dodatkowe krzywe ograniczają analizę do pozycji wiązania, których współczynnik fałdowego wzbogacania nad tłem jest znacząco (P < 0,05) wyższy niż 7,5 (MSER: minimalny współczynnik nasyconego wzbogacania, linia przerywana) i 30 (linia przerywana). Zaobserwowane współczynniki wzbogacania są oceniane niezależnie dla każdej podpróbki znacznika (oś x). (b) rozkład liczeń znaczników wokół pozycji motywów nrsf o wysokiej pewności. Nie uwzględniono pozycji z tagami zerowymi. C) zależność między MSER wykrytych pozycji wiązania a głębokością sekwencjonowania (wyrażoną jako ułamek pełnego zbioru danych). Przerywana szara linia pokazuje model log-log, który może być użyty do oszacowania głębokości sekwencjonowania wymaganej do nasycenia detekcji pozycji wiązania o niższym współczynniku wzbogacania. Według tego oszacowania, 1,2 × 106 więcej znaczników sekwencji byłoby konieczne, aby nasycić wykrywanie pozycji wiązania, które są podwójnie wzbogacone nad tłem (MSER = 2 odpowiada y = 0, w którym to punkcie linia przerywana przecina oś x: x = 2,8 × 106).

jeśli głębokość sekwencjonowania przesunęła się poza punkt nasycenia, możliwe byłoby uzyskanie zestawu odniesienia przy użyciu tylko podzbioru danych znacznika. Okazało się jednak, że żaden z trzech zestawów danych nie osiągnął takiego punktu nasycenia (asymptota pozioma) i że ułamek pozycji wiązania konkordantowego zmniejszył się, gdy pominięto nawet niewielki ułamek danych znaczników. Oznacza to, że dodatkowe miejsca wiązania są stale identyfikowane wraz ze wzrostem głębokości sekwencjonowania. Obserwowana tendencja utrzymuje się dla zakresu progów FDR(dodatkowe rys. 13): chociaż nachylenie krzywej nasycenia można zmniejszyć poprzez ustawienie znacznie bardziej rygorystycznego progu FDR, powoduje to znacznie mniejszą liczbę miejsc wiązania.

aby zrozumieć właściwości pokrycia miejsca wiązania, zbadaliśmy liczbę znaczników związanych z motywami sekwencji o wysokiej punktacji (rys. 6B i dodatkowe rys. 14 online). We wszystkich trzech zestawach danych rozkład liczeń znaczników wykazywał bardzo szeroki zakres dynamiczny. Podczas gdy niektóre pozycje miały setki tagów, inne ledwo wzrosły powyżej oczekiwanej liczby tła. Co więcej, rozkłady te wydawały się być ciągłe, ponieważ nie wykazywały odrębnych subpopulacji pozycji wiążących. Sugeruje to, że zwiększenie głębokości sekwencjonowania może pozwolić na rozróżnienie większej liczby słabych pozycji wiązania bez progu jakościowego, który określałby kompletny zestaw miejsc wiązania.

ponieważ bardziej wyraźne pozycje wiązania są identyfikowane za pomocą mniejszej głębokości sekwencjonowania, eksperyment o danej głębokości może spowodować wykrycie pozycji wiązania, które przekraczają pewien współczynnik wzbogacenia znacznika w stosunku do tła. Ten współczynnik wzbogacenia nazywamy minimalnym współczynnikiem wzbogacenia nasyconego (MSER). Kryteria nasycenia, które określają maksymalne dopuszczalne nachylenie krzywej nasycenia (rys. 6A) można sformułować jako wymóg stabilności zestawu przewidywanych miejsc wiązania. Na przykład wymagamy 99% zgody w zestawie pozycji wiążących, gdy zestaw danych jest zmniejszony o 105 tagów. Wykorzystując dane wejściowe znaczników nrsf do określenia przedziałów ufności dla współczynnika wzbogacenia każdej pozycji wiązania, stwierdziliśmy, że uzyskana głębokość sekwencjonowania była wystarczająca do nasycenia wykrywania pozycji wiązania współczynnikami wzbogacania znaczników znacznie powyżej 7,5 (wartość P < 0,05; Fig. 6a i dodatkowe rys. 15 online). Spośród 2755 pozycji wiązania nrsf wykrytych przy FDR równym 0.01, 1,879 (68%) miało współczynniki wzbogacenia znacznie większe niż wartość MSER wynosząca 7,5 (Fig. 13). Zauważamy, że konkretna wartość MSER nie oznacza, że wszystkie prawdziwe pozycje wiążące tego wzbogacenia krotnie zostały odkryte; zamiast tego wskazuje, że nowe pozycje wiążące ze wzbogaceniem znacznie wyższym niż wartość MSER są wykrywane w wystarczająco wolnym tempie. Potencjalny zakres rzeczywistych współczynników wzbogacania można ocenić na podstawie przedziałów ufności wzbogacania obliczonych dla każdej pozycji wiązania(dodatkowe rys. 16 online). Ponieważ oszacowanie przedziałów ufności współczynnika wzbogacenia zależy również od ilości dostępnych informacji na temat rozkładu znaczników tła, przy porównywaniu różnych wartości MSER należy stosować zestawy danych wejściowych o podobnym pokryciu genomowym.

dla celów praktycznych ważne jest, aby móc przewidzieć liczbę znaczników wymaganych do nasycenia detekcji pików powyżej danego docelowego współczynnika wzbogacenia. Zależność między liczbą znaczników a MSER tworzy zależność, którą można ekstrapolować za pomocą modelu log-log (rys. 6c). Przewidujemy na przykład, że 1.Aby osiągnąć nasycenie w wykrywaniu pozycji wiązania NRSF ze wzbogaceniem nad tłem znacznie wyższym niż dwukrotne (wartość P < 0,05). Wartości MSER i ekstrapolacje zależą od kryteriów nasycenia oraz od metod stosowanych do obliczania przedziałów ufności wzbogacenia (dodatkowe rys. 17 online).

zwiększenie głębokości sekwencjonowania może również prowadzić do zwiększenia dokładności ustalonych pozycji wiązania. Korzystając z zestawu danych NRSF, przeanalizowaliśmy, w jaki sposób średnia odległość między wykrywanymi pozycjami wiązania i motywami sekwencji zależy od liczby znaczników używanych do przewidywania. Nasze wyniki pokazują, że dokładność rzeczywiście poprawiła się wraz ze wzrostem liczby tagów (dodatkowe rys. 18 online). Poprawa była jednak niewielka: celność zmniejszyła się tylko o kilka par bazowych, nawet gdy liczba tagów została zmniejszona o połowę.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.