Tag distribuce kolem bílkoviny pozice
obecně platí, immunoprecipitation vybere sadu překrývajících se fragmentů DNA kolem povinen pozice. Vysoce výkonné sekvenování identifikuje krátké (∼35 bp pro platformy Solexa nebo SOLiD) značky na 5 ‚ koncích fragmentů z obou řetězců DNA. Pozice značky jsou pak určuje zarovnání do genomu montáž, s nejednoznačné postavení obvykle zlikvidovat. Výsledné prostorové rozložení výskytu tagů kolem stabilní vazebné polohy bude tedy vykazovat oddělené vrcholy hustoty tagů na kladných a záporných pramenech (obr. 1b,c). Vzdálenost mezi vrcholy by měla odrážet velikost chráněné oblasti, i když může být také ovlivněna distribucí velikosti fragmentů DNA. Tato vzdálenost nevykazuje silnou závislost na počtu značek v rámci vrcholů (doplňková Tabulka 1 online).
podpis tohoto vzoru značek v celém genomu lze posoudit výpočtem křížové korelace hustot značek pozitivních a negativních řetězců, posunutím řetězců vůči sobě navzájem zvýšením vzdálenosti. Všechny zkoumané datové soubory vykazují jasný vrchol v příčném korelačním profilu, který odpovídá převládající velikosti chráněné oblasti (obr. 1d a doplňkový obr. 1 online). Velikost vrcholu odráží zlomek značek v datovém souboru, který se objeví v souladu s očekávaným vzorem vazebných značek. V ideálním případě, když se všechny sekvenované značky účastní takových vazebných vzorů, velikost korelace dosáhne maximální hodnoty. Naopak, velikost klesá, když jsou pozice značek randomizovány (Doplňkový obr. 2 online).
pomocí proměnných-quality tag alignments
ačkoli některé značky zarovnat dokonale s referenčním genomu, jiné zarovnat jen částečně, s mezerami nebo nesouladů. Špatně zarovnán tagy mohou vyplynout z experimentální problémy, jako je kontaminace vzorku, odpovídají polymorfní nebo nesmontované oblastí genomu, nebo odrážejí sekvenování chyby. Pro Solexa platformy, sekvenování chyby jsou hojnější směrem k 3′ konci sekvence fragmentů, často následek částečné zarovnání, které zahrnují pouze část značky, poblíž 5′ konce. Odhadujeme, že toto zvýšení frekvencí nesouladu směrem k 3 ‚ termini představuje 41-75% všech pozorovaných nesouladů ve zkoumaných datových souborech (Doplňkový obr. 3 online). Jako je to není neobvyklé, aby >50% celkové kategorie v důsledku pouze částečné sladění, začlenění značky, které jsou částečně v souladu, ale přesto informativní, je důležité pro optimalizaci použití žádné údaje set11,12. Proto jsme se rozhodli použít délku zápasu a počet nukleotidů, na které se vztahuje neshody a mezery klasifikovat kvalitu značky zarovnání (Tabulka 1 a Dodatková Tabulka 2 on-line).
Vzhledem k tomu, klasifikace značek podle kvality zarovnání, navrhujeme použít strand cross-korelace profilu určit, zda konkrétní třídy značky by měly být zahrnuty do další analýzy. Sada značek informujících o vazebných pozicích by měla zvýšit velikost křížové korelace, zatímco náhodně mapovaná sada značek by ji měla snížit (Doplňkový obr. 2). Použití tohoto přístupu pro datovou sadu NRSF (obr. 2), zjistili jsme, že zarovnání se shodami trvajícími nejméně 18 bp a nulové neshody zlepšily profil křížové korelace. U značek se dvěma neshodami by však měly být brány v úvahu pouze shody v plné délce (25 bp). Pomocí tohoto kritéria přijmout značek se zvýšil jejich počet na skupinu dokonale sladěny kategorie o 27% pro NRSF soubor údajů, 30% pro CTCF soubor dat a 36% pro STAT1 data set (Doplňkový Obr. 4 online). Začlenění těchto značek zlepšilo citlivost a přesnost identifikovaných vazebných pozic (Doplňkový obr. 5 online).
Ovládání pro pozadí tag distribuce
statistickou významnost tag clustering pozorován pro domnělý bílkoviny pozice závisí na očekávané vzor pozadí. Nejjednodušší model předpokládá, že hustota značky pozadí je rovnoměrně rozložena podél genomu a nezávisle mezi vlákny11. Kromě vzorku čipu Nrsf Johnson et al.2 sekvenovali kontrolní vstupní vzorek a poskytli experimentální hodnocení distribuce značek na pozadí. Zjistili jsme, že pozadí tag distribuce vykazuje stupeň shlukování, která je výrazně větší, než se očekávalo z homogenní Poissonův proces navrhl výše zmíněný jednoduchý model (P < 10-6, Doplňující Obr. 6 online).
naše zkoumání hustoty vstupních proměnných identifikuje tři hlavní typy anomálií pozadí. První typ má za následek singulární vrcholy hustoty tagů na jedné chromozomové pozici o mnoho řádů vyšší než okolní hustota (obr. 3a). Takové vrcholy se běžně vyskytují ve stejné poloze na obou chromozomových pramenech. Druhý typ anomálie, následek nerovnoměrné, široký (>1,000 bp) shluky zvýšené tag hustota objevit na jedné nebo obou pramenů (Obr. 3b). Třetí typ vykazuje malé shluky pramen-konkrétní značku hustoty připomínající vzor očekává od stabilní protein-závazné stanovisko, i když to obvykle ukazuje menší vzdálenost mezi strand vrcholy (Obr. 3c). Podobný soubor anomálií lze pozorovat při vstupním sekvenování jiných organismů(údaje nejsou zobrazeny).
první typ anomálie lze snadno detekovat a eliminovat díky své extrémní odchylce od okolní hustoty tagů. Ostatní typy anomálií, zejména třetí, je však obtížné rozlišit v čipových datech. To znamená, že sekvenování vstupního materiálu je nezbytné pro správné zohlednění distribuce značek na pozadí. Může být také nezbytné sekvenování falešného kontrolního experimentu (nespecifická protilátka nebo žádná protilátka).
pro kontrolu nerovnoměrného rozložení pozadí odečtou níže navržené metody vazby změněnou hustotu tagů pozadí před určením vazebných pozic, pokud jsou tato data k dispozici. Kromě toho jsou akceptovány pouze vazebné pozice v regionech s významnými poměry ChIP/input-tag2. Účinek těchto oprav na pozadí bude charakterizován v následujících částech.
Závazné metody detekce a relativní pokrytí vazebná místa
zkoumali Jsme pět různých metod z povolání závazné pozic, včetně dvou dříve publikovaných algoritmů (CSP, XSET) a tři metody vlastní. Krátce, ChIPSeq Vrchol locator (CSP) metoda identifikuje regiony významné obohacení ve srovnání se vstupní profil a určuje závazné pozice jako ty s nejvyšším počtem tagů v těchto oblastí2. Metoda extended set (XSET) rozšiřuje kladné a záporné řetězce o očekávanou délku fragmentu DNA a určuje vazebné pozice jako ty s nejvyšším počtem překrývajících se fragmentů11.
naše metody využívají vzor značky specifický pro řetězec pozorovaný v pozicích vazby (obr. 1c). První taková metoda, window tag density (WTD), je podobná XSET, ale skóre pozice na základě řetězce specifické tag počítá před a za zkoumanou pozici (obr. 4a). Druhá metoda, odpovídající pramen vrcholy (MSP), určuje místní vrcholy pramen-konkrétní značku hustoty a určuje pozice obklopen pozitivní a negativní pramen vrcholy srovnatelné velikosti v očekávané vzdálenosti (Obr. 4b). Třetí metoda, Mirror tag correlation (MTC), skenuje genom a identifikuje pozice vykazující výrazné pozitivní a negativní vzory značek, které se navzájem zrcadlí (obr. 4c). Zdrojový kód je k dispozici online (Doplňkový zdrojový kód) a aktuální R balíček lze stáhnout na http://compbio.med.harvard.edu/Supplements/ChIP-seq.
i když kompletní seznam pravda vazebná místa není známo, pro všechny zkoumané soubory dat, všechny tři proteiny vykazují známé závazné pořadí specifika. Zatímco metody detekce vazby popsané v této práci se nespoléhají na sekvenční informace, použili jsme instance motivu sekvence s vysokým skóre k posouzení relativních výkonů různých metod detekce vazby. Přitom, můžeme pouze předpokládat, že high-bodování motiv případech obsahují reprezentativní podmnožinu pravda závazné pozic, a nevyžadují všechny high-bodování motivy musí být vázán, nebo že všechno je pravda vazebná místa vykazují motiv podpis. Hodnotili jsme výkon pomocí kanonických sekvenčních motivů pro vazbu pomocí NRSF a CTCF14, 15 a motivu gama-aktivovaného místa (plynu) jako prediktoru vazby STAT15, 11. Metody detekce vazby poskytují skóre maximální velikosti spojené s identifikovanými vazebnými pozicemi, což umožňuje stanovení priorit vazebných pozic určených každou metodou.
porovnat citlivost různých metod, vybrali jsme rostoucí čísla z horní pozice pro vazbu vrátil tím, že každá metoda a zkoumal zlomek motiv události, pro které závazné stanovisko bylo identifikovat (Obr. 4d). Zjistili jsme, že 89% vybraných nejlépe hodnocených zápasů nrsf motif se shodovalo se zjištěnými vazebnými pozicemi. Míra pokrytí motif jasně převyšuje míru očekávanou z náhodné predikce, což umožňuje srovnání relativních výkonů různých metod detekce vazby. Kromě MSP a CSP dosahují všechny metody podobně vysokého pokrytí motivem. Metoda CSP je horší pro významnější vazebné pozice (top 500), zatímco přístup MSP funguje špatně v celém rozsahu. Analýzy vazby STAT1 a CTCF ukazují analogické výsledky z hlediska relativních výkonů různých metod (Doplňkový obr. 7 online). Tyto výsledky jsou také potvrzeny analýzou PCR-ověřené závazné loci z literature2,11,15 (Doplňkový Obr. 8 a 9 on-line). Upozorňujeme, že testovací sady motif a PCR validované představují pouze zlomek skutečných vazebných míst. Jako tento zlomek je menší pro CTCF a STAT1, větší sady horní pozice pro vazbu jsou použity pro ilustraci test-set pokrytí různými metodami.
pozadí odčítání metody, popsané v předchozím oddíle zlepšit NRSF motiv pokrytí, dosahující stejné úrovně pokrytí až o 11% méně pozice pro vazbu top (Doplňkový Obr. 10 online). Opravy mají malý vliv na horní 1,500 vazebné pozice, které jsou spojeny s vyšším počtem tagů než jakékoli falešně pozitivní vrcholy vyplývající z nerovného pozadí. Falešně pozitivní pozice založené na pozadí jsou obecně menší a začínají ovlivňovat předpovědi, protože se zvažují více závazných pozic.
Přesnost pozice pro vazbu
vyhodnotit prostorovou přesnost, s jakou proteiny pozice jsou identifikovány různými metodami jsme analyzovali vzdáleností mezi předpověděl, pozice a umístění high-bodování motiv hity (Obr. 5a). Pro NRSF soubor dat, WTD metoda předpovídá pozice pro vazbu s největší přesností, s >60% předpokládané vrcholy se nachází v 10 bp motivu center (Obr. 5b a doplňkový obr. 11a online). Následují metody XSET, MTC a MSP, přičemž CSP volá ∼40% vrcholů do 10 bp motivů. Korekce pozadí mají omezený vliv na přesnost předpovězených pozic, pouze metoda WTD vykazuje 3% zlepšení pro silné vazebné pozice (údaje nejsou zobrazeny).
pro předpovědi CTCF a STAT1 však metoda MTC dosahuje lepší přesnosti než WTD (obr. 5c, d a doplňkový obr. 11b,c). Rozdíl lze vysvětlit vlastnostmi distribuce značek bezprostředně v blízkosti středu chráněné oblasti. Na rozdíl od WTD a XSET metoda MTC při bodování vazebných pozic nezohledňuje značky v centrální oblasti (30 bp). Změna metody MTC za účelem zohlednění takových pozic snižuje přesnost stanovených vazebných pozic na úroveň podobnou předpovědím WTD. Zkoumá celkovou distribuci tag pozice vzhledem k vysoce-zaznamenávat motiv hity, zjistili jsme, že CTCF a STAT1 objevil nečekaný vrcholy tag hustota bezprostředně sousedí (do 10-15 bp) s motivem pozice (Doplňkový Obr. 12 online). Tento vzor, ve kterém malé sady negativní pramen kategorie se objeví bezprostředně navazují chráněné krajinné oblasti a jsou zrcadlené pozitivní strand značky okamžitě po proudu, mohou být důsledkem cross-linking interakce vyskytující se mimo centrální chráněné krajinné oblasti (Obr. 1B, přerušovaná čára). Jako výsledek, detekce vrcholu metody, které berou v úvahu kategorie v blízkosti centrální oblasti mají tendenci volat pozice 15-20 bp proti proudu nebo po proudu od skutečné vazebné místo.
statisticky významné pozice
metody detekce vazby by měly omezit výsledné vazebné pozice na ty, které pravděpodobně nenastaly náhodou. Požadovaná úroveň statistické významnosti se obvykle udává z hlediska míry falešného objevu (FDR) nebo počtu očekávaných falešně pozitivních pozic(E-hodnota).
detekční metody pak mohou použít distribuci značek na pozadí k určení minimálního skóre vazebné pozice splňujícího zadanou úroveň významnosti. Mnoho falešně pozitivních hovorů pochází z velkých anomálních oblastí popsaných dříve. Tyto systematické chyby mohou být filtrovány před stanovením prahových hodnot významnosti. Na základě vstupní vzorek dat pro NRSF, jsme našli celkem 2,755 závazné pozice pro FDR práh 0,01 pomocí WTD metoda. To úzce odpovídá počtu vrcholů, které byly potřebné k dosažení maximálního pokrytí pozic motivů s vysokým skóre použitých v předchozích sekcích (obr. 4d).
při absenci empirického odhadu distribuce značek na pozadí je možné se spolehnout na analytický model. Nejjednodušším takovým modelem je prostorový Poissonův proces, kde jsou značky rovnoměrně rozloženy v přístupných oblastech genomu11. Nicméně, protože pravda pozadí tag distribucí vykazují významný stupeň tag clustering, to Poisson-založené prahová hodnota je výrazně nižší, než ten, získaný z empirických měření pozadí, což vede k nadhodnocení počtu významné pozice pro vazbu (objemu 9 206 versus 2,755 pro FDR 0,01). Srovnání se vstupními výpočty FDR ukazuje, že Poissonův model podceňuje FDRs mezi 8-a 20-násobkem v závislosti na cílovém FDR(doplňková Tabulka 3 online).
bližší odhad statistických prahových hodnot lze získat zohledněním stupně shlukování přítomného v distribuci značek na pozadí. Jednoduchým přístupem je použití randomizace, která udržuje značky vyskytující se na stejných nebo blízkých pozicích společně, namísto přiřazování nezávislých pozic, jak se provádí pomocí Poissonova modelu. Počet významných pozic stanovených pomocí takových randomizačních modelů s různými velikostmi bin je uveden v doplňkové tabulce 3. Pro FDR z 0.01, randomizace model, který udržuje pohromadě značky vyskytující se v přesně stejné pozici v genomu výsledky ve srovnatelném počtu NRSF-závazné pozic (2,985). Použili jsme takové randomizace určit počet statisticky významné vazbě pozice pro CTCF (2,3981 pozice pro FDR 0,01) a STAT1 (44,921 pozice pro FDR 0,01) datových sad. Shoda počtu vazebných pozic pro přísnější hodnoty FDR vyžaduje větší bloky randomizace značek (doplňková Tabulka 3), což naznačuje, že jednoduché strategie randomizace nemohou správně zohlednit vlastnosti shlukování pozadí.
Testování pro dostatečné hloubky sekvenování
posoudit, zda sekvenování hloubka dosáhla bodu nasycení, po kterém žádné další vazebná místa jsou zjištěny, jsme analyzovali, jak se soubor předpokládaná vazebná místa se změnilo, když pouze podmnožinu tag data byla použita pro predikci. Vzorkováním zvyšujících se zlomků dat tagů jsme určili vazebné pozice a porovnali tyto předpovědi se sadou referenčních vazebných míst identifikovaných z úplných dat (obr. 6a a doplňkový obr. 13 on-line).
Pokud sekvenování hloubky se přestěhovala za bod nasycení, bylo by možné přijet na odkaz nastavit pomocí pouze podmnožinu tag data. Zjistili jsme však, že žádná ze tří datových sad, dosáhla takového bodu nasycení (horizontální osa), a to na zlomek souhlasné závazné pozic snížil, kdy i malý zlomek označit údaje byly vynechány. To znamená, že další vazebná místa jsou neustále identifikována se zvyšující se hloubkou sekvenování. Pozorovaný trend platí pro rozsah prahových hodnot FDR (Doplňkový obr. 13): ačkoli sklon saturační křivky může být snížen nastavením podstatně přísnějšího prahu FDR, výsledkem je výrazně menší počet vazebných míst.
abychom porozuměli vlastnostem pokrytí vazebného místa, zkoumali jsme počty značek spojené s motivy sekvence s vysokým skóre (obr. 6b a doplňkový obr. 14 online). Ve všech třech datových sadách vykazovalo rozdělení počtu tagů velmi široký dynamický rozsah. Zatímco některé pozice měly stovky značek, jiné se sotva zvedly nad očekávané počty pozadí. Navíc se tato rozdělení zdála být spojitá v tom, že nevykazovala zřetelné subpopulace vazebných pozic. To naznačuje, že zvyšující se hloubka sekvenování může umožnit rozlišení většího počtu slabých vazebných pozic bez kvalitativního prahu, který by definoval kompletní sadu vazebných míst.
Jako výraznější závazné pozice jsou identifikovány pomocí menší hloubky sekvenování, experiment vzhledem k hloubce může nasytit detekce závazných postojů, které přesahují určitou značku obohacení poměr vzhledem k pozadí. Tento poměr obohacení označujeme jako minimální poměr nasyceného obohacení (MSER). Kritéria saturace, která definují maximální přijatelný sklon saturační křivky (obr. 6a) lze formulovat jako požadavek stability množiny předpokládaných vazebných míst. Například požadujeme 99% shodu v sadě závazných pozic, když je datová sada snížena o 105 značek. Pomocí NRSF vstupní tag údajů určit intervaly spolehlivosti pro poměr obohacení z každé pozice pro vazbu, jsme zjistili, že dosažené hloubky sekvenování bylo dostatečné k nasycení detekce pozice pro vazbu s tag obohacení poměry výrazně vyšší než 7,5 (P-hodnota < 0.05; Obr. 6a a doplňkový obr. 15 on-line). Z 2755 vazebných pozic nrsf zjištěných při FDR 0.01, 1 879 (68%) mělo poměry obohacení výrazně vyšší než hodnota MSER 7,5 (Doplňkový obr. 13). Bereme na vědomí, že konkrétní MSER hodnotu, neznamená to, že všechny pravdivé závazné pozice, že fold-obohacení byly objeveny; místo toho, to znamená, že nové pozice pro vazbu s obohacování uranu výrazně vyšší než MSER hodnoty jsou detekovány na dostatečně pomalou rychlostí. Potenciální rozsah skutečných poměrů obohacení lze posoudit z intervalů spolehlivosti obohacení vypočtených pro každou vazebnou pozici (Doplňkový obr. 16 on-line). Jako odhad obohacení poměr intervalů spolehlivosti závisí také na množství dostupných informací o pozadí tag distribuce, vstupní data sady podobné genomické pokrytí by měly být použity při porovnávání různých MSER hodnoty.
Pro praktické účely je důležité, aby bylo možné odhadnout počet kategorie potřebné k nasycení detekce vrcholů nad daný cíl obohacení poměr. Vztah mezi počtem proměnných a MSER se usadí do závislosti, kterou lze extrapolovat pomocí modelu log-log (obr. 6c). Předpokládáme například, že 1.2 × 106 více značek by bylo zapotřebí k dosažení saturace při odhalování NRSF pozice pro vazbu s obohacením nad pozadí výrazně vyšší než dvojnásobně (P-hodnota < 0.05). Hodnoty MSER a extrapolace závisí na kritériích saturace a na metodách použitých pro výpočet intervalů spolehlivosti obohacení (Doplňkový obr. 17 online).
zvýšení hloubky sekvenování také pravděpodobně povede ke zvýšení přesnosti stanovených vazebných poloh. Pomocí NRSF soubor dat, jsme analyzovali, jak se střední vzdálenost mezi detekována vazba pozice a sekvence motivy závisí na počtu značek používá pro předpovědi. Naše výsledky ukazují, že přesnost se skutečně zlepšila s rostoucím počtem značek (Doplňkový obr. 18 On-line). Zlepšení však bylo malé: přesnost se snížila pouze o několik párů bází, i když byl počet značek snížen na polovinu.