Tag distributie rond eiwit bindende posities
in het algemeen selecteert immunoprecipitation een reeks overlappende DNA fragmenten rond gebonden posities. Het hoog-productie rangschikken identificeert korte (∼35 bp voor de Solexa of de stevige platforms) markeringen op de 5′ einden van fragmenten van één van beide bundels van DNA. De posities van de markeringen worden dan bepaald door hen aan de genoomassemblage, met dubbelzinnige uitlijningen typisch te verbinden. De resulterende ruimtelijke verdeling van tagvoorvallen rond een stabiele bindingspositie zal daarom afzonderlijke pieken van tagdichtheid op positieve en negatieve strengen vertonen (Fig. 1 ter, c). De afstand tussen de pieken zou de grootte van het beschermde gebied moeten weerspiegelen, hoewel het ook door de grootteverdeling van de fragmenten van DNA kan worden beà nvloed. Deze afstand is niet sterk afhankelijk van het aantal tags binnen de pieken (aanvullende tabel 1 online).
een genoombrede signatuur van dit tagpatroon kan worden beoordeeld door de kruiscorrelatie van de tagdichtheid van positieve en negatieve strengen te berekenen, waarbij de strengen ten opzichte van elkaar worden verschoven door de afstand te vergroten. Alle onderzochte gegevensreeksen vertonen een duidelijke piek in het kruiscorrelatieprofiel van de streng, overeenkomend met de overheersende grootte van het beschermde gebied (Fig. 1d en aanvullende Fig. 1 online). De grootte van de piek weerspiegelt de fractie van tags in de dataset die verschijnt in overeenstemming met het verwachte bindingspatroon. In een ideaal geval, wanneer alle sequenced tags deelnemen aan dergelijke bindende patronen, bereikt de correlatie magnitude een maximale waarde. Omgekeerd neemt de magnitude af naarmate tagposities gerandomiseerd worden (aanvullende Fig. 2 online).
gebruikmakend van taguitlijningen met variabele kwaliteit
hoewel sommige tags perfect overeenkomen met het referentiegenoom, sluiten andere slechts gedeeltelijk uit, met hiaten of mismatches. Slecht uitgelijnde markeringen kunnen uit experimentele problemen zoals steekproefverontreiniging resulteren, aan polymorfe of niet-geassembleerde gebieden van het genoom corresponderen, of het rangschikken van fouten weerspiegelen. Voor het Solexa-platform, zijn de het rangschikken fouten overvloediger naar de 3 ‘ einden van de gesequenced fragmenten, vaak resulterend in gedeeltelijke uitlijningen die slechts de gedeelten van de markeringen dichtbij einden 5 omvatten. Wij schatten dat deze toename van de mismatchfrequenties in de richting van 3’ termini 41-75% uitmaakt van alle waargenomen mismatches in de onderzochte gegevensreeksen (aanvullende Fig. 3 online). Aangezien het niet ongebruikelijk is dat >50% van de totale tags slechts gedeeltelijk uitlijnt, is het opnemen van tags die gedeeltelijk uitgelijnd zijn maar nog steeds informatief,belangrijk voor het optimaliseren van het gebruik van om het even welke gegevensset11, 12. Daarom hebben we ervoor gekozen om de lengte van de overeenkomst en het aantal nucleotiden dat door mismatches en hiaten wordt gedekt, te gebruiken om de kwaliteit van de uitlijning van tags te classificeren (tabel 1 en aanvullende tabel 2 online).
gegeven een classificatie van tags naar kwaliteit van alignment, stellen we voor om het kruiscorrelatieprofiel van de streng te gebruiken om te bepalen of een bepaalde tagklasse in verdere analyse moet worden opgenomen. Een set van tags informatief over de bindende posities zou moeten verhogen kruis-correlatie magnitude, terwijl een willekeurig toegewezen set van tags zou moeten verminderen (aanvullende Fig. 2). Deze benadering gebruiken voor de NRSF – gegevensverzameling (Fig. 2), vonden we dat uitlijningen met wedstrijden die minstens 18 bp en nul mismatches het kruis-correlatieprofiel verbeterden. Echter, alleen Full-length (25 bp) matches moeten worden overwogen voor tags met twee mismatches. Het gebruik van dit criterium om tags te accepteren verhoogde hun aantal over de set van perfect uitgelijnde tags met 27% voor de NRSF-gegevensset, 30% voor de CTCF-gegevensset en 36% voor de STAT1-gegevensset (aanvullende Fig. 4 online). De integratie van deze tags verbeterde gevoeligheid en nauwkeurigheid van de geïdentificeerde bindingsposities (aanvullende Fig. 5 online).
controle voor de verdeling van achtergrondtaken
de statistische significantie van de waargenomen tagclustering voor een vermeende eiwitbindingspositie hangt af van het verwachte achtergrondpatroon. Het eenvoudigste model veronderstelt dat de dichtheid van de achtergrondmarkering uniform langs het genoom en onafhankelijk tussen de strands11 wordt gedistribueerd. Naast het NRSF-Chipmonster, Johnson et al.2 hebben een steekproef van de controleinvoer gesequenced, die een experimentele beoordeling van de verdeling van de achtergrondmarkering verstrekken. We vonden dat de achtergrond tag distributie vertoont een mate van clustering die significant groter is dan verwacht van een homogene Poisson proces voorgesteld door het bovengenoemde eenvoudige model (P < 10-6, aanvullende Fig. 6 online).
ons onderzoek van de input tag dichtheid identificeert drie belangrijke soorten achtergrond anomalieën. Het eerste type resulteert in enkele pieken van tagdichtheid bij een enkele chromosoompositie vele ordes van grootte hoger dan de omringende dichtheid (Fig. 3a). Dergelijke pieken komen algemeen bij dezelfde positie op beide chromosoombundels voor. Het tweede type anomalie resulteert in niet-uniforme, brede (>1.000 bp) clusters van verhoogde tagdichtheid die op één of beide strengen verschijnen (Fig. 3b). Het derde type stelt kleine clusters van Bundel-specifieke markeringsdichtheid tentoon die op het patroon lijken dat van een stabiele eiwit-bindende positie wordt verwacht, hoewel het typisch kleinere scheiding tussen bundelpieken toont (Fig. 3c). Een soortgelijke reeks anomalieën kan worden waargenomen in de input sequencing van andere organismen (gegevens niet weergegeven).
het eerste type anomalie kan gemakkelijk worden gedetecteerd en geëlimineerd vanwege de extreme afwijking van de omringende tagdichtheid. Echter, de andere soorten afwijkingen, in het bijzonder de derde, zijn moeilijk te onderscheiden binnen de ChIP data. Dit geeft aan dat het rangschikken van inputmateriaal essentieel is om goed rekening te houden met de achtergrond tag distributie. Sequencing van een proefcontrole-experiment (niet-specifiek antilichaam of geen antilichaam) kan ook nodig zijn.
om de ongelijke verdeling van de achtergrond te controleren, trekken de hieronder voorgestelde bindingsmethoden de dichtheid van de aangepaste achtergrondtag af voordat de bindingsposities worden bepaald, indien dergelijke gegevens beschikbaar zijn. Bovendien worden alleen bindende posities binnen gebieden met significante ChIP/input-tag ratio ‘ s aanvaard2. Het effect van dergelijke achtergrondcorrecties zal worden gekarakteriseerd in de secties die volgen.
Bindingsdetectiemethoden en relatieve dekking van bindingsplaatsen
we hebben vijf verschillende methoden onderzocht om bindingsposities aan te roepen, waaronder twee eerder gepubliceerde algoritmen (CSP, XSET) en drie eigen methoden. In het kort identificeert de ChIPSeq Peak locator (CSP) – methode gebieden met een significante verrijking in vergelijking met het invoerprofiel en bepaalt zij bindingsposities als die met het hoogste aantal tags binnen dergelijke Regio ‘ s2. De uitgebreide reeks (xSet) methode breidt positieve – en negatieve-bundel markeringen door de verwachte lengte van het fragment van DNA uit, en bepaalt bindingsposities zoals die met het hoogste aantal overlappende fragments11.
onze methoden maken gebruik van het strengspecifiek tagpatroon waargenomen op bindingsposities (Fig. 1c). De eerste methode, window tag density (WTD), is vergelijkbaar met XSET, maar scoort posities op basis van de streng-specifieke tag tellingen stroomopwaarts en stroomafwaarts van de onderzochte positie (Fig. 4a). De tweede methode, matching strand pieken (MSP), bepaalt lokale pieken van streng-specifieke tag dichtheid en identificeert posities omgeven door positieve – en negatieve-streng pieken van een vergelijkbare grootte op de verwachte afstand (Fig. 4b). De derde methode, de correlatie van de spiegelmarkering (MTC), scant het genoom om posities te identificeren die uitgesproken positieve – en negatieve-bundelmarkeerpatronen vertonen die elkaar spiegelen (Fig. 4c). De broncode is online beschikbaar (Aanvullende broncode) en een up-to-date r-pakket kan worden gedownload op http://compbio.med.harvard.edu/Supplements/ChIP-seq.
hoewel voor geen van de onderzochte gegevensreeksen een volledige lijst van echte bindingsplaatsen bekend is, vertonen alle drie de eiwitten bekende bindingsequentiespecificaties. Hoewel de bindingsdetectiemethoden die in dit werk worden beschreven niet afhankelijk zijn van sequentiegegevens, hebben we gebruik gemaakt van instanties met hoog scorende sequentiemotieven om de relatieve prestaties van verschillende bindingsdetectiemethoden te beoordelen. Daarbij gaan we er alleen van uit dat de instanties met een hoog cijfermotief een representatieve deelverzameling van ware bindingsposities bevatten, en niet vereisen dat alle hoog-cijfermotieven gebonden zijn, of dat alle echte bindingsplaatsen een motiefhandtekening vertonen. We evalueerden de prestaties met behulp van canonieke sequentiemotieven voor binding door NRSF en CTCF14, 15, en het gamma-activated site (GAS) motief als een voorspeller van STAT1 binding 5,11. De bindingsdetectiemethoden leveren piekgroottescores op die geassocieerd zijn met de geïdentificeerde bindingsposities, waardoor prioriteit kan worden gegeven aan door elke methode bepaalde bindingsposities.
om de gevoeligheid van verschillende methoden te vergelijken, selecteerden we steeds meer bovenste bindingsposities die door elke methode werden geretourneerd en onderzochten we de fractie van het motief waarvoor een bindingspositie werd geïdentificeerd (Fig. 4d). We vonden dat 89% van de geselecteerde hoogst scorende NRSF-motief overeenkomt met de gedetecteerde bindingsposities. De dekkingsgraad van het motief is duidelijk hoger dan die van willekeurige voorspelling, waardoor de relatieve prestaties van de verschillende bindingsdetectiemethoden kunnen worden vergeleken. Met uitzondering van MSP en CSP bereiken alle methoden een even hoge motiefdekking. De CSP-methode presteert slechter voor de meer prominente bindingsposities (top 500), terwijl de MSP-benadering slecht presteert over het hele bereik. Analyses van STAT1 en CTCF binding tonen analoge resultaten in termen van de relatieve prestaties van de verschillende methoden (aanvullende Fig. 7 online). Deze resultaten worden ook bevestigd door analyse van PCR-gevalideerde bindende loci uit de literatuur2,11,15 (Aanvullende Fig ‘ s. 8 en 9 online). We merken op dat de motif-en PCR-gevalideerde testsets slechts een fractie van echte bindingsplaatsen vertegenwoordigen. Aangezien deze fractie kleiner is voor CTCF en STAT1, worden grotere sets van hoogste bindende posities gebruikt om de dekking van test-set door verschillende methoden te illustreren.
De in de vorige paragraaf beschreven methoden voor het aftrekken van achtergronden verbeteren de dekking van NRSF-motieven en bereiken hetzelfde niveau van dekking met tot 11% minder topbindingsposities (aanvullende Fig. 10 online). De correcties hebben weinig effect op de top 1.500 bindposities, die worden geassocieerd met hogere tellingen van Tags dan vals-positieve pieken die voortvloeien uit ongelijke achtergrond. De achtergrond-gedreven vals-positieve posities zijn over het algemeen kleiner in omvang en beginnen voorspellingen te beïnvloeden als meer bindende posities worden beschouwd.
precisie van bindingsposities
om de ruimtelijke precisie te evalueren waarmee eiwitbindingsposities met verschillende methoden worden geïdentificeerd, hebben we de afstanden geanalyseerd tussen voorspelde posities en locaties van hits met hoge scores (Fig. 5a). Voor de NRSF – gegevensset voorspelt de WTD-methode bindingsposities met de grootste precisie, met > 60% van de voorspelde pieken binnen 10 bp van het centrum van het motief (Fig. 5b en aanvullende Fig. 11a online). Het wordt gevolgd door de xSet, MTC en MSP methoden, met CSP roepen ∼40% van pieken binnen 10 bp van de motieven. Achtergrondcorrecties hebben een beperkt effect op de nauwkeurigheid van de voorspelde posities, waarbij alleen de WTD-methode 3% verbetering laat zien voor sterke bindende posities (gegevens niet weergegeven).
voor de CTCF-en STAT1-voorspellingen bereikt de MTC-methode echter een betere precisie dan WTD (Fig. 5c, d en aanvullende Fig. 11 ter, c). Het verschil kan worden verklaard door de eigenschappen van de tagdistributie direct in de buurt van het centrum van het beschermde gebied. In tegenstelling tot WTD en XSET houdt de MTC-methode geen rekening met tags binnen het centrale gebied (30 bp) bij het scoren van bindingsposities. Als de MTC-methode wordt gewijzigd om rekening te houden met dergelijke posities, wordt de nauwkeurigheid van de vastgestelde bindende posities teruggebracht tot een niveau dat vergelijkbaar is met de WTD-voorspellingen. Bij het onderzoeken van de totale verdeling van tagposities ten opzichte van high-scoring motif hits, vonden we dat CTCF en STAT1 onverwachte pieken van tagdichtheid direct naast (binnen 10-15 bp) aan de positie van het motief (aanvullende Fig. 12 online). Dit patroon, waarbij kleine sets negatieve streng tags direct vóór het beschermde gebied verschijnen en worden gespiegeld door de positieve streng tags direct na het beschermde gebied, kan het gevolg zijn van cross-linking interacties die zich voordoen buiten het centrale beschermde gebied (Fig. 1b, gebroken lijn). Als gevolg daarvan hebben de piekdetectiemethoden die rekening houden met de tags in de buurt van het centrale gebied de neiging om posities 15-20 bp stroomopwaarts of stroomafwaarts van de echte bindingsplaats te roepen.
statistisch significante posities
De bindingsdetectiemethoden moeten de resulterende bindingsposities beperken tot die welke waarschijnlijk niet bij toeval zijn opgetreden. Het gewenste niveau van statistische significantie wordt gewoonlijk gegeven in termen van een false discovery rate (FDR) of het aantal verwachte false-positieve posities (E-waarde).
de detectiemethoden kunnen dan gebruik maken van achtergrond tag distributie om de minimale binding positie score te bepalen die voldoet aan de gespecificeerde significantieniveau. Veel vals-positieve oproepen zijn afkomstig uit de grote abnormale gebieden die eerder zijn beschreven. Deze systematische fouten kunnen worden gefilterd voordat de significantiedrempels worden vastgesteld. Op basis van de input sample data voor de NRSF, vonden we een totaal van 2.755 bindende posities voor de FDR drempel van 0,01 met behulp van de WTD methode. Dit komt nauw overeen met het aantal toppieken dat nodig was om een maximale dekking te bereiken van de posities met hoge scores die in de vorige secties werden gebruikt (Fig. 4d).
bij gebrek aan een empirische schatting van de verdeling van de achtergrondtaken kan het mogelijk zijn om op een analytisch model te vertrouwen. Het eenvoudigste model is een ruimtelijk Poissonproces waarbij de tags gelijkmatig verdeeld zijn over de toegankelijke gebieden van het genoom11. Echter, omdat de ware achtergrond tag-distributies een significante mate van tagclustering vertonen, is deze op Poisson gebaseerde drempel aanzienlijk lager dan die verkregen uit empirische achtergrondmeting, resulterend in overschatting van het aantal significante bindingsposities (9.206 versus 2.755 voor een FDR van 0,01). Vergelijking met de input-based FDR berekeningen laat zien dat het Poisson-based model FDR ‘ s onderschat tussen 8 – en 20-voudig, afhankelijk van de target FDR (aanvullende tabel 3 online).
een nadere schatting van de statistische drempels kan worden verkregen door rekening te houden met de mate van clustering die aanwezig is in de verdeling van de achtergrondlabels. Een eenvoudige aanpak is om een randomisatie te gebruiken die tags die zich voordoen op dezelfde of nabijgelegen posities bij elkaar houdt, in plaats van ze onafhankelijke posities toe te wijzen, zoals gedaan met het Poisson-model. Het aantal significante posities bepaald met behulp van dergelijke randomisatiemodellen met verschillende bakgroottes wordt weergegeven in aanvullende tabel 3. Voor de FDR van 0.01, een randomisatiemodel dat samen markeringen handhaaft die bij precies dezelfde positie in het genoom voorkomen resulteert in een vergelijkbaar aantal NRSF-bindende posities (2,985). We gebruikten een dergelijke randomisatie om het aantal statistisch significante bindende posities te bepalen voor de CTCF (2.3981 posities voor een FDR van 0,01) en STAT1 (44.921 posities voor een FDR van 0,01) datasets. Het aanpassen van het aantal bindingsposities voor strengere FDR-waarden vereist grotere tag-randomisatieblokken (aanvullende tabel 3), wat aangeeft dat eenvoudige randomisatiestrategieën niet goed rekening kunnen houden met de achtergrondclustering-eigenschappen.
testen voor voldoende sequentiediepte
om te beoordelen of de sequentiediepte een verzadigingspunt heeft bereikt waarboven geen extra bindingsplaatsen worden gedetecteerd, hebben we geanalyseerd hoe de set van de voorspelde bindingsplaatsen veranderde wanneer slechts een subset van taggegevens werd gebruikt voor voorspelling. Sampling toenemende fracties van de tag data, bepaalden we bindende posities en vergeleken deze voorspellingen met de set van referentie bindingsplaatsen geïdentificeerd uit de volledige data (Fig. 6a en aanvullende Fig. 13 online).
als de sequentiediepte voorbij het verzadigingspunt is verplaatst, zou het mogelijk zijn om tot de referentieset te komen met slechts een subset van de taggegevens. We ontdekten echter dat geen van de drie datasets zo ‘ n verzadigingspunt bereikte (horizontale asymptoot), en dat de fractie van de Concordante bindingsposities daalde wanneer zelfs een klein deel van de taggegevens werd weggelaten. Dit wijst erop dat de extra bindende plaatsen onophoudelijk met het verhogen van het rangschikken diepte worden geà dentificeerd. De waargenomen trend geldt voor een reeks van FDR-drempels (aanvullende Fig. 13): hoewel de helling van de verzadigingscurve kan worden verminderd door een aanzienlijk strengere FDR-drempel in te stellen, resulteert dit in een aanzienlijk kleiner aantal bindingsplaatsen.
om de eigenschappen van de dekking van de bindingsplaats te begrijpen, onderzochten we tellingen van tags geassocieerd met high-scoring sequence motieven (Fig. 6b en aanvullende Fig. 14 online). In alle drie de datasets vertoonde de verdeling van tag tellingen een zeer breed dynamisch bereik. Terwijl sommige posities honderden tags hadden, kwamen andere nauwelijks boven de verwachte achtergrondtellingen uit. Bovendien bleken deze verdelingen continu te zijn in die zin dat zij geen afzonderlijke subpopulaties van bindende posities vertoonden. Dit stelt voor dat het verhogen van het rangschikken diepte een groter aantal zwakke bindende posities kan toestaan om zonder een kwalitatieve drempel worden onderscheiden die een volledige reeks bindende plaatsen zou definiëren.
naarmate meer uitgesproken bindingsposities worden geïdentificeerd met behulp van kleinere sequentiediepte, kan een experiment met een bepaalde diepte de detectie van bindingsposities die een bepaalde tagverrijkingsverhouding ten opzichte van de achtergrond overschrijden, verzadigen. We verwijzen naar deze verrijkingsverhouding als de minimal saturated enrichment ratio (mser). De verzadigingscriteria die de maximaal aanvaardbare helling van de verzadigingscurve bepalen (Fig. 6a) kan worden geformuleerd als een vereiste voor de stabiliteit van de reeks voorspelde bindingsplaatsen. Bijvoorbeeld, we vereisen 99% overeenkomst in de set van bindende posities wanneer de dataset wordt verminderd met 105 tags. Met behulp van NRSF input tag data om de betrouwbaarheidsintervallen voor de verrijkingsratio van elke bindende positie te bepalen, vonden we dat de bereikte sequentiediepte voldoende was om de detectie van bindingsposities met tag verrijkingsratio ‘ s significant boven 7,5 (P-waarde < 0,05; Fig. 6a en aanvullende Fig. 15 online). Van de 2.755 NRSF bindende posities gedetecteerd bij een FDR van 0.1, 1.879 (68%) hadden verrijkingsratio ‘ s die aanzienlijk hoger waren dan de MSER-waarde van 7,5 (aanvullende Fig. 13). We merken op dat een bepaalde mser-waarde niet impliceert dat alle ware bindingsposities van die vouwverrijking zijn ontdekt; in plaats daarvan geeft het aan dat nieuwe bindingsposities met verrijking die aanzienlijk hoger zijn dan de mser-waarde worden gedetecteerd met een voldoende langzame snelheid. Een potentieel bereik van de werkelijke verrijkingsratio ‘ s kan worden bepaald aan de hand van de voor elke bindende positie berekende betrouwbaarheidsintervallen voor verrijking (aanvullend Fig. 16 online). Aangezien de schatting van de betrouwbaarheidsintervallen van de verrijkingsratio ook afhangt van de hoeveelheid informatie die beschikbaar is over de verdeling van de achtergrondtags, moeten inputgegevensreeksen met vergelijkbare genomische dekking worden gebruikt bij het vergelijken van verschillende mser-waarden.
voor praktische doeleinden is het belangrijk te kunnen voorspellen hoeveel tags nodig zijn om pieken boven een bepaalde doelverrijkingsverhouding te kunnen detecteren. De relatie tussen het aantal tags en de MSER settelt zich in een afhankelijkheid die kan worden geëxtrapoleerd met behulp van een log-log model (Fig. 6c). We voorspellen bijvoorbeeld dat 1.2 × 106 meer tags zouden nodig zijn om verzadiging te bereiken bij het detecteren van NRSF-bindingsposities met verrijking over de achtergrond die aanzienlijk hoger is dan tweevoudig (P-waarde < 0,05). De MSER-waarden en extrapolaties zijn afhankelijk van de verzadigingscriteria en van de methoden die worden gebruikt om de betrouwbaarheidsintervallen voor verrijking te berekenen (aanvullend Fig. 17 online).
het vergroten van de sequentiediepte zal waarschijnlijk ook leiden tot een grotere nauwkeurigheid van de vastgestelde bindingsposities. Met behulp van de NRSF-dataset hebben we geanalyseerd hoe de gemiddelde afstand tussen de gedetecteerde bindingsposities en sequentiemotieven afhangt van het aantal tags dat Voor voorspellingen wordt gebruikt. Onze resultaten tonen aan dat de nauwkeurigheid inderdaad is verbeterd met het toenemende aantal tags (aanvullende Fig. 18 online). De verbetering was echter gering: de nauwkeurigheid daalde met slechts enkele basenparen, zelfs wanneer het aantal tags werd gehalveerd.