Design och analys av ChIP-seq-experiment för DNA-bindande proteiner

Taggfördelning runt proteinbindningspositioner

i allmänhet väljer immunutfällning en uppsättning överlappande DNA-fragment runt bundna positioner. Sekvensering med hög genomströmning identifierar korta (35 BP för Solexa eller fasta plattformar) taggar på 5 ’ – ändarna av fragment från endera DNA-strängen. Taggarnas positioner bestäms sedan genom att anpassa dem till genomenheten, med tvetydiga anpassningar som vanligtvis kasseras. Den resulterande rumsliga fördelningen av tagghändelser runt en stabil bindningsposition kommer därför att visa separata toppar av taggdensitet på positiva och negativa strängar (Fig. 1b, c). Avståndet mellan topparna bör återspegla storleken på det skyddade området, även om det också kan påverkas av DNA-fragmentens storleksfördelning. Detta avstånd uppvisar inte starkt beroende av antalet taggar inom topparna (kompletterande Tabell 1 online).

en genomomfattande signatur av detta taggmönster kan bedömas genom att beräkna korskorrelationen mellan positiva och negativa strängmärkningstätheter, vilket förskjuter strängarna i förhållande till varandra genom att öka avståndet. Alla de undersökta datamängderna uppvisar en tydlig topp i strängkorskorrelationsprofilen, motsvarande den övervägande storleken på det skyddade området (Fig. 1D och kompletterande Fig. 1 uppkopplad). Storleken på toppen återspeglar fraktionen av taggar i datamängden som visas i enlighet med det förväntade bindningsmönstret. I ett idealiskt fall, när alla sekvenserade taggar deltar i sådana bindningsmönster, når korrelationsstorleken ett maximalt värde. Omvänt minskar storleken när taggpositioner randomiseras (kompletterande Fig. 2 uppkopplad).

använda tagginriktningar av variabel kvalitet

även om vissa taggar stämmer perfekt med referensgenomet, andra anpassar sig endast delvis, med luckor eller felmatchningar. Dåligt inriktade taggar kan bero på experimentella problem såsom provförorening, motsvara polymorfa eller omonterade regioner i genomet eller reflektera sekvenseringsfel. För Solexa-plattformen är sekvenseringsfelen mer rikliga mot 3 ’- ändarna av de sekvenserade fragmenten, vilket ofta resulterar i partiella anpassningar som endast inkluderar delarna av taggarna nära 5’ – ändarna. Vi uppskattar att denna ökning av mismatch frekvenser mot 3 ’ termini står för 41-75% av alla observerade mismatch i de undersökta datamängder (kompletterande Fig. 3 uppkopplad). Eftersom det inte är ovanligt att ha >50% av de totala taggarna resulterar i endast partiell anpassning, inkludering av taggar som är delvis inriktade men fortfarande informativa är viktigt för att optimera användningen av alla dataset11,12. Vi valde därför att använda matchens längd och antalet nukleotider som omfattas av missmatchningar och luckor för att klassificera kvaliteten på tagginriktningen (Tabell 1 och kompletterande Tabell 2 online).

Tabell 1 Klassificering av tagginriktningar baserat på matchningens längd och antalet felmatchningar

Med tanke på en klassificering av taggar efter anpassningskvalitet föreslår vi att vi använder strängkorskorrelationsprofilen för att avgöra om en viss klass av taggar ska användas inkluderas i vidare analys. En uppsättning taggar som är informativa om bindningspositionerna bör öka korskorrelationsstorleken, medan en slumpmässigt mappad uppsättning taggar bör minska den (kompletterande Fig. 2). Använda detta tillvägagångssätt för nrsf-datamängden (Fig. 2) fann vi att anpassningar med matchningar som spänner över minst 18 bp och nollmatchningar förbättrade korskorrelationsprofilen. Dock bör endast matcher i full längd (25 bp) övervägas för Taggar med två felmatchningar. Genom att använda detta kriterium för att acceptera taggar ökade antalet över uppsättningen perfekt anpassade taggar med 27% för nrsf-datamängden, 30% för ctcf-datamängden och 36% för STAT1-datamängden (kompletterande Fig. 4 uppkopplad). Införlivandet av dessa taggar förbättrade känsligheten och noggrannheten hos de identifierade bindningspositionerna (kompletterande Fig. 5 uppkopplad).

Figur 2: Välja informativa taggklasser baserat på förändringen i strängkorskorrelationsstorlek.

för varje klass av taggjusteringskvalitet som anges i Tabell 1 visar tomterna förändringen i strängmedelkorskorrelationsprofilen när denna klass av taggar betraktas tillsammans med basklassen för perfekt anpassade taggar (25 bp, inga avvikelser). (a-c) tre tomter motsvarar taggklasser utan felmatchningar (a), med en enda felmatchning (b) och med två felmatchningar (c). Informativa taggklasser förbättrar korskorrelationen (markerad med*) och införlivas i den slutliga tagguppsättningen. Y-axeln ger den genomsnittliga förändringen i korskorrelationsprofilen inom 40 bp runt korskorrelationstoppen (Fig. 1d).

kontroll för distribution av bakgrundsmärken

den statistiska signifikansen för taggkluster som observerats för en förmodad proteinbindningsposition beror på det förväntade bakgrundsmönstret. Den enklaste modellen förutsätter att bakgrundsmärkningstätheten fördelas jämnt längs genomet och oberoende mellan strängarna11. Förutom Nrsf-Chipprovet, Johnson et al.2 har sekvenserat ett kontrollinmatningsprov, vilket ger en experimentell bedömning av bakgrundstaggfördelningen. Vi fann att bakgrundstaggfördelningen uppvisar en grad av kluster som är signifikant större än förväntat från en homogen Poisson-process som föreslagits av den ovannämnda enkla modellen (P < 10-6, kompletterande Fig. 6 uppkopplad).

vår undersökning av inmatningstätheten identifierar tre huvudtyper av bakgrundsanomalier. Den första typen resulterar i singulära toppar av taggdensitet vid en enda kromosomposition många storleksordningar högre än den omgivande densiteten (Fig. 3a). Sådana toppar uppträder vanligen vid samma position på båda kromosomsträngarna. Den andra typen av anomali resulterar i ojämn, bred (>1000 bp) kluster av ökad taggdensitet som uppträder på endera eller båda strängarna (Fig. 3b). Den tredje typen uppvisar små kluster av strängspecifik taggdensitet som liknar mönstret som förväntas från ett stabilt Proteinbindande läge, även om det vanligtvis visar mindre separation mellan strängtoppar (Fig. 3c). En liknande uppsättning anomalier kan observeras vid inmatningssekvensering av andra organismer (data visas inte).

Figur 3: exempel på avvikelser i bakgrundstaggfördelningar.

(a) Singularpositioner med extremt högt taggtal. (b) större, icke-enhetliga regioner med ökad bakgrundsmärkningstäthet. (C) Bakgrund tag densitet mönster som liknar sanna Proteinbindande positioner. Varje plot visar täthet av taggar från ChIP och ingångsprover. Tagghistogrammen ger kombinerade taggräkningar.

den första typen av anomali kan lätt detekteras och elimineras på grund av dess extrema avvikelse från den omgivande taggdensiteten. De andra typerna av anomalier, i synnerhet den tredje, är emellertid svåra att särskilja inom Chipdata. Detta indikerar att sekvensering av inmatningsmaterial är avgörande för att korrekt redogöra för bakgrundstaggfördelningen. Sekvensering av ett mock-kontrollexperiment (icke-specifik antikropp eller ingen antikropp) kan också vara nödvändig.

för att styra för den ojämna bakgrundsfördelningen subtraherar de bindningsmetoder som föreslås nedan omskalad bakgrundstaggdensitet innan bindningspositioner bestäms, om sådana data finns tillgängliga. Dessutom accepteras endast bindningspositioner inom regioner med signifikanta ChIP/input-tag-förhållanden 2. Effekten av sådana bakgrundskorrigeringar kommer att karakteriseras i de avsnitt som följer.

Bindningsdetekteringsmetoder och relativ täckning av bindningsställen

Vi har undersökt fem olika metoder för att ringa bindningspositioner, inklusive två tidigare publicerade algoritmer (CSP, XSET) och tre egna metoder. Kortfattat identifierar ChIPSeq Peak locator (CSP) – metoden regioner med signifikant anrikning jämfört med ingångsprofilen och bestämmer bindningspositioner som de med det högsta antalet taggar inom sådana regioner2. Extended set (xset) – metoden sträcker sig positiva och negativa strängtaggar med den förväntade längden på DNA-fragmentet och bestämmer bindningspositioner som de med det högsta antalet överlappande fragments11.

våra metoder utnyttjar det strängspecifika taggmönstret som observerats vid bindningspositioner (Fig. 1c). Den första metoden, window tag density (WTD), liknar XSET men poängpositioner baserade på den strängspecifika taggen räknas uppströms och nedströms om den undersökta positionen (Fig. 4a). Den andra metoden, matchande strandtoppar (MSP), bestämmer lokala toppar av strandspecifik taggdensitet och identifierar positioner omgivna av positiva och negativa strandtoppar av jämförbar storlek vid det förväntade avståndet (Fig. 4b). Den tredje metoden, mirror tag correlation (MTC), skannar genomet för att identifiera positioner som uppvisar uttalade positiva och negativa Strängmönster som speglar varandra (Fig. 4c). Källkoden är tillgänglig online (kompletterande källkod) och ett aktuellt R-paket kan laddas ner på http://compbio.med.harvard.edu/Supplements/ChIP-seq.

Figur 4: Bindningspositionsdetekteringsmetoder och deras relativa känslighet.

(a) schematisk illustration av WTD-metoden. För att identifiera positioner med ett taggmönster som förväntas av en stark bindning beräknar metoden skillnaden mellan det geometriska medelvärdet av taggen räknas inom regionerna markerade med orange färg (p1 och n2) och den genomsnittliga taggen räknas inom regionerna markerade med grön färg (n1 och p2). b) MSP-metoden identifierar först lokala maxima på positiva och negativa strängar (öppna cirklar) och bestämmer sedan positioner där sådana två toppar är närvarande i rätt ordning, med förväntad separation och jämförbar storlek. (c) MTC – metoden är baserad på spegelkorrelationen mellan positiva och negativa strängmärkningstätheter. Spegelbilden av negativ sträng taggdensitet visas av en trasig blå linje. Taggar inom 15 bp från mittpositionen utelämnas. (D) täckning av högförtroende nrsf-motivmatchningar av topptoppar. Plottet visar fraktionen av motivinstanser som sammanfaller (med 50 bp) med identifierade bindningspositioner, som en funktion av att öka antalet toppbindningspositioner identifierade med olika metoder. De flesta metoder, utom MSP och CSP, kan uppnå liknande hög täckning.

även om en fullständig lista över sanna bindningsställen inte är känd för någon av de undersökta datamängderna, uppvisar alla tre proteiner kända bindningssekvensspecifikationer. Medan bindningsdetekteringsmetoderna som beskrivs i detta arbete inte är beroende av sekvensinformation, använde vi sekvensmotiv med hög poäng för att bedöma relativa prestanda för olika bindningsdetekteringsmetoder. Genom att göra så, vi antar bara att de höga poäng motiv instanser innehåller en representativ delmängd av sanna bindande positioner, och kräver inte alla höga poäng motiv att vara bunden, eller att alla sanna bindningsställen uppvisar ett motiv signatur. Vi utvärderade prestanda med hjälp av kanoniska sekvensmotiv för bindning av NRSF och CTCF14,15 och det gammaaktiverade platsmotivet (GAS) som en prediktor för STAT1-bindning5, 11. Bindningsdetekteringsmetoderna ger toppstorlekspoäng associerade med de identifierade bindningspositionerna, vilket möjliggör prioritering av bindningspositioner bestämda av varje metod.

för att jämföra känsligheten hos olika metoder valde vi ökande antal toppbindningspositioner som returnerades av varje metod och undersökte fraktionen av motivhändelser för vilka en bindningsposition identifierades (Fig. 4d). Vi fann att 89% av de valda nrsf-motivmatchningarna med högst poäng sammanföll med de detekterade bindningspositionerna. Motif-täckningsgraden överstiger klart det som förväntas från slumpmässig förutsägelse, vilket möjliggör jämförelse av de relativa prestationerna för de olika bindningsdetekteringsmetoderna. Med undantag för MSP och CSP uppnår alla metoder samma höga motivtäckning. CSP-metoden fungerar sämre för de mer framträdande bindningspositionerna (topp 500), medan MSP-metoden fungerar dåligt över hela intervallet. Analyser av stat1-och ctcf-bindning visar analoga resultat i termer av de olika metodernas relativa prestanda (kompletterande Fig. 7 uppkopplad). Dessa resultat bekräftas också genom analys av PCR-validerade bindande loci från litteraturen2, 11, 15 (kompletterande fikon. 8 och 9 online). Vi noterar att motif och PCR-validerade testuppsättningar representerar endast en bråkdel av sanna bindningsställen. Eftersom denna fraktion är mindre för CTCF och STAT1, används större uppsättningar av toppbindningspositioner för att illustrera testuppsättningens täckning med olika metoder.

Bakgrunds subtraktion metoder som beskrivs i föregående avsnitt förbättra nrsf motiv täckning, når samma nivå av täckning på upp till 11% färre topp bindande positioner (kompletterande Fig. 10 uppkopplad). Korrigeringarna har liten effekt på de 1 500 bästa bindningspositionerna, som är förknippade med högre taggtal än några falskt positiva toppar som härrör från ojämn bakgrund. De bakgrundsdrivna falskt positiva positionerna är i allmänhet mindre i storlek och börjar påverka förutsägelser när mer bindande positioner beaktas.

Precision av bindningspositioner

för att utvärdera den rumsliga precisionen med vilken proteinbindningspositioner identifieras med olika metoder har vi analyserat avstånden mellan förutsagda positioner och platser för höga poängmotiv träffar (Fig. 5a). För nrsf-datamängden förutspår WTD-metoden bindningspositioner med största precision, med >60% av förutsagda toppar belägna inom 10 bp från motif center (Fig. 5b och kompletterande Fig. 11A online). Det följs av xset -, MTC-och MSP-metoderna, med CSP som ringer till 40% av topparna inom 10 bp av motiven. Bakgrundskorrigeringar har begränsad effekt på precisionen hos de förutsagda positionerna, med endast WTD-metoden som visar 3% förbättring för starka bindningspositioner (data visas inte).

Figur 5: noggrannhet för bestämda bindningspositioner.

(a) fördelning av avstånd mellan högförtroende nrsf-motivinstanser och platser för bindningspositioner identifierade med olika metoder. S. d.för den resulterande fördelningen (POV) visas för varje metod. Endast motiv som innehöll en bindningsposition inom 100 bp övervägdes. (b) fraktionen av de identifierade bindningspositionerna inom 10 bp av nrsf-motivpositionen visas för ökande antal toppbindningspositioner identifierade med olika metoder. Endast bindande positioner som förekommer inom 300 bp av en sekvensmotivinstans ingår i analysen. Medianavståndet till motivcentret subtraherades för varje metod för att redogöra för sekvensmotivets icke-centrala position i förhållande till mitten av det skyddade bindningsområdet. Analoga tomter visas för CTCF (c) och STAT1 (d). MTC-metoden uppnår högsta noggrannhet för CTCF och STAT1; WTD ger emellertid mer exakta positioner för nrsf-bindning.

för ctcf-och STAT1-förutsägelserna uppnår dock MTC-metoden bättre precision än WTD (Fig. 5c, d och kompletterande Fig. 11b, c). Skillnaden kan förklaras av egenskaperna hos taggfördelningen omedelbart nära mitten av den skyddade regionen. Till skillnad från WTD och XSET tar MTC-metoden inte hänsyn till taggar inom den centrala regionen (30 bp) vid poängbindningspositioner. Att ändra MTC-metoden för att ta hänsyn till sådana positioner minskar precisionen hos de bestämda bindningspositionerna till en nivå som liknar WTD-förutsägelserna. Genom att undersöka den totala fördelningen av taggpositioner i förhållande till motivhits med hög poäng fann vi att CTCF och STAT1 visade oväntade toppar av taggdensitet omedelbart intill (inom 10-15 bp) till motivpositionen (kompletterande Fig. 12 uppkopplad). Detta mönster, där små uppsättningar av negativa strängmärken visas omedelbart uppströms om det skyddade området och speglas av de positiva strängmärkena omedelbart nedströms, kan bero på tvärbindningsinteraktioner som inträffar utanför det centrala skyddade området (Fig. 1B, streckad linje). Som ett resultat tenderar toppdetekteringsmetoder som tar hänsyn till taggarna nära den centrala regionen att ringa positioner 15-20 bp uppströms eller nedströms om den sanna bindningsplatsen.

statistiskt signifikanta positioner

bindningsdetekteringsmetoderna bör begränsa de resulterande bindningspositionerna till de som sannolikt inte har inträffat av en slump. Den önskade nivån av statistisk signifikans ges vanligtvis i termer av en falsk upptäcktshastighet (FDR) eller antalet förväntade falskt positiva positioner (E-värde).

detektionsmetoderna kan sedan använda bakgrundsetikettfördelning för att bestämma den minimala bindningspositionspoängen som uppfyller den angivna signifikansnivån. Många falskt positiva samtal härstammar från de stora anomala regioner som beskrivits tidigare. Dessa systematiska fel kan filtreras före bestämning av tröskelvärden för betydelse. Baserat på indataprovdata för NRSF hittade vi totalt 2,755-bindningspositioner för FDR-tröskeln på 0.01 med WTD-metoden. Detta motsvarar nära antalet topptoppar som krävdes för att uppnå maximal täckning av motivpositioner med hög poäng som användes i föregående avsnitt (Fig. 4d).

i avsaknad av en empirisk uppskattning av bakgrundstaggfördelningen kan det vara möjligt att förlita sig på en analytisk modell. Den enklaste modellen är en rumslig Poisson-process där taggarna är jämnt fördelade över de tillgängliga regionerna i genomet11. Eftersom de verkliga bakgrundstaggfördelningarna uppvisar en signifikant grad av taggklustering är denna Poisson-baserade tröskel signifikant lägre än den som erhållits från empirisk bakgrundsmätning, vilket resulterar i överskattning av antalet signifikanta bindningspositioner (9 206 mot 2 755 för en FDR på 0,01). Jämförelse med de ingångsbaserade FDR-beräkningarna visar att den Poisson-baserade modellen underskattar FDR mellan 8 – och 20-faldigt, beroende på målet FDR (kompletterande tabell 3 online).

en närmare uppskattning av statistiska tröskelvärden kan erhållas genom att redovisa graden av kluster som finns i bakgrundstaggfördelningen. Ett enkelt tillvägagångssätt är att använda en randomisering som upprätthåller taggar som förekommer vid samma eller närliggande positioner tillsammans, istället för att tilldela dem oberoende positioner, som gjort med Poisson-modellen. Antalet signifikanta positioner som bestäms med hjälp av sådana randomiseringsmodeller med olika binstorlekar visas i Tilläggstabell 3. För FDR av 0.01, en randomiseringsmodell som upprätthåller tillsammans taggar som uppträder vid exakt samma position i genomet resulterar i ett jämförbart antal nrsf-bindande positioner (2,985). Vi använde sådan randomisering för att bestämma antalet statistiskt signifikanta bindningspositioner för ctcf (2,3981-positionerna för en FDR på 0.01) och STAT1 (44,921-positioner för en FDR på 0.01) dataset. Att matcha antalet bindningspositioner för strängare FDR-värden kräver större tagg randomiseringsblock (kompletterande tabell 3), vilket indikerar att enkla randomiseringsstrategier inte korrekt kan redogöra för bakgrundsklusteringsegenskaperna.

testning för tillräckligt sekvenseringsdjup

för att bedöma om sekvenseringsdjupet har nått en mättnadspunkt utöver vilken inga ytterligare bindningsställen detekteras analyserade vi hur uppsättningen av de förutsagda bindningsställena ändrades när endast en delmängd av taggdata användes för förutsägelse. Sampling ökande fraktioner av taggdata, vi bestämde bindningspositioner och jämförde dessa förutsägelser med uppsättningen referensbindningsställen identifierade från de fullständiga uppgifterna (Fig. 6a och kompletterande Fig. 13 uppkopplad).

Figur 6: analys av sekvenseringsdjup.

(A) med tanke på nrsf-bindningspositionerna bestämda med hjälp av den fullständiga datamängden (y-axeln) visar den solida svarta kurvan fraktionen av positioner som kan förutsägas (inom 50 bp) med mindre delar av taggdata (x-axeln). Alla bindande förutsägelser genereras med en FDR på 0,01 med WTD-metoden. Kurvan når inte en horisontell asymptot, vilket indikerar att uppsättningen detekterade nrsf-bindningsställen inte har stabiliserats vid det aktuella sekvenseringsdjupet. De ytterligare kurvorna begränsar analysen till bindningspositioner vars vik-anrikningsförhållande över bakgrunden är signifikant (P < 0,05) högre än 7,5 (MSER: minimalt mättat Anrikningsförhållande, streckad linje) och 30 (streckad linje). De observerade anrikningsförhållandena utvärderas oberoende för varje taggdelprov (x-axel). (b) Fördelning av tag räknas runt hög förtroende nrsf motiv positioner. Positioner med noll taggar ingick inte. (C) förhållandet mellan MSER för de detekterade bindningspositionerna och sekvenseringsdjupet (uttryckt som en bråkdel av den fullständiga datamängden). Den streckade grå linjen visar en log-log-modell som kan användas för att uppskatta sekvenseringsdjupet som krävs för att mätta detektering av bindningspositioner med ett lägre vik-anrikningsförhållande. Enligt den uppskattningen skulle 1,2 106 fler sekvenstaggar vara nödvändiga för att mätta detektering av bindningspositioner som är dubbelt berikade över bakgrunden (MSER = 2 motsvarar y = 0, vid vilken punkt den streckade linjen korsar x-axeln: x = 2,8 106).

om sekvenseringsdjupet har flyttat bortom mättnadspunkten, skulle det vara möjligt att komma fram till referensuppsättningen med endast en delmängd av taggdata. Vi fann emellertid att ingen av de tre datamängderna nådde en sådan mättnadspunkt (horisontell asymptot) och att fraktionen av de konkordanta bindningspositionerna minskade när även en liten del av taggdata utelämnades. Detta indikerar att ytterligare bindningsställen kontinuerligt identifieras med ökande sekvenseringsdjup. Den observerade trenden gäller för en rad FDR-tröskelvärden (kompletterande Fig. 13): Även om mättnadskurvans lutning kan minskas genom att ställa in en betydligt strängare FDR-tröskel, resulterar detta i ett betydligt mindre antal bindningsställen.

för att förstå egenskaperna hos bindningsplatsens täckning undersökte vi taggräkningar associerade med sekvensmotiv med hög poäng (Fig. 6B och kompletterande Fig. 14 uppkopplad). I alla tre datamängderna visade fördelningen av taggantal ett mycket brett dynamiskt omfång. Medan vissa positioner hade hundratals taggar steg andra knappt över de förväntade bakgrundsräkningarna. Dessutom verkade dessa fördelningar vara kontinuerliga genom att de inte visade distinkta subpopulationer av bindande positioner. Detta antyder att ökande sekvenseringsdjup kan tillåta ett större antal svaga bindningspositioner att särskiljas utan en kvalitativ tröskel som skulle definiera en komplett uppsättning bindningsställen.

När mer uttalade bindningspositioner identifieras med mindre sekvenseringsdjup kan ett experiment med givet djup mätta detektering av bindningspositionerna som överstiger ett visst tagganrikningsförhållande i förhållande till bakgrunden. Vi hänvisar till detta anrikningsförhållande som det minimala mättade anrikningsförhållandet (MSER). Mättnadskriterierna som definierar den maximala acceptabla lutningen för mättnadskurvan (Fig. 6a) kan formuleras som ett krav på stabilitet hos uppsättningen förutsagda bindningsställen. Till exempel kräver vi 99% överenskommelse i uppsättningen bindande positioner när datamängden reduceras med 105 taggar. Med hjälp av nrsf-inmatningsdata för att bestämma konfidensintervallen för anrikningsförhållandet för varje bindningsposition fann vi att det uppnådda sekvenseringsdjupet var tillräckligt för att mätta detektering av bindningspositioner med tagganrikningsförhållanden betydligt över 7,5 (P-värde < 0,05; Fig. 6a och kompletterande Fig. 15 uppkopplad). Av de 2 755 nrsf-bindningspositioner som detekterats vid en FDR på 0.01, 1 879 (68%) hade anrikningsförhållanden betydligt större än MSER-värdet på 7,5 (kompletterande Fig. 13). Vi noterar att ett visst MSER-värde inte innebär att alla de verkliga bindningspositionerna för den vikberikningen har upptäckts; istället indikerar det att nya bindningspositioner med anrikning som är betydligt högre än MSER-värdet detekteras i en tillräckligt långsam takt. Ett potentiellt intervall av verkliga anrikningsförhållanden kan bedömas utifrån anrikningens konfidensintervall beräknade för varje bindningsposition (kompletterande Fig. 16 uppkopplad). Eftersom uppskattningen av konfidensintervallen för anrikningsförhållandet också beror på den mängd information som finns tillgänglig om fördelningen av bakgrundsmärken, bör indatauppsättningar med liknande genomisk täckning användas vid jämförelse av olika MSER-värden.

för praktiska ändamål är det viktigt att kunna förutsäga antalet taggar som krävs för att mätta detektering av toppar över ett givet målanrikningsförhållande. Förhållandet mellan antalet taggar och MSER sätter sig i ett beroende som kan extrapoleras med hjälp av en loggloggmodell (Fig. 6c). Vi förutspår till exempel att 1.2. 106 fler taggar skulle krävas för att nå mättnad vid detektering av nrsf-bindningspositioner med anrikning över bakgrunden betydligt högre än dubbelt (P-värde < 0.05). MSER-värdena och extrapoleringarna beror på mättnadskriterierna och på metoder som används för att beräkna anrikningens konfidensintervall (kompletterande Fig. 17 uppkopplad).

att öka sekvenseringsdjupet leder också sannolikt till ökad noggrannhet för de bestämda bindningspositionerna. Med hjälp av nrsf-datamängden analyserade vi hur medelavståndet mellan de detekterade bindningspositionerna och sekvensmotiven beror på antalet taggar som används för förutsägelser. Våra resultat visar att noggrannheten verkligen förbättrats med det ökande antalet taggar (kompletterande Fig. 18 uppkopplad). Förbättringen var dock mindre: noggrannheten minskade med endast flera baspar även när antalet taggar halverades.

Lämna ett svar

Din e-postadress kommer inte publiceras.