Design og analyse af Chipsekv-eksperimenter for DNA-bindende proteiner

Tagfordeling omkring proteinbindingspositioner

generelt vælger immunudfældning et sæt overlappende DNA-fragmenter omkring bundne positioner. Sekventering med høj kapacitet identificerer korte (35 bp for Soleksa eller faste platforme) tags på 5′ – enderne af fragmenter fra begge DNA-strenge. Mærkernes positioner bestemmes derefter ved at tilpasse dem til genomsamlingen, med tvetydige justeringer, der typisk kasseres. Den resulterende rumlige fordeling af tagforekomster omkring en stabil bindingsposition vil derfor vise separate toppe af tagdensitet på positive og negative tråde (Fig. 1b, c). Afstanden mellem toppe skal afspejle størrelsen på det beskyttede område, skønt det også kan påvirkes af størrelsesfordelingen af DNA-fragmenterne. Denne afstand udviser ikke stærk afhængighed af antallet af tags inden for toppene (supplerende tabel 1 online).

en genom-dækkende signatur af dette tagmønster kan vurderes ved at beregne krydskorrelationen mellem positive-og negative – streng tagtætheder, der skifter strengene i forhold til hinanden ved at øge afstanden. Alle de undersøgte datasæt udviser en klar top i strengkorrelationsprofilen svarende til den overvejende størrelse af det beskyttede område (Fig. 1D og supplerende Fig. 1 online). Størrelsen af toppen afspejler den brøkdel af tags i datasættet, der vises i overensstemmelse med det forventede bindingsmønster. I et ideelt tilfælde, når alle de sekventerede tags deltager i sådanne bindingsmønstre, når korrelationsstørrelsen en maksimal værdi. Omvendt falder størrelsen, når tagpositioner randomiseres (supplerende Fig. 2 online).

brug af tagjusteringer af variabel kvalitet

selvom nogle tags stemmer perfekt overens med referencegenomet, justeres andre kun delvist med huller eller uoverensstemmelser. Dårligt justerede tags kan skyldes eksperimentelle problemer såsom prøvekontaminering, svarer til polymorfe eller ikke-samlede regioner i genomet eller afspejler sekventeringsfejl. Sekventeringsfejlene er mere rigelige mod 3 ‘- enderne af de sekventerede fragmenter, hvilket ofte resulterer i delvise justeringer, der kun inkluderer dele af tags nær 5′ – enderne. Vi estimerer, at denne stigning i mismatchfrekvenser mod 3’ termini tegner sig for 41-75% af alle observerede mismatch i de undersøgte datasæt (supplerende Fig. 3 online). Da det ikke er usædvanligt at have >50% af de samlede tags resulterer kun i delvis justering, er inkludering af tags,der er delvist justeret, men stadig informativ, vigtig for at optimere brugen af ethvert datasæt11, 12. Vi valgte derfor at bruge kampens længde og antallet af nukleotider dækket af uoverensstemmelser og huller til at klassificere kvaliteten af tagjustering (tabel 1 og supplerende tabel 2 online).

tabel 1 Klassificering af tagjusteringer baseret på kampens længde og antallet af uoverensstemmelser

i betragtning af en klassificering af tags efter justeringskvalitet foreslår vi at bruge strengkorrelationsprofilen til at bestemme, om en bestemt klasse af tags skal inddrages i yderligere analyse. Et sæt tags, der er informativt om bindingspositionerne, skal øge krydskorrelationsstørrelsen, mens et tilfældigt kortlagt sæt tags skal reducere det (supplerende Fig. 2). Anvendelse af denne fremgangsmåde for nrsf-datasættet (Fig. 2), fandt vi, at justeringer med kampe, der spænder over mindst 18 BP og nul uoverensstemmelser, forbedrede krydskorrelationsprofilen. Imidlertid bør kun fuld længde (25 bp) kampe overvejes for tags med to uoverensstemmelser. Brug af dette kriterium til at acceptere tags øgede deres antal over sættet med perfekt justerede tags med 27% for NRSF-datasættet, 30% for CTCF-datasættet og 36% for STAT1-datasættet (supplerende Fig. 4 online). Inkorporeringen af disse tags forbedrede følsomheden og nøjagtigheden af de identificerede bindingspositioner (supplerende Fig. 5 online).

figur 2: Valg af informative tagklasser baseret på ændringen i strengkorrelationsstørrelse.

for hver klasse af tagjusteringskvalitet, der er anført i tabel 1, viser plottene ændringen i streng gennemsnitlig krydskorrelationsprofil, når denne klasse af tags betragtes sammen med basisklassen af perfekt justerede tags (25 bp, ingen uoverensstemmelser). (a–c) tre plots svarer til tagklasser uden mismatch (A), med en enkelt mismatch (b) og med to mismatch (c). Informative tagklasser forbedrer krydskorrelation (markeret med*) og er indarbejdet i det endelige tagsæt. Y-aksen giver den gennemsnitlige ændring i krydskorrelationsprofilen inden for 40 bp omkring krydskorrelationstoppen (Fig. 1d).

styring af distribution af baggrundstag

den statistiske signifikans af tagklyngningen observeret for en formodet proteinbindingsposition afhænger af det forventede baggrundsmønster. Den enkleste model antager, at baggrundstætheden fordeles ensartet langs genomet og uafhængigt mellem trådene11. Ud over nrsf-Chipprøven, Johnson et al.2 har sekventeret en kontrolinputprøve, der giver en eksperimentel vurdering af baggrundstagfordelingen. Vi fandt ud af, at baggrundstagfordelingen udviser en grad af klyngedannelse, der er signifikant større end forventet fra en homogen Poisson-proces foreslået af den førnævnte enkle model (P < 10-6, supplerende Fig. 6 online).

vores undersøgelse af input tag tæthed identificerer tre hovedtyper af baggrund anomalier. Den første type resulterer i ental toppe af tag densitet ved en enkelt kromosomposition mange størrelsesordener højere end den omgivende tæthed (Fig. 3a). Sådanne toppe forekommer almindeligvis i samme position på begge kromosomstrenge. Den anden type anomali resulterer i ikke-ensartede, brede (>1.000 bp) klynger med øget tagdensitet, der vises på den ene eller begge tråde (Fig. 3b). Den tredje type udviser små klynger af strengspecifik tagdensitet, der ligner det mønster, der forventes fra en stabil proteinbindende position, skønt den typisk viser mindre adskillelse mellem strengtoppe (Fig. 3c). Et lignende sæt anomalier kan observeres i inputsekventeringen af andre organismer (data ikke vist).

figur 3: Eksempler på anomalier i baggrundstagfordelinger.

(a) Entalspositioner med ekstremt højt tagantal. (B) større, ikke-ensartede regioner med øget baggrundstæthed. (C) baggrundstæthedsmønstre, der ligner ægte proteinbindende positioner. Hvert plot viser tæthed af tags fra ChIP og input prøver. Taghistogrammerne giver kombinerede tagtællinger.

den første type anomali kan let detekteres og elimineres på grund af dens ekstreme afvigelse fra den omgivende tagdensitet. Imidlertid er de andre typer anomalier, især den tredje, vanskelige at skelne inden for chipdataene. Dette indikerer, at sekventering af inputmateriale er afgørende for korrekt at tage højde for baggrundstagfordelingen. Sekventering af et mock-kontroleksperiment (ikke-specifikt antistof eller intet antistof) kan også være nødvendigt.

for at kontrollere for den ujævne baggrundsfordeling trækker de nedenfor foreslåede bindingsmetoder omskaleret baggrundstagdensitet inden bestemmelse af bindingspositioner, hvis sådanne data er tilgængelige. Derudover accepteres kun bindingspositioner inden for regioner med betydelige ChIP/input-tag-forhold2. Effekten af sådanne baggrundskorrektioner vil blive karakteriseret i de følgende afsnit.

Bindingsdetekteringsmetoder og relativ dækning af bindingssteder

Vi har undersøgt fem forskellige metoder til at kalde bindingspositioner, herunder to tidligere offentliggjorte algoritmer (CSP) og tre egne metoder. Metoden identificerer regioner med betydelig berigelse sammenlignet med inputprofilen og bestemmer bindingspositioner som dem med det højeste antal tags inden for sådanne regioner2. Metoden med udvidet sæt udvider positive og negative strengmærker med den forventede længde af DNA-fragmentet og bestemmer bindingspositioner som dem med det højeste antal overlappende fragmenter11.

vores metoder drager fordel af det strengspecifikke tagmønster, der observeres ved bindingspositioner (Fig. 1c). Den første sådan metode, vinduesmærketæthed (vægtfylde), svarer til sæt, men scorer positioner baseret på det strengspecifikke tag tæller opstrøms og nedstrøms for den undersøgte position (Fig. 4a). Den anden metode, matchende strengtoppe (MSP), bestemmer lokale toppe af strengspecifik tagdensitet og identificerer positioner omgivet af positive-og negative – strengtoppe af en sammenlignelig størrelse i den forventede afstand (Fig. 4b). Den tredje metode, mirror tag correlation (MTC), scanner genomet for at identificere positioner, der udviser udtalt positive – og negative-streng tag mønstre, der afspejler hinanden (Fig. 4c). Kildekoden er tilgængelig online (supplerende kildekode), og en opdateret r-pakke kan hentes på http://compbio.med.harvard.edu/Supplements/ChIP-seq.

figur 4: metoder til påvisning af Bindingsposition og deres relative følsomhed.

(a) skematisk illustration af VTD-metoden. For at identificere positioner med et tagmønster, der forventes fra en stærk binding, beregner metoden forskellen mellem det geometriske gennemsnit af tagtællingerne inden for de regioner, der er markeret med orange farve (p1 og n2), og det gennemsnitlige tagantal inden for de regioner, der er markeret med grøn farve (n1 og p2). (B) MSP-metoden identificerer først lokale Maksima på positive og negative tråde (åbne cirkler) og bestemmer derefter positioner, hvor sådanne to toppe er til stede i den rigtige rækkefølge med den forventede adskillelse og sammenlignelige størrelse. (C) MTC – metoden er baseret på spejlkorrelationen mellem positive-og negative-streng tag densiteter. Spejlbilledet af negativ-streng tag tæthed er vist ved en brudt blå linje. Tags inden for 15 bp af midterpositionen udelades. (D) dækning af nrsf-motivkampe med høj tillid efter top toppe. Handlingen viser den brøkdel af motivforekomster, der falder sammen (med 50 bp) med identificerede bindingspositioner, som en funktion til at øge antallet af topbindingspositioner identificeret ved forskellige metoder. De fleste metoder, undtagen MSP og CSP, er i stand til at opnå tilsvarende høj dækning.

selvom en komplet liste over ægte bindingssteder ikke er kendt for nogen af de undersøgte datasæt, udviser alle tre proteiner kendte bindingssekvensspecifikationer. Mens de bindingsdetekteringsmetoder, der er beskrevet i dette arbejde, ikke er afhængige af sekvensinformation, vi brugte højscorende sekvensmotivforekomster til at vurdere relative præstationer af forskellige bindingsdetekteringsmetoder. Derved, vi antager kun, at de højscorende motivforekomster indeholder en repræsentativ delmængde af ægte bindingspositioner, og kræver ikke, at alle højscorende motiver bindes, eller at alle ægte bindingssteder udviser en motivsignatur. Vi vurderede ydeevne ved hjælp af kanoniske sekvensmotiver til binding af NRSF og CTCF14,15 og det gamma-aktiverede sted (GAS) motiv som en forudsigelse for STAT1 binding5, 11. Bindingsdetekteringsmetoderne giver topstørrelsesscorer forbundet med de identificerede bindingspositioner, hvilket muliggør prioritering af bindingspositioner bestemt ved hver metode.

for at sammenligne følsomheden af forskellige metoder valgte vi et stigende antal topbindingspositioner, der blev returneret ved hver metode, og undersøgte den brøkdel af motivforekomster, for hvilke en bindingsposition blev identificeret (Fig. 4d). Vi fandt ud af, at 89% af de valgte højest scorende nrsf-motivkampe faldt sammen med de detekterede bindingspositioner. Motivdækningsgraden overstiger klart den forventede fra tilfældig forudsigelse, hvilket muliggør sammenligning af de relative præstationer af de forskellige bindingsdetekteringsmetoder. Bortset fra MSP og CSP opnår alle metoderne tilsvarende høj motivdækning. CSP-metoden fungerer dårligere for de mere fremtrædende bindingspositioner (top 500), mens MSP-tilgangen fungerer dårligt i hele området. Analyser af stat1-og ctcf-binding viser analoge resultater med hensyn til de relative præstationer af de forskellige metoder (supplerende Fig. 7 online). Disse resultater bekræftes også ved analyse af PCR-validerede bindingslokaler fra litteraturen2, 11, 15 (supplerende Fig. 8 og 9 online). Vi bemærker, at motiv-og PCR-validerede testsæt kun repræsenterer en brøkdel af ægte bindingssteder. Da denne fraktion er mindre for CTCF og STAT1, bruges større sæt topbindingspositioner til at illustrere testsætdækning ved forskellige metoder.

de subtraktionsmetoder, der er beskrevet i det foregående afsnit, forbedrer nrsf-motivdækningen og når det samme dækningsniveau med op til 11% færre topbindingspositioner (supplerende Fig. 10 online). Korrektionerne har ringe effekt på de øverste 1.500 bindingspositioner, som er forbundet med højere tagtællinger end nogen falsk-positive toppe som følge af ujævn baggrund. De baggrundsdrevne falsk-positive positioner er generelt mindre i størrelse og begynder at påvirke forudsigelser, da mere bindende positioner overvejes.

præcision af bindingspositioner

for at evaluere den rumlige præcision, hvormed proteinbindende positioner identificeres ved forskellige metoder, har vi analyseret afstanden mellem forudsagte positioner og placeringer af højscorende motivhits (Fig. 5a). For nrsf-datasættet forudsiger VÆGTD-metoden bindingspositioner med den største præcision med >60% af forudsagte toppe placeret inden for 10 bp fra motivcentret (Fig. 5b og supplerende Fig. 11A online). Det efterfølges af KSET -, MTC-og MSP-metoderne, hvor CSP kalder 40% af toppe inden for 10 bp af motiverne. Baggrundskorrektioner har begrænset effekt på præcisionen af de forudsagte positioner, idet kun VÆGTD-metoden viser 3% forbedring for stærke bindingspositioner (data ikke vist).

figur 5: nøjagtighed af bestemte bindingspositioner.

(a) fordeling af afstande mellem NRSF-motivforekomster med høj tillid og placeringer af bindingspositioner identificeret ved forskellige metoder. S. D.af den resulterende fordeling (LARP) er vist for hver metode. Kun motiver indeholdende en bindingsposition inden for 100 bp blev overvejet. B) fraktionen af de identificerede bindingspositioner inden for 10 bp af nrsf-motivpositionen er vist for stigende antal topbindingspositioner identificeret ved forskellige metoder. Kun bindingspositioner, der forekommer inden for 300 bp af en sekvensmotivinstans, er inkluderet i analysen. Medianafstanden til motivcentret blev fratrukket for hver metode for at tage højde for sekvensmotivets ikke-centrale position i forhold til midten af det beskyttede bindingsområde. Analoge plots er vist for CTCF (c) og STAT1 (d). MTC-metoden opnår den højeste nøjagtighed for CTCF og STAT1; VÆGTD giver dog mere nøjagtige positioner for nrsf-binding.

for ctcf-og STAT1-forudsigelserne opnår MTC-metoden imidlertid bedre præcision end vægt (Fig. 5c, d og supplerende Fig. 11b, c). Forskellen kan forklares ved egenskaberne af tagfordelingen umiddelbart nær centrum af det beskyttede område. MTC-metoden tager ikke hensyn til tags inden for den centrale region (30 bp), når der scores bindingspositioner. Ændring af MTC-metoden for at tage sådanne positioner i betragtning reducerer præcisionen af de bestemte bindingspositioner til et niveau svarende til VÆGTD-forudsigelserne. Ved at undersøge den samlede fordeling af tagpositioner i forhold til højscorende motivhits fandt vi, at CTCF og STAT1 viste uventede toppe af tagdensitet umiddelbart tilstødende (inden for 10-15 bp) til motivpositionen (supplerende Fig. 12 online). Dette mønster, hvor små sæt negative strengmærker vises umiddelbart opstrøms for det beskyttede område og spejles af de positive strengmærker umiddelbart nedstrøms, kan skyldes tværbindingsinteraktioner, der forekommer ud over det centrale beskyttede område (Fig. 1B, brudt linje). Som et resultat har topdetekteringsmetoder, der tager højde for tags nær det centrale område, en tendens til at kalde positioner 15-20 bp opstrøms eller nedstrøms for det sande bindingssted.

statistisk signifikante positioner

bindingsdetekteringsmetoderne bør begrænse de resulterende bindingspositioner til dem, der sandsynligvis ikke er forekommet ved en tilfældighed. Det ønskede niveau af statistisk signifikans angives almindeligvis i form af en falsk opdagelsesrate (FDR) eller antallet af forventede falsk-positive positioner (E-værdi).

detektionsmetoderne kan derefter bruge baggrundstagfordeling til at bestemme den minimale bindingspositionsscore, der opfylder det specificerede signifikansniveau. Mange falske positive opkald stammer fra de store anomale regioner, der er beskrevet tidligere. Disse systematiske fejl kan filtreres før bestemmelse af signifikanstærskler. Baseret på inputprøvedata for NRSF fandt vi i alt 2.755 bindingspositioner for FDR-tærsklen på 0,01 ved hjælp af VÆGTD-metoden. Dette svarer nøje til antallet af toptoppe, der var nødvendige for at opnå maksimal dækning af højscorende motivpositioner anvendt i de foregående afsnit (Fig. 4d).

i mangel af et empirisk skøn over baggrundstagfordelingen kan det være muligt at stole på en analytisk model. Den enkleste sådan model er en rumlig Poisson-proces, hvor tags er ensartet fordelt over de tilgængelige regioner i genome11. Men fordi de sande baggrundstagfordelinger udviser en betydelig grad af tagklyngning, er denne Poisson-baserede tærskel signifikant lavere end den, der opnås ved empirisk baggrundsmåling, hvilket resulterer i overvurdering af antallet af signifikante bindingspositioner (9.206 versus 2.755 for en FDR på 0,01). Sammenligning med de inputbaserede FDR-beregninger afslører, at den Poisson-baserede model undervurderer FDR ‘ er mellem 8 og 20 gange, afhængigt af målet FDR (supplerende tabel 3 online).

et nærmere skøn over statistiske tærskler kan opnås ved at regne med graden af klyngedannelse, der findes i baggrundstagfordelingen. En simpel tilgang er at bruge en randomisering, der opretholder tags, der forekommer i de samme eller nærliggende positioner sammen, i stedet for at tildele dem uafhængige positioner, som gjort ved hjælp af Poisson-modellen. Antallet af signifikante positioner bestemt ved hjælp af sådanne randomiseringsmodeller med forskellige binstørrelser er vist i supplerende tabel 3. For FDR af 0.01, en randomiseringsmodel, der opretholder sammen tags, der forekommer på nøjagtig samme position i genomet, resulterer i et sammenligneligt antal NRSF-bindende positioner (2,985). Vi brugte sådan randomisering til at bestemme antallet af statistisk signifikante bindingspositioner for ctcf (2.3981 positioner for en FDR på 0,01) og STAT1 (44.921 positioner for en FDR på 0,01) datasæt. At matche antallet af bindingspositioner for strengere FDR-værdier kræver større tag-randomiseringsblokke (supplerende tabel 3), hvilket indikerer, at enkle randomiseringsstrategier ikke korrekt kan redegøre for baggrundsklyngeegenskaberne.

test for tilstrækkelig sekventeringsdybde

for at vurdere, om sekventeringsdybden har nået et mætningspunkt, ud over hvilket der ikke registreres yderligere bindingssteder, analyserede vi, hvordan sættet af de forudsagte bindingssteder ændrede sig, når kun en delmængde af TagData blev brugt til forudsigelse. Prøveudtagning af stigende fraktioner af tagdataene bestemte vi bindingspositioner og sammenlignede disse forudsigelser med det sæt referencebindingssteder, der blev identificeret ud fra de komplette data (Fig. 6a og supplerende Fig. 13 online).

figur 6: analyse af sekventeringsdybde.

(a) i betragtning af nrsf-bindingspositionerne bestemt ved hjælp af det komplette datasæt (y-akse) viser den faste sorte kurve den brøkdel af positioner, der kan forudsiges (inden for 50 bp) ved hjælp af mindre dele af tagdataene (h-akse). Alle bindende forudsigelser genereres med en FDR på 0,01 ved hjælp af VÆGTD-metoden. Kurven når ikke en vandret asymptot, hvilket indikerer, at sættet af detekterede nrsf-bindingssteder ikke er stabiliseret ved den aktuelle sekventeringsdybde. De yderligere kurver begrænser analysen til bindingspositioner, hvis fold-berigelsesforhold over baggrunden er signifikant (P < 0,05) højere end 7,5 (Mser: minimalt mættet Berigelsesforhold, stiplet linje) og 30 (stiplet linje). De observerede berigelsesforhold evalueres uafhængigt for hver tag-underprøve (h-akse). (B) fordeling af tag tæller omkring høj tillid NRSF motiv positioner. Positioner med nul tags blev ikke inkluderet. C) forholdet mellem MSER for de detekterede bindingspositioner og sekventeringsdybde (udtrykt som en brøkdel af det komplette datasæt). Den stiplede grå linje viser en log-log-model, der kan bruges til at estimere den sekventeringsdybde, der kræves for at mætte detektering af bindingspositioner med et lavere fold-berigelsesforhold. Ved dette skøn ville 1,2 liter 106 flere sekvensmærker være nødvendige for at mætte detektion af bindingspositioner, der er dobbelt beriget over baggrunden (MSER = 2 svarer til y = 0, på hvilket tidspunkt den stiplede linje krydser h-aksen: h = 2,8 liter 106).

hvis sekventeringsdybden er flyttet ud over mætningspunktet, ville det være muligt at nå frem til referencesættet ved kun at bruge en delmængde af tagdataene. Vi fandt imidlertid, at ingen af de tre datasæt nåede et sådant mætningspunkt (vandret asymptote), og at fraktionen af de konkordante bindingspositioner faldt, når selv en lille brøkdel af TagData blev udeladt. Dette indikerer, at yderligere bindingssteder kontinuerligt identificeres med stigende sekventeringsdybde. Den observerede tendens gælder for en række FDR-tærskler (supplerende Fig. 13): selvom hældningen af mætningskurven kan reduceres ved at indstille en betydeligt strengere FDR-tærskel, resulterer dette i et betydeligt mindre antal bindingssteder.

for at forstå egenskaberne ved bindingsstedets dækning undersøgte vi tagtællinger forbundet med højscorende sekvensmotiver (Fig. 6b og supplerende Fig. 14 online). I alle tre datasæt viste fordelingen af tagtællinger et meget bredt dynamisk interval. Mens nogle positioner havde hundreder af tags, steg andre næppe over de forventede baggrundstællinger. Desuden syntes disse fordelinger at være kontinuerlige, idet de ikke viste forskellige underpopulationer af bindingspositioner. Dette antyder, at stigende sekventeringsdybde kan gøre det muligt at skelne mellem et større antal svage bindingspositioner uden en kvalitativ tærskel, der ville definere et komplet sæt bindingssteder.

da mere udtalte bindingspositioner identificeres ved hjælp af mindre sekventeringsdybde, kan et eksperiment med en given dybde mætte detekteringen af bindingspositionerne, der overstiger et bestemt tagberigelsesforhold i forhold til baggrunden. Vi henviser til dette berigelsesforhold som det minimale mættede berigelsesforhold (MSER). Mætningskriterierne, der definerer den maksimale acceptable hældning af mætningskurven (Fig. 6a) kan formuleres som et krav til stabilitet af sættet af forudsagte bindingssteder. For eksempel kræver vi 99% enighed i sættet af bindende positioner, når datasættet reduceres med 105 tags. Ved hjælp af nrsf input tag data til bestemmelse af konfidensintervaller for berigelsesforholdet for hver bindingsposition fandt vi, at den opnåede sekventeringsdybde var tilstrækkelig til at mætte påvisning af bindingspositioner med tag berigelsesforhold signifikant over 7,5 (P-værdi < 0,05; Fig. 6a og supplerende Fig. 15 online). Af de 2.755 nrsf-bindingspositioner påvist ved en FDR på 0.01, 1.879 (68%) havde berigelsesforhold signifikant større end MSER-værdien på 7,5 (supplerende Fig. 13). Vi bemærker, at en bestemt mser-værdi ikke indebærer, at alle de sande bindingspositioner for den fold-berigelse er blevet opdaget; i stedet indikerer det, at nye bindingspositioner med berigelse, der er væsentligt højere end MSER-værdien, detekteres med en tilstrækkelig langsom hastighed. Et potentielt interval af ægte berigelsesforhold kan vurderes ud fra de berigelses konfidensintervaller, der er beregnet for hver bindingsposition (supplerende Fig. 16 online). Da estimering af konfidensintervaller for berigelsesforholdet også afhænger af mængden af tilgængelig information om baggrundstagfordelingen, inputdatasæt med lignende genomisk dækning bør anvendes ved sammenligning af forskellige mser-værdier.

til praktiske formål er det vigtigt at være i stand til at forudsige antallet af tags, der kræves for at mætte påvisning af toppe over et givet målberigelsesforhold. Forholdet mellem antallet af tags og MSER afregner i en afhængighed, der kan ekstrapoleres ved hjælp af en log-log model (Fig. 6c). Vi forudser f.eks., at 1.2 der kræves 106 flere tags for at nå mætning ved detektering af NRSF-bindingspositioner med berigelse over baggrunden betydeligt højere end dobbelt (P-værdi < 0.05). Mser-værdierne og ekstrapolationerne afhænger af mætningskriterierne og af metoder, der anvendes til beregning af berigelses konfidensintervaller (supplerende Fig. 17 online).

forøgelse af sekventeringsdybden vil sandsynligvis også føre til øget nøjagtighed af de bestemte bindingspositioner. Ved hjælp af nrsf-datasættet analyserede vi, hvordan den gennemsnitlige afstand mellem de detekterede bindingspositioner og sekvensmotiver afhænger af antallet af tags, der bruges til forudsigelser. Vores resultater viser, at nøjagtigheden faktisk forbedret med det stigende antal tags (supplerende Fig. 18 online). Forbedringen var imidlertid mindre: nøjagtigheden faldt kun med flere basepar, selv når antallet af tags blev halveret.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.