Design og analyse Av ChIP-seq eksperimenter FOR DNA-bindende proteiner

tag distribusjon rundt proteinbindingsposisjoner

generelt velger immunoprecipitation et sett med overlappende DNA-fragmenter rundt bundet posisjoner. High-throughput sekvensering identifiserer kort (∼35 bp For Solexa eller Faste plattformer) koder på 5 ‘ ender av fragmenter fra ENTEN DNA strand. Posisjonene til kodene blir deretter bestemt ved å samkjøre dem til genomet montering, med tvetydige justeringer vanligvis forkastet. Den resulterende romlige fordeling av tag forekomster rundt en stabil bindende posisjon vil derfor vise separate topper av tag tetthet på positive og negative tråder (Fig. 1b, c). Avstanden mellom toppene skal gjenspeile størrelsen på den beskyttede regionen, selv om DEN også kan påvirkes av STØRRELSESFORDELINGEN AV DNA-fragmentene. Denne avstanden viser ikke sterk avhengighet av antall koder i toppene(Supplerende Tabell 1 online).

en genom-wide signatur av denne tag mønster kan vurderes ved å beregne kryss-korrelasjon av positive-og negative-tråd tag tettheter, skiftende trådene i forhold til hverandre ved å øke avstanden. Alle de undersøkte datasettene viser en klar topp i trådkorrelasjonsprofilen, som svarer til den overordnede størrelsen på det beskyttede området (Fig. 1d Og Utfyllende Fig. 1 online). Størrelsen på toppen gjenspeiler brøkdelen av koder i datasettet som vises i samsvar med det forventede bindingsmønsteret. I et ideelt tilfelle, når alle de sekvenserte kodene deltar i slike bindingsmønstre, når korrelasjonsstørrelsen en maksimumsverdi. Omvendt reduseres størrelsen når tagposisjonene er randomisert (Supplerende Fig. 2 online).

Ved hjelp av taggjusteringer av variabel kvalitet

selv om noen tagger justeres perfekt med referansegenomet, justeres andre bare delvis, med hull eller feilmatcher. Dårlig justerte koder kan skyldes eksperimentelle problemer som prøvekontaminering, korresponderer med polymorfe eller umonterte regioner av genomet, eller reflekterer sekvenseringsfeil. For Solexa-plattformen er sekvenseringsfeilene mer rikelig mot 3 ‘- endene av de sekvenserte fragmentene, noe som ofte resulterer i delvise justeringer som bare inneholder delene av kodene nær 5’ – endene. Vi anslår at denne økningen i mismatch frekvenser mot 3 ‘ termini står for 41-75% av alle observerte mismatches i de undersøkte datasettene (Supplerende Fig. 3 online). Da det ikke er uvanlig å ha > 50% av de totale kodene resulterer i bare delvis justering, er inkludering av koder som er delvis justert, men fortsatt informativ, viktig for å optimalisere bruken av datasett11, 12. Vi valgte derfor å bruke lengden på matchen og antall nukleotider dekket av feilmatcher og hull for å klassifisere kvaliteten på tagjusteringen (Tabell 1 og Supplerende Tabell 2 online).

Tabell 1 Klassifisering av tag justeringer basert på lengden av kampen og antall mismatches

Gitt en klassifisering av koder etter kvalitet på justering, foreslår vi å bruke trådkorrelasjonsprofilen for å avgjøre om en bestemt klasse av koder skal være inkludert i videre analyse . Et sett med koder som er informative om bindingsposisjonene, bør øke tverrkorrelasjonsstørrelsen, mens et tilfeldig kartlagt sett med koder bør redusere det (Supplerende Fig. 2). Ved hjelp av denne tilnærmingen FOR NRSF datasett (Fig. 2), fant vi at justeringer med kamper som spenner over minst 18 bp og null mismatches forbedret krysskorrelasjonsprofilen. Imidlertid bør bare full lengde (25 bp) kamper vurderes for koder med to uoverensstemmelser. Ved å bruke dette kriteriet for å godta koder økte antallet over settet med perfekt justerte koder med 27% FOR NRSF-datasettet, 30% FOR CTCF-datasettet og 36% FOR STAT1 – datasettet (Supplerende Fig. 4 online). Inkorporeringen av disse kodene forbedret sensitiviteten og nøyaktigheten av de identifiserte bindingsposisjonene (Supplerende Fig. 5 online).

Figur 2: Velge informative tagklasser basert på endringen i trådkorrelasjonsstørrelse.

for hver klasse av tagjusteringskvalitet som er oppført i Tabell 1, viser plottene endringen i trådmiddelkorrelasjonsprofil når denne klassen av koder vurderes sammen med grunnklassen av perfekt justerte koder (25 bp, ingen feil). (a–c) tre tomter tilsvarer tag klasser uten feilmatcher (a), med en enkelt mismatch (b) og med to feilmatcher (c). Informative tag klasser forbedre krysskorrelasjon (merket med*), og er innlemmet i den endelige tag sett. Y-aksen gir den gjennomsnittlige endringen i krysskorrelasjonsprofilen innen 40 bp rundt krysskorrelasjonstoppen (Fig. 1d).

Kontrollere for bakgrunnskodefordeling

den statistiske signifikansen av tag-klyngen observert for en antatt proteinbindingsposisjon avhenger av det forventede bakgrunnsmønsteret. Den enkleste modellen antar at bakgrunnsmerketettheten fordeles jevnt langs genomet og uavhengig mellom trådene11. I tillegg TIL NRSF-Chipprøven, Johnson et al.2 har sekvensert en kontrollinngangsprøve, som gir en eksperimentell vurdering av bakgrunnskodefordelingen. Vi fant at bakgrunnskodefordelingen viser en grad av clustering som er betydelig større enn forventet fra en homogen Poisson-prosess foreslått av den nevnte enkle modellen (P < 10-6, Supplerende Fig. 6 online).

vår undersøkelse av input tag tetthet identifiserer tre hovedtyper av bakgrunn anomalier. Den første typen resulterer i entall topper av tag tetthet på en enkelt kromosom posisjon mange størrelsesordener høyere enn den omkringliggende tetthet (Fig. 3a). Slike topper forekommer vanligvis i samme posisjon på begge kromosomstrenger. Den andre typen anomali resulterer i nonuniform, bred (>1000 bp) klynger av økt tag tetthet vises på en eller begge tråder (Fig. 3b). Den tredje typen utviser små klynger av strengspesifikk tagtetthet som ligner mønsteret som forventes fra en stabil proteinbindende posisjon, selv om det vanligvis viser mindre adskillelse mellom trådtoppene (Fig. 3c). Et lignende sett med anomalier kan observeres i inngangssekvensering av andre organismer (data ikke vist).

Figur 3: Eksempler på anomalier i bakgrunnskodefordelinger.

(a) Singulære posisjoner med ekstremt høyt tagtall. (B) Større, nonuniform regioner med økt bakgrunn tag tetthet. (c) Bakgrunn tag tetthet mønstre som ligner ekte protein-bindende posisjoner. Hver tomt viser tetthet av koder Fra ChIP og innspill prøver. Tag histogrammer gi kombinert tag teller.

den første typen anomali kan lett oppdages og elimineres på grunn av sin ekstreme avvik fra den omkringliggende tagtettheten. Imidlertid er de andre typer anomalier, spesielt den tredje, vanskelig å skille mellom I Chipdataene. Dette indikerer at sekvensering av inngangsmateriale er viktig for å kunne ta hensyn til bakgrunnskodefordelingen. Sekvensering av en mock kontroll eksperiment (ikke-spesifikke antistoff eller ingen antistoff) kan også være nødvendig.

for å kontrollere for den ujevne bakgrunnsfordelingen, trekker bindingsmetodene som foreslås nedenfor, fra rescaled bakgrunnstagdensitet før de bestemmer bindingsposisjoner, hvis slike data er tilgjengelige. I tillegg aksepteres kun bindingsposisjoner innenfor regioner med betydelige ChIP/input-tag-forhold2. Effekten av slike bakgrunnskorreksjoner vil bli karakterisert i avsnittene som følger.

bindingsdeteksjonsmetoder og relativ dekning av bindingssteder

vi har undersøkt fem forskjellige metoder for å kalle bindingsposisjoner, inkludert to tidligere publiserte algoritmer (CSP, XSET) og tre egne metoder. KORT sagt Identifiserer chipseq Peak locator (CSP) – metoden regioner med betydelig anrikning i forhold til inngangsprofilen og bestemmer bindingsposisjoner som de med høyest antall koder innenfor slike regioner2. Extended set (xset) – metoden utvider positive-og negative-trådkoder med forventet LENGDE PÅ DNA-fragmentet, og bestemmer bindingsposisjoner som de med høyest antall overlappende fragmenter11.

våre metoder utnytter det strengspesifikke taggmønsteret som observeres ved bindingsposisjoner (Fig. 1c). Den første slike metoden, window tag density (WTD), ligner XSET, men scorer posisjoner basert på streng-spesifikke tag teller oppstrøms og nedstrøms av den undersøkte posisjon (Fig. 4a). Den andre metoden, matchende strandtopper (MSP), bestemmer lokale topper av strengspesifikk tagtetthet og identifiserer posisjoner omgitt av positive og negative strandtopper av tilsvarende størrelse ved forventet avstand (Fig. 4b). Den tredje metoden, mirror tag correlation (mtc), skanner genomet for å identifisere posisjoner som viser uttalt positiv – og negativ-streng tag mønstre som speiler hverandre (Fig. 4c). Kildekoden er tilgjengelig online (Supplerende Kildekode), og en oppdatert r-pakke kan lastes ned på http://compbio.med.harvard.edu/Supplements/ChIP-seq.

Figur 4: Metoder For Binding av posisjonsdeteksjon og deres relative følsomhet.

(a) Skjematisk illustrasjon AV wtd-metoden. For å identifisere posisjoner med et tagmønster som forventes fra en sterk binding, beregner metoden forskjellen mellom det geometriske gjennomsnittet av tagtellingen i områdene merket med oransje farge (p1 og n2) og gjennomsnittlig tagtelling i områdene merket med grønn farge (n1 og p2). (B) MSP-metoden identifiserer først lokale maksima på positive og negative tråder (åpne sirkler) og bestemmer deretter posisjoner der slike to topper er tilstede i riktig rekkefølge, med forventet separasjon og sammenlignbar størrelse. (c) MTC metoden er basert på speilet korrelasjon av positive-og negative-strand tag tettheter. Speilbildet av negativ-strand tag tetthet er vist med en ødelagt blå linje. Koder innen 15 bp av midtposisjonen er utelatt. (d) Dekning AV HØY selvtillit NRSF motiv matcher med topptopper. Plottet viser brøkdel av motivforekomster som sammenfaller (med 50 bp) med identifiserte bindingsposisjoner, som en funksjon av å øke antall toppbindingsposisjoner identifisert ved forskjellige metoder. De fleste metoder, unntatt MSP og CSP, er i stand til å oppnå tilsvarende høy dekning.

selv om en fullstendig liste over sanne bindingssteder ikke er kjent for noen av de undersøkte datasettene, viser alle tre proteiner kjente bindingssekvensspesifikasjoner. Mens bindingsdeteksjonsmetodene beskrevet i dette arbeidet ikke er avhengige av sekvensinformasjon, brukte vi sekvensmotivforekomster med høy score for å vurdere relative forestillinger av forskjellige bindingsdeteksjonsmetoder. Ved å gjøre det antar vi bare at motivforekomstene med høy score inneholder et representativt delsett av sanne bindingsposisjoner, og krever ikke at alle motiver med høy score skal være bundet, eller at alle sanne bindingssteder har en motivsignatur. Vi evaluerte ytelse ved hjelp av kanoniske sekvensmotiver for binding AV NRSF OG CTCF14,15, og gamma-aktivert område (GASS) motiv som en prediktor FOR STAT1 binding5,11. De bindende deteksjonsmetoder gir peak magnitude score assosiert med de identifiserte bindingsposisjoner, og dermed tillater prioritering av bindingsposisjoner bestemt av hver metode.

for å sammenligne sensitiviteten til ulike metoder, valgte vi økende antall toppbindingsposisjoner returnert av hver metode og undersøkte brøkdelen av motivforekomster som en bindingsposisjon ble identifisert for (Fig. 4d). Vi fant at 89% av DE valgte HØYEST scoring NRSF motiv kampene falt sammen med de oppdagede bindingsposisjoner. Motivdekningsgraden overskrider klart det som forventes fra tilfeldig prediksjon, slik at man kan sammenligne de relative prestasjonene til de forskjellige bindingsdeteksjonsmetodene. Bortsett FRA MSP og CSP, oppnår alle metodene tilsvarende høy motivdekning. CSP-metoden fungerer dårligere for de mer fremtredende bindingsposisjonene (topp 500), MENS MSP-tilnærmingen fungerer dårlig gjennom hele spekteret. Analyser AV stat1-og CTCF-binding viser analoge resultater i forhold til de relative prestasjonene til de ulike metodene (Supplerende Fig. 7 online). Disse resultatene er også bekreftet ved analyse AV PCR-validert bindende loci fra litteraturen2, 11, 15 (Supplerende Fig. 8 og 9 online). Vi merker oss at motiv-og PCR-validerte testsett bare representerer en brøkdel av sanne bindingssteder. Da denne fraksjonen er mindre FOR CTCF OG STAT1, brukes større sett med toppbindingsposisjoner for å illustrere testsett dekning ved forskjellige metoder.

bakgrunnen subtraksjon metoder skissert i forrige avsnitt forbedre NRSF motiv dekning, nå samme nivå av dekning på opptil 11% færre topp bindende posisjoner (Supplerende Fig. 10 online). Korreksjonene har liten effekt på de øverste 1500 bindingsposisjonene, som er forbundet med høyere tagtall enn noen falske positive topper som oppstår fra ujevn bakgrunn. De bakgrunnsdrevne falske positive posisjonene er generelt mindre i størrelse og begynner å påvirke spådommer ettersom flere bindende posisjoner vurderes.

Presisjon av bindingsposisjoner

for å evaluere den romlige presisjonen med hvilke proteinbindingsposisjoner identifiseres ved forskjellige metoder, har vi analysert avstandene mellom forventede posisjoner og steder av høy scoring motiv treff (Fig. 5a). FOR NRSF-datasettet forutsier wtd-metoden bindingsposisjoner med størst presisjon, med>60% av forventede topper plassert innenfor 10 bp av motivsenteret(Fig . 5b Og Utfyllende Fig. 11a online). Det følges AV xset -, MTC-og MSP-metodene, MED CSP som kaller ∼40% av toppene innen 10 bp av motivene. Bakgrunnskorreksjoner har begrenset effekt på presisjonen til de forutsagte posisjonene, med BARE wtd-metoden som viser 3% forbedring for sterke bindingsposisjoner (data ikke vist).

Figur 5: Nøyaktighet av bestemte bindingsposisjoner.

(a) Fordeling av avstander mellom HØY konfidens NRSF motiv forekomster og steder av bindingsposisjoner identifisert ved forskjellige metoder. Sd for den resulterende distribusjonen (σ) vises for hver metode. Bare motiver som inneholdt en bindende posisjon innen 100 bp ble vurdert. (b) fraksjonen av de identifiserte bindingsposisjonene innen 10 bp AV NRSF motivposisjonen er vist for økende antall toppbindingsposisjoner identifisert ved forskjellige metoder. Bare bindingsposisjoner som forekommer innen 300 bp av en sekvensmotivforekomst er inkludert i analysen. Medianavstanden til motivsenteret ble trukket fra for hver metode for å ta hensyn til den ikke-sentrale posisjonen til sekvensmotivet i forhold til midten av det beskyttede bindingsområdet. Analoge tomter er vist FOR CTCF (c) OG STAT1 (d). MTC-metoden oppnår den høyeste nøyaktigheten FOR CTCF OG STAT1; WTD gir imidlertid mer nøyaktige posisjoner FOR NRSF-binding.

FOR CTCF og STAT1 spådommer oppnår IMIDLERTID MTC-metoden bedre presisjon ENN WTD (Fig. 5c, d Og Supplerende Fig. 11b, c). Forskjellen kan forklares av egenskapene til tagfordelingen umiddelbart nær sentrum av det beskyttede området. I motsetning TIL WTD og XSET tar MTC-metoden ikke hensyn til koder i den sentrale regionen (30 bp) når man scorer bindingsposisjoner. Endring AV MTC-metoden for å ta hensyn til slike stillinger reduserer presisjonen til de bestemte bindingsposisjonene til et nivå som LIGNER WTD-spådommene. Ved å undersøke den generelle fordelingen av tagposisjoner i forhold til høyt scoring motiv treff, fant VI AT CTCF og STAT1 viste uventede topper av tag tetthet umiddelbart tilstøtende (innen 10-15 bp)til motiv posisjon (Supplerende Fig. 12 online). Dette mønsteret, der små sett med negative trådkoder vises umiddelbart oppstrøms for det beskyttede området og speiles av de positive trådkodene umiddelbart nedstrøms, kan skyldes kryssbindende interaksjoner som forekommer utenfor det sentrale beskyttede området (Fig. 1b, brutt linje). Som et resultat har toppdeteksjonsmetoder som tar hensyn til kodene nær den sentrale regionen en tendens til å ringe posisjoner 15-20 bp oppstrøms eller nedstrøms for det sanne bindingsstedet.

Statistisk signifikante posisjoner

bindingsdeteksjonsmetodene bør begrense de resulterende bindingsposisjonene til de som sannsynligvis ikke har oppstått ved en tilfeldighet. Det ønskede nivået av statistisk signifikans er vanligvis gitt i form av en falsk funnrate (fdr) eller antall forventede falske positive posisjoner (E-verdi).

deteksjonsmetodene kan deretter bruke bakgrunnskodefordelingen til å bestemme den minimale bindingsposisjonen som tilfredsstiller det angitte signifikansnivået. Mange falske positive samtaler stammer fra de store uregelmessige områdene som er beskrevet tidligere. Disse systematiske feilene kan filtreres før bestemmelse av signifikansgrenser. Basert på inngangsprøvedata for NRSF, fant vi totalt 2755 bindingsposisjoner for fdr-terskelen på 0,01 ved HJELP AV wtd-metoden. Dette tilsvarer tett antall topptopper som var nødvendig for å oppnå maksimal dekning av motivposisjoner med høy scoring som ble brukt i de forrige avsnittene (Fig. 4d).

i fravær av et empirisk estimat av bakgrunnskodefordelingen, kan det være mulig å stole på en analytisk modell. Den enkleste slike modellen er en Romlig Poisson-prosess hvor kodene er jevnt fordelt over de tilgjengelige områdene i genome11. Men fordi den sanne bakgrunn tag fordelingene viser en betydelig grad av tag clustering, Er Denne Poisson-baserte terskelen betydelig lavere enn den som er oppnådd fra empirisk bakgrunnsmåling, noe som resulterer i overestimering av antall signifikante bindingsposisjoner (9,206 versus 2,755 for EN FDR på 0,01). Sammenligning med de inngangsbaserte fdr-beregningene viser at Den Poisson-baserte modellen undervurderer Fdr mellom 8 og 20 ganger, avhengig av MÅL FDR (Supplerende Tabell 3 online).

et nærmere estimat av statistiske terskler kan oppnås ved å ta hensyn til graden av clustering tilstede i bakgrunnskodefordelingen. En enkel tilnærming er å bruke en randomisering som opprettholder koder som forekommer på samme eller nærliggende posisjoner sammen, i stedet for å tildele dem uavhengige stillinger, som gjort ved Hjelp Av Poisson-modellen. Antall signifikante posisjoner bestemt ved bruk av slike randomiseringsmodeller med forskjellige binstørrelser er vist I Supplerende Tabell 3. FOR FDR av 0.01, en randomiseringsmodell som opprettholder sammenkoder som forekommer på nøyaktig samme posisjon i genomet, resulterer i et sammenlignbart antall NRSF-bindingsposisjoner (2,985). Vi brukte slik randomisering for å bestemme antall statistisk signifikante bindingsposisjoner FOR CTCF (2,3981 stillinger for en FDR på 0,01) og STAT1 (44,921 stillinger for en FDR på 0,01) datasett. Matchende antall bindingsposisjoner for strengere fdr-verdier krever større tag randomiseringsblokker (Supplerende Tabell 3), noe som indikerer at enkle randomiseringsstrategier ikke kan gjøre rede for bakgrunnsklyngeegenskapene.

Testing for tilstrekkelig sekvenseringsdybde

for å vurdere om sekvenseringsdybden har nådd et metningspunkt utover hvilket ingen ytterligere bindingssteder oppdages, analyserte vi hvordan settet av de forutsagte bindingsstedene endret seg når bare en delmengde av tagdata ble brukt til prediksjon. Sampling økende fraksjoner av tag data, vi bestemt bindende posisjoner og sammenlignet disse spådommene med sett av referanse bindingssteder identifisert fra den komplette data(Fig. 6a Og Utfyllende Fig. 13 online).

Figur 6: Analyse av sekvenseringsdybde.

(a) Gitt NRSF-bindingsposisjonene bestemt ved hjelp av det komplette datasettet (y-aksen), viser den faste svarte kurven brøkdelen av posisjoner som kan forutsies (innen 50 bp) ved hjelp av mindre deler av tagdataene (x-aksen). Alle bindende spådommer genereres MED EN FDR på 0,01 ved HJELP AV wtd-metoden. Kurven når ikke en horisontal asymptote, noe som indikerer at settet av detekterte NRSF-bindingssteder ikke har stabilisert seg ved gjeldende sekvenseringsdybde. De ekstra kurvene begrenser analysen til bindingsposisjoner hvis fold-anrikningsforhold over bakgrunnen er signifikant (P < 0,05) høyere enn 7,5 (Mser: Minimal Mettet Anrikningsforhold, stiplet linje) og 30 (prikket linje). De observerte anrikningsforholdene vurderes uavhengig for hver tag-underprøve (x-akse). (b) Fordeling av tag teller rundt HØY tillit NRSF motiv stillinger. Posisjoner med null koder ble ikke inkludert. (c) forholdet MELLOM MSER av de oppdagede bindingsposisjonene og sekvenseringsdybden (uttrykt som en brøkdel av det komplette datasettet). Den stiplede grå linjen viser en logg-loggmodell som kan brukes til å estimere sekvenseringsdybden som kreves for å mette deteksjon av bindingsposisjoner med et lavere fold-berikelsesforhold. Ved dette estimatet vil 1,2 × 106 flere sekvensmerker være nødvendig for å mette deteksjon av bindingsposisjoner som er todelt beriket over bakgrunnen (MSER = 2 tilsvarer y = 0, hvor den stiplede linjen krysser x-aksen: x = 2,8 × 106).

hvis sekvenseringsdybden har beveget seg utover metningspunktet, vil det være mulig å komme til referansesettet ved hjelp av bare en delmengde av tagdataene. Vi fant imidlertid at ingen av de tre datasettene nådde et slikt metningspunkt (horisontal asymptote), og at brøkdelen av de konkordante bindingsposisjonene ble redusert når selv en liten brøkdel av tagdata ble utelatt. Dette indikerer at ytterligere bindingssteder blir kontinuerlig identifisert med økende sekvenseringsdybde. Den observerte trenden holder for en rekke FDR-terskler (Supplerende Fig. 13): selv om hellingen til metningskurven kan reduseres ved å sette en betydelig strengere fdr-terskel, resulterer dette i et betydelig mindre antall bindingssteder.

For å forstå egenskapene til bindingsstedets dekning, undersøkte vi tagtall knyttet til sekvensmotiver med høy score (Fig. 6b Og Utfyllende Fig. 14 online). I alle tre datasettene viste fordelingen av tagtall et meget bredt dynamisk område. Mens noen stillinger hadde hundrevis av koder, steg andre knapt over de forventede bakgrunnstallene. Videre syntes disse fordelingene å være kontinuerlige ved at de ikke viste forskjellige delpopulasjoner av bindingsposisjoner. Dette antyder at økende sekvenseringsdybde kan tillate et større antall svake bindingsposisjoner å bli skilt uten en kvalitativ terskel som ville definere et komplett sett med bindingssteder.

som mer uttalt bindingsposisjoner er identifisert ved hjelp av mindre sekvenseringsdybde, kan et eksperiment med gitt dybde mette deteksjon av bindingsposisjoner som overstiger en viss tag berikelse forhold i forhold til bakgrunnen. Vi refererer til dette anrikningsforholdet som minimal mettet anrikningsforhold (mser). Metningskriteriene som definerer maksimal akseptabel helling av metningskurven (Fig. 6a) kan formuleres som et krav til stabilitet for settet av forventede bindingssteder. For eksempel krever vi 99% avtale i settet med bindingsposisjoner når datasettet reduseres med 105 tagger. Ved Å bruke NRSF-inngangskodedata for å bestemme konfidensintervallene for anrikningsforholdet for hver bindingsposisjon, fant vi at oppnådd sekvenseringsdybde var tilstrekkelig til å mette deteksjon av bindingsposisjoner med tagberikningsforhold betydelig over 7,5 (P-verdi < 0,05; Fig. 6a Og Utfyllende Fig. 15 online). Av DE 2,755 NRSF-bindingsposisjonene oppdaget VED EN FDR på 0.01, 1,879 (68%) hadde anrikningsforhold betydelig større enn mser-verdien på 7,5 (Supplerende Fig. 13). Vi merker oss at en bestemt mser-verdi ikke innebærer at alle de sanne bindingsposisjonene til den fold-berikelsen er oppdaget; i stedet indikerer det at nye bindingsposisjoner med berikelse betydelig høyere enn MSER-verdien blir oppdaget i tilstrekkelig langsom hastighet. Et potensielt spekter av sanne anrikningsforhold kan vurderes ut fra anrikningsintervallene beregnet for hver bindingsposisjon (Supplerende Fig. 16 online). Siden estimering av konfidensintervallene for anrikningsforhold også avhenger av mengden tilgjengelig informasjon om bakgrunnsmerkefordelingen, bør inndatasett med lignende genomisk dekning brukes når man sammenligner ulike mser-verdier.

for praktiske formål er det viktig å kunne forutsi antall koder som kreves for å mette deteksjon av topper over et gitt målberikningsforhold. Forholdet mellom antall koder og MSER settes inn i en avhengighet som kan ekstrapoleres ved hjelp av en log-log-modell (Fig. 6c). Vi forutsier for eksempel at 1.2 × 106 flere tagger ville være nødvendig for å nå metning ved å oppdage NRSF-bindingsposisjoner med anrikning over bakgrunnen betydelig høyere enn todelt (P-verdi < 0,05). Mser-verdiene og ekstrapoleringene avhenger av metningskriteriene og metodene som brukes til å beregne konfidensintervall for berikelse (Supplerende Fig. 17 online).

Økning av sekvenseringsdybden vil også sannsynligvis føre til økt nøyaktighet av de bestemte bindingsposisjonene. VED HJELP AV NRSF-datasettet analyserte VI hvordan gjennomsnittlig avstand mellom de oppdagede bindingsposisjonene og sekvensmotivene avhenger av antall koder som brukes til spådommer. Våre resultater viser at nøyaktigheten faktisk forbedret med det økende antall koder(Supplerende Fig. 18 online). Forbedringen var imidlertid liten: nøyaktigheten ble redusert med bare flere basepar, selv når antall koder ble halvert.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.