proiectarea și analiza experimentelor ChIP-seq pentru proteinele de legare a ADN-ului

distribuția etichetelor în jurul pozițiilor de legare a proteinelor

în general, imunoprecipitarea selectează un set de fragmente de ADN suprapuse în jurul pozițiilor legate. Secvențierea cu randament ridicat identifică etichete scurte (35 BP pentru platformele Solexa sau solide) pe capetele 5′ ale fragmentelor din oricare dintre catenele ADN. Pozițiile etichetelor sunt apoi determinate prin alinierea lor la ansamblul genomului, cu alinieri ambigue de obicei aruncate. Distribuția spațială rezultată a aparițiilor etichetelor în jurul unei poziții stabile de legare va arăta, prin urmare, vârfuri separate ale densității etichetelor pe firele pozitive și negative (Fig. 1b, c). Distanța dintre vârfuri ar trebui să reflecte dimensiunea regiunii protejate, deși poate fi influențată și de distribuția dimensiunii fragmentelor de ADN. Această distanță nu prezintă o dependență puternică de numărul de etichete din vârfuri (tabelul suplimentar 1 online).

o semnătură la nivel de genom a acestui model de etichetă poate fi evaluată prin calcularea corelației încrucișate a densităților etichetei pozitive și negative, deplasând firele una față de cealaltă prin creșterea distanței. Toate seturile de date examinate prezintă un vârf clar în profilul de corelație încrucișată a catenei, corespunzător dimensiunii predominante a regiunii protejate (Fig. 1D și suplimentar Fig. 1 online). Mărimea vârfului reflectă fracțiunea de etichete din setul de date care apare în conformitate cu modelul de etichetă de legare așteptat. Într-un caz ideal, când toate etichetele secvențiate participă la astfel de modele de legare, magnitudinea corelației atinge o valoare maximă. Dimpotrivă, magnitudinea scade pe măsură ce pozițiile etichetelor sunt randomizate (Fig suplimentar. 2 online).

folosind aliniamente de etichete de calitate variabilă

deși unele etichete se aliniază perfect cu genomul de referință, altele se aliniază doar parțial, cu lacune sau nepotriviri. Etichetele slab aliniate pot rezulta din probleme experimentale, cum ar fi contaminarea eșantionului, corespund regiunilor polimorfe sau neasamblate ale genomului sau reflectă erori de secvențiere. Pentru platforma Solexa, erorile de secvențiere sunt mai abundente spre capetele 3′ ale fragmentelor secvențiate, rezultând frecvent alinieri parțiale care includ doar porțiunile etichetelor din apropierea capetelor 5′. Estimăm că această creștere a frecvențelor de neconcordanță către terminalele 3′ reprezintă 41-75% din totalul neconcordanțelor observate în seturile de date examinate (Fig suplimentar. 3 online). Deoarece nu este neobișnuit ca >50% din totalul etichetelor să aibă ca rezultat doar alinierea parțială, includerea etichetelor care sunt parțial aliniate,dar încă informative, este importantă pentru optimizarea utilizării oricărui set de date11, 12. Prin urmare, am ales să folosim lungimea potrivirii și numărul de nucleotide acoperite de neconcordanțe și lacune pentru a clasifica calitatea alinierii etichetelor (Tabelul 1 și tabelul suplimentar 2 online).

Tabelul 1 Clasificarea aliniamentelor etichetelor pe baza lungimii potrivirii și a numărului de nepotriviri

având în vedere o clasificare a etichetelor în funcție de calitatea alinierii, propunem utilizarea profilului de corelare încrucișată a firului pentru a determina dacă o anumită clasă de etichete ar trebui incluse în analiza ulterioară. Un set de etichete informative despre pozițiile de legare ar trebui să crească magnitudinea corelației încrucișate, în timp ce un set de etichete mapate aleatoriu ar trebui să o scadă (Fig suplimentar. 2). Folosind această abordare pentru setul de date NRSF (Fig. 2), am constatat că alinierile cu meciuri care acoperă cel puțin 18 bp și zero nepotriviri au îmbunătățit profilul de corelație încrucișată. Cu toate acestea, numai meciurile de lungime întreagă (25 bp) ar trebui luate în considerare pentru etichetele cu două nepotriviri. Utilizarea acestui criteriu pentru acceptarea etichetelor a crescut numărul acestora față de setul de etichete perfect aliniate cu 27% pentru setul de date NRSF, 30% pentru setul de date CTCF și 36% pentru setul de date STAT1 (Fig suplimentar. 4 online). Încorporarea acestor etichete a îmbunătățit sensibilitatea și precizia pozițiilor de legare identificate (Fig suplimentar. 5 online).

Figura 2: Selectarea claselor de etichete informative pe baza modificării mărimii corelației încrucișate a catenei.

pentru fiecare clasă de calitate a alinierii etichetelor enumerate în tabelul 1, graficele arată modificarea profilului de corelație încrucișată medie a catenei atunci când această clasă de etichete este luată în considerare împreună cu clasa de bază a etichetelor perfect aliniate (25 bp, fără neconcordanțe). (a–c) trei parcele corespund claselor de etichete fără neconcordanțe (a), cu o singură neconcordanță (b) și cu două neconcordanțe (c). Clasele de etichete Informative îmbunătățesc corelația încrucișată (marcate cu*) și sunt încorporate în setul final de etichete. Axa y dă modificarea medie a profilului de corelație încrucișată în intervalul 40 bp în jurul vârfului de corelație încrucișată (Fig. 1d).

controlul distribuției etichetelor de fundal

semnificația statistică a grupării etichetelor observată pentru o poziție presupusă de legare a proteinelor depinde de modelul de fundal așteptat. Cel mai simplu model presupune că densitatea etichetei de fundal este distribuită uniform de-a lungul genomului și independent între firuri11. În plus față de eșantionul de cip NRSF, Johnson și colab.2 au secvențiat un eșantion de intrare de control, oferind o evaluare experimentală a distribuției etichetelor de fundal. Am constatat că distribuția etichetelor de fundal prezintă un grad de grupare semnificativ mai mare decât se aștepta de la un proces Poisson omogen sugerat de modelul simplu menționat anterior (P < 10-6, Fig suplimentar. 6 online).

examinarea noastră a densității etichetei de intrare identifică trei tipuri majore de anomalii de fond. Primul tip are ca rezultat vârfuri singulare ale densității etichetei la o singură poziție a cromozomului cu multe ordine de mărime mai mari decât densitatea înconjurătoare (Fig. 3a). Astfel de vârfuri apar în mod obișnuit în aceeași poziție pe ambele fire cromozomiale. Al doilea tip de anomalie are ca rezultat grupuri neuniforme, largi (>1.000 bp) de densitate crescută a etichetei care apar pe una sau pe ambele fire (Fig. 3b). Al treilea tip prezintă grupuri mici de densitate de etichete specifice catenei asemănătoare modelului așteptat dintr-o poziție stabilă de legare a proteinelor, deși prezintă de obicei o separare mai mică între vârfurile catenei (Fig. 3c). Un set similar de anomalii poate fi observat în secvențierea de intrare a altor organisme (datele nu sunt prezentate).

Figura 3: Exemple de anomalii în distribuțiile etichetelor de fundal.

(a) poziții singulare cu număr extrem de mare de etichete. (b) regiuni mai mari, neuniforme, cu densitate crescută a etichetelor de fundal. (c) modele de densitate a etichetelor de fundal asemănătoare pozițiilor adevărate de legare a proteinelor. Fiecare complot arată densitatea etichetelor din eșantioane de cip și de intrare. Histogramele de etichete dau numărări combinate de etichete.

primul tip de anomalie poate fi detectat și eliminat cu ușurință datorită abaterii sale extreme de la densitatea etichetei înconjurătoare. Cu toate acestea, celelalte tipuri de anomalii, în special cea de-a treia, sunt dificil de distins în datele cipului. Acest lucru indică faptul că secvențierea materialului de intrare este esențială pentru a ține cont în mod corespunzător de distribuția etichetei de fundal. Secvențierea unui experiment de control fals (anticorp nespecific sau fără anticorp) poate fi, de asemenea, necesară.

pentru a controla distribuția inegală a fundalului, metodele de legare propuse mai jos scad densitatea etichetei de fundal redimensionate înainte de a determina pozițiile de legare, dacă astfel de date sunt disponibile. În plus, sunt acceptate numai pozițiile de legare din regiunile cu raporturi semnificative de cip/etichetă de intrare2. Efectul acestor corecții de fond va fi caracterizat în secțiunile care urmează.

metode de detectare a legării și acoperirea relativă a site-urilor de legare

am examinat cinci metode diferite de apelare a pozițiilor de legare, inclusiv doi algoritmi publicați anterior (CSP, XSET) și trei metode proprii. Pe scurt, metoda ChIPSeq Peak locator (CSP) identifică regiunile de îmbogățire semnificativă în comparație cu profilul de intrare și determină pozițiile de legare ca cele cu cel mai mare număr de etichete din aceste regiuni2. Metoda set extins (XSET) extinde etichetele catenei pozitive și negative cu lungimea așteptată a fragmentului ADN și determină pozițiile de legare ca cele cu cel mai mare număr de fragmente suprapuse11.

metodele noastre profită de modelul de etichetă specific firului observat la pozițiile de legare (Fig. 1c). Prima astfel de metodă, densitatea etichetei ferestrei( WTD), este similară cu XSET, dar scorurile pozițiilor pe baza numărului de etichete specifice catenei în amonte și în aval de poziția examinată (Fig. 4a). A doua metodă, potrivirea vârfurilor de catenă (MSP), determină vârfurile locale ale densității etichetei specifice catenei și identifică pozițiile înconjurate de vârfuri de catenă pozitivă și negativă de o magnitudine comparabilă la distanța așteptată (Fig. 4b). A treia metodă, corelația etichetelor oglindă (MTC), scanează genomul pentru a identifica pozițiile care prezintă modele pronunțate de etichete pozitive și negative care se oglindesc reciproc (Fig. 4c). Codul sursă este disponibil online (cod sursă suplimentar), iar un pachet r actualizat poate fi descărcat la http://compbio.med.harvard.edu/Supplements/ChIP-seq.

Figura 4: metode de detectare a poziției de legare și sensibilitatea lor relativă.

(a) ilustrare schematică a metodei WTD. Pentru a identifica pozițiile cu un model de etichetă așteptat de la o legare puternică, metoda calculează diferența dintre media geometrică a numărului de etichete din regiunile marcate cu culoarea portocalie (p1 și n2) și numărul mediu de etichete din regiunile marcate cu culoarea verde (n1 și p2). (B) metoda MSP identifică mai întâi maximele locale pe toroane pozitive și negative (cercuri deschise) și apoi determină pozițiile în care aceste două vârfuri sunt prezente în ordinea corectă, cu separarea așteptată și magnitudinea comparabilă. (c) metoda MTC se bazează pe corelația oglindă a densităților etichetelor pozitive și negative. Imaginea în oglindă a densității etichetei cu fir negativ este afișată de o linie albastră spartă. Etichetele din 15 bp din poziția centrală sunt omise. (d) acoperirea motivelor nrsf de înaltă încredere se potrivește cu vârfurile de vârf. Graficul prezintă fracțiunea de instanțe de motiv care coincid (cu 50 bp) cu pozițiile de legare identificate, în funcție de creșterea numărului de poziții de legare de top identificate prin diferite metode. Majoritatea metodelor, cu excepția MSP și CSP, sunt capabile să obțină o acoperire similară.

deși o listă completă a locurilor de legare adevărate nu este cunoscută pentru niciunul dintre seturile de date examinate, toate cele trei proteine prezintă specificități cunoscute ale secvenței de legare. În timp ce metodele de detectare a legării descrise în această lucrare nu se bazează pe informații despre secvență, am folosit instanțe cu motive de secvență cu punctaj ridicat pentru a evalua performanțele relative ale diferitelor metode de detectare a legării. Procedând astfel, presupunem doar că instanțele de motive cu scor mare conțin un subset reprezentativ de poziții de legare adevărate și nu necesită legarea tuturor motivelor cu scor mare sau că toate site-urile de legare adevărate prezintă o semnătură de motiv. Am evaluat performanța folosind motive de secvență canonică pentru legare prin NRSF și CTCF14,15 și motivul site-ului activat gamma (gaz) ca predictor al legării STAT15, 11. Metodele de detectare a legării oferă scoruri de magnitudine maximă asociate pozițiilor de legare identificate, permițând astfel prioritizarea pozițiilor de legare determinate de fiecare metodă.

pentru a compara sensibilitatea diferitelor metode, am selectat un număr tot mai mare de poziții de legare de top returnate de fiecare metodă și am examinat fracțiunea de apariții de motive pentru care a fost identificată o poziție de legare (Fig. 4d). Am constatat că 89% dintre cele mai bune scoruri nrsf au coincis cu pozițiile de legare detectate. Rata de acoperire a motivelor o depășește în mod clar pe cea așteptată din predicția aleatorie, permițând compararea performanțelor relative ale diferitelor metode de detectare a legării. Cu excepția MSP și CSP, toate metodele obțin o acoperire a motivelor la fel de ridicată. Metoda CSP are performanțe mai slabe pentru pozițiile de legare mai proeminente (top 500), în timp ce abordarea MSP are performanțe slabe pe întreaga gamă. Analizele legării STAT1 și CTCF arată rezultate similare în ceea ce privește performanțele relative ale diferitelor metode (Fig suplimentar. 7 online). Aceste rezultate sunt confirmate și prin analiza locilor de legare validați PCR din literatura2, 11, 15 (Fig. 8 și 9 online). Observăm că motivele și seturile de testare validate PCR reprezintă doar o fracțiune din locurile de legare adevărate. Deoarece această fracție este mai mică pentru CTCF și STAT1, seturi mai mari de poziții de legare de top sunt utilizate pentru a ilustra acoperirea setului de testare prin diferite metode.

metodele de scădere a fundalului prezentate în secțiunea anterioară îmbunătățesc acoperirea motivului NRSF, atingând același nivel de acoperire cu până la 11% mai puține poziții de legare de top (suplimentar Fig. 10 online). Corecțiile au un efect redus asupra primelor 1.500 de poziții de legare, care sunt asociate cu un număr mai mare de etichete decât orice vârfuri fals pozitive care rezultă din fundal neuniform. Pozițiile fals pozitive bazate pe fundal sunt în general mai mici ca magnitudine și încep să influențeze predicțiile pe măsură ce sunt luate în considerare mai multe poziții obligatorii.

precizia pozițiilor de legare

pentru a evalua precizia spațială cu care pozițiile de legare a proteinelor sunt identificate prin diferite metode, am analizat distanțele dintre pozițiile prezise și locațiile loviturilor motivelor cu punctaj ridicat (Fig. 5a). Pentru setul de date NRSF, metoda WTD prezice pozițiile de legare cu cea mai mare precizie, cu >60% din vârfurile prezise situate la 10 bp de centrul motivului (Fig. 5B și suplimentar Fig. 11A online). Este urmat de metodele XSET, MTC și MSP, CSP apelând la 40% din vârfurile de la 10 bp de motive. Corecțiile de fond au un efect limitat asupra preciziei pozițiilor prezise, doar metoda WTD prezentând o îmbunătățire de 3% pentru pozițiile obligatorii puternice (datele nu sunt prezentate).

Figura 5: precizia pozițiilor de legare determinate.

(a) distribuția distanțelor între instanțele motivelor NRSF de înaltă încredere și locațiile pozițiilor de legare identificate prin diferite metode. Pentru fiecare metodă este indicat s.d. al distribuției rezultate (XV). Au fost luate în considerare numai motivele care conțin o poziție de legare în limita a 100 bp. (b) fracțiunea pozițiilor de legare identificate în limita a 10 Pb din poziția motivului NRSF este indicată pentru un număr tot mai mare de poziții de legare de vârf identificate prin diferite metode. Numai pozițiile de legare care apar în termen de 300 bp de o instanță motiv secvență sunt incluse în analiză. Distanța mediană până la centrul motivului a fost scăzută pentru fiecare metodă pentru a ține cont de poziția noncentrală a motivului secvenței în raport cu centrul regiunii de legare protejate. Comploturi similare sunt prezentate pentru CTCF (c) și STAT1 (d). Metoda MTC atinge cea mai mare precizie pentru CTCF și STAT1; cu toate acestea, WTD oferă poziții mai precise pentru legarea NRSF.

pentru predicțiile CTCF și STAT1, totuși, metoda MTC obține o precizie mai bună decât WTD (Fig. 5c, d și suplimentar Fig. 11b, c). Diferența poate fi explicată prin proprietățile distribuției etichetelor imediat în apropierea centrului regiunii protejate. Spre deosebire de WTD și XSET, metoda MTC nu ia în considerare etichetele din regiunea centrală (30 bp) la punctarea pozițiilor de legare. Modificarea metodei MTC pentru a lua în considerare astfel de poziții reduce precizia pozițiilor de legare determinate la un nivel similar cu predicțiile WTD. Examinând distribuția generală a pozițiilor etichetelor în raport cu loviturile motivelor cu punctaj ridicat, am constatat că CTCF și STAT1 au prezentat vârfuri neașteptate ale densității etichetelor imediat adiacente (în intervalul 10-15 bp) poziției motivului (Fig suplimentar. 12 online). Acest model, în care seturi mici de etichete negative ale catenei apar imediat în amonte de regiunea protejată și sunt oglindite de etichetele pozitive ale catenei imediat în aval, poate rezulta din interacțiunile de reticulare care apar dincolo de regiunea centrală protejată (Fig. 1B, linie întreruptă). Ca urmare, metodele de detectare a vârfurilor care iau în considerare etichetele din apropierea regiunii centrale tind să apeleze pozițiile 15-20 bp în amonte sau în aval de situl de legare adevărat.

poziții semnificative statistic

metodele de detectare a legării ar trebui să limiteze pozițiile de legare rezultate la cele care nu sunt susceptibile să fi apărut întâmplător. Nivelul dorit de semnificație statistică este dat în mod obișnuit în termeni de rată de descoperire falsă (FDR) sau numărul de poziții fals pozitive așteptate (valoarea E).

metodele de detectare pot utiliza apoi distribuția etichetelor de fundal pentru a determina scorul minim de poziție de legare care satisface nivelul specificat de semnificație. Multe apeluri fals pozitive provin din regiunile anomale mari descrise mai devreme. Aceste erori sistematice pot fi filtrate înainte de determinarea pragurilor de semnificație. Pe baza datelor eșantionului de intrare pentru NRSF, am găsit un total de 2.755 de poziții de legare pentru pragul FDR de 0,01 folosind metoda WTD. Acest lucru corespunde îndeaproape numărului de vârfuri de vârf care a fost necesar pentru a obține o acoperire maximă a pozițiilor motivelor cu punctaj ridicat utilizate în secțiunile anterioare (Fig. 4d).

în absența unei estimări empirice a distribuției etichetelor de fundal, poate fi posibil să se bazeze pe un model analitic. Cel mai simplu astfel de model este un proces spațial Poisson în care etichetele sunt distribuite uniform în regiunile accesibile ale genomului11. Cu toate acestea, deoarece distribuțiile adevărate de etichete de fundal prezintă un grad semnificativ de grupare a etichetelor, acest prag bazat pe Poisson este semnificativ mai mic decât cel obținut din măsurarea empirică a fundalului, rezultând supraestimarea numărului de poziții de legare semnificative (9.206 față de 2.755 pentru un FDR de 0,01). Comparația cu calculele FDR bazate pe intrări arată că modelul bazat pe Poisson subestimează FDR-urile între 8 și 20 de ori, în funcție de FDR-ul țintă (tabelul suplimentar 3 online).

o estimare mai atentă a pragurilor statistice poate fi obținută prin contabilizarea gradului de grupare prezent în distribuția etichetelor de fundal. O abordare simplă este de a utiliza o randomizare care menține etichetele care apar în aceleași poziții sau în apropiere împreună, în loc să le atribuie poziții independente, așa cum se face folosind modelul Poisson. Numărul de poziții semnificative determinate folosind astfel de modele de randomizare cu dimensiuni diferite ale coșurilor este prezentat în tabelul suplimentar 3. Pentru FDR de 0.01, un model de randomizare care menține împreună etichetele care apar exact în aceeași poziție în genom are ca rezultat un număr comparabil de poziții de legare NRSF (2.985). Am folosit o astfel de randomizare pentru a determina numărul de poziții de legare semnificative statistic pentru seturile de date CTCF (2,3981 poziții pentru un FDR de 0,01) și STAT1 (44,921 poziții pentru un FDR de 0,01). Potrivirea numărului de poziții de legare pentru valori FDR mai stricte necesită blocuri de randomizare a etichetelor mai mari (tabelul suplimentar 3), indicând faptul că strategiile simple de randomizare nu pot ține cont în mod corespunzător de proprietățile de grupare a fundalului.

testarea pentru o adâncime suficientă de secvențiere

pentru a evalua dacă adâncimea de secvențiere a atins un punct de saturație dincolo de care nu sunt detectate site-uri suplimentare de legare, am analizat modul în care setul de site-uri de legare prezise s-a schimbat atunci când doar un subset de date de etichete a fost utilizat pentru predicție. Eșantionarea fracțiilor crescătoare ale datelor tag, am determinat pozițiile de legare și am comparat aceste predicții cu setul de site-uri de legare de referință identificate din datele complete (Fig. 6a și suplimentare Fig. 13 online).

Figura 6: Analiza adâncimii secvențierii.

(A) având în vedere pozițiile de legare NRSF determinate folosind setul complet de date (axa y), curba neagră solidă arată fracțiunea de poziții care pot fi prezise (în limita a 50 bp) folosind porțiuni mai mici ale datelor etichetei (axa x). Toate predicțiile de legare sunt generate cu un FDR de 0,01 folosind metoda WTD. Curba nu atinge o asimptotă orizontală, indicând faptul că setul de situsuri de legare nrsf detectate nu s-a stabilizat la adâncimea curentă de secvențiere. Curbele suplimentare limitează analiza la poziții de legare al căror raport de îmbogățire a pliurilor pe fundal este semnificativ (P < 0,05) mai mare de 7,5 (MSER: raport minim de îmbogățire saturată, linie punctată) și 30 (linie punctată). Rapoartele de îmbogățire observate sunt evaluate independent pentru fiecare subeșantion tag (axa x). (b) distribuția numărului de etichete în jurul pozițiilor cu motive nrsf de înaltă încredere. Pozițiile cu etichete zero nu au fost incluse. (c) relația dintre MSER a pozițiilor de legare detectate și adâncimea de secvențiere (exprimată ca o fracțiune din setul complet de date). Linia gri punctată arată un model log-log care poate fi utilizat pentru a estima adâncimea de secvențiere necesară pentru a satura detectarea pozițiilor de legare cu un raport de îmbogățire a pliului inferior. Prin această estimare, 1.2 106 mai multe etichete de secvență ar fi necesare pentru a satura detectarea pozițiilor de legare care sunt îmbogățite dublu pe fundal (MSER = 2 corespunde cu y = 0, moment în care linia punctată traversează axa x: x = 2.8 106).

dacă adâncimea de secvențiere s-a mutat dincolo de punctul de saturație, ar fi posibil să se ajungă la setul de referință folosind doar un subset al datelor etichetei. Cu toate acestea, am constatat că niciunul dintre cele trei seturi de date nu a atins un astfel de punct de saturație (asimptotă orizontală) și că fracția pozițiilor de legare concordante a scăzut atunci când chiar și o mică parte din datele tag au fost omise. Acest lucru indică faptul că site-urile de legare suplimentare sunt identificate continuu cu creșterea adâncimii de secvențiere. Tendința observată se menține pentru o serie de praguri FDR (Fig suplimentar. 13): deși panta curbei de saturație poate fi redusă prin stabilirea unui prag FDR considerabil mai strict, acest lucru are ca rezultat un număr semnificativ mai mic de site-uri de legare.

pentru a înțelege proprietățile acoperirii site-ului de legare, am examinat numărul de etichete asociate cu motive de secvență cu punctaj ridicat (Fig. 6b și suplimentar Fig. 14 pe net). În toate cele trei seturi de date, distribuția numărului de etichete a arătat o gamă dinamică foarte largă. În timp ce unele poziții aveau sute de etichete, altele abia au crescut peste numărul de fundal așteptat. Mai mult, aceste distribuții păreau a fi continue prin faptul că nu prezentau subpopulații distincte de poziții obligatorii. Acest lucru sugerează că creșterea adâncimii de secvențiere poate permite distingerea unui număr mai mare de poziții de legare slabe fără un prag calitativ care ar defini un set complet de site-uri de legare.

deoarece pozițiile de legare mai pronunțate sunt identificate folosind o adâncime de secvențiere mai mică, un experiment de adâncime dată poate satura detectarea pozițiilor de legare care depășesc un anumit raport de îmbogățire a etichetei în raport cu fundalul. Ne referim la acest raport de îmbogățire ca raportul minim de îmbogățire saturată (MSER). Criteriile de saturație care definesc panta maximă acceptabilă a curbei de saturație (Fig. 6a) poate fi formulată ca o cerință pentru stabilitatea setului de site-uri de legare prevăzute. De exemplu, avem nevoie de un acord de 99% în setul de poziții obligatorii atunci când setul de date este redus cu 105 etichete. Folosind datele etichetei de intrare NRSF pentru a determina intervalele de încredere pentru raportul de îmbogățire al fiecărei poziții de legare, am constatat că adâncimea de secvențiere obținută a fost suficientă pentru a satura detectarea pozițiilor de legare cu rapoarte de îmbogățire a etichetei semnificativ peste 7,5 (valoarea P < 0,05; Fig. 6a și suplimentare Fig. 15 pe net). Din cele 2.755 de poziții de legare nrsf detectate la un FDR de 0.01, 1.879 (68%) au avut rate de îmbogățire semnificativ mai mari decât valoarea MSER de 7,5 (Fig suplimentar. 13). Observăm că o anumită valoare MSER nu implică faptul că toate pozițiile de legare adevărate ale acelei îmbogățiri de pliere au fost descoperite; în schimb, indică faptul că noi poziții de legare cu îmbogățire semnificativ mai mare decât valoarea MSER sunt detectate într-un ritm suficient de lent. O gamă potențială de rapoarte de îmbogățire reală poate fi evaluată din intervalele de încredere de îmbogățire calculate pentru fiecare poziție de legare (Fig suplimentar. 16 online). Deoarece estimarea intervalelor de încredere ale raportului de îmbogățire depinde și de cantitatea de informații disponibile despre distribuția etichetelor de fundal, seturi de date de intrare cu acoperire genomică similară ar trebui utilizate atunci când se compară diferite valori MSER.

în scopuri practice, este important să se poată prezice numărul de etichete necesare pentru a satura detectarea vârfurilor peste un anumit raport de îmbogățire țintă. Relația dintre numărul de etichete și MSER se stabilește într-o dependență care poate fi extrapolată folosind un model log-log (Fig. 6c). Noi anticipăm, de exemplu, că 1.2 106 pentru a atinge saturația în detectarea pozițiilor de legare NRSF cu îmbogățire pe fundal semnificativ mai mare decât dublu (valoarea P < 0,05) ar fi necesare mai multe etichete. Valorile și extrapolările MSER depind de criteriile de saturație și de metodele utilizate pentru calcularea intervalelor de încredere în îmbogățire (Fig suplimentar. 17 online).

creșterea adâncimii de secvențiere este, de asemenea, probabil să conducă la o precizie crescută a pozițiilor de legare determinate. Folosind setul de date NRSF, am analizat modul în care distanța medie dintre pozițiile de legare detectate și motivele secvenței depinde de numărul de etichete utilizate pentru predicții. Rezultatele noastre arată că precizia s-a îmbunătățit într-adevăr odată cu creșterea numărului de etichete (Fig suplimentar. 18 pe net). Cu toate acestea, îmbunătățirea a fost minoră: precizia a scăzut cu doar câteva perechi de baze chiar și atunci când numărul de etichete a fost redus la jumătate.

Lasă un răspuns

Adresa ta de email nu va fi publicată.