Progettazione e analisi di esperimenti ChIP-seq per proteine leganti il DNA

Distribuzione dei tag attorno alle posizioni leganti le proteine

In generale, l’immunoprecipitazione seleziona un insieme di frammenti di DNA sovrapposti attorno alle posizioni legate. Il sequenziamento ad alto throughput identifica tag brevi (bp 35 bp per le piattaforme Solexa o SOLiD) sulle estremità 5′ dei frammenti di entrambi i filamenti di DNA. Le posizioni dei tag vengono quindi determinate allineandole all’assemblaggio del genoma, con allineamenti ambigui tipicamente scartati. La distribuzione spaziale risultante delle occorrenze di tag attorno a una posizione di legame stabile mostrerà quindi picchi separati di densità di tag su trefoli positivi e negativi (Fig. 1 ter, lettera c). La distanza tra i picchi dovrebbe riflettere la dimensione della regione protetta, anche se può anche essere influenzata dalla distribuzione dimensionale dei frammenti di DNA. Questa distanza non mostra una forte dipendenza dal numero di tag all’interno dei picchi (Tabella supplementare 1 online).

Una firma a livello genomico di questo modello di tag può essere valutata calcolando la correlazione incrociata delle densità di tag positive e negative, spostando i fili l’uno rispetto all’altro aumentando la distanza. Tutti i set di dati esaminati mostrano un picco chiaro nel profilo di correlazione incrociata del filamento, corrispondente alla dimensione predominante della regione protetta (Fig. 1d e supplementari Fig. 1 in linea). La grandezza del picco riflette la frazione di tag nel set di dati che appare in conformità con il modello di tag di associazione previsto. In un caso ideale, quando tutti i tag sequenziati partecipano a tali modelli di associazione, la grandezza di correlazione raggiunge un valore massimo. Al contrario, la grandezza diminuisce man mano che le posizioni dei tag vengono randomizzate (Fig. 2 in linea).

Utilizzando allineamenti di tag di qualità variabile

Sebbene alcuni tag si allineino perfettamente con il genoma di riferimento, altri si allineano solo parzialmente, con lacune o disallineamenti. I tag scarsamente allineati possono derivare da problemi sperimentali come la contaminazione del campione, corrispondere a regioni polimorfiche o non assemblate del genoma o riflettere errori di sequenziamento. Per la piattaforma Solexa, gli errori di sequenziamento sono più abbondanti verso le estremità 3′ dei frammenti sequenziati, causando spesso allineamenti parziali che includono solo le parti dei tag vicino alle estremità 5′. Stimiamo che questo aumento delle frequenze di disallineamento verso 3 ‘ termini rappresenti il 41-75% di tutti i disallineamenti osservati nei set di dati esaminati (Fig. 3 in linea). Poiché non è insolito avere>il 50% dei tag totali risulta solo in allineamento parziale, l’inclusione di tag parzialmente allineati ma comunque informativi è importante per ottimizzare l’uso di qualsiasi set di dati11,12. Abbiamo quindi scelto di utilizzare la lunghezza della corrispondenza e il numero di nucleotidi coperti da disallineamenti e lacune per classificare la qualità dell’allineamento dei tag (Tabella 1 e Tabella supplementare 2 online).

Tabella 1 Classificazione dei tag allineamenti in base alla lunghezza della partita e il numero di incongruenze

Dato una classificazione di etichette di qualità di allineamento, ci proponiamo di utilizzare il filamento di cross-correlazione profilo per determinare se una particolare classe di tag dovrebbe essere incluso in ulteriori analisi. Un insieme di tag informativi sulle posizioni di associazione dovrebbe aumentare la magnitudine di correlazione incrociata, mentre un insieme di tag mappato in modo casuale dovrebbe diminuirlo (Fig. 2). Utilizzando questo approccio per il set di dati NRSF (Fig. 2), abbiamo scoperto che allineamenti con corrispondenze che coprono almeno 18 bp e zero disallineamenti hanno migliorato il profilo di correlazione incrociata. Tuttavia, solo le corrispondenze full-length (25 bp) dovrebbero essere considerate per i tag con due disallineamenti. L’uso di questo criterio per accettare i tag ha aumentato il loro numero rispetto all’insieme di tag perfettamente allineati del 27% per il set di dati NRSF, del 30% per il set di dati CTCF e del 36% per il set di dati STAT1 (Fig. 4 in linea). L’incorporazione di queste etichette ha migliorato la sensibilità e la precisione delle posizioni di rilegatura identificate (Fig. 5 in linea).

Figura 2: Selezione delle classi di tag informative in base alla variazione della magnitudine di correlazione incrociata del filo.

Per ogni classe di qualità di allineamento dei tag elencata nella Tabella 1, i grafici mostrano il cambiamento nel profilo di correlazione incrociata media dei trefoli quando questa classe di tag viene considerata insieme alla classe base di tag perfettamente allineati (25 bp, senza disallineamenti). (a-c) Tre grafici corrispondono a classi di tag senza disallineamenti (a), con un singolo disallineamento (b) e con due disallineamenti (c). Le classi di tag informative migliorano la correlazione incrociata (contrassegnata da*) e sono incorporate nel set di tag finale. L’asse y fornisce la variazione media del profilo di correlazione incrociata entro 40 bp attorno al picco di correlazione incrociata (Fig. 1d).

Controllo della distribuzione dei tag in background

La significatività statistica del clustering dei tag osservato per una posizione di legame proteico presunta dipende dal modello di sfondo previsto. Il modello più semplice presuppone che la densità del tag di sfondo sia distribuita uniformemente lungo il genoma e indipendentemente tra i fili11. Oltre al campione di chip NRSF, Johnson et al.2 hanno sequenziato un campione di input di controllo, fornendo una valutazione sperimentale della distribuzione dei tag in background. Abbiamo scoperto che la distribuzione dei tag in background presenta un grado di clustering significativamente maggiore del previsto da un processo di Poisson omogeneo suggerito dal suddetto modello semplice (P < 10-6, Fig. 6 in linea).

Il nostro esame della densità dei tag di input identifica tre tipi principali di anomalie di fondo. Il primo tipo si traduce in picchi singolari di densità tag in una singola posizione cromosomica molti ordini di grandezza superiore alla densità circostante (Fig. 3 bis). Tali picchi si verificano comunemente nella stessa posizione su entrambi i filamenti cromosomici. Il secondo tipo di anomalia si traduce in cluster non uniformi, larghi (>1.000 bp)con densità di tag aumentata che appaiono su uno o entrambi i trefoli (Fig. 3 ter). Il terzo tipo presenta piccoli gruppi di densità di tag specifica del filo che assomigliano al modello previsto da una posizione stabile di legame alle proteine, anche se in genere mostra una separazione più piccola tra i picchi del filo (Fig. 3 quater). Un insieme simile di anomalie può essere osservato nel sequenziamento di input di altri organismi (dati non mostrati).

Figura 3: Esempi di anomalie nelle distribuzioni di tag in background.

(a) Posizioni singolari con un numero di tag estremamente elevato. (b) Regioni più grandi e non uniformi con maggiore densità di tag di sfondo. (c) Modelli di densità di tag di sfondo che assomigliano a vere posizioni di legame con le proteine. Ogni grafico mostra la densità dei tag da campioni di CHIP e input. Gli istogrammi dei tag forniscono conteggi tag combinati.

Il primo tipo di anomalia può essere facilmente rilevato ed eliminato a causa della sua estrema deviazione dalla densità tag circostante. Tuttavia, gli altri tipi di anomalie, in particolare la terza, sono difficili da distinguere all’interno dei dati del ChIP. Ciò indica che il sequenziamento del materiale di input è essenziale per tenere adeguatamente conto della distribuzione dei tag in background. Sequenziamento di un esperimento di controllo finto (anticorpo non specifico o nessun anticorpo) può anche essere necessario.

Per controllare la distribuzione non uniforme dello sfondo, i metodi di associazione proposti di seguito sottraggono la densità dei tag di sfondo riscalati prima di determinare le posizioni di associazione, se tali dati sono disponibili. Inoltre, sono accettate solo le posizioni di associazione all’interno di regioni con significativi rapporti ChIP/tag di ingresso2. L’effetto di tali correzioni di sfondo sarà caratterizzato nelle sezioni che seguono.

Metodi di rilevamento del binding e relativa copertura dei siti di binding

Abbiamo esaminato cinque diversi metodi per chiamare le posizioni di binding, inclusi due algoritmi precedentemente pubblicati (CSP, XSET) e tre metodi nostri. In breve, il metodo ChIPSeq Peak locator (CSP) identifica le regioni di arricchimento significativo rispetto al profilo di input e determina le posizioni di legame come quelle con il maggior numero di tag all’interno di tali regioni2. Il metodo Extended set (XSET) estende i tag positivi e negativi per la lunghezza prevista del frammento di DNA e determina le posizioni di legame come quelle con il maggior numero di frammenti sovrapponenti11.

I nostri metodi sfruttano il modello di tag specifico del filo osservato nelle posizioni di rilegatura (Fig. 1c). Il primo di questi metodi, window tag density (WTD), è simile a XSET ma segna le posizioni in base ai conteggi dei tag specifici del filamento a monte ea valle della posizione esaminata (Fig. 4 bis). Il secondo metodo, matching strand peaks (MSP), determina picchi locali di densità tag specifica del filo e identifica le posizioni circondate da picchi di filo positivo e negativo di una grandezza comparabile alla distanza prevista (Fig. 4 ter). Il terzo metodo, mirror tag correlation (MTC), esegue la scansione del genoma per identificare le posizioni che presentano modelli di tag pronunciati positivi e negativi che si rispecchiano a vicenda (Fig. 4 quater). Il codice sorgente è disponibile online (codice sorgente supplementare) e un pacchetto R aggiornato può essere scaricato su http://compbio.med.harvard.edu/Supplements/ChIP-seq.

Figura 4: Metodi di rilevamento della posizione di rilegatura e relativa sensibilità.

(a) Illustrazione schematica del metodo WTD. Per identificare le posizioni con un modello di tag previsto da un’associazione forte, il metodo calcola la differenza tra la media geometrica dei conteggi di tag all’interno delle regioni contrassegnate dal colore arancione (p1 e n2) e il conteggio medio dei tag all’interno delle regioni contrassegnate dal colore verde (n1 e p2). (b) Il metodo MSP identifica prima i massimi locali su trefoli positivi e negativi (cerchi aperti) e quindi determina le posizioni in cui tali due picchi sono presenti nel giusto ordine, con la separazione prevista e la grandezza comparabile. (c) Il metodo MTC si basa sulla correlazione speculare delle densità dei tag a filamento positivo e negativo. L’immagine speculare della densità del tag a filo negativo è mostrata da una linea blu spezzata. I tag entro 15 bp dalla posizione centrale vengono omessi. (d) La copertura di alta fiducia NRSF motif partite da picchi superiori. La trama mostra la frazione di istanze motif che coincidono (con 50 bp) con le posizioni di rilegatura identificate, in funzione dell’aumento del numero di posizioni di rilegatura superiori identificate con metodi diversi. La maggior parte dei metodi, ad eccezione di MSP e CSP, sono in grado di ottenere una copertura altrettanto elevata.

Sebbene un elenco completo dei veri siti di legame non sia noto per nessuno dei set di dati esaminati, tutte e tre le proteine presentano specifiche di sequenza di legame note. Mentre i metodi di rilevamento del binding descritti in questo lavoro non si basano su informazioni di sequenza, abbiamo utilizzato istanze di motivi di sequenza ad alto punteggio per valutare le prestazioni relative di diversi metodi di rilevamento del binding. In tal modo, assumiamo solo che le istanze del motivo con punteggio elevato contengano un sottoinsieme rappresentativo di posizioni di rilegatura vere e non richiedano che tutti i motivi con punteggio elevato siano rilegati o che tutti i siti di rilegatura veri presentino una firma del motivo. Abbiamo valutato le prestazioni utilizzando motivi di sequenza canonica per il legame di NRSF e CTCF14,15 e il motivo del sito attivato da gamma (GAS) come predittore del legame STAT15, 11. I metodi di rilevamento del legame forniscono punteggi di grandezza di picco associati alle posizioni di legame identificate, consentendo così la priorità delle posizioni di legame determinate da ciascun metodo.

Per confrontare la sensibilità dei diversi metodi, abbiamo selezionato un numero crescente di posizioni di rilegatura superiore restituite da ciascun metodo ed esaminato la frazione delle occorrenze del motivo per le quali è stata identificata una posizione di rilegatura (Fig. 4d). Abbiamo scoperto che l ‘ 89% delle corrispondenze del motivo NRSF con il punteggio più alto selezionato coincideva con le posizioni di rilegatura rilevate. Il tasso di copertura del motivo supera chiaramente quello previsto dalla previsione casuale, consentendo il confronto delle prestazioni relative dei diversi metodi di rilevamento del legame. Ad eccezione di MSP e CSP, tutti i metodi raggiungono una copertura del motivo altrettanto elevata. Il metodo CSP si comporta peggio per le posizioni di rilegatura più prominenti (top 500), mentre l’approccio MSP si comporta male per l’intero intervallo. Le analisi del legame STAT1 e CTCF mostrano risultati analoghi in termini di prestazioni relative dei diversi metodi (Fig. 7 in linea). Questi risultati sono anche confermati dall’analisi dei loci di legame convalidati dalla PCR dalla letteratura2, 11, 15 (Figg supplementari. 8 e 9 online). Notiamo che i set di test motif e PCR convalidati rappresentano solo una frazione dei veri siti di legame. Poiché questa frazione è più piccola per CTCF e STAT1, set più grandi di posizioni di rilegatura superiori vengono utilizzati per illustrare la copertura del set di test con metodi diversi.

I metodi di sottrazione dello sfondo descritti nella sezione precedente migliorano la copertura del motivo NRSF, raggiungendo lo stesso livello di copertura fino all ‘ 11% in meno di posizioni di rilegatura superiore (Fig. 10 in linea). Le correzioni hanno scarso effetto sulle prime 1.500 posizioni di rilegatura, che sono associate a conteggi di tag più elevati rispetto a qualsiasi picco di falsi positivi derivante da uno sfondo irregolare. Le posizioni false positive basate sullo sfondo sono generalmente di entità inferiore e iniziano a influenzare le previsioni man mano che vengono considerate posizioni più vincolanti.

Precisione delle posizioni di legame

Per valutare la precisione spaziale con cui le posizioni di legame alle proteine sono identificate con metodi diversi, abbiamo analizzato le distanze tra le posizioni previste e le posizioni dei colpi del motivo ad alto punteggio (Fig. 5 bis). Per il set di dati NRSF, il metodo WTD prevede le posizioni di legame con la massima precisione, con > il 60% dei picchi previsti situati entro 10 bp dal centro del motivo (Fig. 5b e Fig. 11a online). È seguito dai metodi XSET, MTC e MSP, con CSP che chiama 4 40% dei picchi entro 10 bp dei motivi. Le correzioni di fondo hanno un effetto limitato sulla precisione delle posizioni previste, con solo il metodo WTD che mostra un miglioramento del 3% per le posizioni di legame forti (dati non mostrati).

Figura 5: Precisione delle posizioni di rilegatura determinate.

(a) Distribuzione delle distanze tra le istanze motif NRSF ad alta confidenza e le posizioni delle posizioni di rilegatura identificate con metodi diversi. Il s. d. della distribuzione risultante (σ) è mostrato per ogni metodo. Sono stati considerati solo motivi contenenti una posizione di legame entro 100 bp. b) La frazione delle posizioni di legame identificate entro 10 bp dalla posizione del motivo NRSF è indicata per un numero crescente di posizioni di legame superiori identificate con metodi diversi. Nell’analisi sono incluse solo le posizioni di rilegatura che si verificano entro 300 bp da un’istanza del motivo di sequenza. La distanza mediana dal centro del motivo è stata sottratta per ciascun metodo per tenere conto della posizione non centrale del motivo della sequenza rispetto al centro della regione di rilegatura protetta. Grafici analoghi sono mostrati per CTCF (c) e STAT1 (d). Il metodo MTC raggiunge la massima precisione per CTCF e STAT1; tuttavia, WTD fornisce posizioni più accurate per il legame NRSF.

Per le previsioni CTCF e STAT1, tuttavia, il metodo MTC raggiunge una precisione migliore di WTD (Fig. 5c, d e supplementari Fig. 11 ter, lettera c). La differenza può essere spiegata dalle proprietà della distribuzione dei tag immediatamente vicino al centro della regione protetta. A differenza di WTD e XSET, il metodo MTC non tiene conto dei tag all’interno della regione centrale (30 bp) quando si segnano le posizioni di binding. La modifica del metodo MTC per tenere conto di tali posizioni riduce la precisione delle posizioni di legame determinate a un livello simile alle previsioni WTD. Esaminando la distribuzione complessiva delle posizioni dei tag rispetto ai colpi del motivo ad alto punteggio, abbiamo scoperto che CTCF e STAT1 hanno mostrato picchi inaspettati di densità dei tag immediatamente adiacenti (entro 10-15 bp) alla posizione del motivo (Fig. 12 in linea). Questo schema, in cui piccoli gruppi di tag del filo negativo appaiono immediatamente a monte della regione protetta e sono rispecchiati dai tag del filo positivo immediatamente a valle, può derivare da interazioni di cross-linking che si verificano oltre la regione protetta centrale (Fig. 1b, linea spezzata). Di conseguenza, i metodi di rilevamento del picco che tengono conto dei tag vicino alla regione centrale tendono a chiamare posizioni 15-20 bp a monte o a valle del vero sito di legame.

Posizioni statisticamente significative

I metodi di rilevamento dell’associazione dovrebbero limitare le posizioni di associazione risultanti a quelle che probabilmente non si sono verificate per caso. Il livello desiderato di significatività statistica è comunemente dato in termini di false discovery rate (FDR) o il numero di posizioni false positive attese (E-value).

I metodi di rilevamento possono quindi utilizzare la distribuzione dei tag in background per determinare il punteggio minimo di posizione di associazione che soddisfa il livello di significatività specificato. Molte chiamate false positive provengono dalle grandi regioni anomale descritte in precedenza. Questi errori sistematici possono essere filtrati prima della determinazione delle soglie di significatività. Sulla base dei dati del campione di input per il NRSF, abbiamo trovato un totale di 2.755 posizioni di associazione per la soglia FDR di 0,01 utilizzando il metodo WTD. Ciò corrisponde strettamente al numero di picchi superiori necessari per ottenere la massima copertura delle posizioni del motivo ad alto punteggio utilizzate nelle sezioni precedenti (Fig. 4d).

In assenza di una stima empirica della distribuzione dei tag in background, può essere possibile fare affidamento su un modello analitico. Il modello più semplice di questo tipo è un processo di Poisson spaziale in cui i tag sono distribuiti uniformemente nelle regioni accessibili del genome11. Tuttavia, poiché le vere distribuzioni di tag di sfondo mostrano un grado significativo di clustering di tag, questa soglia basata su Poisson è significativamente inferiore a quella ottenuta dalla misurazione empirica di sfondo, con conseguente sovrastima del numero di posizioni di legame significative (9.206 contro 2.755 per un FDR di 0,01). Il confronto con i calcoli FDR basati su input rivela che il modello basato su Poisson sottovaluta gli FDR tra 8 e 20 volte, a seconda del FDR di destinazione (Tabella supplementare 3 online).

Una stima più stretta delle soglie statistiche può essere ottenuta tenendo conto del grado di clustering presente nella distribuzione dei tag in background. Un approccio semplice consiste nell’utilizzare una randomizzazione che mantiene i tag che si verificano nelle stesse posizioni o nelle vicinanze insieme, invece di assegnare loro posizioni indipendenti, come fatto usando il modello di Poisson. Il numero di posizioni significative determinate utilizzando tali modelli di randomizzazione con diverse dimensioni dei contenitori è mostrato nella tabella supplementare 3. Per il FDR di 0.01, un modello di randomizzazione che mantiene insieme tag che si verificano esattamente nella stessa posizione nei risultati genoma in un numero comparabile di posizioni NRSF-binding (2.985). Abbiamo utilizzato tale randomizzazione per determinare il numero di posizioni di legame statisticamente significative per i set di dati CTCF (2.3981 posizioni per un FDR di 0,01) e STAT1 (44.921 posizioni per un FDR di 0,01). La corrispondenza del numero di posizioni di associazione per valori FDR più rigorosi richiede blocchi di randomizzazione dei tag più grandi (Tabella supplementare 3), indicando che le semplici strategie di randomizzazione non possono tenere conto correttamente delle proprietà di clustering in background.

Test per una profondità di sequenziamento sufficiente

Per valutare se la profondità di sequenziamento ha raggiunto un punto di saturazione oltre il quale non vengono rilevati siti di associazione aggiuntivi, abbiamo analizzato come è cambiato l’insieme dei siti di associazione previsti quando è stato utilizzato solo un sottoinsieme di dati di tag per la previsione. Campionamento aumentando le frazioni dei dati dei tag, abbiamo determinato le posizioni di rilegatura e confrontato queste previsioni con l’insieme dei siti di rilegatura di riferimento identificati dai dati completi (Fig. 6a e supplementari Fig. 13 in linea).

Figura 6: Analisi della profondità di sequenziamento.

(a) Date le posizioni di binding NRSF determinate utilizzando il set di dati completo (asse y), la curva nera solida mostra la frazione di posizioni che possono essere previste (entro 50 bp) utilizzando porzioni più piccole dei dati tag (asse x). Tutte le previsioni di binding vengono generate con un FDR di 0,01 utilizzando il metodo WTD. La curva non raggiunge un asintoto orizzontale, indicando che l’insieme dei siti di legame NRSF rilevati non si è stabilizzato alla profondità di sequenziamento corrente. Le curve aggiuntive limitano l’analisi alle posizioni di legame il cui rapporto di arricchimento in piega sullo sfondo è significativamente (P < 0,05) superiore a 7,5 (MSER: rapporto minimo di arricchimento saturo, linea tratteggiata) e 30 (linea tratteggiata). I rapporti di arricchimento osservati sono valutati indipendentemente per ogni sottocampione di tag (asse x). (b) Distribuzione dei conteggi dei tag attorno alle posizioni dei motivi NRSF ad alta affidabilità. Le posizioni con zero tag non sono state incluse. c) La relazione tra l’MSER delle posizioni di legame rilevate e la profondità di sequenziamento (espressa come frazione del set di dati completo). La linea grigia tratteggiata mostra un modello log-log che può essere utilizzato per stimare la profondità di sequenziamento necessaria per saturare il rilevamento delle posizioni di legame con un rapporto di arricchimento di piega inferiore. Secondo tale stima, sarebbero necessari 1,2 × 106 tag di sequenza in più per saturare il rilevamento di posizioni di legame che sono duplice arricchite sullo sfondo (MSER = 2 corrisponde a y = 0, a quel punto la linea tratteggiata attraversa l’asse x: x = 2,8 × 106).

Se la profondità di sequenziamento si è spostata oltre il punto di saturazione, sarebbe possibile arrivare al set di riferimento utilizzando solo un sottoinsieme dei dati del tag. Abbiamo scoperto, tuttavia, che nessuno dei tre set di dati ha raggiunto un tale punto di saturazione (asintoto orizzontale) e che la frazione delle posizioni di associazione concordanti è diminuita quando anche una piccola frazione di dati tag è stata omessa. Ciò indica che ulteriori siti di legame vengono continuamente identificati con l’aumento della profondità di sequenziamento. La tendenza osservata vale per una gamma di soglie FDR (Fig. 13): sebbene la pendenza della curva di saturazione possa essere ridotta impostando una soglia FDR considerevolmente più rigorosa, ciò si traduce in un numero significativamente inferiore di siti di legame.

Per comprendere le proprietà della copertura del sito di rilegatura, abbiamo esaminato i conteggi di tag associati a motivi di sequenza ad alto punteggio (Fig. 6b e Fig. 14 in linea). In tutti e tre i set di dati, la distribuzione dei conteggi dei tag ha mostrato una gamma dinamica molto ampia. Mentre alcune posizioni avevano centinaia di tag, altre a malapena superavano i conteggi di fondo previsti. Inoltre, queste distribuzioni sembravano essere continue in quanto non mostravano distinte sottopopolazioni di posizioni vincolanti. Ciò suggerisce che l’aumento della profondità di sequenziamento può consentire di distinguere un numero maggiore di posizioni di legame deboli senza una soglia qualitativa che definirebbe un set completo di siti di legame.

Poiché le posizioni di legame più pronunciate sono identificate usando una profondità di sequenziamento più piccola, un esperimento di profondità data può saturare il rilevamento delle posizioni di legame che superano un certo rapporto di arricchimento del tag rispetto allo sfondo. Ci riferiamo a questo rapporto di arricchimento come il rapporto minimo di arricchimento saturo (MSER). I criteri di saturazione che definiscono la pendenza massima accettabile della curva di saturazione (Fig. 6a) può essere formulato come requisito per la stabilità dell’insieme dei siti di legame previsti. Ad esempio, richiediamo un accordo del 99% nel set di posizioni vincolanti quando il set di dati viene ridotto di 105 tag. Utilizzando i dati dei tag di input NRSF per determinare gli intervalli di confidenza per il rapporto di arricchimento di ciascuna posizione di legame, abbiamo scoperto che la profondità di sequenziamento raggiunta era sufficiente per saturare il rilevamento delle posizioni di legame con rapporti di arricchimento dei tag significativamente superiori a 7,5 (P-value < 0,05; Fig. 6a e supplementari Fig. 15 in linea). Delle 2.755 posizioni di legame NRSF rilevate con un FDR di 0.01, 1.879 (68%) avevano rapporti di arricchimento significativamente superiori al valore MSER di 7,5 (Fig. 13). Notiamo che un particolare valore MSER non implica che siano state scoperte tutte le vere posizioni di legame di tale arricchimento di piega; indica invece che nuove posizioni di legame con arricchimento significativamente superiori al valore MSER vengono rilevate a un ritmo sufficientemente lento. Un intervallo potenziale di rapporti di arricchimento reali può essere valutato dagli intervalli di confidenza dell’arricchimento calcolati per ciascuna posizione di legame (Fig. 16 in linea). Poiché la stima degli intervalli di confidenza del rapporto di arricchimento dipende anche dalla quantità di informazioni disponibili sulla distribuzione dei tag di sfondo, è necessario utilizzare set di dati di input di copertura genomica simile quando si confrontano diversi valori MSER.

Per scopi pratici, è importante essere in grado di prevedere il numero di tag necessari per saturare il rilevamento di picchi al di sopra di un dato rapporto di arricchimento target. La relazione tra il numero di tag e l’MSER si stabilisce in una dipendenza che può essere estrapolata utilizzando un modello log-log (Fig. 6 quater). Prevediamo, per esempio, che 1.2 × 106 ulteriori tag sarebbero necessari per raggiungere la saturazione nel rilevare le posizioni di legame NRSF con arricchimento sullo sfondo significativamente superiore a due volte (P-value < 0.05). I valori MSER e le estrapolazioni dipendono dai criteri di saturazione e dai metodi utilizzati per calcolare gli intervalli di confidenza dell’arricchimento (Fig. 17 in linea).

È anche probabile che l’aumento della profondità di sequenziamento porti ad una maggiore precisione delle posizioni di legame determinate. Utilizzando il set di dati NRSF, abbiamo analizzato come la distanza media tra le posizioni di rilegatura rilevate e i motivi di sequenza dipende dal numero di tag utilizzati per le previsioni. I nostri risultati mostrano che la precisione è effettivamente migliorata con il numero crescente di tag (Fig. 18 in linea). Il miglioramento, tuttavia, è stato minore: la precisione è diminuita solo di diverse coppie di basi anche quando il numero di tag è stato dimezzato.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.