Design und Analyse von ChIP-seq-Experimenten für DNA-bindende Proteine

Tag-Verteilung um Proteinbindungspositionen

Im Allgemeinen wählt die Immunpräzipitation einen Satz überlappender DNA-Fragmente um gebundene Positionen aus. Die Hochdurchsatzsequenzierung identifiziert kurze (∼35 bp für die Solexa- oder SOLiD-Plattformen) Tags an den 5′-Enden von Fragmenten beider DNA-Stränge. Die Positionen der Tags werden dann bestimmt, indem sie an der Genomassembly ausgerichtet werden, wobei mehrdeutige Ausrichtungen typischerweise verworfen werden. Die resultierende räumliche Verteilung der Tag-Vorkommen um eine stabile Bindungsposition zeigt daher getrennte Peaks der Tag-Dichte auf positiven und negativen Strängen (Abb. 1b, c). Der Abstand zwischen den Peaks sollte die Größe der geschützten Region widerspiegeln, obwohl er auch durch die Größenverteilung der DNA-Fragmente beeinflusst werden kann. Dieser Abstand zeigt keine starke Abhängigkeit von der Anzahl der Tags innerhalb der Peaks (Ergänzende Tabelle 1 online).

Eine genomweite Signatur dieses Tag-Musters kann durch Berechnung der Kreuzkorrelation von Positiv- und Negativ-Strang-Tag-Dichten beurteilt werden, wobei die Stränge relativ zueinander durch zunehmende Entfernung verschoben werden. Alle untersuchten Datensätze zeigen einen deutlichen Peak im Strangkreuzkorrelationsprofil, entsprechend der vorherrschenden Größe des Schutzbereichs (Fig. 1d und ergänzend Fig. 1 online). Die Größe des Peaks spiegelt den Anteil der Tags im Datensatz wider, der gemäß dem erwarteten Bindungsmarkierungsmuster angezeigt wird. Im Idealfall, wenn alle sequenzierten Tags an solchen Bindungsmustern teilnehmen, erreicht die Korrelationsgröße einen Maximalwert. Umgekehrt nimmt die Größe ab, wenn Tag-Positionen randomisiert werden (Ergänzende Abb. 2 online).

Verwenden von Tag-Alignments variabler Qualität

Obwohl einige Tags perfekt mit dem Referenzgenom übereinstimmen, richten sich andere nur teilweise mit Lücken oder Fehlanpassungen aus. Schlecht ausgerichtete Tags können aus experimentellen Problemen wie Probenkontamination resultieren, polymorphen oder nicht zusammengesetzten Regionen des Genoms entsprechen oder Sequenzierungsfehler widerspiegeln. Für die Solexa-Plattform sind die Sequenzierungsfehler in Richtung der 3′-Enden der sequenzierten Fragmente häufiger, was häufig zu teilweisen Ausrichtungen führt, die nur die Teile der Tags in der Nähe der 5′-Enden enthalten. Wir schätzen, dass dieser Anstieg der Mismatch-Frequenzen in Richtung 3’Termini 41-75% aller beobachteten Mismatches in den untersuchten Datensätzen ausmacht (Ergänzende Abb. 3 online). Da es nicht ungewöhnlich ist, dass >50% der gesamten Tags nur zu einer teilweisen Ausrichtung führen, ist die Einbeziehung von Tags, die teilweise ausgerichtet sind, aber dennoch informativ sind, wichtig, um die Verwendung eines Datensatzes zu optimieren11,12. Wir haben uns daher entschieden, die Länge der Übereinstimmung und die Anzahl der Nukleotide, die durch Fehlanpassungen und Lücken abgedeckt sind, zu verwenden, um die Qualität der Tag-Ausrichtung zu klassifizieren (Tabelle 1 und ergänzende Tabelle 2 online).

Tabelle 1 Klassifizierung der Tag-Alignments basierend auf der Länge der Übereinstimmung und der Anzahl der Nichtübereinstimmungen

Bei einer Klassifizierung der Tags nach der Qualität der Ausrichtung schlagen wir vor, das Strangkreuzkorrelationsprofil zu verwenden, um zu bestimmen, ob eine bestimmte Klasse von Tags in die weitere Analyse einbezogen werden sollte. Ein Satz von Tags, die über die Bindungspositionen informieren, sollte die Kreuzkorrelationsgröße erhöhen, während ein zufällig zugeordneter Satz von Tags sie verringern sollte (ergänzende Abb. 2). Mit diesem Ansatz für den NRSF-Datensatz (Abb. 2) fanden wir heraus, dass Alignments mit Übereinstimmungen von mindestens 18 bp und Null Fehlanpassungen das Kreuzkorrelationsprofil verbesserten. Für Tags mit zwei Nichtübereinstimmungen sollten jedoch nur Übereinstimmungen in voller Länge (25 bp) berücksichtigt werden. Die Verwendung dieses Kriteriums zum Akzeptieren von Tags erhöhte ihre Anzahl über den Satz perfekt ausgerichteter Tags um 27% für den NRSF-Datensatz, 30% für den CTCF-Datensatz und 36% für den STAT1-Datensatz (Ergänzende Abb. 4 online). Der Einbau dieser Tags verbesserte die Empfindlichkeit und Genauigkeit der identifizierten Bindungspositionen (Ergänzende Abb. 5 online).

Abbildung 2: Auswahl informativer Tag-Klassen basierend auf der Änderung der Größe der Strangkreuzkorrelation.

Für jede in Tabelle 1 aufgeführte Klasse der Tag-Ausrichtungsqualität zeigen die Diagramme die Änderung des mittleren Kreuzkorrelationsprofils, wenn diese Klasse von Tags zusammen mit der Basisklasse perfekt ausgerichteter Tags betrachtet wird (25 bp, keine Fehlanpassungen). (a–c) Drei Diagramme entsprechen Tag-Klassen ohne Fehlanpassungen (a), mit einer einzigen Fehlanpassung (b) und mit zwei Fehlanpassungen (c). Informative Tag-Klassen verbessern die Kreuzkorrelation (markiert mit *) und werden in den endgültigen Tag-Satz aufgenommen. Die y-Achse gibt die mittlere Änderung des Kreuzkorrelationsprofils innerhalb von 40 bp um den Kreuzkorrelationspeak an (Abb. 1d).

Kontrolle der Hintergrund-Tag-Verteilung

Die statistische Signifikanz des beobachteten Tag-Clusters für eine mutmaßliche Proteinbindungsposition hängt vom erwarteten Hintergrundmuster ab. Das einfachste Modell geht davon aus, dass die Hintergrundmarkendichte gleichmäßig entlang des Genoms und unabhängig zwischen den Strängen verteilt ist11. Neben der NRSF-Chipprobe haben Johnson et al.2 haben eine Kontrolleingangsprobe sequenziert, die eine experimentelle Bewertung der Hintergrundmarkierungsverteilung liefert. Wir fanden heraus, dass die Hintergrund-Tag-Verteilung einen Clustering-Grad aufweist, der signifikant größer ist als erwartet von einem homogenen Poisson-Prozess, der durch das oben genannte einfache Modell vorgeschlagen wird (P < 10-6, Ergänzende Abb. 6 online).

Unsere Untersuchung der Input-Tag-Dichte identifiziert drei Haupttypen von Hintergrundanomalien. Der erste Typ führt zu singulären Peaks der Tag-Dichte an einer einzelnen Chromosomenposition, die viele Größenordnungen höher sind als die umgebende Dichte (Abb. 3a). Solche Peaks treten häufig an derselben Position auf beiden Chromosomensträngen auf. Die zweite Art von Anomalie führt zu ungleichmäßigen, breiten (>1.000 bp) Clustern erhöhter Tag-Dichte, die entweder auf einem oder beiden Strängen auftreten (Abb. 3b). Der dritte Typ weist kleine Cluster mit strangspezifischer Tag-Dichte auf, die dem Muster ähneln, das von einer stabilen Proteinbindungsposition erwartet wird, obwohl er typischerweise einen geringeren Abstand zwischen den Strangpeaks aufweist (Abb. 3c). Ein ähnlicher Satz von Anomalien kann in der Eingangssequenzierung anderer Organismen beobachtet werden (Daten nicht gezeigt).

Abbildung 3: Beispiele für Anomalien in Hintergrund-Tag-Verteilungen.

(a) Singuläre Positionen mit extrem hoher Tag-Anzahl. (b) Größere, ungleichmäßige Regionen mit erhöhter Hintergrundmarkierungsdichte. (c) Hintergrund-Tag-Dichtemuster, die echten Proteinbindungspositionen ähneln. Jedes Diagramm zeigt die Dichte der Tags aus ChIP- und Eingabeproben. Die Tag-Histogramme geben kombinierte Tag-Zählungen an.

Die erste Art von Anomalie kann aufgrund ihrer extremen Abweichung von der umgebenden Tag-Dichte leicht erkannt und beseitigt werden. Die anderen Arten von Anomalien, insbesondere die dritte, sind jedoch innerhalb der Chipdaten schwer zu unterscheiden. Dies deutet darauf hin, dass die Sequenzierung des Eingabematerials unerlässlich ist, um die Hintergrund-Tag-Verteilung ordnungsgemäß zu berücksichtigen. Die Sequenzierung eines Scheinkontrollexperiments (unspezifischer Antikörper oder kein Antikörper) kann ebenfalls erforderlich sein.

Um die ungleichmäßige Hintergrundverteilung zu kontrollieren, subtrahieren die unten vorgeschlagenen Bindungsmethoden die neu skalierte Hintergrund-Tag-Dichte, bevor sie Bindungspositionen bestimmen, falls solche Daten verfügbar sind. Darüber hinaus werden nur Bindungspositionen innerhalb von Bereichen mit signifikanten ChIP/Input-Tag-Verhältnissen akzeptiert2. Die Wirkung solcher Hintergrundkorrekturen wird in den folgenden Abschnitten charakterisiert.

Bindungserkennungsmethoden und relative Abdeckung von Bindungsstellen

Wir haben fünf verschiedene Methoden zum Aufrufen von Bindungsstellen untersucht, darunter zwei zuvor veröffentlichte Algorithmen (CSP, XSET) und drei eigene Methoden. Kurz gesagt, die ChIPSeq Peak Locator (CSP) -Methode identifiziert Regionen mit signifikanter Anreicherung im Vergleich zum Eingabeprofil und bestimmt Bindungspositionen als solche mit der höchsten Anzahl von Tags innerhalb solcher Regionen2. Die Extended Set (XSET) -Methode erweitert Positiv- und Negativstrang-Tags um die erwartete Länge des DNA-Fragments und bestimmt Bindungspositionen als solche mit der höchsten Anzahl überlappender Fragmente11.

Unsere Methoden nutzen das strangspezifische Tag-Muster, das an Bindungspositionen beobachtet wird (Abb. 1c). Das erste derartige Verfahren, Window Tag Density (WTD), ähnelt XSET, bewertet jedoch Positionen basierend auf den strangspezifischen Tag-Zählungen vor und nach der untersuchten Position (Abb. 4a). Das zweite Verfahren, Matching Strand Peaks (MSP), bestimmt lokale Peaks der strangspezifischen Tag-Dichte und identifiziert Positionen, die von positiven und negativen Strangpeaks vergleichbarer Größe im erwarteten Abstand umgeben sind (Abb. 4b). Die dritte Methode, Mirror Tag Correlation (MTC), scannt das Genom, um Positionen zu identifizieren, die ausgeprägte Positiv- und Negativ-Strang-Tag-Muster aufweisen, die sich gegenseitig spiegeln (Abb. 4c). Der Quellcode ist online verfügbar (ergänzender Quellcode), und ein aktuelles R-Paket kann unter http://compbio.med.harvard.edu/Supplements/ChIP-seq heruntergeladen werden.

Abbildung 4: Methoden zur Erkennung der Bindungsposition und ihre relative Empfindlichkeit.

(a) Schematische Darstellung des WTD-Verfahrens. Um Positionen mit einem Tag-Muster zu identifizieren, das von einer starken Bindung erwartet wird, berechnet das Verfahren die Differenz zwischen dem geometrischen Durchschnitt der Tag-Zählungen innerhalb der durch orange Farbe markierten Regionen (p1 und n2) und der durchschnittlichen Tag-Zählung innerhalb der durch grüne Farbe markierten Regionen (n1 und p2). (b) Die MSP-Methode identifiziert zuerst lokale Maxima auf positiven und negativen Strängen (offene Kreise) und bestimmt dann Positionen, an denen solche zwei Peaks in der richtigen Reihenfolge vorhanden sind, mit der erwarteten Trennung und vergleichbarer Größe. (c) Die MTC-Methode basiert auf der Spiegelkorrelation von Positiv- und Negativstrang-Tag-Dichten. Das Spiegelbild der Negativstrang-Tag-Dichte ist durch eine gestrichelte blaue Linie dargestellt. Tags innerhalb von 15 bp der Mittelposition werden weggelassen. (d) Abdeckung von NRSF-Motivübereinstimmungen mit hohem Vertrauen durch Top-Peaks. Das Diagramm zeigt den Anteil der Motivinstanzen, die (mit 50 bp) mit identifizierten Bindungspositionen übereinstimmen, als Funktion der Erhöhung der Anzahl der durch verschiedene Methoden identifizierten oberen Bindungspositionen. Die meisten Methoden, mit Ausnahme von MSP und CSP, können eine ähnlich hohe Abdeckung erzielen.

Obwohl für keinen der untersuchten Datensätze eine vollständige Liste der wahren Bindungsstellen bekannt ist, weisen alle drei Proteine bekannte Bindungssequenzspezifitäten auf. Während die in dieser Arbeit beschriebenen Bindungsnachweismethoden nicht auf Sequenzinformationen beruhen, haben wir Sequenzmotivinstanzen mit hoher Punktzahl verwendet, um die relativen Leistungen verschiedener Bindungsnachweismethoden zu bewerten. Dabei gehen wir nur davon aus, dass die Highscoring-Motiv-Instanzen eine repräsentative Teilmenge von True-Binding-Positionen enthalten und nicht alle Highscoring-Motive gebunden sein müssen oder dass alle True-Binding-Stellen eine Motivsignatur aufweisen. Wir bewerteten die Leistung unter Verwendung von kanonischen Sequenzmotiven für die Bindung durch NRSF und CTCF14,15 und das Gamma-aktivierte Site (GAS) -Motiv als Prädiktor für die STAT1-Bindung5,11. Die Bindungsnachweisverfahren liefern den identifizierten Bindungspositionen zugeordnete Peakgrößenwerte, wodurch eine Priorisierung der durch jedes Verfahren bestimmten Bindungspositionen ermöglicht wird.

Um die Sensitivität verschiedener Methoden zu vergleichen, haben wir eine zunehmende Anzahl von Top-Bindungspositionen ausgewählt, die von jeder Methode zurückgegeben wurden, und den Anteil der Motivvorkommen untersucht, für die eine Bindungsposition identifiziert wurde (Abb. 4d). Wir fanden heraus, dass 89% der ausgewählten NRSF-Motivmatches mit der höchsten Punktzahl mit den erkannten Bindungspositionen übereinstimmten. Die Motivabdeckungsrate übersteigt deutlich die von der Zufallsprognose erwartete, was einen Vergleich der relativen Leistungen der verschiedenen Bindungsnachweismethoden ermöglicht. Mit Ausnahme von MSP und CSP erreichen alle Verfahren eine ähnlich hohe Motivabdeckung. Die CSP-Methode schneidet für die prominenteren Bindungspositionen (Top 500) schlechter ab, während der MSP-Ansatz im gesamten Bereich schlecht abschneidet. Analysen der STAT1- und CTCF-Bindung zeigen analoge Ergebnisse in Bezug auf die relativen Leistungen der verschiedenen Methoden (Ergänzende Abb. 7 online). Diese Ergebnisse werden auch durch die Analyse von PCR-validierten Bindungsorten aus der Literatur2,11,15 (Ergänzende Fig. 8 und 9 online). Wir stellen fest, dass die Motiv- und PCR-validierten Testsätze nur einen Bruchteil der wahren Bindungsstellen darstellen. Da dieser Anteil für CTCF und STAT1 kleiner ist, werden größere Sätze von Top-Bindungspositionen verwendet, um die Testsatzabdeckung mit verschiedenen Methoden zu veranschaulichen.

Die im vorherigen Abschnitt beschriebenen Methoden der Hintergrundsubtraktion verbessern die NRSF-Motivabdeckung und erreichen den gleichen Abdeckungsgrad bei bis zu 11% weniger oberen Bindungspositionen (Ergänzende Abb. 10 online). Die Korrekturen haben nur geringe Auswirkungen auf die oberen 1.500 Bindungspositionen, die mit einer höheren Anzahl von Tags verbunden sind als falsch positive Peaks, die sich aus einem ungleichmäßigen Hintergrund ergeben. Die hintergrundgesteuerten falsch-positiven Positionen sind im Allgemeinen kleiner und beginnen, Vorhersagen zu beeinflussen, wenn bindungsstärkere Positionen berücksichtigt werden.

Präzision der Bindungspositionen

Um die räumliche Präzision zu bewerten, mit der Proteinbindungspositionen mit verschiedenen Methoden identifiziert werden, haben wir die Abstände zwischen vorhergesagten Positionen und Orten von Motivtreffern mit hoher Punktzahl analysiert (Abb. 5a). Für den NRSF-Datensatz prognostiziert die WTD-Methode Bindungspositionen mit größter Genauigkeit, wobei >60% der vorhergesagten Peaks innerhalb von 10 bp des Motivzentrums liegen (Abb. 5b und ergänzend Fig. 11a online). Es folgen die Methoden XSET, MTC und MSP, wobei CSP ∼40% der Peaks innerhalb von 10 bp der Motive aufruft. Hintergrundkorrekturen haben nur begrenzte Auswirkungen auf die Genauigkeit der vorhergesagten Positionen, wobei nur die WTD-Methode eine Verbesserung von 3% für starke Bindungspositionen zeigt (Daten nicht gezeigt).

Abbildung 5: Genauigkeit der ermittelten Bindungspositionen.

(a) Verteilung der Abstände zwischen Hochkonfidenz-NRSF-Motivinstanzen und Orten von Bindungspositionen, die mit verschiedenen Methoden identifiziert wurden. Der s.d. der resultierenden Verteilung (σ) wird für jede Methode angezeigt. Es wurden nur Motive berücksichtigt, die eine Bindungsstelle innerhalb von 100 bp enthielten. (b) Der Anteil der identifizierten Bindungspositionen innerhalb von 10 bp der NRSF-Motivposition wird für eine zunehmende Anzahl von Top-Bindungspositionen angezeigt, die mit verschiedenen Methoden identifiziert wurden. Nur Bindungsstellen, die innerhalb von 300 bp einer Sequenzmotivinstanz auftreten, werden in die Analyse einbezogen. Der mittlere Abstand zum Motivzentrum wurde für jedes Verfahren subtrahiert, um die nicht zentrale Position des Sequenzmotivs relativ zum Zentrum des geschützten Bindungsbereichs zu berücksichtigen. Analoge Diagramme sind für CTCF (c) und STAT1 (d) dargestellt. Die MTC-Methode erreicht die höchste Genauigkeit für CTCF und STAT1; WTD liefert jedoch genauere Positionen für die NRSF-Bindung.

Für die CTCF- und STAT1-Vorhersagen erreicht die MTC-Methode jedoch eine bessere Genauigkeit als WTD (Abb. 5c, d und ergänzend Fig. 11b, c). Der Unterschied kann durch die Eigenschaften der Tag-Verteilung unmittelbar in der Nähe der Mitte des geschützten Bereichs erklärt werden. Im Gegensatz zu WTD und XSET berücksichtigt die MTC-Methode bei der Bewertung von Bindungspositionen keine Tags innerhalb der zentralen Region (30 bp). Die Änderung der MTC-Methode, um solche Positionen zu berücksichtigen, reduziert die Genauigkeit der ermittelten Bindungspositionen auf ein Niveau, das den WTD-Vorhersagen ähnelt. Bei der Untersuchung der Gesamtverteilung der Tag-Positionen relativ zu Motivtreffern mit hoher Punktzahl stellten wir fest, dass CTCF und STAT1 unerwartete Spitzen der Tag-Dichte unmittelbar benachbart (innerhalb von 10-15 bp) zur Motivposition zeigten (Ergänzende Abb. 12 online). Dieses Muster, bei dem kleine Sätze negativer Strangmarken unmittelbar stromaufwärts des Schutzbereichs erscheinen und von den unmittelbar stromabwärts liegenden positiven Strangmarken gespiegelt werden, kann sich aus vernetzenden Wechselwirkungen ergeben, die außerhalb des zentralen Schutzbereichs auftreten (Fig. 1b, gestrichelte Linie). Infolgedessen neigen Peak-Detektionsmethoden, die die Tags in der Nähe der zentralen Region berücksichtigen, dazu, Positionen 15-20 bp stromaufwärts oder stromabwärts der wahren Bindungsstelle aufzurufen.

Statistisch signifikante Positionen

Die Bindungsnachweismethoden sollten die resultierenden Bindungsstellen auf diejenigen beschränken, die wahrscheinlich nicht zufällig aufgetreten sind. Das gewünschte Maß an statistischer Signifikanz wird üblicherweise in Form einer False Discovery Rate (FDR) oder der Anzahl der erwarteten falsch positiven Positionen (E-Wert) angegeben.

Die Detektionsverfahren können dann die Hintergrund-Tag-Verteilung verwenden, um den minimalen Bindungspositions-Score zu bestimmen, der das angegebene Signifikanzniveau erfüllt. Viele falsch positive Anrufe stammen aus den zuvor beschriebenen großen anomalen Regionen. Diese systematischen Fehler können vor der Bestimmung von Signifikanzschwellen gefiltert werden. Basierend auf den Eingabebeispieldaten für die NRSF fanden wir insgesamt 2.755 Bindungspositionen für den FDR-Schwellenwert von 0,01 mit der WTD-Methode. Dies entspricht weitgehend der Anzahl der Top-Peaks, die erforderlich waren, um eine maximale Abdeckung der in den vorherigen Abschnitten verwendeten Motivpositionen mit hoher Punktzahl zu erreichen (Abb. 4d).

In Ermangelung einer empirischen Schätzung der Hintergrund-Tag-Verteilung kann es möglich sein, sich auf ein analytisches Modell zu verlassen. Das einfachste derartige Modell ist ein räumlicher Poisson-Prozess, bei dem die Tags gleichmäßig über die zugänglichen Regionen des Genoms verteilt11. Da jedoch die wahren Hintergrund-Tag-Verteilungen einen signifikanten Grad an Tag-Clustering aufweisen, ist dieser Poisson-basierte Schwellenwert signifikant niedriger als der aus empirischer Hintergrundmessung erhaltene, was zu einer Überschätzung der Anzahl signifikanter Bindungspositionen führt (9.206 gegenüber 2.755 für eine FDR von 0,01). Der Vergleich mit den Input-basierten FDR-Berechnungen zeigt, dass das Poisson-basierte Modell FDRs je nach Ziel-FDR zwischen dem 8- und 20-fachen unterschätzt (ergänzende Tabelle 3 online).

Eine genauere Schätzung der statistischen Schwellenwerte kann durch Berücksichtigung des in der Hintergrund-Tag-Verteilung vorhandenen Clustergrads erhalten werden. Ein einfacher Ansatz besteht darin, eine Randomisierung zu verwenden, bei der Tags, die an denselben oder nahe gelegenen Positionen auftreten, zusammengehalten werden, anstatt ihnen unabhängige Positionen zuzuweisen, wie dies mit dem Poisson-Modell der Fall ist. Die Anzahl der signifikanten Positionen, die mit solchen Randomisierungsmodellen mit unterschiedlichen Behältergrößen bestimmt wurden, ist in der ergänzenden Tabelle 3 dargestellt. Für die FDR von 0.01, ein Randomisierungsmodell, das Tags, die an genau derselben Position im Genom vorkommen, zusammenhält, führt zu einer vergleichbaren Anzahl von NRSF-Bindungspositionen (2.985). Wir verwendeten eine solche Randomisierung, um die Anzahl der statistisch signifikanten Bindungspositionen für die Datensätze CTCF (2.3981 Positionen für eine FDR von 0,01) und STAT1 (44.921 Positionen für eine FDR von 0,01) zu bestimmen. Das Anpassen der Anzahl der Bindungspositionen für strengere FDR-Werte erfordert größere Tag-Randomisierungsblöcke (ergänzende Tabelle 3), was darauf hinweist, dass einfache Randomisierungsstrategien die Hintergrundclustereigenschaften nicht richtig berücksichtigen können.

Testen auf ausreichende Sequenzierungstiefe

Um zu beurteilen, ob die Sequenzierungstiefe einen Sättigungspunkt erreicht hat, ab dem keine zusätzlichen Bindungsstellen mehr erkannt werden, analysierten wir, wie sich die Menge der vorhergesagten Bindungsstellen änderte, wenn nur eine Teilmenge von Tag-Daten für die Vorhersage verwendet wurde. Indem wir zunehmende Bruchteile der Tag-Daten abtasteten, bestimmten wir Bindungspositionen und verglichen diese Vorhersagen mit dem Satz von Referenzbindungsstellen, die aus den vollständigen Daten identifiziert wurden (Abb. 6a und ergänzend Fig. 13 online).

Abbildung 6: Analyse der Sequenziertiefe.

(a) Angesichts der NRSF-Bindungspositionen, die unter Verwendung des vollständigen Datensatzes (y-Achse) bestimmt wurden, zeigt die durchgezogene schwarze Kurve den Anteil der Positionen, die unter Verwendung kleinerer Teile der Tag-Daten (x-Achse) vorhergesagt werden können (innerhalb von 50 bp). Alle Bindungsvorhersagen werden mit der WTD-Methode mit einem FDR von 0,01 generiert. Die Kurve erreicht keine horizontale Asymptote, was darauf hinweist, dass sich der Satz der detektierten NRSF-Bindungsstellen bei der aktuellen Sequenzierungstiefe nicht stabilisiert hat. Die zusätzlichen Kurven beschränken die Analyse auf Bindungspositionen, deren Falten-Anreicherungsverhältnis über dem Hintergrund signifikant (P < 0,05) höher als 7,5 (MSER: Minimales gesättigtes Anreicherungsverhältnis, gestrichelte Linie) und 30 (gepunktete Linie) ist. Die beobachteten Anreicherungsverhältnisse werden unabhängig für jede Tag-Teilstichprobe (x-Achse) ausgewertet. (b) Verteilung der Tag-Zählungen um NRSF-Motivpositionen mit hoher Konfidenz. Positionen mit Null-Tags wurden nicht berücksichtigt. (c) Die Beziehung zwischen dem MSER der detektierten Bindungspositionen und der Sequenzierungstiefe (ausgedrückt als Bruchteil des gesamten Datensatzes). Die gestrichelte graue Linie zeigt ein Log-Log-Modell, das verwendet werden kann, um die Sequenzierungstiefe abzuschätzen, die erforderlich ist, um die Erkennung von Bindungspositionen mit einem niedrigeren Falt-Anreicherungsverhältnis zu sättigen. Nach dieser Schätzung wären 1,2 × 106 weitere Sequenz-Tags erforderlich, um die Erkennung von Bindungspositionen zu sättigen, die doppelt über den Hintergrund angereichert sind (MSER = 2 entspricht y = 0, an welchem Punkt die gestrichelte Linie die x-Achse kreuzt: x = 2,8 × 106).

Wenn sich die Sequenziertiefe über den Sättigungspunkt hinaus bewegt hat, wäre es möglich, nur mit einer Teilmenge der Tag-Daten zum Referenzsatz zu gelangen. Wir fanden jedoch heraus, dass keiner der drei Datensätze einen solchen Sättigungspunkt (horizontale Asymptote) erreichte und dass der Anteil der konkordanten Bindungspositionen abnahm, wenn auch nur ein kleiner Teil der Tag-Daten weggelassen wurde. Dies deutet darauf hin, dass mit zunehmender Sequenziertiefe kontinuierlich zusätzliche Bindungsstellen identifiziert werden. Der beobachtete Trend gilt für einen Bereich von FDR-Schwellenwerten (Ergänzende Abb. 13): Zwar kann die Steigung der Sättigungskurve durch Einstellung einer wesentlich strengeren FDR-Schwelle verringert werden, dies führt jedoch zu einer deutlich geringeren Anzahl von Bindungsstellen.

Um die Eigenschaften der Bindungsstellenabdeckung zu verstehen, untersuchten wir die Anzahl der Tags, die mit Sequenzmotiven mit hoher Punktzahl assoziiert sind (Abb. 6b und ergänzend Fig. 14 online). In allen drei Datensätzen zeigte die Verteilung der Tag-Zählungen einen sehr großen dynamischen Bereich. Während einige Positionen Hunderte von Tags hatten, stiegen andere kaum über die erwarteten Hintergrundzahlen. Darüber hinaus schienen diese Verteilungen insofern kontinuierlich zu sein, als sie keine unterschiedlichen Subpopulationen von Bindungspositionen aufwiesen. Dies deutet darauf hin, dass eine zunehmende Sequenzierungstiefe es ermöglichen kann, eine größere Anzahl schwacher Bindungsstellen zu unterscheiden, ohne einen qualitativen Schwellenwert, der einen vollständigen Satz von Bindungsstellen definieren würde.Da ausgeprägtere Bindungspositionen unter Verwendung einer kleineren Sequenzierungstiefe identifiziert werden, kann ein Experiment mit gegebener Tiefe die Detektion der Bindungspositionen sättigen, die ein bestimmtes Tag-Anreicherungsverhältnis relativ zum Hintergrund überschreiten. Wir bezeichnen dieses Anreicherungsverhältnis als das minimale gesättigte Anreicherungsverhältnis (MSER). Die Sättigungskriterien, die die maximal zulässige Steigung der Sättigungskurve definieren (Abb. 6a) kann als Anforderung an die Stabilität des Satzes der vorhergesagten Bindungsstellen formuliert werden. Zum Beispiel benötigen wir 99% Übereinstimmung in der Menge der verbindlichen Positionen, wenn der Datensatz um 105 Tags reduziert wird. Unter Verwendung von NRSF-Eingangs-Tag-Daten zur Bestimmung der Konfidenzintervalle für das Anreicherungsverhältnis jeder Bindungsposition stellten wir fest, dass die erreichte Sequenzierungstiefe ausreichte, um die Erkennung von Bindungspositionen mit Tag-Anreicherungsverhältnissen signifikant über 7,5 zu sättigen (P-Wert < 0,05; Abb. 6a und ergänzend Fig. 15 online). Von den 2.755 NRSF-Bindungspositionen, die bei einer FDR von 0 detektiert wurden.01 hatten 1879 (68%) Anreicherungsverhältnisse, die deutlich über dem MSER-Wert von 7,5 lagen (Ergänzende Fig. 13). Wir stellen fest, dass ein bestimmter MSER-Wert nicht impliziert, dass alle wahren Bindungspositionen dieser Faltenanreicherung entdeckt wurden; Stattdessen zeigt es an, dass neue Bindungspositionen mit einer Anreicherung, die signifikant höher als der MSER-Wert ist, mit einer ausreichend langsamen Rate erkannt werden. Aus den für jede Bindungsposition berechneten Anreicherungskonfidenzintervallen kann ein potentieller Bereich wahrer Anreicherungsverhältnisse abgeschätzt werden (Ergänzende Fig. 16 online). Da die Schätzung der Anreicherungsverhältnis-Konfidenzintervalle auch von der Menge der verfügbaren Informationen über die Hintergrund-Tag-Verteilung abhängt, sollten Eingangsdatensätze mit ähnlicher genomischer Abdeckung verwendet werden, wenn verschiedene MSER-Werte verglichen werden.

Für praktische Zwecke ist es wichtig, die Anzahl der Tags vorhersagen zu können, die erforderlich sind, um die Erkennung von Peaks über einem bestimmten Zielanreicherungsverhältnis zu sättigen. Die Beziehung zwischen der Anzahl der Tags und dem MSER führt zu einer Abhängigkeit, die mithilfe eines Log-Log-Modells extrapoliert werden kann (Abb. 6c). Wir sagen voraus, zum Beispiel, dass 1.2 × 106 weitere Tags wären erforderlich, um eine Sättigung bei der Erkennung von NRSF-Bindungspositionen mit einer Anreicherung über dem Hintergrund zu erreichen, die signifikant höher als das Zweifache ist (P-Wert < 0.05). Die MSER-Werte und Extrapolationen hängen von den Sättigungskriterien und von Methoden zur Berechnung der Anreicherungskonfidenzintervalle ab (Ergänzende Abb. 17 online).

Eine Erhöhung der Sequenziertiefe dürfte auch zu einer erhöhten Genauigkeit der ermittelten Bindungspositionen führen. Mit Hilfe des NRSF-Datensatzes analysierten wir, wie der mittlere Abstand zwischen den erkannten Bindungspositionen und Sequenzmotiven von der Anzahl der für Vorhersagen verwendeten Tags abhängt. Unsere Ergebnisse zeigen, dass sich die Genauigkeit mit zunehmender Anzahl von Tags tatsächlich verbessert hat (Ergänzende Abb. 18 online). Die Verbesserung war jedoch gering: Die Genauigkeit verringerte sich nur um einige Basenpaare, selbst wenn die Anzahl der Tags halbiert wurde.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.