Figura 2: Selección de clases de etiquetas informativas basadas en el cambio en la magnitud de correlación cruzada de cadenas.
Para cada clase de calidad de alineación de etiquetas enumeradas en la Tabla 1, las gráficas muestran el cambio en el perfil de correlación cruzada de medias de cadena cuando esta clase de etiquetas se considera junto con la clase base de etiquetas perfectamente alineadas (25 pb, sin desajustes). (a–c) Tres parcelas corresponden a clases de etiquetas sin desajustes (a), con un único desajuste (b) y con dos desajustes (c). Las clases de etiquetas informativas mejoran la correlación cruzada (marcadas con*) y se incorporan al conjunto de etiquetas final. El eje y da el cambio medio en el perfil de correlación cruzada dentro de 40 pb alrededor del pico de correlación cruzada (Fig. 1d).
Control de la distribución de etiquetas de fondo
La significación estadística de la agrupación de etiquetas observada para una posición de unión a proteínas putativa depende del patrón de fondo esperado. El modelo más simple asume que la densidad de la etiqueta de fondo se distribuye uniformemente a lo largo del genoma e independientemente entre las varas11. Además de la muestra de chip NRSF, Johnson et al.2 han secuenciado una muestra de entrada de control, proporcionando una evaluación experimental de la distribución de etiquetas de fondo. Encontramos que la distribución de etiquetas de fondo exhibe un grado de agrupamiento que es significativamente mayor de lo esperado de un proceso de Poisson homogéneo sugerido por el modelo simple mencionado anteriormente (P < 10-6, Suplemento Fig. 6 en línea).
Nuestro examen de la densidad de etiquetas de entrada identifica tres tipos principales de anomalías de fondo. El primer tipo da como resultado picos singulares de densidad de etiquetas en una sola posición cromosómica muchos órdenes de magnitud más altos que la densidad circundante (Fig. 3a). Tales picos ocurren comúnmente en la misma posición en ambas hebras cromosómicas. El segundo tipo de anomalía da lugar a grupos anchos no uniformes (>1.000 pb) de mayor densidad de etiquetas que aparecen en una o ambas hebras (Fig. 3b). El tercer tipo exhibe pequeños grupos de densidad de etiquetas específicas de hebras que se asemejan al patrón esperado de una posición estable de unión a proteínas, aunque típicamente muestra una separación más pequeña entre los picos de las hebras (Fig. 3c). Se puede observar un conjunto similar de anomalías en la secuenciación de entrada de otros organismos (no se muestran datos).
Figura 3: Ejemplos de anomalías en distribuciones de etiquetas de fondo.
(a) Posiciones singulares con un recuento de etiquetas extremadamente alto. b) Regiones más grandes, no uniformes, con mayor densidad de etiquetas de fondo. (c) Patrones de densidad de etiquetas de fondo que se asemejan a posiciones de unión a proteínas reales. Cada gráfico muestra la densidad de etiquetas de muestras de ChIP y de entrada. Los histogramas de etiquetas dan recuentos combinados de etiquetas.
El primer tipo de anomalía se puede detectar y eliminar fácilmente debido a su desviación extrema de la densidad de la etiqueta circundante. Sin embargo, los otros tipos de anomalías, en particular la tercera, son difíciles de distinguir dentro de los datos del ChIP. Esto indica que la secuenciación del material de entrada es esencial para tener en cuenta adecuadamente la distribución de etiquetas de fondo. También puede ser necesaria la secuenciación de un experimento de control simulado (anticuerpo inespecífico o ningún anticuerpo).
Para controlar la distribución de fondo desigual, los métodos de enlace propuestos a continuación restan la densidad de etiquetas de fondo reescalado antes de determinar las posiciones de enlace, si se dispone de dichos datos. Además, solo se aceptan posiciones de unión dentro de regiones con proporciones significativas de ChIP/entrada-etiqueta 2. El efecto de esas correcciones de antecedentes se describirá en las secciones siguientes.
Métodos de detección de encuadernación y cobertura relativa de los sitios de encuadernación
Hemos examinado cinco métodos diferentes de llamar a las posiciones de encuadernación, incluidos dos algoritmos publicados previamente (CSP, XSET) y tres métodos propios. En resumen, el método ChIPSeq Peak locator (CSP) identifica regiones de enriquecimiento significativo en comparación con el perfil de entrada y determina las posiciones de unión como aquellas con el mayor número de etiquetas dentro de dichas regiones2. El método de conjunto extendido (XSET) extiende las etiquetas de hebras positivas y negativas por la longitud esperada del fragmento de ADN, y determina las posiciones de unión como aquellas con el mayor número de fragmentos superponidos11.
Nuestros métodos aprovechan el patrón de etiqueta específico de la hebra observado en las posiciones de unión (Fig. 1c). El primer método de este tipo, densidad de etiquetas de ventana (DMT), es similar al XSET, pero puntúa las posiciones en función de los recuentos de etiquetas específicos de la cadena aguas arriba y aguas abajo de la posición examinada (Fig. 4a). El segundo método, picos de cadena coincidentes (MSP), determina picos locales de densidad de etiquetas específicas de cadena e identifica posiciones rodeadas de picos de cadena positivos y negativos de una magnitud comparable a la distancia esperada (Fig. 4b). El tercer método, correlación de etiquetas de espejo (MTC), escanea el genoma para identificar posiciones que exhiben patrones de etiquetas de hebras positivas y negativas pronunciadas que se reflejan entre sí (Fig. 4c). El código fuente está disponible en línea (Código Fuente complementario), y se puede descargar un paquete R actualizado en http://compbio.med.harvard.edu/Supplements/ChIP-seq.
Figura 4: Métodos de detección de posición de unión y su sensibilidad relativa.
(a) ilustración Esquemática de la DMD método. Para identificar las posiciones con un patrón de etiqueta esperado de una unión fuerte, el método calcula la diferencia entre el promedio geométrico de los recuentos de etiquetas dentro de las regiones marcadas con color naranja (p1 y n2) y el recuento promedio de etiquetas dentro de las regiones marcadas con color verde (n1 y p2). b) El método MSP identifica en primer lugar los máximos locales en los hilos positivos y negativos (círculos abiertos) y, a continuación, determina las posiciones en las que esos dos picos están presentes en el orden correcto, con la separación esperada y la magnitud comparable. c) El método MTC se basa en la correlación de espejo de densidades de etiquetas de hebras positivas y negativas. La imagen especular de la densidad de etiquetas de hebra negativa se muestra mediante una línea azul rota. Se omiten las etiquetas dentro de 15 pb de la posición central. d) Cobertura de las coincidencias de motivos de alta confianza de la NRSF por picos más altos. La gráfica muestra la fracción de instancias de motivos que coinciden (con 50 pb) con posiciones de unión identificadas, en función de aumentar el número de posiciones de unión superiores identificadas por diferentes métodos. La mayoría de los métodos, excepto los de MSP y CSP, son capaces de lograr una cobertura igualmente alta.
Aunque no se conoce una lista completa de sitios de unión verdaderos para ninguno de los conjuntos de datos examinados, las tres proteínas exhiben especificidades de secuencia de unión conocidas. Si bien los métodos de detección de encuadernación descritos en este trabajo no se basan en información de secuencia, utilizamos instancias de motivos de secuencia de alta puntuación para evaluar el rendimiento relativo de diferentes métodos de detección de encuadernación. Al hacerlo, asumimos solo que las instancias de motivos de alta puntuación contienen un subconjunto representativo de posiciones de encuadernación verdaderas, y no requieren que todos los motivos de alta puntuación estén encuadernados, o que todos los sitios de encuadernación verdaderos exhiban una firma de motivo. Se evaluó el rendimiento utilizando motivos de secuencia canónica para la unión por NRSF y CTCF14,15, y el motivo del sitio activado por gamma (GAS) como predictor de la unión a STAT15,11. Los métodos de detección de encuadernación proporcionan puntuaciones de magnitud máxima asociadas con las posiciones de encuadernación identificadas, lo que permite priorizar las posiciones de encuadernación determinadas por cada método.
Para comparar la sensibilidad de diferentes métodos, seleccionamos un número creciente de posiciones de unión superiores devueltas por cada método y examinamos la fracción de ocurrencias de motivos para las que se identificó una posición de unión (Fig. 4d). Encontramos que el 89% de las coincidencias de motivos NRSF de mayor puntuación seleccionadas coincidieron con las posiciones de unión detectadas. La tasa de cobertura del motivo supera claramente la esperada de la predicción aleatoria, lo que permite comparar el rendimiento relativo de los diferentes métodos de detección de encuadernación. A excepción de MSP y CSP, todos los métodos logran una cobertura de motivo similar. El método CSP funciona peor para las posiciones de unión más prominentes (top 500), mientras que el enfoque MSP funciona mal en todo el rango. Los análisis de la unión STAT1 y CTCF muestran resultados análogos en términos de rendimiento relativo de los diferentes métodos (Fig. 7 en línea). Estos resultados también se confirman mediante el análisis de los loci de unión validados por PCR de la literatura2, 11, 15 (Figs suplementarias. 8 y 9 en línea). Observamos que los conjuntos de prueba validados por motivo y PCR representan solo una fracción de los sitios de unión verdaderos. Como esta fracción es más pequeña para CTCF y STAT1, se utilizan conjuntos más grandes de posiciones de unión superiores para ilustrar la cobertura del conjunto de pruebas mediante diferentes métodos.
Los métodos de sustracción de fondo descritos en la sección anterior mejoran la cobertura del motivo NRSF, alcanzando el mismo nivel de cobertura con hasta un 11% menos de posiciones de unión superiores (Fig.Suplementaria. 10 en línea). Las correcciones tienen poco efecto en las 1500 posiciones de enlace superiores, que están asociadas con un recuento de etiquetas más alto que cualquier pico positivo falso que surja de un fondo desigual. Las posiciones falsas positivas impulsadas por el trasfondo son generalmente de menor magnitud y comienzan a influir en las predicciones a medida que se consideran posiciones más vinculantes.
Precisión de las posiciones de unión
Para evaluar la precisión espacial con la que se identifican las posiciones de unión a proteínas mediante diferentes métodos, hemos analizado las distancias entre las posiciones predichas y las ubicaciones de los impactos de motivos de alta puntuación (Fig. 5a). Para el conjunto de datos NRSF, el método WTD predice las posiciones de unión con la mayor precisión, con >el 60% de los picos previstos ubicados dentro de los 10 pb del centro del motivo (Fig. 5b y Suplemento Fig. 11a en línea). Es seguido por los métodos XSET, MTC y MSP, con CSP llamando al 4 40% de los picos dentro de los 10 pb de los motivos. Las correcciones de fondo tienen un efecto limitado en la precisión de las posiciones previstas, ya que solo el método WTD muestra una mejora del 3% para las posiciones de encuadernación fuertes (no se muestran los datos).
Figura 5: Precisión de determinadas posiciones de enlace.
(a) Distribución de distancias entre instancias de motivos NRSF de alta confianza y ubicaciones de posiciones de enlace identificadas por diferentes métodos. El s. d. de la distribución resultante (σ) se muestra para cada método. Solo se consideraron los motivos que contenían una posición de unión dentro de los 100 pb. (b) La fracción de las posiciones de unión identificadas dentro de 10 pb de la posición del motivo NRSF se muestra para un número creciente de posiciones de unión superiores identificadas por diferentes métodos. En el análisis solo se incluyen las posiciones de unión que se producen dentro de los 300 pb de una instancia de motivo de secuencia. La distancia mediana al centro del motivo se restó para cada método para tener en cuenta la posición no central del motivo de secuencia en relación con el centro de la región de unión protegida. Se muestran gráficos análogos para CTCF (c) y STAT1 (d). El método MTC logra la mayor precisión para CTCF y STAT1; sin embargo, el DMT proporciona posiciones más precisas para la unión NRSF.
Para las predicciones CTCF y STAT1, sin embargo, el método MTC logra una mayor precisión que el DMT (Fig. 5c, d y Suplemento Fig. 11b, c). La diferencia puede explicarse por las propiedades de la distribución de etiquetas inmediatamente cerca del centro de la región protegida. A diferencia de WTD y XSET, el método MTC no tiene en cuenta las etiquetas dentro de la región central (30 pb) al anotar las posiciones de encuadernación. La modificación del método MTC para tener en cuenta tales posiciones reduce la precisión de las posiciones de encuadernación determinadas a un nivel similar a las predicciones del DMT. Al examinar la distribución general de las posiciones de las etiquetas en relación con los aciertos de motivos de alta puntuación, encontramos que CTCF y STAT1 mostraron picos inesperados de densidad de etiquetas inmediatamente adyacentes (dentro de 10-15 pb) a la posición del motivo (Fig.Suplementaria). 12 en línea). Este patrón, en el que pequeños conjuntos de etiquetas de cadena negativa aparecen inmediatamente antes de la región protegida y son reflejados por las etiquetas de cadena positiva inmediatamente después, puede ser el resultado de interacciones de reticulación que ocurren más allá de la región protegida central (Fig. 1b, línea rota). Como resultado, los métodos de detección de picos que tienen en cuenta las etiquetas cerca de la región central tienden a llamar a las posiciones 15-20 pb aguas arriba o aguas abajo del verdadero sitio de unión.
Posiciones estadísticamente significativas
Los métodos de detección de unión deben limitar las posiciones de unión resultantes a aquellas que no es probable que se hayan producido por casualidad. El nivel deseado de significación estadística se da comúnmente en términos de una tasa de descubrimiento falso (FDR) o el número de posiciones falsas positivas esperadas (valor E).
Los métodos de detección pueden usar la distribución de etiquetas de fondo para determinar la puntuación de posición de enlace mínima que satisface el nivel de significación especificado. Muchas llamadas positivas falsas se originan en las grandes regiones anómalas descritas anteriormente. Estos errores sistemáticos pueden filtrarse antes de determinar los umbrales de significación. Sobre la base de los datos de la muestra de entrada para el NRSF, encontramos un total de 2.755 posiciones de unión para el umbral FDR de 0,01 utilizando el método WTD. Esto se corresponde estrechamente con el número de picos superiores que se requerían para lograr la cobertura máxima de las posiciones de motivos de alta puntuación utilizadas en las secciones anteriores (Fig. 4d).
En ausencia de una estimación empírica de la distribución de etiquetas de fondo, puede ser posible confiar en un modelo analítico. El modelo más simple de este tipo es un proceso de Poisson espacial donde las etiquetas se distribuyen uniformemente a través de las regiones accesibles del genoma11. Sin embargo, debido a que las distribuciones de etiquetas de fondo reales exhiben un grado significativo de agrupación de etiquetas, este umbral basado en Poisson es significativamente más bajo que el obtenido de la medición de fondo empírica, lo que resulta en una sobreestimación del número de posiciones de enlace significativas (9,206 versus 2,755 para un FDR de 0.01). La comparación con los cálculos de FDR basados en datos de entrada revela que el modelo basado en Poisson subestima FDR entre 8 y 20 veces, dependiendo del FDR objetivo (Tabla suplementaria 3 en línea).
Se puede obtener una estimación más cercana de los umbrales estadísticos teniendo en cuenta el grado de agrupación presente en la distribución de etiquetas de fondo. Un enfoque simple es usar una aleatorización que mantenga las etiquetas que ocurren en la misma posición o en posiciones cercanas juntas, en lugar de asignarles posiciones independientes, como se hace con el modelo de Poisson. El número de posiciones significativas determinadas utilizando estos modelos de aleatorización con diferentes tamaños de contenedores se muestra en la Tabla Suplementaria 3. Para el FDR de 0.01, un modelo de aleatorización que mantiene juntas las etiquetas que ocurren exactamente en la misma posición en el genoma da como resultado un número comparable de posiciones de unión a NRSF (2.985). Utilizamos dicha aleatorización para determinar el número de posiciones de unión estadísticamente significativas para los conjuntos de datos CTCF (2.3981 posiciones para un FDR de 0,01) y STAT1 (44.921 posiciones para un FDR de 0,01). La coincidencia del número de posiciones de enlace para valores FDR más estrictos requiere bloques de aleatorización de etiquetas más grandes (Tabla suplementaria 3), lo que indica que las estrategias de aleatorización simples no pueden tener en cuenta adecuadamente las propiedades de agrupación en segundo plano.
Pruebas de profundidad de secuenciación suficiente
Para evaluar si la profundidad de secuenciación ha alcanzado un punto de saturación más allá del cual no se detectan sitios de unión adicionales, analizamos cómo cambió el conjunto de los sitios de unión predichos cuando solo se utilizó un subconjunto de datos de etiquetas para la predicción. Muestreando fracciones crecientes de los datos de la etiqueta, determinamos las posiciones de unión y comparamos estas predicciones con el conjunto de sitios de unión de referencia identificados a partir de los datos completos (Fig. 6a y Suplemento Fig. 13 en línea).
Figura 6: Análisis de la profundidad de secuenciación.
(a) Dadas las posiciones de enlace NRSF determinadas utilizando el conjunto de datos completo (eje y), la curva de negro sólido muestra la fracción de posiciones que se pueden predecir (dentro de 50 pb) utilizando porciones más pequeñas de los datos de la etiqueta (eje x). Todas las predicciones de enlace se generan con un FDR de 0,01 utilizando el método WTD. La curva no alcanza una asíntota horizontal, lo que indica que el conjunto de sitios de unión NRSF detectados no se ha estabilizado a la profundidad de secuenciación actual. Las curvas adicionales limitan el análisis a posiciones de enlace cuya relación de enriquecimiento de pliegue sobre el fondo es significativamente (P < 0,05) superior a 7,5 (MSER: Relación de Enriquecimiento saturado mínimo, línea discontinua) y 30 (línea punteada). Las relaciones de enriquecimiento observadas se evalúan de forma independiente para cada submuestra de etiquetas (eje x). b) Distribución de los recuentos de etiquetas en torno a las posiciones de motivos de alta confianza de la NRSF. No se incluyeron las posiciones con cero etiquetas. c) La relación entre el TME de las posiciones de enlace detectadas y la profundidad de secuenciación (expresada como fracción del conjunto de datos completo). La línea gris discontinua muestra un modelo log-log que se puede utilizar para estimar la profundidad de secuenciación necesaria para saturar la detección de posiciones de encuadernación con una relación de enriquecimiento de pliegues más baja. Según esa estimación, se necesitarían 1,2 × 106 etiquetas de secuencia más para saturar la detección de posiciones de enlace que están enriquecidas dos veces sobre el fondo (MSER = 2 corresponde a y = 0, momento en el que la línea discontinua cruza el eje x: x = 2,8 × 106).
Si la profundidad de secuenciación se ha movido más allá del punto de saturación, sería posible llegar al conjunto de referencia utilizando solo un subconjunto de los datos de la etiqueta. Sin embargo, encontramos que ninguno de los tres conjuntos de datos alcanzó tal punto de saturación (asíntota horizontal), y que la fracción de las posiciones de unión concordantes disminuyó cuando se omitió incluso una pequeña fracción de los datos de etiquetas. Esto indica que se están identificando continuamente sitios de enlace adicionales con una profundidad de secuenciación cada vez mayor. La tendencia observada se mantiene para una gama de umbrales FDR(Fig. 13): aunque la pendiente de la curva de saturación se puede reducir estableciendo un umbral FDR considerablemente más estricto, esto da como resultado un número significativamente menor de sitios de unión.
Para comprender las propiedades de la cobertura del sitio de unión, examinamos los recuentos de etiquetas asociados con motivos de secuencia de alta puntuación (Fig. 6b y Suplemento Fig. 14 en línea). En los tres conjuntos de datos, la distribución de los recuentos de etiquetas mostró un rango dinámico muy amplio. Mientras que algunas posiciones tenían cientos de etiquetas, otras apenas superaban los recuentos de fondo esperados. Además, estas distribuciones parecían ser continuas en el sentido de que no mostraban subpoblaciones distintas de posiciones de unión. Esto sugiere que el aumento de la profundidad de secuenciación puede permitir distinguir un mayor número de posiciones débiles de encuadernación sin un umbral cualitativo que defina un conjunto completo de sitios de encuadernación.
A medida que se identifican posiciones de unión más pronunciadas utilizando una profundidad de secuenciación más pequeña, un experimento de una profundidad dada puede saturar la detección de las posiciones de unión que exceden una cierta relación de enriquecimiento de etiquetas en relación con el fondo. Nos referimos a esta relación de enriquecimiento como la relación de enriquecimiento saturado mínimo (MSER). Los criterios de saturación que definen la pendiente máxima aceptable de la curva de saturación (Fig. 6a) puede formularse como un requisito para la estabilidad del conjunto de sitios de unión previstos. Por ejemplo, requerimos un 99% de acuerdo en el conjunto de posiciones de enlace cuando el conjunto de datos se reduce en 105 etiquetas. Utilizando datos de etiquetas de entrada NRSF para determinar los intervalos de confianza para la relación de enriquecimiento de cada posición de unión, encontramos que la profundidad de secuenciación alcanzada fue suficiente para saturar la detección de posiciones de unión con relaciones de enriquecimiento de etiquetas significativamente superiores a 7,5 (valor de P < 0,05; Fig. 6a y Suplemento Fig. 15 en línea). De las 2.755 posiciones de unión NRSF detectadas en un FDR de 0.01, 1,879 (68%) tuvieron ratios de enriquecimiento significativamente mayores que el valor de MSER de 7.5 (Fig.Suplementaria. 13). Observamos que un valor de TME en particular no implica que se hayan descubierto todas las posiciones de encuadernación verdaderas de ese enriquecimiento por plegado; en cambio, indica que se están detectando a un ritmo suficientemente lento nuevas posiciones de encuadernación con un enriquecimiento significativamente mayor que el valor de TME. A partir de los intervalos de confianza de enriquecimiento calculados para cada posición de unión, se puede evaluar un rango potencial de relaciones de enriquecimiento reales (Fig.Suplementaria. 16 en línea). Dado que la estimación de los intervalos de confianza de la relación de enriquecimiento también depende de la cantidad de información disponible sobre la distribución de etiquetas de fondo, se deben utilizar conjuntos de datos de entrada de cobertura genómica similar al comparar diferentes valores de TME.
Para fines prácticos, es importante poder predecir el número de etiquetas necesarias para saturar la detección de picos por encima de una relación de enriquecimiento objetivo dada. La relación entre el número de etiquetas y el MSER se establece en una dependencia que se puede extrapolar utilizando un modelo log-log (Fig. 6c). Podemos predecir, por ejemplo, que 1.se requerirían 2 × 106 etiquetas más para alcanzar la saturación en la detección de posiciones de unión NRSF con enriquecimiento sobre el fondo significativamente superior al doble (valor de P < 0.05). Los valores y extrapolaciones del TME dependen de los criterios de saturación y de los métodos utilizados para calcular los intervalos de confianza de enriquecimiento (Fig. 17 en línea).
El aumento de la profundidad de secuenciación también es probable que conduzca a una mayor precisión de las posiciones de unión determinadas. Utilizando el conjunto de datos NRSF, analizamos cómo la distancia media entre las posiciones de enlace detectadas y los motivos de secuencia depende del número de etiquetas utilizadas para las predicciones. Nuestros resultados muestran que la precisión mejoró con el aumento del número de etiquetas (Fig. 18 en línea). La mejora, sin embargo, fue menor: la precisión disminuyó solo en varios pares de bases, incluso cuando el número de etiquetas se redujo a la mitad.