Diseño y análisis de experimentos ChIP-seq para proteínas de unión al ADN

Distribución de etiquetas alrededor de las posiciones de unión a proteínas

En general, la inmunoprecipitación selecciona un conjunto de fragmentos de ADN superpuestos alrededor de las posiciones de unión. La secuenciación de alto rendimiento identifica etiquetas cortas (∼35 pb para las plataformas Solexa o sólidas) en los extremos de 5′ de los fragmentos de cualquiera de las cadenas de ADN. Las posiciones de las etiquetas se determinan alineándolas con el ensamblaje del genoma, con alineaciones ambiguas que normalmente se descartan. La distribución espacial resultante de ocurrencias de etiquetas alrededor de una posición de unión estable, por lo tanto, mostrará picos separados de densidad de etiquetas en hebras positivas y negativas (Fig. 1b, c). La distancia entre los picos debe reflejar el tamaño de la región protegida, aunque también puede estar influenciada por la distribución de tamaño de los fragmentos de ADN. Esta distancia no muestra una fuerte dependencia del número de etiquetas dentro de los picos (Tabla complementaria 1 en línea).

Una firma de todo el genoma de este patrón de etiquetas se puede evaluar calculando la correlación cruzada de densidades de etiquetas de hebras positivas y negativas, cambiando las hebras entre sí al aumentar la distancia. Todos los conjuntos de datos examinados muestran un pico claro en el perfil de correlación cruzada de hebras, correspondiente al tamaño predominante de la región protegida (Fig. 1d y Suplemento Fig. 1 en línea). La magnitud del pico refleja la fracción de etiquetas en el conjunto de datos que aparece de acuerdo con el patrón de etiquetas de enlace esperado. En un caso ideal, cuando todas las etiquetas secuenciadas participan en tales patrones de enlace, la magnitud de correlación alcanza un valor máximo. Por el contrario, la magnitud disminuye a medida que se aleatorizan las posiciones de las etiquetas (Fig. 2 en línea).

Usando alineaciones de etiquetas de calidad variable

Aunque algunas etiquetas se alinean perfectamente con el genoma de referencia, otras se alinean solo parcialmente, con huecos o desajustes. Las etiquetas mal alineadas pueden ser el resultado de problemas experimentales como la contaminación de muestras, corresponder a regiones polimórficas o no ensambladas del genoma, o reflejar errores de secuenciación. Para la plataforma Solexa, los errores de secuenciación son más abundantes hacia los extremos de 3′ de los fragmentos secuenciados, lo que a menudo resulta en alineaciones parciales que incluyen solo las porciones de las etiquetas cerca de los extremos de 5′. Estimamos que este aumento en las frecuencias de desajuste hacia los terminales 3′ representa el 41-75% de todos los desajustes observados en los conjuntos de datos examinados (Fig.Suplementaria. 3 en línea). Como no es raro que > el 50% de las etiquetas totales den como resultado una alineación parcial, la inclusión de etiquetas que estén parcialmente alineadas pero que sigan siendo informativas es importante para optimizar el uso de cualquier conjunto de datos11,12. Por lo tanto, optamos por utilizar la longitud de la coincidencia y el número de nucleótidos cubiertos por desajustes y brechas para clasificar la calidad de la alineación de etiquetas (Tabla 1 y Tabla Suplementaria 2 en línea).

Tabla 1 Clasificación de alineaciones de etiquetas en función de la longitud de la coincidencia y el número de desajustes

Dada una clasificación de etiquetas por calidad de alineación, proponemos usar el perfil de correlación cruzada de cadenas para determinar si una clase particular de etiquetas debe incluido en análisis posteriores. Un conjunto de etiquetas informativas sobre las posiciones de enlace debería aumentar la magnitud de la correlación cruzada, mientras que un conjunto de etiquetas asignado aleatoriamente debería disminuirla(Fig. 2). Utilizando este enfoque para el conjunto de datos NRSF (Fig. 2), encontramos que las alineaciones con coincidencias que abarcan al menos 18 pb y desajustes de cero mejoraron el perfil de correlación cruzada. Sin embargo, solo se deben considerar coincidencias de longitud completa (25 pb) para etiquetas con dos desajustes. El uso de este criterio para aceptar etiquetas aumentó su número sobre el conjunto de etiquetas perfectamente alineadas en un 27% para el conjunto de datos NRSF, un 30% para el conjunto de datos CTCF y un 36% para el conjunto de datos STAT1 (Fig.suplementaria. 4 en línea). La incorporación de estas etiquetas mejoró la sensibilidad y precisión de las posiciones de unión identificadas (Fig. 5 en línea).

Figura 2: Selección de clases de etiquetas informativas basadas en el cambio en la magnitud de correlación cruzada de cadenas.

Diseño y análisis de experimentos ChIP-seq para proteínas de unión al ADN

Distribución de etiquetas alrededor de las posiciones de unión a proteínas

Usando alineaciones de etiquetas de calidad variable

Control de la distribución de etiquetas de fondo

Métodos de detección de encuadernación y cobertura relativa de los sitios de encuadernación

Precisión de las posiciones de unión

Posiciones estadísticamente significativas

Pruebas de profundidad de secuenciación suficiente

Deja una respuesta Cancelar la respuesta

Distribución de etiquetas alrededor de las posiciones de unión a proteínas

Usando alineaciones de etiquetas de calidad variable

Control de la distribución de etiquetas de fondo

Métodos de detección de encuadernación y cobertura relativa de los sitios de encuadernación

Precisión de las posiciones de unión

Posiciones estadísticamente significativas

Pruebas de profundidad de secuenciación suficiente

Deja una respuesta Cancelar la respuesta

You may like this....