Projeto e análise de ChIP-seq experiências de DNA-proteínas de ligação

Tag de distribuição em torno de ligação de proteínas posições

Em geral, imunoprecipitação seleciona um conjunto de sobreposição de fragmentos de DNA em torno vinculado posições. O sequenciamento de alto rendimento identifica marcas curtas (∼35 bp para solexa ou plataformas sólidas) nas extremidades de 5′ de fragmentos de qualquer das cadeias de ADN. As posições das tags são então determinadas alinhando-as à montagem do genoma, com alinhamentos ambíguos tipicamente descartados. A distribuição espacial resultante de ocorrências de marcas em torno de uma posição de ligação estável mostrará, portanto, picos separados de densidade de marcas em cadeias positivas e negativas (Fig. 1b, c). A distância entre os picos deve reflectir o tamanho da região protegida, embora possa também ser influenciada pela distribuição do tamanho dos fragmentos de ADN. Esta distância não apresenta uma forte dependência do número de marcas dentro dos picos (tabela suplementar 1 online).

uma assinatura genómica deste padrão de marcas pode ser avaliada calculando a correlação cruzada das densidades de marcas positivas e negativas, deslocando as cadeias em relação umas às outras aumentando a distância. Todos os conjuntos de dados examinados apresentam um claro pico no perfil de correlação cruzada da cadeia, correspondente à dimensão predominante da região protegida (Fig. 1D e Fig. suplementar. 1 online). A magnitude do Pico reflecte a fracção de marcas no conjunto de dados que aparece de acordo com o padrão de marcas de ligação esperado. Em um caso ideal, quando todas as tags sequenciadas participam em tais padrões de ligação, a magnitude de correlação atinge um valor máximo. Inversamente, a magnitude diminui à medida que as posições das marcas são aleatórias (Fig. suplementar. 2 online).

usando alinhamentos de tag de qualidade variável

embora algumas tags se alinhem perfeitamente com o genoma de referência, Outras se alinham apenas parcialmente, com lacunas ou desfasamentos. Marcas mal alinhadas podem resultar de problemas experimentais como contaminação de amostras, correspondem a regiões polimórficas ou não montadas do genoma, ou refletem erros de sequenciação. Para a plataforma Solexa, os erros de sequenciação são mais abundantes em direção às extremidades de 3′ dos fragmentos sequenciados, resultando frequentemente em alinhamentos parciais que incluem apenas as porções das marcas próximas às extremidades de 5′. Estimamos que este aumento das frequências de desfasamento para 3 termini representa 41-75% de todos os desfasamentos observados nos conjuntos de dados examinados (dados suplementares. 3 online). Como não é incomum ter >50% do total de marcas, o resultado parcial, o alinhamento, a inclusão de etiquetas que são parcialmente alinhados, mas ainda informativo é importante para otimizar o uso de quaisquer dados set11,12. Optamos, portanto, por utilizar o comprimento do jogo e o número de nucleótidos cobertos por desfasamentos e lacunas para classificar a qualidade do alinhamento de tag (Tabela 1 e tabela suplementar 2 online).

Tabela 1 Classificação da marca alinhamentos com base na duração da partida e o número de inadequações

Dada uma classificação de marcas de qualidade de alinhamento, propomos utilizar a vertente cross-correlação do perfil para determinar se uma determinada classe de tags devem ser incluídas na análise. Um conjunto de tags informativos sobre as posições de ligação deve aumentar a magnitude da correlação cruzada, enquanto um conjunto de tags mapeado aleatoriamente deve diminuí-lo (Fig. suplementar. 2). Utilizar esta abordagem para o conjunto de dados NRSF (Fig. 2), descobrimos que alinhamentos com fósforos que abrangem pelo menos 18 bp e zero desajustamentos melhoraram o perfil de correlação cruzada. No entanto, apenas devem ser consideradas para as tags com dois desfasamentos as correspondências de comprimento total (25 bp). Usando este critério para aceitar tags aumentou seu número sobre o conjunto de tags perfeitamente alinhados em 27% para o conjunto de dados NRSF, 30% para o conjunto de dados CTCF e 36% para o conjunto de dados STAT1 (Fig. suplementar. 4 online). A incorporação destas etiquetas melhorou a sensibilidade e a precisão das posições de ligação identificadas (Fig. suplementar. 5 online).

Figura 2: Selecção de classes informativas de marcas com base na alteração da magnitude da correlação cruzada da vertente.

Para cada classe de etiqueta de qualidade do alinhamento listados na Tabela 1, os gráficos mostram a mudança na vertente média de correlação cruzada perfil quando esta classe de marcas é considerado, juntamente com a classe base perfeitamente alinhados tags (25 a bp, sem incompatibilidades). (A-C) três parcelas correspondem a classes de etiquetas sem desfasamentos (a), com um único desfasamento (b) e com dois desfasamentos (c). Classes informativas de tag melhoram a correlação cruzada (marcada por*), e são incorporadas ao conjunto final de tags. O eixo y dá a alteração média no perfil de correlação cruzada dentro de 40 pb em torno do Pico de correlação cruzada (Fig. 1d).

Controlando para o fundo de marca de distribuição

A significância estatística da marca clusters observados para uma hipotética ligação de proteínas posição depende do esperado padrão de plano de fundo. O modelo mais simples assume que a densidade de tags de fundo é distribuída uniformemente ao longo do genoma e independentemente entre os strands11. Além da amostra de ChIP NRSF, Johnson et al.2 sequenciaram uma amostra de entrada de controle, fornecendo uma avaliação experimental da distribuição de etiquetas de fundo. Descobrimos que a distribuição de etiquetas de fundo exibe um grau de agrupamento que é significativamente maior do que o esperado a partir de um processo de Poisson homogêneo sugerido pelo modelo simples acima mencionado (P < 10-6, Figo suplementar. 6 online).o nosso exame da densidade da marca de entrada identifica três tipos principais de anomalias de fundo. O primeiro tipo resulta em picos singulares de densidade de tag em uma única posição cromossômica muitas ordens de magnitude maior do que a densidade circundante (Fig. 3a). Estes picos ocorrem frequentemente na mesma posição em ambas as cadeias cromossómicas. O segundo tipo de anomalia resulta em aglomerados não-uniformes, de largura (1000 bp) de maior densidade de tag aparecendo em uma ou em ambas as cadeias (Fig. 3b). O terceiro tipo exibe pequenos aglomerados de densidade de tag específica da cadeia semelhante ao padrão esperado de uma posição estável de ligação às proteínas, embora normalmente mostre menor separação entre picos da cadeia (Fig. 3c). Um conjunto similar de anomalias pode ser observado na sequenciação de entrada de outros organismos (dados não mostrados).

Figure 3: Examples of anomalies in background tag distributions.

(a) posições singulares com uma contagem de tag extremamente elevada. B) regiões maiores, não uniformes, com maior densidade das marcas de fundo. c) os padrões de densidade das etiquetas de fundo que se assemelham a posições verdadeiras de ligação às proteínas. Cada parcela mostra a densidade das etiquetas das amostras de chips e de entrada. Os histogramas das marcas dão conta das marcas combinadas.

o primeiro tipo de anomalia pode ser facilmente detectado e eliminado devido ao seu extremo desvio em relação à densidade da etiqueta circundante. No entanto, os outros tipos de anomalias, em particular o terceiro, são difíceis de distinguir dentro dos dados do ChIP. Isto indica que a sequenciação do material de entrada é essencial para ter devidamente em conta a distribuição da marca de fundo. Pode também ser necessário sequenciar um teste de controlo simulado (anticorpo não específico ou nenhum anticorpo).

para controlar a distribuição desigual do fundo, os métodos de ligação propostos a seguir subtraem a densidade da marca de fundo revista antes de determinar as posições de ligação, se tais dados estiverem disponíveis. Além disso, apenas são aceites as posições vinculativas dentro de regiões com rácios ChIP/input-tag significativos 2. O efeito dessas correções de fundo será caracterizado nas seções que se seguem.

Binding detection methods and relative coverage of binding sites

examinamos cinco métodos diferentes de calling binding positions, incluindo dois algoritmos publicados anteriormente (CSP, XSET) e três métodos nossos. Resumidamente, o método de localização do Pico de ChIPSeq (CSP) identifica as regiões de enriquecimento significativo em comparação com o perfil de entrada e determina posições de ligação como as que têm o maior número de marcas nessas Regiões2. O método extended set (XSET) estende etiquetas de cadeia positiva e negativa pelo comprimento esperado do fragmento de DNA, e determina posições de ligação como aquelas com o maior número de fragmentos sobrepostos11.os nossos métodos tiram partido do padrão de marcação específico da cadeia observado em posições de ligação (Fig. 1c). O primeiro método deste tipo, a densidade da marca da janela (WTD), é semelhante ao XSET, mas pontua as posições com base na pontuação específica da linha conta a montante e a jusante da posição examinada (Fig. 4a). O segundo método, “matching strand peaks” (MSP), determina os picos locais da densidade específica da cadeia e identifica as posições rodeadas por picos da cadeia positiva e negativa de uma magnitude comparável à distância esperada (Fig. 4b). O terceiro método, “mirror tag correlation” (MTC), varre o genoma para identificar posições que exibem padrões de marcas positivas e negativas pronunciadas que se espelham (Fig. 4c). O código fonte está disponível online( código fonte suplementar), e um pacote R atualizado pode ser baixado em http://compbio.med.harvard.edu/Supplements/ChIP-seq.

Figura 4: Métodos de detecção da posição de ligação e sua sensibilidade relativa.

(a) ilustração esquemática do método WTD. Para identificar posições com um padrão de tag esperado de uma forte ligação, o método calcula a diferença entre a média geométrica das contagens de tag dentro das regiões marcadas por cor laranja (p1 e n2), e a contagem média de tag dentro das regiões marcadas por cor verde (n1 e p2). b) O método MSP identifica primeiro os máximos locais em cadeias positivas e negativas (círculos abertos) e determina depois as posições em que esses dois picos estão presentes na ordem correcta, com a separação esperada e uma magnitude comparável. c) o método MTC baseia – se na correlação espelhada das densidades das marcas positivas e negativas. A imagem em Espelho da densidade da etiqueta de cadeia negativa é mostrada por uma linha azul quebrada. As marcas dentro de 15 bp da posição central são omitidas. d) A cobertura do motivo NRSF de alta confiança corresponde aos picos superiores. O gráfico mostra a fracção de instâncias motif que coincidem (com 50 bp) com posições de ligação identificadas, em função do aumento do número de posições de ligação de topo identificadas por diferentes métodos. A maioria dos métodos, exceto MSP e CSP, são capazes de alcançar uma cobertura igualmente elevada.

Embora os métodos de detecção de ligação descritos neste trabalho não dependam de informações de sequência, nós usamos instâncias de motivos de sequência de alta pontuação para avaliar performances relativas de diferentes métodos de detecção de ligação. Ao fazê-lo, assumimos apenas que as instâncias do motivo de alta pontuação contêm um subconjunto representativo de posições de ligação verdadeiras, e não exigem que todos os motivos de alta pontuação sejam ligados, ou que todos os sites de ligação verdadeira exibam uma assinatura de motivo. Avaliamos o desempenho usando motivos de seqüência canônica para ligação por NRSF e CTCF14,15, e o motivo do site ativado por Gama (GAS) como um predictor do STAT1 binding5,11. Os métodos de detecção de ligação fornecem pontuações de magnitude máxima associadas às posições de ligação identificadas, permitindo assim a priorização das posições de ligação determinadas por cada método.

para comparar a sensibilidade dos diferentes métodos, seleccionámos um número crescente de posições de ligação de topo devolvidas por cada método e analisámos a fracção de ocorrências de motivos para as quais foi identificada uma posição de ligação (Fig. 4d). Descobrimos que 89% dos jogos NRSF com maior pontuação coincidiram com as posições de ligação detectadas. A taxa de cobertura do motivo excede claramente a esperada a partir da previsão aleatória, permitindo a comparação dos desempenhos relativos dos diferentes métodos de detecção de ligação. Com exceção de MSP e CSP, todos os métodos alcançam uma cobertura de motivos igualmente elevada. O método CSP tem um desempenho pior para as posições de ligação mais proeminentes (top 500), enquanto a abordagem MSP tem um desempenho fraco em toda a gama. As análises de ligação do STAT1 e do CTCF mostram resultados análogos em termos de desempenho relativo dos diferentes métodos (figura suplementar. 7 online). Estes resultados são também confirmados pela análise do loci de ligação validado pela PCR da literature2,11,15 (figos suplementares. 8 e 9 online). Notamos que os conjuntos de testes validados por motivos e PCR representam apenas uma fração dos sites de ligação verdadeira. Como esta fração é menor para CTCF e STAT1, conjuntos maiores de posições de ligação de topo são usados para ilustrar a cobertura de conjuntos de teste por diferentes métodos.

os métodos de subtracção de fundo descritos na secção anterior melhoram a cobertura do motivo NRSF, atingindo o mesmo nível de cobertura em até 11% menos posições de ligação de topo (figura suplementar. 10 online). As correções têm pouco efeito sobre as 1.500 posições de ligação superiores, que estão associadas a maior contagem de marcas do que quaisquer picos falsos positivos decorrentes de fundo irregular. As posições falsas-positivas em segundo plano são geralmente menores em magnitude e começam a influenciar as previsões à medida que posições mais vinculativas são consideradas.

precisão das posições de ligação

para avaliar a precisão espacial com que as posições de ligação às proteínas são identificadas por diferentes métodos, analisámos as distâncias entre as posições previstas e as localizações de acertos de motivos de alta pontuação (Fig. 5a). Para o conjunto de dados NRSF, o método WTD prevê posições de ligação com a maior precisão, com 60% dos picos previstos localizados dentro de 10 bp do motif center (Fig. 5. B e Figo suplementar. 11a online). É seguido pelos métodos XSET, MTC e MSP, com CSP chamando ∼40% dos picos dentro de 10 bp dos motivos. As correcções de fundo têm um efeito limitado na precisão das posições previstas, com apenas o método WTD a mostrar uma melhoria de 3% para posições de forte ligação (dados não apresentados).

Figura 5: precisão das posições de ligação determinadas.

(a) distribuição de distâncias entre instâncias motif de alta confiança e locais de posições de ligação identificadas por diferentes métodos. A S. D. da distribuição resultante (σ) é apresentada para cada método. Apenas foram considerados motivos que contivessem uma posição vinculativa dentro de 100 PB. b) a fracção das posições de ligação identificadas dentro de 10 bp da posição motif NRSF é apresentada para um número crescente de posições de ligação top identificadas por diferentes métodos. Apenas as posições vinculativas que ocorram dentro de 300 bp de uma instância de sequência motif são incluídas na análise. A distância mediana para o centro motif foi subtraída para cada método para ter em conta a posição não Central do motivo sequencial em relação ao centro da região de ligação protegida. Gráficos análogos são apresentados para CTCF (C) e STAT1 (d). O método MTC atinge a maior precisão para CTCF e STAT1; no entanto, o WTD dá posições mais precisas para a ligação NRSF.

para as previsões CTCF e STAT1, no entanto, o método MTC consegue uma maior precisão do que a WTD (Fig. 5c, d e Figo suplementar. 11b, c). A diferença pode ser explicada pelas propriedades da distribuição de tag imediatamente perto do centro da região protegida. Ao contrário do WTD e do XSET, o método MTC não tem em conta as marcas na região central (30 bp) ao marcar posições de ligação. Alterar o método MTC para tomar tais posições em consideração reduz a precisão das posições de ligação determinadas a um nível semelhante às previsões do WTD. Examinando a distribuição geral das posições de marcas em relação aos acertos de motivos de pontuação elevada, descobrimos que CTCF e STAT1 mostraram picos inesperados de densidade de marcas imediatamente adjacentes (dentro de 10-15 bp) à posição do motivo (Figo suplementar. 12 online). Este padrão, no qual pequenos conjuntos de marcas negativas aparecem imediatamente a montante da região protegida e são espelhados pelas marcas positivas imediatamente a jusante, pode resultar de interações cruzadas que ocorrem fora da região protegida central (Fig. 1b, linha quebrada). Como resultado, os métodos de detecção de pico que levam em conta as marcas perto da região central tendem a chamar as posições 15-20 bp a montante ou a jusante do local de ligação verdadeiro.

posições estatisticamente significativas

os métodos de detecção de ligação devem limitar as posições de ligação resultantes àqueles que não são susceptíveis de ter ocorrido por acaso. O nível desejado de significância estatística é comumente dado em termos de uma taxa de falsa descoberta (FDR) ou o número de posições falsas-positivas esperadas (valor E).

os métodos de detecção podem então usar a distribuição de marcas de fundo para determinar a pontuação mínima de ligação que satisfaz o nível especificado de significância. Muitas chamadas falsas-positivas originam-se das grandes regiões anômalas descritas anteriormente. Estes erros sistemáticos podem ser filtrados antes da determinação dos limiares de significância. Com base nos dados da amostra de entrada para o NRSF, encontramos um total de 2.755 posições de ligação para o limiar FDR de 0,01 usando o método WTD. Isto corresponde De Perto ao número de picos de Topo que era necessário para alcançar a cobertura máxima das posições de motivos de pontuação elevada utilizadas nas secções anteriores (Fig. 4d).na ausência de uma estimativa empírica da distribuição das marcas de fundo, pode ser possível basear-se num modelo analítico. O modelo mais simples é um processo de Poisson espacial onde as tags são uniformemente distribuídas pelas regiões acessíveis do genome11. No entanto, como as distribuições de etiquetas de fundo verdadeiras exibem um grau significativo de agrupamento de marcas, este limiar baseado em Poisson é significativamente menor do que o obtido a partir da medição empírica de fundo, resultando em sobrestimação do número de posições de ligação significativas (9,206 versus 2,755 para um FDR de 0,01). A comparação com os cálculos FDR baseados na entrada revela que o modelo baseado em Poisson subestima os FDR entre 8 e 20 vezes, dependendo do FDR-alvo (quadro suplementar 3 online).pode ser obtida uma estimativa mais aproximada dos limiares estatísticos, tendo em conta o grau de agrupamento existente na distribuição das etiquetas de fundo. Uma abordagem simples é usar uma aleatorização que mantém tags ocorrendo na mesma posição ou nas posições próximas, em vez de atribuir-lhes posições independentes, como feito usando o modelo Poisson. O número de posições significativas determinadas usando tais modelos de aleatorização com diferentes tamanhos de bin são mostrados na tabela suplementar 3. Para o FDR de 0.01, um modelo de aleatorização que mantém juntas tags ocorrendo exatamente na mesma posição no genoma resulta em um número comparável de posições de ligação NRSF (2.985). Usámos essa aleatorização para determinar o número de posições de ligação estatisticamente significativas para os conjuntos de dados CTCF (2.3981 posições para um FDR de 0,01) e STAT1 (44.921 posições para um FDR de 0,01). Combinar o número de posições de ligação para valores mais rigorosos de FDR requer blocos de aleatorização de marcas maiores (tabela suplementar 3), indicando que as estratégias de aleatorização simples não podem contabilizar adequadamente as propriedades de agrupamento de fundo.

Testes suficientes para sequenciamento de profundidade

Para avaliar se o seqüenciamento de profundidade atingiu um ponto de saturação além do qual nenhum adicional sítios de ligação são detectados, analisamos como o conjunto das previsões de sítios de ligação alterado quando apenas um subconjunto de dados do tag foi usada para a previsão. Amostragem aumentando frações dos dados de tag, determinamos posições de ligação e comparamos essas predições com o conjunto de sites de ligação de referência identificados a partir dos dados completos (Fig. 6a e Figo suplementar. 13 online).

Figure 6: Analysis of sequencing depth.

(a) dadas as posições de ligação NRSF determinadas usando o conjunto completo de dados (eixo y), a curva de preto sólido mostra a fracção das posições que podem ser previstas (dentro de 50 PB) usando porções menores dos dados da etiqueta (eixo x). Todas as previsões de ligação são geradas com um FDR de 0,01 usando o método WTD. A curva não atinge uma assintota horizontal, indicando que o conjunto de locais de ligação NRSF detectados não estabilizou na profundidade de sequenciamento atual. As curvas adicionais limitam a análise a posições de ligação cuja razão de enriquecimento por dobra sobre o fundo é significativamente (P < 0,05) superior a 7.5 (MSER: razão mínima de enriquecimento saturado, linha tracejada) e 30 (linha pontilhada). As razões de enriquecimento observadas são avaliadas independentemente para cada subamostra de marcas (eixo x). b) A distribuição das etiquetas conta em torno das posições dos motivos NRSF de elevada confiança. As posições com zero tags não foram incluídas. c) a relação entre o MSER das posições de ligação detectadas e a profundidade de sequenciação (expressa como uma fracção do conjunto completo de dados). A linha cinzenta tracejada mostra um modelo log-log que pode ser usado para estimar a profundidade de sequenciamento necessária para saturar a detecção de posições de ligação com uma razão de enriquecimento menor. Por essa estimativa, 1.2 × 106 mais etiquetas de sequência seriam necessárias para saturar a detecção de posições de ligação que são duas vezes enriquecidas sobre o fundo (MSER = 2 corresponde a y = 0, em que ponto a linha tracejada atravessa o eixo dos x: x = 2.8 × 106).

Se o seqüenciamento de profundidade tem que se ultrapassar o ponto de saturação, seria possível chegar ao conjunto de referência a utilizar apenas um subconjunto dos dados de tag. Descobrimos, no entanto, que nenhum dos três conjuntos de dados atingiu tal ponto de saturação (assintote horizontal), e que a fração das posições de ligação concordantes diminuiu quando mesmo uma pequena fração dos dados de tag foram omitidos. Isto indica que outros locais de ligação estão sendo continuamente identificados com o aumento da profundidade de sequenciamento. A tendência observada é válida para uma série de limiares FDR (Fig. complementar. 13): Embora a inclinação da curva de saturação possa ser reduzida através da fixação de um limiar FDR consideravelmente mais rigoroso, isto resulta num número significativamente menor de locais de ligação.

para compreender as propriedades da cobertura do local de ligação, examinámos as contagens de marcas associadas a motivos de sequência de pontuação elevada (Fig. 6B e Figo suplementar. 14 online). Em todos os três conjuntos de dados, a distribuição de contagens de tag mostrou uma ampla gama dinâmica. Enquanto algumas posições tinham centenas de tags, outras mal subiram acima das contagens de fundo esperadas. Além disso, estas distribuições pareciam ser contínuas na medida em que não mostravam subpopulações distintas de posições vinculativas. Isto sugere que o aumento da profundidade de sequenciamento pode permitir que um maior número de posições vinculativas fracas sejam distinguidas sem um limiar qualitativo que definiria um conjunto completo de locais de ligação.à medida que as posições de ligação mais pronunciadas são identificadas usando uma profundidade de sequenciação menor, uma experiência de determinada profundidade pode saturar a detecção das posições de ligação que excedem uma determinada razão de enriquecimento de marca em relação ao fundo. Referimo-nos a esta razão de enriquecimento como a razão mínima de enriquecimento saturado (MSER). Os critérios de saturação que definem a inclinação máxima aceitável da curva de saturação (Fig. 6a) pode ser formulado como um requisito para a estabilidade do conjunto de locais de ligação previstos. Por exemplo, precisamos de um acordo de 99% no conjunto de posições vinculativas quando o conjunto de dados é reduzido em 105 tags. Usando NRSF marca de entrada de dados para determinar os intervalos de confiança para o enriquecimento proporção de cada posição de encadernação, descobrimos que o alcançado sequenciamento de profundidade foi suficiente para saturar a detecção de ligação posições com etiqueta enriquecimento proporções significativamente acima de 7,5 (P-valor < 0.05; Fig. 6a e Figo suplementar. 15 online). Das 2 755 posições de ligação NRSF detectadas num FDR de 0.01, 1.879 (68%) tinham rácios de enriquecimento significativamente superiores ao valor MSER de 7, 5 (Figo suplementar. 13). Notamos que um determinado valor MSER não implica que todas as posições de ligação verdadeiras desse enriquecimento dobrado tenham sido descobertas; em vez disso, indica que novas posições de ligação com enriquecimento significativamente superiores ao valor MSER estão a ser detectadas a um ritmo suficientemente lento. Pode avaliar-se uma gama potencial de rácios de enriquecimento reais a partir dos intervalos de confiança do enriquecimento calculados para cada posição de ligação (Fig. suplementar. 16 online). Uma vez que a estimativa dos intervalos de confiança do rácio de enriquecimento depende também da quantidade de informação disponível sobre a distribuição das marcas de fundo, devem ser utilizados conjuntos de dados de entrada de cobertura genómica semelhante para comparar diferentes valores de MSER.para efeitos práticos, é importante poder prever o número de etiquetas necessárias para saturar a detecção de picos acima de uma dada razão de enriquecimento-alvo. A relação entre o número de tags e o MSER se estabelece em uma dependência que pode ser extrapolada usando um modelo log-log (Fig. 6c). Prevemos, por exemplo, que 1.2 × 106 seriam necessárias mais etiquetas para alcançar a saturação na detecção de posições de ligação NRSF com enriquecimento sobre o fundo significativamente mais elevadas do que o dobro (valor P < 0,05). Os valores e extrapolações MSER dependem dos critérios de saturação e dos métodos utilizados para calcular os intervalos de confiança do enriquecimento (Fig. suplementar. 17 online).é também provável que o aumento da profundidade de sequenciamento conduza a uma maior precisão das posições de ligação determinadas. Usando o conjunto de dados NRSF, analisamos como a distância média entre as posições de ligação detectadas e os motivos de sequência depende do número de etiquetas usadas para previsões. Nossos resultados mostram que a precisão realmente melhorou com o número crescente de tags (Fig suplementar. 18 online). A melhoria, no entanto, foi menor: a precisão diminuiu apenas em vários pares de bases, mesmo quando o número de tags foi reduzido para metade.

Deixe uma resposta

O seu endereço de email não será publicado.