DNA結合タンパク質のChIP-seq実験の設計と解析

タンパク質結合位置の周りのタグ分布

一般に、免疫沈降法は、結合位置の周りに重複するDNA断片のセットを選択する。 ハイスループットシーケンシングは、いずれかのDNA鎖からの断片の5’末端に短い(solexaまたはSOLiDプラットフォームのための≥35bp)タグを識別します。 タグの位置は、それらをゲノムアセンブリに整列させることによって決定され、あいまいな整列は典型的には破棄される。 したがって、安定した結合位置の周りのタグ発生の結果として生じる空間的分布は、正および負の鎖上のタグ密度の別々のピークを示す(図10A)。 1b、c)。 ピーク間の距離は、保護領域のサイズを反映するはずであるが、それはまた、DNA断片のサイズ分布によって影響され得る。 この距離は、ピーク内のタグの数に強い依存性を示さない(補足表1オンライン)。

このタグパターンのゲノム全体の署名は、正と負のストランドタグ密度の相互相関を計算し、距離を増加させることによって互いに相対的にストランドをシフトすることによって評価することができる。 検査された全てのデータセットは、保護領域の優勢なサイズに対応して、鎖相互相関プロファイルに明確なピークを示す(図1 0A)。 図1dおよび補足図。 1オンライン)。 ピークの大きさは、予想される結合タグパターンに従って表示されるデータセット内のタグの割合を反映しています。 理想的なケースでは、配列されたタグのすべてがそのような結合パターンに関与する場合、相関の大きさは最大値に達する。 逆に、タグ位置が無作為化されるにつれて大きさは減少する(補足図。 2オンライン)。

可変品質タグアラインメントを使用して

いくつかのタグは、参照ゲノムと完全に整列しますが、他のタグは、ギャップや不一致で、部分的に 不十分に整列したタグは、サンプル汚染などの実験的な問題に起因する、ゲノムの多型または未組立領域に対応する、または配列決定エラーを反映する Solexaプラットフォームでは、配列決定エラーは、配列された断片の3’末端に向かってより豊富であり、頻繁に5’末端の近くのタグの部分のみを含む部分的な 本発明者らは、3’末端への不一致頻度のこの増加が、検査されたデータセットにおいて観察されたすべての不一致の4 1〜7 5%を占めると推定する(補足図1)。 3オンライン)。 >タグ全体の50%が部分的な整列のみになることは珍しいことではないので、部分的に整列されているが有益なタグを含めることは、任意のデータセット11、12の使用を最適化するために重要である。 したがって、一致の長さと不一致とギャップによってカバーされるヌクレオチドの数を使用して、タグ整列の品質を分類することを選択しました(表1

表1マッチの長さと不一致の数に基づくタグアラインメントの分類

アライメントの品質によるタグの分類を考えると、我々は、タグの特定のクラスがさらなる分析に含まれるべきかどうかを決定するために鎖相互相関プロファイルを使用することを提案する。 結合位置について有益なタグのセットは、相互相関の大きさを増加させるべきであり、一方、ランダムにマップされたタグのセットはそれを減少さ 2). この手法をNRSFデータセットに使用する(図1)。 2)、我々は、少なくとも18bpとゼロミスマッチにまたがる一致と整列が相互相関プロファイルを改善することがわかった。 ただし、2つの不一致があるタグでは、完全長(25bp)の一致のみを考慮する必要があります。 タグを受け入れるためにこの基準を使用すると、完全に整列したタグのセットを超える数が、NRSFデータ-セットでは27%、CTCFデータ-セットでは30%、STAT1データ-セットでは36%増加した(補足図)。 4オンライン)。 これらのタグを組み込むことにより、同定された結合位置の感度および精度が改善された(補足図1)。 5オンライン)。

図2:ストランド相互相関の大きさの変化に基づいて有益なタグクラスを選択します。

表1に記載されているタグアライメント品質の各クラスについて、このクラスのタグを完全に整列したタグの基本クラ (a-c)3つのプロットは、不一致(a)のないタグクラスに対応し、単一の不一致(b)と2つの不一致(c)があります。 有益なタグクラスは、相互相関(*でマーク)を改善し、最終的なタグセットに組み込まれます。 Y軸は、相互相関ピークの周りの40bp以内の相互相関プロファイルの平均変化を与える(図。 1d)。

背景タグ分布の制御

推定タンパク質結合位置のために観察されたタグクラスタリングの統計的有意性は、予想さ 最も単純なモデルでは、背景タグ密度がゲノムに沿って均一に分布し、strands11の間に独立して分布していると仮定しています。 NRSFチップサンプルに加えて、Johnson e t a l.図2は、背景タグ分布の実験的評価を提供し、対照入力サンプルの配列を決定している。 我々は、背景タグ分布は、前述の単純なモデル(P<10-6、補足図によって示唆された均質なポアソン過程から予想されるよりも有意に大きいクラスタリングの程度を示すことがわかった。 6オンライン)。

入力タグ密度の私たちの検査は、背景異常の三つの主要なタイプを識別します。 第一のタイプは、単一の染色体位置におけるタグ密度の特異なピークを、周囲の密度よりも何桁も高い結果とする(図1)。 3a)。 このようなピークは、一般的に両方の染色体鎖上の同じ位置に生じる。 第二のタイプの異常は、一方または両方の鎖のいずれかに現れる増加したタグ密度の不均一で広い(>1,000bp)クラスターをもたらす(図。 3b)。 第三のタイプは、安定したタンパク質結合位置から予想されるパターンに似た鎖特異的タグ密度の小さなクラスターを示すが、典型的には鎖ピーク間の分離 3c)。 同様の異常のセットが、他の生物の入力配列決定において観察され得る(データは示されていない)。

図3:バックグラウンドタグ分布の異常の例。

(a)非常に高いタグ数を持つ特異な位置。 (b)増加した背景タグ密度のより大きく、不均一な領域。 (c)真のタンパク質結合位置に似た背景タグ密度パターン。 各プロットには、チップサンプルと入力サンプルからのタグの密度が表示されます。 タグのヒストグラムは、結合されたタグ数を与えます。

最初のタイプの異常は、周囲のタグ密度からの極端な偏差のために容易に検出され、排除されることができます。 しかし、他のタイプの異常、特に第三のタイプの異常は、チップデータ内で区別することは困難である。 これは、背景タグの分布を適切に説明するために、入力材料の配列決定が不可欠であることを示しています。 模擬対照実験(非特異的抗体または無抗体)の配列決定も必要であり得る。

不均一な背景分布を制御するために、以下で提案されている結合方法は、そのようなデータが利用可能であれば、結合位置を決定する前に、再スケー さらに、重要なチップ/入力-タグ比の領域内の結合位置のみがaccepted2です。 このような背景補正の効果は、以下のセクションで特徴づけられます。

結合検出方法と結合部位の相対カバレッジ

我々は、二つの以前に公開されたアルゴリズム(CSP、XSET)と私たち自身の三つの方法を含む結合位置を呼 簡単に説明すると、Chipseq Peak locator(CSP)法は、入力プロファイルと比較して有意な濃縮の領域を識別し、そのような領域内で最も多くのタグを有する領域として結 拡張セット(XSET)法は、DNA断片の予想される長さだけ陽性および陰性鎖タグを拡張し、重複する断片の数が最も多いものとして結合位置を決定する11。

私たちの方法は、結合位置で観察された鎖特異的タグパターンを利用する(図。 1c)。 最初のそのような方法、窓タグ密度(WTD)は、XSETに類似しているが、検査された位置の上流および下流の鎖特異的タグ数に基づいて位置をスコア化する(図 4a)。 第二の方法、macching strand peaks(MSP)は、鎖特異的タグ密度の局所的なピークを決定し、予想される距離において同等の大きさの正および負の鎖ピークに囲まれた位置を識 4b)。 第三の方法であるミラータグ相関(MTC)は、ゲノムをスキャンして、互いに鏡映する顕著な正および負の鎖タグパターンを示す位置を同定する(図。 4c)。 ソースコードはオンラインで入手でき(補足ソースコード)、最新のRパッケージはhttp://compbio.med.harvard.edu/Supplements/ChIP-seqでダウンロードできます。

図4:結合位置検出方法とその相対感度。

(a)Wtdメソッドの概略図。 強い結合から期待されるタグパターンを持つ位置を識別するために、この方法は、オレンジ色(p1およびn2)でマークされた領域内のタグカウントの幾何学的平均と、緑色(n1およびp2)でマークされた領域内の平均タグカウントとの差を計算する。 (b)MSP法は、最初に正と負のストランド(開円)上の極大値を識別し、その後、そのような二つのピークが予想される分離と同等の大きさで、正しい順序で存在す (c)MTC法は、正鎖タグ密度と負鎖タグ密度のミラー相関に基づいている。 ネガストランドタグ密度の鏡像は、青い破線で示されています。 中心位置の15bp以内のタグは省略されます。 (d)高信頼性NRSFモチーフのカバレッジは、トップピークによって一致します。 プロットは、異なる方法によって同定された上部結合位置の数を増加させる関数として、同定された結合位置と(50bpで)一致するモチーフインスタンスの MSPとCSPを除くほとんどの方法は、同様に高いカバレッジを達成することができます。

真の結合部位の完全なリストは、調べられたデータセットのいずれについても知られていないが、3つのタ この作品に記載されている結合検出方法は、配列情報に依存していないが、我々は異なる結合検出方法の相対的な性能を評価するために、高得点のシーケ そうすることで、我々は、高得点のモチーフインスタンスが真の結合位置の代表的なサブセットを含み、すべての高得点のモチーフが結合される必要はな 我々は、NRSFとCTCF14、15、およびstat1binding5、11の予測因子としてガンマ活性化部位(ガス)モチーフによる結合のための標準的な配列モチーフを使用して性能を評価した。 結合検出方法は、同定された結合位置に関連するピーク大きさスコアを提供し、したがって、各方法によって決定される結合位置の優先順位付けを可

異なる方法の感度を比較するために、我々は、各方法によって返される上部結合位置の増加数を選択し、結合位置が同定されたモチーフ出現の割合を調 4d)。 我々は、選択された最高得点のNRSFモチーフの一致の89%が検出された結合位置と一致していることがわかった。 モチーフカバレッジ率はランダム予測から予想されるものを明確に上回り、異なる結合検出方法の相対的性能の比較を可能にする。 MSPとCSPを除いて、すべての方法は同様に高いmotifカバレッジを達成します。 CSP法は、より顕著な結合位置(トップ500)に対して悪化するが、MSP法は、全範囲にわたって不十分に実行する。 STAT1およびCTCF結合の分析は、異なる方法の相対的な性能の点で類似の結果を示す(補足図。 7オンライン)。 これらの結果はまた、文献2、1 1、1 5からのPCR検証された結合遺伝子座の分析によっても確認される(補足図2、1 1、1 5)。 8と9オンライン)。 我々は、モチーフとPCR検証されたテストセットは、真の結合部位のほんの一部を表すことに注意してください。 この割合はCTCFおよびSTAT1ではより小さいので、異なる方法による試験セットの被覆率を示すために、より大きな上部結合位置のセットが使用される。

前のセクションで概説した背景減算方法は、NRSFモチーフのカバレッジを改善し、最大11%少ないトップバインディング位置で同じレベルのカバレッジに達 10オンライン)。 補正は、不均一な背景から生じる偽陽性のピークよりも高いタグカウントに関連付けられている上位1,500の結合位置にはほとんど影響しません。 背景駆動型の偽陽性位置は、一般的に大きさが小さく、より多くの結合位置が考慮されるにつれて予測に影響を与え始める。

結合位置の精度

タンパク質結合位置が異なる方法によって同定される空間精度を評価するために、我々は予測された位置とハイスコアリングモチーフヒットの位置との間の距離を分析した(図。 5a)。 NRSFデータセットの場合、WTD法は、モチーフ中心の10bp以内に位置する予測ピークの>60%で、最大の精度で結合位置を予測します(図。 図5bおよび補足図5bおよび補足図5b。 11aオンライン)。 それに続いて、XSET、MTCおよびMSP法が続き、CSPはモチーフの10bp以内のピークの≥40%を呼び出す。 背景補正は、予測された位置の精度に限定された効果を有し、WTD法のみが、強い結合位置について3%の改善を示す(データは示されない)。

図5:決定された結合位置の精度。

(a)高信頼性NRSFモチーフインスタンスと異なる方法によって同定された結合位置の位置との間の距離の分布。 得られた分布のs.d.(μ)は、各方法について示されています。 100bp以内の結合位置を含むモチーフのみが考慮された。 (b)NRSFモチーフ位置の1 0bp以内の同定された結合位置の割合は、異なる方法によって同定された上部結合位置の数を増加させるために示されている。 配列モチーフインスタンスの300bp以内に存在する結合位置のみが分析に含まれる。 保護された結合領域の中心に対する配列モチーフの非中心位置を説明するために、モチーフ中心までの中央距離を各方法について減算した。 CTCF(c)およびSTAT1(D)についても同様のプロットが示される。 MTC法はCTCFとSTAT1の最高精度を達成しますが、WTDはNRSF結合のためのより正確な位置を提供します。しかし、CTCFおよびSTAT1予測では、MTCメソッドはWTDよりも優れた精度を達成します(図1)。 図5c、dおよび補足図5C、dおよび補足図5C。 11b、c)。 この違いは、保護領域の中心付近のタグ分布の特性によって説明することができます。 WTDおよびXSETとは異なり、mtc法は、結合位置を採点する際に、中央領域(3 0bp)内のタグを考慮しない。 そのような位置を考慮に入れるようにMTC方法を変更することは、決定された結合位置の精度をWTD予測と同様のレベルに低減する。 高得点モチーフのヒットに対するタグ位置の全体的な分布を調べると、我々はCTCFとSTAT1は、モチーフの位置にすぐに隣接するタグ密度の予想外のピーク(10-15bp内) 12オンライン)。 負の鎖タグの小さなセットは、保護領域のすぐ上流に表示され、すぐ下流の正の鎖タグによってミラーリングされているこのパターンは、中央の保護領域を越えて発生する架橋相互作用に起因する可能性があります(図10)。 1b、破線)。 その結果、中央領域の近くのタグを考慮に入れるピーク検出方法は、真の結合部位の上流または下流の15-20bpの位置を呼び出す傾向がある。

統計的に有意な位置

結合検出方法は、結果として得られる結合位置を偶然に発生した可能性の低い位置に制限する必要があります。

統計的有意性の所望のレベルは、一般に、偽発見率(FDR)または予想される偽陽性位置の数(E値)の観点から与えられる。

検出方法は、バックグラウンドタグ分布を使用して、指定された有意水準を満たす最小結合位置スコアを決定することができます。 多くの偽陽性の呼び出しは、前述した大きな異常領域から発生します。 これらの系統誤差は、有意性しきい値を決定する前にフィルタリングすることができます。 NRSFの入力サンプルデータに基づいて、我々は2,755WTD法を使用して0.01のFDRしきい値の結合位置の合計を発見しました。 これは、前のセクションで使用された高得点モチーフ位置の最大カバレッジを達成するために必要とされたトップピークの数に密接に対応しています(図 4d)。背景タグ分布の経験的推定が存在しない場合、分析モデルに頼ることが可能であり得る。

背景タグ分布の経験的推定が存在しない場合、分析モデ このような最も単純なモデルは、タグがゲノムのアクセス可能な領域に均一に分布する空間ポアソン過程である11。 しかし、真の背景タグ分布はタグクラスタリングの有意な程度を示すので、このポアソンベースのしきい値は、有意な結合位置の数の過大評価(9,206対2,755 0.01のFDRのため)で、その結果、経験的な背景測定から得られたものよりも有意に低い。 入力ベースのFDR計算と比較すると、ポアソンベースのモデルは、ターゲットFDRに応じて、8倍から20倍のFdrを過小評価することがわかります(補足表3オンライン)。統計的しきい値のより近い推定値は、背景タグ分布に存在するクラスタリングの程度を考慮することによって得ることができる。

統計的しきい値のより近い推定値を得ることができる。 簡単な方法は、ポアソンモデルを使用して行われるように、独立した位置を割り当てるのではなく、同じ位置または近くの位置で発生するタグを一緒に維持するランダム化を使用することです。 異なるビンサイズを有するそのようなランダム化モデルを用いて決定された有意な位置の数は、補足表3に示されている。 0のFDRのために。図01に示すように、ゲノム中の正確に同じ位置に生じるタグを一緒に維持するランダム化モデルは、同等の数のNRSF結合位置をもたらす(2,985)。 このようなランダム化を使用して、CTCF(0.01のFDRの2,3981位)およびSTAT1(0.01のFDRの44,921位)データセットの統計的に有意な結合位置の数を決定しました。 より厳密なFDR値のバインディング位置の数を一致させるには、より大きなタグのランダム化ブロックが必要です(補足表3)。

十分な配列決定の深さのテスト

配列決定の深さは、追加の結合部位が検出されない飽和点に達しているかどうかを評価するために、我々は、タグデータのサブセットのみが予測のために使用されたときに予測された結合部位のセットがどのように変化するかを分析した。 タグデータの増加分画をサンプリングし、結合位置を決定し、これらの予測を、完全なデータから同定された参照結合部位のセットと比較した(図1 0A)。 および補足図6aおよび補足図6b。 13オンライン)。

図6:シーケンスの深さの分析。

(a)完全なデータセット(y軸)を使用して決定されたNRSF結合位置を考えると、黒い実線は、タグデータ(x軸)の小さな部分を使用して(50bp以内)予測 結合予測の全ては、WTD法を使用して0.01のFDRで生成される。 曲線は水平漸近線に到達せず、検出されたNRSF結合部位のセットが現在の配列決定の深さで安定化していないことを示す。 追加の曲線は、背景上の折り畳み濃縮比が有意に(P<0.05)7.5(MSER:最小飽和濃縮比、破線)および30(点線)よりも高い結合位置に分析を制限する。 観察された濃縮比は、各タグサブサンプル(x軸)について独立して評価される。 (b)高信頼性NRSFモチーフ位置の周りのタグ数の分布。 タグがゼロの位置は含まれていませんでした。 (c)検出された結合位置のMSERと配列決定の深さとの間の関係(完全なデータセットの一部として表される)。 破線の灰色の線は、結合位置の検出をより低い倍濃縮比で飽和させるのに必要な配列決定深さを推定するために使用され得る対数−対数モデルを示 その推定により、背景上に二重に濃縮された結合位置の検出を飽和させるために、1.2×106個のより多くの配列タグが必要となる(MSER=2はy=0に対応し、破線はx軸と交差する点である:x=2.8×106)。

シーケンスの深さが飽和点を超えて移動した場合、タグデータのサブセットのみを使用して参照セットに到達す しかし,三つのデータセットのいずれもこのような飽和点(水平漸近線)に達しておらず,タグデータのごく一部を省略した場合でも,一致する結合位置の割合が減少することが分かった。 これは、配列決定の深さを増加させると、追加の結合部位が連続的に同定されていることを示している。 観測された傾向は、FDR閾値の範囲について保持される(補足図。 飽和曲線の傾きは、かなりより厳格なFDR閾値を設定することによって減少させることができるが、これは、結合部位の数を有意に減少させる。

結合部位のカバレッジの特性を理解するために、我々は、高得点配列モチーフに関連付けられているタグカウントを調べた(図。 図6bおよび補足図6bおよび補足図6b。 14オンライン)。 三つのデータセットすべてにおいて,タグ数の分布は非常に広いダイナミックレンジを示した。 いくつかのポジションには何百ものタグがありましたが、他のポジションは予想される背景数をほとんど超えていませんでした。 さらに、これらの分布は、結合位置の明確な部分集団を示さなかったという点で連続的であるように見えた。 これは、配列決定の深さを増加させると、結合部位の完全なセットを定義する定性的な閾値なしに、より多くの弱い結合位置を区別することを可能に

より顕著な結合位置がより小さい配列決定の深さを使用して識別されるように、与えられた深さの実験は、背景に対して特定のタグ濃縮比を超える結合位置の検出を飽和させる可能性があります。

本発明者らは、この濃縮比を最小飽和濃縮比(MSER)と呼ぶ。 飽和曲線の最大許容勾配を定義する飽和基準(図10)は、飽和曲線の最大許容勾配を定義する飽和基準である。 予測された結合部位のセットの安定性のための要件として処方することができる。 たとえば、データセットが105個のタグで縮小された場合、結合位置のセットで99%の合意が必要です。 NRSF入力タグデータを使用して、各結合位置の濃縮比の信頼区間を決定するために、達成された配列決定深さは、タグ濃縮比が7.5を有意に上回る結合位置の検出を飽和させるのに十分であることがわかった(P値<0.05;図。 および補足図6aおよび補足図6b。 15オンライン)。 2,755のNRSF結合位置のうち、FDRで検出された0。01、1,879(68%)は、7.5のMSER値よりも有意に大きい濃縮比を有していた(補足図。 13). 我々は、特定のMSER値は、その倍濃縮の真の結合位置のすべてが発見されていることを意味するものではないことに注意してください;代わりに、それはmser値よりも有意に高い濃縮を持つ新しい結合位置が十分に遅い速度で検出されていることを示しています。 真の濃縮比の潜在的な範囲は、各結合位置について計算された濃縮信頼区間から評価することができる(補足的に図1 4A)。 16オンライン)。 濃縮比信頼区間の推定は、背景タグ分布について利用可能な情報の量にも依存するため、異なるMSER値を比較する際には、同様のゲノムカバレッジの入力デー実用的な目的のためには、特定の目標濃縮比を超えるピークの検出を飽和させるために必要なタグの数を予測できることが重要である。

タグの数とMSERとの関係は、ログ-ログモデルを使用して外挿することができる依存関係に落ち着きます(図10)。 6c)。 我々は、例えば、その1を予測しています。2×1 0 6以上のタグは、2倍よりも有意に高い背景上の濃縮を伴うNRSF結合位置を検出する際に飽和に達するために必要とされる(P値<div id=“dc1 8 7 1 9 4 4 2”></div>0. MSER値および外挿は、飽和基準および濃縮信頼区間を計算するために使用される方法に依存する(補足図4)。 17オンライン)。

配列決定の深さを増加させることはまた、決定された結合位置の精度の増加につながる可能性が高い。

配列決定の深さを増加させる NRSFデータセットを使用して、検出された結合位置と配列モチーフの間の平均距離が予測に使用されるタグの数にどのように依存するかを分析した。 我々の結果は、タグの数の増加に伴って精度が実際に改善されたことを示している(補足図。 18オンライン)。 しかし、改善は軽微であり、タグの数が半分になった場合でも、精度はいくつかのベースペアだけ減少しました。

コメントを残す

メールアドレスが公開されることはありません。