タンパク質結合位置の周りのタグ分布
一般に、免疫沈降法は、結合位置の周りに重複するDNA断片のセットを選択する。 ハイスループットシーケンシングは、いずれかのDNA鎖からの断片の5’末端に短い(solexaまたはSOLiDプラットフォームのための≥35bp)タグを識別します。 タグの位置は、それらをゲノムアセンブリに整列させることによって決定され、あいまいな整列は典型的には破棄される。 したがって、安定した結合位置の周りのタグ発生の結果として生じる空間的分布は、正および負の鎖上のタグ密度の別々のピークを示す(図10A)。 1b、c)。 ピーク間の距離は、保護領域のサイズを反映するはずであるが、それはまた、DNA断片のサイズ分布によって影響され得る。 この距離は、ピーク内のタグの数に強い依存性を示さない(補足表1オンライン)。
このタグパターンのゲノム全体の署名は、正と負のストランドタグ密度の相互相関を計算し、距離を増加させることによって互いに相対的にストランドをシフトすることによって評価することができる。 検査された全てのデータセットは、保護領域の優勢なサイズに対応して、鎖相互相関プロファイルに明確なピークを示す(図1 0A)。 図1dおよび補足図。 1オンライン)。 ピークの大きさは、予想される結合タグパターンに従って表示されるデータセット内のタグの割合を反映しています。 理想的なケースでは、配列されたタグのすべてがそのような結合パターンに関与する場合、相関の大きさは最大値に達する。 逆に、タグ位置が無作為化されるにつれて大きさは減少する(補足図。 2オンライン)。
可変品質タグアラインメントを使用して
いくつかのタグは、参照ゲノムと完全に整列しますが、他のタグは、ギャップや不一致で、部分的に 不十分に整列したタグは、サンプル汚染などの実験的な問題に起因する、ゲノムの多型または未組立領域に対応する、または配列決定エラーを反映する Solexaプラットフォームでは、配列決定エラーは、配列された断片の3’末端に向かってより豊富であり、頻繁に5’末端の近くのタグの部分のみを含む部分的な 本発明者らは、3’末端への不一致頻度のこの増加が、検査されたデータセットにおいて観察されたすべての不一致の4 1〜7 5%を占めると推定する(補足図1)。 3オンライン)。 >タグ全体の50%が部分的な整列のみになることは珍しいことではないので、部分的に整列されているが有益なタグを含めることは、任意のデータセット11、12の使用を最適化するために重要である。 したがって、一致の長さと不一致とギャップによってカバーされるヌクレオチドの数を使用して、タグ整列の品質を分類することを選択しました(表1
アライメントの品質によるタグの分類を考えると、我々は、タグの特定のクラスがさらなる分析に含まれるべきかどうかを決定するために鎖相互相関プロファイルを使用することを提案する。 結合位置について有益なタグのセットは、相互相関の大きさを増加させるべきであり、一方、ランダムにマップされたタグのセットはそれを減少さ 2). この手法をNRSFデータセットに使用する(図1)。 2)、我々は、少なくとも18bpとゼロミスマッチにまたがる一致と整列が相互相関プロファイルを改善することがわかった。 ただし、2つの不一致があるタグでは、完全長(25bp)の一致のみを考慮する必要があります。 タグを受け入れるためにこの基準を使用すると、完全に整列したタグのセットを超える数が、NRSFデータ-セットでは27%、CTCFデータ-セットでは30%、STAT1データ-セットでは36%増加した(補足図)。 4オンライン)。 これらのタグを組み込むことにより、同定された結合位置の感度および精度が改善された(補足図1)。 5オンライン)。
背景タグ分布の制御
推定タンパク質結合位置のために観察されたタグクラスタリングの統計的有意性は、予想さ 最も単純なモデルでは、背景タグ密度がゲノムに沿って均一に分布し、strands11の間に独立して分布していると仮定しています。 NRSFチップサンプルに加えて、Johnson e t a l.図2は、背景タグ分布の実験的評価を提供し、対照入力サンプルの配列を決定している。 我々は、背景タグ分布は、前述の単純なモデル(P<10-6、補足図によって示唆された均質なポアソン過程から予想されるよりも有意に大きいクラスタリングの程度を示すことがわかった。 6オンライン)。
入力タグ密度の私たちの検査は、背景異常の三つの主要なタイプを識別します。 第一のタイプは、単一の染色体位置におけるタグ密度の特異なピークを、周囲の密度よりも何桁も高い結果とする(図1)。 3a)。 このようなピークは、一般的に両方の染色体鎖上の同じ位置に生じる。 第二のタイプの異常は、一方または両方の鎖のいずれかに現れる増加したタグ密度の不均一で広い(>1,000bp)クラスターをもたらす(図。 3b)。 第三のタイプは、安定したタンパク質結合位置から予想されるパターンに似た鎖特異的タグ密度の小さなクラスターを示すが、典型的には鎖ピーク間の分離 3c)。 同様の異常のセットが、他の生物の入力配列決定において観察され得る(データは示されていない)。
最初のタイプの異常は、周囲のタグ密度からの極端な偏差のために容易に検出され、排除されることができます。 しかし、他のタイプの異常、特に第三のタイプの異常は、チップデータ内で区別することは困難である。 これは、背景タグの分布を適切に説明するために、入力材料の配列決定が不可欠であることを示しています。 模擬対照実験(非特異的抗体または無抗体)の配列決定も必要であり得る。
不均一な背景分布を制御するために、以下で提案されている結合方法は、そのようなデータが利用可能であれば、結合位置を決定する前に、再スケー さらに、重要なチップ/入力-タグ比の領域内の結合位置のみがaccepted2です。 このような背景補正の効果は、以下のセクションで特徴づけられます。
結合検出方法と結合部位の相対カバレッジ
我々は、二つの以前に公開されたアルゴリズム(CSP、XSET)と私たち自身の三つの方法を含む結合位置を呼 簡単に説明すると、Chipseq Peak locator(CSP)法は、入力プロファイルと比較して有意な濃縮の領域を識別し、そのような領域内で最も多くのタグを有する領域として結 拡張セット(XSET)法は、DNA断片の予想される長さだけ陽性および陰性鎖タグを拡張し、重複する断片の数が最も多いものとして結合位置を決定する11。
私たちの方法は、結合位置で観察された鎖特異的タグパターンを利用する(図。 1c)。 最初のそのような方法、窓タグ密度(WTD)は、XSETに類似しているが、検査された位置の上流および下流の鎖特異的タグ数に基づいて位置をスコア化する(図 4a)。 第二の方法、macching strand peaks(MSP)は、鎖特異的タグ密度の局所的なピークを決定し、予想される距離において同等の大きさの正および負の鎖ピークに囲まれた位置を識 4b)。 第三の方法であるミラータグ相関(MTC)は、ゲノムをスキャンして、互いに鏡映する顕著な正および負の鎖タグパターンを示す位置を同定する(図。 4c)。 ソースコードはオンラインで入手でき(補足ソースコード)、最新のRパッケージはhttp://compbio.med.harvard.edu/Supplements/ChIP-seqでダウンロードできます。
真の結合部位の完全なリストは、調べられたデータセットのいずれについても知られていないが、3つのタ この作品に記載されている結合検出方法は、配列情報に依存していないが、我々は異なる結合検出方法の相対的な性能を評価するために、高得点のシーケ そうすることで、我々は、高得点のモチーフインスタンスが真の結合位置の代表的なサブセットを含み、すべての高得点のモチーフが結合される必要はな 我々は、NRSFとCTCF14、15、およびstat1binding5、11の予測因子としてガンマ活性化部位(ガス)モチーフによる結合のための標準的な配列モチーフを使用して性能を評価した。 結合検出方法は、同定された結合位置に関連するピーク大きさスコアを提供し、したがって、各方法によって決定される結合位置の優先順位付けを可
異なる方法の感度を比較するために、我々は、各方法によって返される上部結合位置の増加数を選択し、結合位置が同定されたモチーフ出現の割合を調 4d)。 我々は、選択された最高得点のNRSFモチーフの一致の89%が検出された結合位置と一致していることがわかった。 モチーフカバレッジ率はランダム予測から予想されるものを明確に上回り、異なる結合検出方法の相対的性能の比較を可能にする。 MSPとCSPを除いて、すべての方法は同様に高いmotifカバレッジを達成します。 CSP法は、より顕著な結合位置(トップ500)に対して悪化するが、MSP法は、全範囲にわたって不十分に実行する。 STAT1およびCTCF結合の分析は、異なる方法の相対的な性能の点で類似の結果を示す(補足図。 7オンライン)。 これらの結果はまた、文献2、1 1、1 5からのPCR検証された結合遺伝子座の分析によっても確認される(補足図2、1 1、1 5)。 8と9オンライン)。 我々は、モチーフとPCR検証されたテストセットは、真の結合部位のほんの一部を表すことに注意してください。 この割合はCTCFおよびSTAT1ではより小さいので、異なる方法による試験セットの被覆率を示すために、より大きな上部結合位置のセットが使用される。
前のセクションで概説した背景減算方法は、NRSFモチーフのカバレッジを改善し、最大11%少ないトップバインディング位置で同じレベルのカバレッジに達 10オンライン)。 補正は、不均一な背景から生じる偽陽性のピークよりも高いタグカウントに関連付けられている上位1,500の結合位置にはほとんど影響しません。 背景駆動型の偽陽性位置は、一般的に大きさが小さく、より多くの結合位置が考慮されるにつれて予測に影響を与え始める。
結合位置の精度
タンパク質結合位置が異なる方法によって同定される空間精度を評価するために、我々は予測された位置とハイスコアリングモチーフヒットの位置との間の距離を分析した(図。 5a)。 NRSFデータセットの場合、WTD法は、モチーフ中心の10bp以内に位置する予測ピークの>60%で、最大の精度で結合位置を予測します(図。 図5bおよび補足図5bおよび補足図5b。 11aオンライン)。 それに続いて、XSET、MTCおよびMSP法が続き、CSPはモチーフの10bp以内のピークの≥40%を呼び出す。 背景補正は、予測された位置の精度に限定された効果を有し、WTD法のみが、強い結合位置について3%の改善を示す(データは示されない)。