ChIP-seq kísérletek tervezése és elemzése DNS-kötő fehérjékhez
Tag Eloszlás a fehérje-kötő pozíciók körül
általában az immunprecipitáció egy sor átfedő DNS-fragmenst választ ki a kötött pozíciók körül. A nagy áteresztőképességű szekvenálás rövid (35 bp a Solexa vagy a szilárd platformok esetében) címkéket azonosít mindkét DNS-szál fragmenseinek 5 ‘ végén. A címkék helyzetét ezután úgy határozzák meg, hogy a genom összeállításához igazítják őket, általában kétértelmű igazításokkal. A címke előfordulásainak térbeli eloszlása egy stabil kötési helyzet körül ezért a címke sűrűségének külön csúcsait mutatja pozitív és negatív szálakon (ábra. 1b, c). A csúcsok közötti távolságnak tükröznie kell a védett régió méretét, bár ezt befolyásolhatja a DNS-fragmensek méreteloszlása is. Ez a távolság nem függ erősen a csúcsokon belüli címkék számától (kiegészítő táblázat 1 online).
ennek a címkemintának a genom egészére kiterjedő aláírása értékelhető a pozitív és negatív szálú tagsűrűségek keresztkorrelációjának kiszámításával, a szálak egymáshoz viszonyított eltolásával a távolság növelésével. Az összes vizsgált adathalmaz egyértelmű csúcsot mutat a szálkeresztkorrelációs profilban, amely megfelel a védett régió domináns méretének (ábra. 1D és kiegészítő ábra. 1 online). A csúcs nagysága az adatkészletben lévő címkék azon hányadát tükrözi, amely a várt kötési címkemintának megfelelően jelenik meg. Ideális esetben, ha az összes szekvenált címke részt vesz az ilyen kötési mintákban, a korreláció nagysága eléri a maximális értéket. Ezzel szemben a magnitúdó csökken, mivel a címkepozíciókat randomizálják (kiegészítő ábra. 2 online).
változó minőségű címkeillesztések használata
bár egyes címkék tökéletesen igazodnak a referencia genomhoz, mások csak részben igazodnak, hézagokkal vagy eltérésekkel. A rosszul igazított címkék olyan kísérleti problémákból származhatnak, mint a minta szennyeződése, megfelelnek a genom polimorf vagy nem összeszerelt régióinak, vagy tükrözik a szekvenálási hibákat. A Solexa platform esetében a szekvenálási hibák bőségesebbek a szekvenált fragmensek 3′ vége felé, gyakran részleges igazításokat eredményezve, amelyek csak a címkéknek az 5′ végek közelében lévő részeit tartalmazzák. Becsléseink szerint az eltérés gyakoriságának növekedése a 3′ végpont felé a vizsgált adatkészletek összes megfigyelt eltérésének 41-75% – át teszi ki (Kiegészítő ábra. 3 online). Mivel nem szokatlan, hogy a >az összes címke 50% – a csak részleges igazítást eredményez, a részlegesen igazított,de még mindig informatív címkék felvétele fontos bármely adatkészlet használatának optimalizálásához11, 12. Ezért úgy döntöttünk, hogy az egyezés hosszát és az eltérések és hiányosságok által lefedett nukleotidok számát használjuk a címkeillesztés minőségének osztályozásához (1.táblázat és 2. Kiegészítő táblázat online).
mivel a címkéket az igazítás minősége szerint osztályozzuk, javasoljuk a szálkeresztkorrelációs profil használatát annak meghatározására, hogy egy adott címkeosztálynak meg kell-e további elemzésben szerepel. A kötési pozíciókról tájékoztató címkék halmazának növelnie kell a keresztkorreláció nagyságát, míg a véletlenszerűen leképezett címkék halmazának csökkentenie kell (kiegészítő ábra. 2). Ezzel a megközelítéssel az NRSF adathalmaz (ábra. 2), Azt találtuk, hogy a legalább 18 bázisponton átívelő és nulla eltérésen átívelő egyezések igazítása javította a keresztkorrelációs profilt. A két eltéréssel rendelkező címkék esetében azonban csak a teljes hosszúságú (25 bp) egyezéseket kell figyelembe venni. Ennek a kritériumnak a használata a címkék elfogadására az nrsf adathalmaz esetében 27% – kal, a CTCF adathalmaz esetében 30% – kal, a STAT1 adathalmaz esetében pedig 36% – kal növelte azok számát A tökéletesen igazított címkék halmazán (kiegészítő ábra. 4 online). Ezeknek a címkéknek a beépítése javította az azonosított kötési pozíciók érzékenységét és pontosságát (kiegészítő ábra. 5 online).
a háttércímke-Eloszlás ellenőrzése
a feltételezett fehérjekötési pozícióra megfigyelt címkacsoportosítás statisztikai jelentősége a várható háttérmintától függ. A legegyszerűbb modell azt feltételezi, hogy a háttércímke sűrűsége egyenletesen oszlik el a genom mentén, függetlenül a szálak között11. Az NRSF Chipminta mellett Johnson et al.2 szekvenáltak egy kontroll bemeneti mintát, amely a háttércímke eloszlásának kísérleti értékelését biztosítja. Megállapítottuk, hogy a háttércímke-Eloszlás olyan mértékű klaszterezést mutat, amely lényegesen nagyobb, mint az a fent említett egyszerű modell által javasolt homogén Poisson-folyamattól várható (P < 10-6, kiegészítő ábra. 6 online).
a bemeneti címke sűrűségének vizsgálata a háttér anomáliák három fő típusát azonosítja. Az első típus egyedülálló csúcsokat eredményez tag sűrűség egyetlen kromoszóma helyzetben sok nagyságrenddel magasabb, mint a környező sűrűség (ábra. 3a). Az ilyen csúcsok általában ugyanabban a helyzetben fordulnak elő mindkét kromoszóma szálon. A második típusú anomália nem egységes, széles (>1000 bp) klasztereket eredményez, amelyek megnövekedett címkesűrűséggel jelennek meg az egyik vagy mindkét szálon (ábra. 3b). A harmadik típus szálspecifikus címkesűrűségű kis klasztereket mutat, amelyek hasonlítanak a stabil fehérjekötő helyzetből elvárt mintára, bár jellemzően kisebb elválasztást mutat a szálcsúcsok között (ábra. 3c). Hasonló anomáliák figyelhetők meg más szervezetek bemeneti szekvenálásában (az adatok nem jelennek meg).