ChIP-seq kísérletek tervezése és elemzése DNS-kötő fehérjékhez

Tag Eloszlás a fehérje-kötő pozíciók körül

általában az immunprecipitáció egy sor átfedő DNS-fragmenst választ ki a kötött pozíciók körül. A nagy áteresztőképességű szekvenálás rövid (35 bp a Solexa vagy a szilárd platformok esetében) címkéket azonosít mindkét DNS-szál fragmenseinek 5 ‘ végén. A címkék helyzetét ezután úgy határozzák meg, hogy a genom összeállításához igazítják őket, általában kétértelmű igazításokkal. A címke előfordulásainak térbeli eloszlása egy stabil kötési helyzet körül ezért a címke sűrűségének külön csúcsait mutatja pozitív és negatív szálakon (ábra. 1b, c). A csúcsok közötti távolságnak tükröznie kell a védett régió méretét, bár ezt befolyásolhatja a DNS-fragmensek méreteloszlása is. Ez a távolság nem függ erősen a csúcsokon belüli címkék számától (kiegészítő táblázat 1 online).

ennek a címkemintának a genom egészére kiterjedő aláírása értékelhető a pozitív és negatív szálú tagsűrűségek keresztkorrelációjának kiszámításával, a szálak egymáshoz viszonyított eltolásával a távolság növelésével. Az összes vizsgált adathalmaz egyértelmű csúcsot mutat a szálkeresztkorrelációs profilban, amely megfelel a védett régió domináns méretének (ábra. 1D és kiegészítő ábra. 1 online). A csúcs nagysága az adatkészletben lévő címkék azon hányadát tükrözi, amely a várt kötési címkemintának megfelelően jelenik meg. Ideális esetben, ha az összes szekvenált címke részt vesz az ilyen kötési mintákban, a korreláció nagysága eléri a maximális értéket. Ezzel szemben a magnitúdó csökken, mivel a címkepozíciókat randomizálják (kiegészítő ábra. 2 online).

változó minőségű címkeillesztések használata

bár egyes címkék tökéletesen igazodnak a referencia genomhoz, mások csak részben igazodnak, hézagokkal vagy eltérésekkel. A rosszul igazított címkék olyan kísérleti problémákból származhatnak, mint a minta szennyeződése, megfelelnek a genom polimorf vagy nem összeszerelt régióinak, vagy tükrözik a szekvenálási hibákat. A Solexa platform esetében a szekvenálási hibák bőségesebbek a szekvenált fragmensek 3′ vége felé, gyakran részleges igazításokat eredményezve, amelyek csak a címkéknek az 5′ végek közelében lévő részeit tartalmazzák. Becsléseink szerint az eltérés gyakoriságának növekedése a 3′ végpont felé a vizsgált adatkészletek összes megfigyelt eltérésének 41-75% – át teszi ki (Kiegészítő ábra. 3 online). Mivel nem szokatlan, hogy a >az összes címke 50% – a csak részleges igazítást eredményez, a részlegesen igazított,de még mindig informatív címkék felvétele fontos bármely adatkészlet használatának optimalizálásához11, 12. Ezért úgy döntöttünk, hogy az egyezés hosszát és az eltérések és hiányosságok által lefedett nukleotidok számát használjuk a címkeillesztés minőségének osztályozásához (1.táblázat és 2. Kiegészítő táblázat online).

1.táblázat a címkeillesztések osztályozása az egyezés hossza és az eltérések száma alapján

mivel a címkéket az igazítás minősége szerint osztályozzuk, javasoljuk a szálkeresztkorrelációs profil használatát annak meghatározására, hogy egy adott címkeosztálynak meg kell-e további elemzésben szerepel. A kötési pozíciókról tájékoztató címkék halmazának növelnie kell a keresztkorreláció nagyságát, míg a véletlenszerűen leképezett címkék halmazának csökkentenie kell (kiegészítő ábra. 2). Ezzel a megközelítéssel az NRSF adathalmaz (ábra. 2), Azt találtuk, hogy a legalább 18 bázisponton átívelő és nulla eltérésen átívelő egyezések igazítása javította a keresztkorrelációs profilt. A két eltéréssel rendelkező címkék esetében azonban csak a teljes hosszúságú (25 bp) egyezéseket kell figyelembe venni. Ennek a kritériumnak a használata a címkék elfogadására az nrsf adathalmaz esetében 27% – kal, a CTCF adathalmaz esetében 30% – kal, a STAT1 adathalmaz esetében pedig 36% – kal növelte azok számát A tökéletesen igazított címkék halmazán (kiegészítő ábra. 4 online). Ezeknek a címkéknek a beépítése javította az azonosított kötési pozíciók érzékenységét és pontosságát (kiegészítő ábra. 5 online).

2.ábra: informatív tag osztályok kiválasztása a szálkeresztkorreláció nagyságának változása alapján.

az 1.táblázatban felsorolt címkeillesztési minőség minden egyes osztályánál a diagramok a szál átlagos keresztkorrelációs profiljának változását mutatják, ha ezt a címkeosztályt a tökéletesen igazított címkék alaposztályával együtt vesszük figyelembe (25 bp, nincs eltérés). (a-c) három ábra felel meg az (a), Az (B) és a (C) eltérések nélküli tagosztályoknak. Az informatív címkeosztályok javítják a keresztkorrelációt (*jelöléssel), és beépülnek a végső címkekészletbe. Az y tengely megadja a keresztkorrelációs profil átlagos változását 40 bp-n belül a keresztkorrelációs csúcs körül (ábra. 1d).

a háttércímke-Eloszlás ellenőrzése

a feltételezett fehérjekötési pozícióra megfigyelt címkacsoportosítás statisztikai jelentősége a várható háttérmintától függ. A legegyszerűbb modell azt feltételezi, hogy a háttércímke sűrűsége egyenletesen oszlik el a genom mentén, függetlenül a szálak között11. Az NRSF Chipminta mellett Johnson et al.2 szekvenáltak egy kontroll bemeneti mintát, amely a háttércímke eloszlásának kísérleti értékelését biztosítja. Megállapítottuk, hogy a háttércímke-Eloszlás olyan mértékű klaszterezést mutat, amely lényegesen nagyobb, mint az a fent említett egyszerű modell által javasolt homogén Poisson-folyamattól várható (P < 10-6, kiegészítő ábra. 6 online).

a bemeneti címke sűrűségének vizsgálata a háttér anomáliák három fő típusát azonosítja. Az első típus egyedülálló csúcsokat eredményez tag sűrűség egyetlen kromoszóma helyzetben sok nagyságrenddel magasabb, mint a környező sűrűség (ábra. 3a). Az ilyen csúcsok általában ugyanabban a helyzetben fordulnak elő mindkét kromoszóma szálon. A második típusú anomália nem egységes, széles (>1000 bp) klasztereket eredményez, amelyek megnövekedett címkesűrűséggel jelennek meg az egyik vagy mindkét szálon (ábra. 3b). A harmadik típus szálspecifikus címkesűrűségű kis klasztereket mutat, amelyek hasonlítanak a stabil fehérjekötő helyzetből elvárt mintára, bár jellemzően kisebb elválasztást mutat a szálcsúcsok között (ábra. 3c). Hasonló anomáliák figyelhetők meg más szervezetek bemeneti szekvenálásában (az adatok nem jelennek meg).

3.ábra: példák a háttércímke-eloszlások anomáliáira.

(a) egyedülálló pozíciók rendkívül magas címkeszámmal. (b) nagyobb, nem egységes régiók fokozott háttér tag sűrűség. (c) háttér tag sűrűség minták emlékeztető valódi fehérje-kötő pozíciók. Minden grafikon a ChIP és a bemeneti minták címkéinek sűrűségét mutatja. A címke hisztogramjai kombinált címkeszámot adnak.

az első típusú anomália könnyen kimutatható és kiküszöbölhető a környező címkesűrűségtől való rendkívüli eltérése miatt. Azonban a többi típusú anomáliát, különösen a harmadikat, nehéz megkülönböztetni a ChIP adatokon belül. Ez azt jelzi, hogy a bemeneti anyag szekvenálása elengedhetetlen a háttércímke-Eloszlás megfelelő elszámolásához. Szükség lehet egy álkontroll kísérlet szekvenálására is (nem specifikus antitest vagy antitest nélkül).

az egyenetlen háttéreloszlás szabályozásához az alábbiakban javasolt kötési módszerek kivonják az átméretezett háttércímke sűrűségét a kötési pozíciók meghatározása előtt, ha rendelkezésre állnak ilyen adatok. Ezenkívül csak a jelentős ChIP/input-tag arányú régiókon belüli kötési pozíciók fogadhatók el2. Az ilyen háttérjavítások hatását a következő szakaszok jellemzik.

kötési detektálási módszerek és a kötési helyek relatív lefedettsége

öt különböző módszert vizsgáltunk a kötési pozíciók meghívására, köztük két korábban közzétett algoritmust (CSP, XSET) és három saját módszert. Röviden, A ChIPSeq Peak locator (CSP) módszer azonosítja a bemeneti profilhoz képest jelentős dúsítású régiókat, és meghatározza azokat a kötési pozíciókat, amelyek az ilyen régiókon belül a legtöbb címkével rendelkeznek2. Az extended set (xset) módszer kiterjeszti a pozitív és negatív szálú címkéket a DNS – fragmentum várható hosszával, és meghatározza a kötési pozíciókat, mint a legtöbb átfedő töredékkel rendelkezőket11.

módszereink kihasználják a kötési pozíciókban megfigyelt szálspecifikus címkemintát (ábra. 1c). Az első ilyen módszer, a window tag density (WTD) hasonló az XSET-hez, de pontozza a pozíciókat a vizsgált pozíciótól felfelé és lefelé irányuló szálspecifikus címkeszámok alapján (ábra. 4a). A második módszer, a matching szálcsúcsok (MSP), meghatározza a szálspecifikus címkesűrűség helyi csúcsait, és azonosítja azokat a pozíciókat, amelyeket hasonló nagyságrendű pozitív és negatív szálcsúcsok vesznek körül a várható távolságon (ábra. 4b). A harmadik módszer, a mirror tag correlation (MTC) megvizsgálja a genomot, hogy azonosítsa azokat a pozíciókat, amelyek kifejezetten pozitív és negatív szálú címkemintákat mutatnak, amelyek tükrözik egymást (ábra. 4c). A forráskód online elérhető (kiegészítő forráskód), és egy naprakész R csomag letölthető a http://compbio.med.harvard.edu/Supplements/ChIP-seqcímen.

4.ábra: kötési pozíció detektálási módszerek és azok relatív érzékenysége.

(a) A WTD módszer sematikus ábrázolása. Az erős kötéstől elvárt címkemintával rendelkező pozíciók azonosításához a módszer kiszámítja a narancssárga színnel (p1 és n2) jelölt területeken belüli címkeszámok geometriai átlaga, valamint a zöld színnel jelölt területeken (n1 és p2) belüli átlagos címkeszám közötti különbséget. (b) Az MSP-módszer először azonosítja a pozitív és negatív szálak (nyitott körök) lokális maximumait, majd meghatározza azokat a pozíciókat, ahol az ilyen két csúcs a megfelelő sorrendben van jelen, a várható elválasztással és összehasonlítható nagyságrenddel. c) az MTC módszer a pozitív és negatív szálú tagsűrűségek tükörkorrelációján alapul. A negatív szálú címke sűrűségének tükörképét egy törött kék vonal mutatja. A középső pozíciótól számított 15 bp-n belüli címkék kihagyásra kerülnek. (d) lefedettség nagy megbízhatóságú NRSF motívum mérkőzések felső csúcsok. A diagram a motívump példányok azon töredékét mutatja, amelyek egybeesnek (50 bp-vel) az azonosított kötési pozíciókkal, a különböző módszerekkel azonosított felső kötési pozíciók számának növelése függvényében. A legtöbb módszer, kivéve az MSP-t és a CSP-t, hasonlóan magas lefedettséget képes elérni.

bár a vizsgált adatkészletek egyikénél sem ismert a valódi kötési helyek teljes listája, mindhárom fehérje ismert kötési szekvencia-specifitást mutat. Míg az ebben a munkában leírt kötésdetektálási módszerek nem támaszkodnak a szekvenciainformációkra, magas pontszámú szekvenciamotív példányokat használtunk a különböző kötésdetektálási módszerek relatív teljesítményének felmérésére. Ennek során csak azt feltételezzük, hogy a magas pontszámú motívump példányok a valódi kötési pozíciók reprezentatív részhalmazát tartalmazzák, és nem igénylik az összes magas pontszámú motívum kötését, vagy hogy minden igaz kötési hely motívum aláírást mutat. A teljesítményt az NRSF és CTCF14,15 kötéshez használt kanonikus szekvencia motívumok, valamint a gamma-aktivált hely (gáz) motívum segítségével értékeltük,mint a STAT1 kötés5, 11 előrejelzőjét. A kötésdetektálási módszerek az azonosított kötési pozíciókhoz társított csúcsnagysági pontszámokat biztosítják, ezáltal lehetővé téve az egyes módszerek által meghatározott kötési pozíciók rangsorolását.

a különböző módszerek érzékenységének összehasonlításához az egyes módszerek által visszaadott felső kötési pozíciók növekvő számát választottuk ki, és megvizsgáltuk a motívum előfordulások azon hányadát, amelyeknél kötési pozíciót azonosítottak (ábra. 4d). Megállapítottuk, hogy a kiválasztott legmagasabb pontszámú nrsf motívum mérkőzések 89% – a egybeesett az észlelt kötési pozíciókkal. A motívum lefedettségi aránya egyértelműen meghaladja a véletlenszerű előrejelzéstől elvárt értéket, lehetővé téve a különböző kötésdetektálási módszerek relatív teljesítményének összehasonlítását. Az MSP és a CSP kivételével az összes módszer hasonlóan magas motívum lefedettséget ér el. A CSP módszer rosszabbul teljesít a kiemelkedőbb kötési pozícióknál (top 500), míg az MSP megközelítés gyengén teljesít az egész tartományban. A STAT1 és a CTCF kötődés analízise hasonló eredményeket mutat a különböző módszerek relatív teljesítménye tekintetében (kiegészítő ábra. 7 online). Ezeket az eredményeket a PCR-validált kötési lókuszok elemzése is megerősíti a literature2,11,15 (kiegészítő füge. 8.és 9. online). Megjegyezzük, hogy a motif és a PCR-validált tesztkészletek a valódi kötési helyeknek csak töredékét képviselik. Mivel ez a frakció kisebb a CTCF és a STAT1 esetében, a felső kötési pozíciók nagyobb készleteit használják a tesztkészlet lefedettségének szemléltetésére különböző módszerekkel.

az előző szakaszban vázolt háttérkivonási módszerek javítják az NRSF motívum lefedettségét, elérve ugyanazt a lefedettségi szintet akár 11% – kal kevesebb felső kötési pozícióval (kiegészítő ábra. 10 online). A korrekcióknak kevés hatása van a felső 1500 kötési pozícióra, amelyek magasabb címkeszámokkal vannak társítva, mint az egyenetlen háttérből eredő hamis pozitív csúcsok. A háttérvezérelt hamis pozitív pozíciók általában kisebb nagyságúak, és kezdik befolyásolni az előrejelzéseket, mivel több kötelező pozíciót vesznek figyelembe.

a kötési pozíciók pontossága

annak a térbeli pontosságnak a kiértékeléséhez, amellyel a fehérje-kötési pozíciókat különböző módszerekkel azonosítják, elemeztük az előre jelzett pozíciók és a magas pontszámú motívumütések helyei közötti távolságokat (ábra. 5a). Az NRSF adatkészlet esetében a WTD módszer a legnagyobb pontossággal jósolja meg a kötési pozíciókat, > az előre jelzett csúcsok 60% – a A motívum középpontjától 10 bp-n belül helyezkedik el (ábra. 5b és kiegészítő ábra. 11A online). Ezt követi az XSET, MTC és MSP módszer, a CSP a csúcsok 40% – át hívja a motívumok 10 bp-Ján belül. A háttérkorrekció korlátozott hatással van az előre jelzett pozíciók pontosságára, csak a WTD módszer mutat 3% – os javulást az erős kötési pozíciók esetében (az adatok nem jelennek meg).

5.ábra: meghatározott kötési pozíciók pontossága.

(a) A nagy megbízhatóságú nrsf motívump példányok és a különböző módszerekkel azonosított kötési pozíciók közötti távolságok eloszlása. Az eredményül kapott Eloszlás s.d. – je ( ++ ) minden módszer esetében látható. Csak a 100 bp-n belüli kötési pozíciót tartalmazó motívumokat vették figyelembe. (b) az azonosított kötési pozíciók aránya az NRSF motívum pozíciójának 10 bp-jén belül a különböző módszerekkel azonosított felső kötési pozíciók növekvő számánál jelenik meg. Csak a szekvencia motívum példány 300 bp-n belül előforduló kötési pozíciók szerepelnek az elemzésben. A motívumközponttól való medián távolságot minden módszernél kivonjuk, hogy figyelembe vegyük a szekvenciamotívum nem centrális helyzetét a védett kötési régió középpontjához képest. A ctcf (c) és a STAT1 (d) esetében hasonló ábrákat mutatunk be. Az MTC módszer a ctcf és a STAT1 esetében éri el a legnagyobb pontosságot; a WTD azonban pontosabb pozíciókat ad az NRSF kötéshez.

a CTCF és STAT1 előrejelzéseknél azonban az MTC módszer jobb pontosságot ér el, mint a WTD (ábra. 5c, d és kiegészítő ábra. 11b, c). A különbség a címkeeloszlás tulajdonságaival magyarázható közvetlenül a védett régió központja közelében. A WTD-vel és az XSET-tel ellentétben az MTC módszer nem veszi figyelembe a központi régió (30 bp) címkéit a kötési pozíciók pontozásakor. Az MTC módszer megváltoztatása az ilyen pozíciók figyelembevétele érdekében csökkenti a meghatározott kötési pozíciók pontosságát a WTD előrejelzéseihez hasonló szintre. A magas pontszámú motívum találatokhoz viszonyított tagpozíciók általános eloszlását vizsgálva megállapítottuk, hogy a CTCF és a STAT1 a motívump pozícióval közvetlenül szomszédos (10-15 bp-n belüli) címkesűrűség váratlan csúcsait mutatta (kiegészítő ábra. 12 online). Ez a minta, amelyben a negatív szálcímkék kis halmazai közvetlenül a védett régió előtt jelennek meg, és azokat a pozitív szálcímkék közvetlenül a lefelé tükrözik, a központi védett régión kívül előforduló keresztkötési kölcsönhatásokból származhat (ábra. 1b, törött vonal). Ennek eredményeként a csúcsdetektálási módszerek, amelyek figyelembe veszik a központi régió közelében lévő címkéket, hajlamosak 15-20 bp-os pozíciókat hívni a valódi kötési hely előtt vagy után.

statisztikailag szignifikáns pozíciók

a kötési kimutatási módszereknek az eredményül kapott kötési pozíciókat azokra kell korlátozniuk, amelyek valószínűleg nem véletlenül következtek be. A statisztikai szignifikancia kívánt szintjét általában a hamis felfedezési Arány (FDR) vagy a várható hamis pozitív pozíciók száma (E-érték).

a detektálási módszerek ezután a háttércímke-Eloszlás segítségével meghatározhatják a minimális kötési pozíció pontszámot, amely megfelel a megadott szignifikancia szintnek. Sok hamis pozitív hívás a korábban leírt nagy anomális régiókból származik. Ezek a szisztematikus hibák szűrhetők a szignifikancia küszöbértékek meghatározása előtt. Az NRSF bemeneti mintaadatai alapján összesen 2755 kötési pozíciót találtunk a 0,01 FDR küszöbértékhez a WTD módszerrel. Ez szorosan megfelel az előző szakaszokban használt magas pontszámú motívumpozíciók maximális lefedettségének eléréséhez szükséges csúcscsúcsok számának (ábra. 4d).

a háttércímke eloszlásának empirikus becslése hiányában lehetséges analitikai modellre támaszkodni. A legegyszerűbb ilyen modell egy térbeli Poisson-folyamat, ahol a címkék egyenletesen oszlanak el a genom11 hozzáférhető régióiban. Mivel azonban a valódi háttércímke-eloszlások jelentős mértékű tag-klaszterezést mutatnak, ez a Poisson-alapú küszöb lényegesen alacsonyabb, mint az empirikus háttérméréssel kapott küszöbérték, ami a jelentős kötési pozíciók számának túlbecslését eredményezi (9206 versus 2755 0,01 FDR esetén). Az input-alapú FDR számításokkal való összehasonlítás azt mutatja, hogy a Poisson-alapú modell a cél FDR – től függően 8-20-szor alábecsüli a FDR-eket (3.Kiegészítő táblázat online).

a statisztikai küszöbértékek közelebbi becslése a háttércímke-eloszlásban jelen lévő klaszterezés mértékének elszámolásával érhető el. Egyszerű megközelítés egy olyan randomizálás használata, amely fenntartja az azonos vagy közeli pozíciókban előforduló címkéket, ahelyett, hogy független pozíciókat rendelne hozzájuk, amint azt a Poisson modell. Az ilyen randomizációs modellekkel meghatározott jelentős pozíciók számát különböző bin méretekkel a 3.Kiegészítő táblázat mutatja. Az FDR 0.01, egy randomizációs modell, amely a genomban pontosan ugyanabban a helyzetben előforduló címkéket tartja fenn, összehasonlítható számú NRSF-kötő pozíciót eredményez (2,985). Ilyen randomizációt alkalmaztunk a statisztikailag szignifikáns kötési pozíciók számának meghatározására a CTCF (23981 pozíció 0,01 FDR esetén) és STAT1 (44 921 pozíció 0,01 FDR esetén) adatkészletek esetében. A szigorúbb FDR-értékekhez a kötési pozíciók számának megfelelő nagyobb címke randomizációs blokkokat igényel (3.Kiegészítő táblázat), jelezve, hogy az egyszerű randomizációs stratégiák nem tudják megfelelően figyelembe venni a háttércsoportosítási tulajdonságokat.

a megfelelő szekvenálási mélység tesztelése

annak felméréséhez, hogy a szekvenálási mélység elérte-e azt a telítettségi pontot, amelyen túl további kötőhelyeket nem észlelnek, elemeztük, hogyan változott az előrejelzett kötési helyek halmaza, amikor csak a címkeadatok egy részét használták az előrejelzéshez. A címkeadatok növekvő frakcióinak mintavételével meghatároztuk a kötési pozíciókat, és összehasonlítottuk ezeket az előrejelzéseket a teljes adatokból azonosított referencia kötési helyek halmazával (ábra. 6a és kiegészítő ábra. 13 online).

6.ábra: a szekvenálási mélység elemzése.

(a) A teljes adatkészlet (y tengely) segítségével meghatározott nrsf kötési pozíciók alapján a szilárd fekete görbe a címkeadatok (x tengely) kisebb részeinek felhasználásával (50 bp-n belül) megjósolható pozíciók töredékét mutatja. Az összes kötési előrejelzést 0,01 FDR-rel generáljuk a WTD módszerrel. A görbe nem éri el a vízszintes aszimptotát, jelezve, hogy az észlelt NRSF kötőhelyek halmaza nem stabilizálódott az aktuális szekvenálási mélységben. A további görbék olyan kötési pozíciókra korlátozzák az elemzést, amelyek a háttérhez viszonyított dúsítási aránya szignifikánsan (P < 0,05) magasabb, mint 7,5 (MSER: minimális telített dúsítási Arány, szaggatott vonal) és 30 (szaggatott vonal). A megfigyelt dúsítási arányokat az egyes címkealkatrészekre (x tengely) függetlenül értékeljük. (b) a címkeszámok eloszlása a nagy megbízhatóságú NRSF motívumpozíciók körül. A nulla címkével rendelkező pozíciók nem szerepeltek. c) Az észlelt kötési pozíciók MSER-je és a szekvenálási mélység közötti kapcsolat (a teljes adatkészlet töredékében kifejezve). A szaggatott szürke vonal egy log-log modellt mutat, amely felhasználható a kötési pozíciók telítettségéhez szükséges szekvenálási mélység becslésére alacsonyabb hajtásdúsítási arány mellett. Ezzel a becsléssel 1,2 XNUMX 106 további szekvenciacímkére lenne szükség a háttér felett kétszeresen dúsított kötési pozíciók telítettségéhez (MSER = 2 megfelel y = 0-nak, ekkor a szaggatott vonal keresztezi az x tengelyt: x = 2,8 106).

Ha a szekvenálási mélység túlmutat a telítettségi ponton, akkor a referenciakészlethez csak a címkeadatok egy részhalmazát használva lehet eljutni. Megállapítottuk azonban, hogy a három adathalmaz egyike sem érte el ezt a telítettségi pontot (vízszintes aszimptotát), és hogy az egyező kötési pozíciók töredéke csökkent, ha a címkeadatok egy kis részét is kihagyták. Ez azt jelzi, hogy további kötőhelyeket folyamatosan azonosítanak a növekvő szekvenálási mélységgel. A megfigyelt tendencia az FDR küszöbértékek tartományára vonatkozik (kiegészítő ábra. 13): bár a telítettségi görbe meredeksége lényegesen szigorúbb FDR küszöb beállításával csökkenthető, ez lényegesen kisebb számú kötőhelyet eredményez.

a kötési hely lefedettségének tulajdonságainak megértéséhez megvizsgáltuk a magas pontszámú szekvenciamotívumokhoz kapcsolódó címkeszámokat (ábra. 6B és kiegészítő ábra. 14 online). Mindhárom adatkészletben a címkeszámok eloszlása nagyon széles dinamikatartományt mutatott. Míg egyes pozíciókban több száz címke volt, mások alig emelkedtek a várt háttérszám fölé. Sőt, ezek az eloszlások folyamatosnak tűntek, mivel nem mutatták a kötési pozíciók különálló alpopulációit. Ez arra utal, hogy a növekvő szekvenálási mélység lehetővé teheti a gyenge kötési pozíciók nagyobb számának megkülönböztetését minőségi küszöb nélkül, amely meghatározná a kötési helyek teljes készletét.

mivel a kifejezettebb kötési pozíciókat kisebb szekvenálási mélység alkalmazásával azonosítják, egy adott mélységű kísérlet telítheti azoknak a kötési pozícióknak a kimutatását, amelyek meghaladják a címke bizonyos dúsítási arányát a háttérhez képest. Ezt a dúsítási arányt minimális telített dúsítási aránynak (MSER) nevezzük. A telítettségi kritériumok, amelyek meghatározzák a telítettségi görbe maximális elfogadható meredekségét (ábra. 6a) megfogalmazható az előre jelzett kötési helyek stabilitásának követelményeként. Például 99% – os egyetértésre van szükségünk a kötési pozíciók halmazában, ha az adatkészletet 105 címkével csökkentjük. Az NRSF bemeneti címkeadatok felhasználásával az egyes kötési pozíciók dúsítási arányának konfidenciaintervallumainak meghatározásához azt találtuk, hogy az elért szekvenálási mélység elegendő volt ahhoz, hogy a kötési pozíciók detektálását a címke dúsítási aránya szignifikánsan meghaladja a 7,5 értéket (P-érték < 0,05; ábra. 6a és kiegészítő ábra. 15 online). A 2755 nrsf kötési pozícióból, amelyet 0 FDR-nél észleltek.01, 1,879 (68%) volt dúsítási arány lényegesen nagyobb, mint az MSER értéke 7,5 (kiegészítő ábra. 13). Megjegyezzük, hogy egy adott MSER-érték nem jelenti azt, hogy az adott dúsítás összes valódi kötési helyzetét felfedezték; ehelyett azt jelzi, hogy az MSER-értéknél lényegesen magasabb dúsítású új kötési pozíciókat kellően lassú ütemben detektálják. A tényleges dúsítási arányok potenciális tartománya az egyes kötési pozíciókra kiszámított dúsítási konfidencia intervallumok alapján értékelhető (kiegészítő ábra. 16 online). Mivel a dúsítási Arány konfidencia intervallumainak becslése a háttércímke eloszlásáról rendelkezésre álló információk mennyiségétől is függ, a különböző MSER-értékek összehasonlításakor hasonló genomiális lefedettségű bemeneti adatkészleteket kell használni.

gyakorlati célokra fontos, hogy meg tudjuk jósolni az adott cél dúsítási Arány feletti csúcsok telítettségérzékeléséhez szükséges címkék számát. A címkék száma és az MSER közötti kapcsolat olyan függőséggé rendeződik, amelyet egy log-log modell segítségével extrapolálhatunk (ábra. 6c). Megjósoljuk, például, hogy 1.2 db 106 további címkére lenne szükség a telítettség eléréséhez az NRSF kötési pozíciók detektálásakor, a háttérben történő dúsítással, amely lényegesen magasabb, mint a kettős (P-érték < 0,05). Az MSER-értékek és extrapolációk a telítettségi kritériumoktól és a dúsítási konfidencia-intervallumok kiszámításához használt módszerektől függenek (kiegészítő ábra. 17 online).

a szekvenálási mélység növelése valószínűleg a meghatározott kötési pozíciók nagyobb pontosságához is vezet. Az NRSF adathalmaz segítségével elemeztük, hogy az észlelt kötési pozíciók és a szekvenciamotívumok közötti átlagos távolság hogyan függ az előrejelzésekhez használt címkék számától. Eredményeink azt mutatják, hogy a pontosság valóban javult a címkék növekvő számával (kiegészítő ábra. 18 online). A javulás azonban csekély volt: a pontosság csak néhány bázispárral csökkent, még akkor is, ha a címkék száma felére csökkent.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.