DNA: ta sitovien proteiinien ChIP-seq-kokeiden suunnittelu ja analyysi

tagin jakautuminen proteiineihin sitoutumispaikkojen ympärille

yleensä immunopresipitaatio valitsee joukon päällekkäisiä DNA-fragmentteja sitoutuneiden paikkojen ympärille. Suurinopeuksinen sekvensointi tunnistaa lyhyet (∼35 bp Solexa tai kiinteät alustat)Tunnisteet 5 ’ päissä fragmentteja joko DNA-juosteen. Tunnisteiden asennot määritetään sitten kohdistamalla ne genomikokoonpanoon, jolloin moniselitteiset linjaukset tyypillisesti hylätään. Tuloksena oleva merkkiesiintymien spatiaalinen jakauma vakaan sidontapaikan ympärille näyttää siis erilliset tunnisteen tiheyden huiput positiivisilla ja negatiivisilla säikeillä (Kuva. 1b, c). Piikkien välinen etäisyys kuvastanee suojelualueen kokoa, joskin siihen voi vaikuttaa myös DNA: n palasten kokojakauma. Tämä etäisyys ei ole kovin riippuvainen piikkien sisällä olevien tunnisteiden määrästä (täydentävä taulukko 1 verkossa).

tämän tunnistekuvion genominlaajuista jälkeä voidaan arvioida laskemalla positiivisten ja negatiivisten säikeiden tunnistetiheyksien ristikorrelaatio, siirtämällä säikeitä toisiinsa nähden etäisyyden kasvaessa. Kaikissa tutkituissa tietoaineistoissa on selkeä ristikorrelaatioprofiilin huippu, joka vastaa suojellun alueen vallitsevaa kokoa (kuva. 1d ja täydentävä Kuva. 1 verkossa). Piikin suuruus kuvastaa tietoaineistossa olevien tunnisteiden osuutta, joka näkyy odotetun sitovan tunnistemallin mukaisesti. Ideaalitapauksessa, kun kaikki sekvensoidut tunnisteet osallistuvat tällaisiin sitoviin kuvioihin, korrelaatiosuure saavuttaa maksimiarvon. Kääntäen, suuruus pienenee, kun tag positiot satunnaistetaan (Supplementary Fig. 2 verkossa).

käyttämällä vaihtelevan laatuisia tunnisteita

vaikka jotkut tunnisteet ovat täydellisesti vertailuperimän kanssa, toiset vain osittain, ja niissä on aukkoja tai yhteensopimattomuuksia. Huonosti kohdistetut tunnisteet voivat johtua kokeellisista ongelmista, kuten näytteen saastumisesta, vastata polymorfisia tai kokoamattomia genomin alueita tai heijastaa sekvensointivirheitä. Solexa-alustalla sekvensointivirheet ovat runsaampia sekvensoitujen fragmenttien 3 ’- päitä kohti, mikä johtaa usein osittaisiin linjauksiin, jotka sisältävät vain 5′ – päiden lähellä olevat tagien osat. Arvioimme, että tämä epäsuhta taajuuksien kasvu kohti 3’ termini on 41-75% kaikista havaituista yhteensopimattomuuksista tutkituissa tietoaineistoissa (täydentävä Kuva. 3 verkossa). Koska ei ole epätavallista, että >50% tagien kokonaismäärästä johtaa vain osittaiseen kohdistukseen, on tärkeää sisällyttää tunnisteita,jotka ovat osittain linjassa, mutta silti informatiivisia, minkä tahansa tietoaineiston käytön optimoimiseksi 11, 12. Siksi päätimme käyttää ottelun pituutta ja nukleotidien määrää, jotka ovat yhteensopimattomuuksien ja aukkojen peitossa, luokitellaksemme tunnisteiden kohdistuksen laadun (taulukko 1 ja täydentävä taulukko 2 verkossa).

Taulukko 1 tunnisteiden täsmäytysten luokittelu ottelun pituuden ja kohtauserojen lukumäärän perusteella

ottaen huomioon tunnisteiden luokittelun tasauksen laadun perusteella ehdotamme, että Strandin ristikorrelaatioprofiilia käytetään määritettäessä, tulisiko tietyn tunnisteluokan olla sisältyy tarkempaan analyysiin. Joukko tunnisteita informatiivinen sitovia kantoja pitäisi lisätä ristikorrelaatio suuruus, kun taas satunnaisesti kartoitettu joukko tunnisteet pitäisi vähentää sitä (täydentävä Kuva. 2). Tämän lähestymistavan käyttäminen NRSF – tietokokonaisuudessa (Kuva. 2), havaitsimme, että täsmäykset, joissa on vähintään 18 bp ja nolla kohtaanto-eroa, paransivat ristikorrelaatioprofiilia. Kuitenkin vain täyspitkät (25 bp) ottelut tulisi harkita tunnisteet, joissa on kaksi yhteensopimattomuutta. Tämän kriteerin käyttäminen tunnisteiden hyväksymiseen lisäsi niiden lukumäärää täysin yhdenmukaisten tunnisteiden joukosta 27 prosenttia NRSF – tietokokonaisuudessa, 30 prosenttia CTCF-tietokokonaisuudessa ja 36 prosenttia STAT1-tietokokonaisuudessa (täydentävä Kuva). 4 verkossa). Näiden tunnisteiden sisällyttäminen paransi tunnistettujen sitomiskohtien herkkyyttä ja tarkkuutta (täydentävä Kuva. 5 verkossa).

kuva 2: valitaan informatiiviset tunnisteluokat, jotka perustuvat Strandin ristikorrelaatiomäärän muutokseen.

kunkin taulukossa 1 luetellun merkintöjen yhtenäistämisen laatuluokan osalta havaintoalat osoittavat juosteen keskimääräisen ristikorrelaatioprofiilin muutoksen, kun tätä tunnisteluokkaa tarkastellaan yhdessä täysin yhdenmukaisten tunnisteiden perusluokan kanssa (25 bp, ei yhteensopimattomuuksia). (a-c) kolme kuviota vastaavat tunnisteluokkia, joissa ei ole yhteensopimattomuuksia (a), joissa on yksi yhteensopimattomuus (b) ja kaksi yhteensopimattomuutta (c). Informatiiviset tunnisteluokat parantavat ristikorrelaatiota (merkitään*), ja ne sisällytetään lopulliseen tunnistejoukkoon. Y-akseli antaa ristikorrelaatioprofiilin keskimääräisen muutoksen 40 bp: n sisällä ristikorrelaatiohuipun ympärillä (Kuva. 1d).

Taustamerkkien jakautumisen kontrollointi

oletetun proteiinisitoutumispaikan tunnistejoukon tilastollinen merkitsevyys riippuu odotetusta taustamallista. Yksinkertaisin malli olettaa, että taustamerkinnän tiheys jakautuu tasaisesti genomia pitkin ja itsenäisesti strands11: n kesken. Nrsf-Sirunäytteen lisäksi Johnson et al.2 on sekvensoitu kontrollin tulonäyte, joka tarjoaa kokeellisen arvioinnin taustamerkin jakamisesta. Havaitsimme, että taustamerkinnän jakaumassa esiintyy huomattavasti suurempi ryhmittymä kuin edellä mainitun yksinkertaisen mallin ehdottamassa homogeenisessa Poisson-prosessissa (p < 10-6, täydentävä Kuva. 6 verkossa).

tarkastellessamme tulotunnisteen tiheyttä tunnistamme kolme päätyyppiä taustapoikkeamia. Ensimmäinen tyyppi johtaa yksittäisiin piikkien tag tiheys yhden kromosomin sijainti monia suuruusluokkia suurempi kuin ympäröivä tiheys (Kuva. 3 A). Tällaiset piikit esiintyvät yleensä samassa asennossa molemmissa kromosomisäikeissä. Toinen anomaliatyyppi johtaa nonuniformisiin, leveisiin (>1000 bp) klustereihin, joissa on lisääntynyt tägitiheys joko yhdellä tai molemmilla säikeillä (Kuva. 3b). Kolmannessa tyypissä esiintyy pieniä lohkokohtaisia tägitiheyksiä, jotka muistuttavat vakaasta proteiininsitoutumisasennosta odotettavaa kaavaa, vaikka se tyypillisesti osoittaa pienempää eroa säikeiden piikkien välillä (Kuva. 3c). Samanlaisia poikkeamia voidaan havaita muiden eliöiden syötesekvensseissä (tietoja ei näytetä).

kuva 3: Esimerkkejä poikkeamista taustamerkintöjen jakaumissa.

(a (b) suuremmat, ei-yhtenäiset alueet, joilla on lisääntynyt taustamerkinnän tiheys. C) taustamerkinnän tiheysmallit, jotka muistuttavat todellisia proteiininsitoutumisasentoja. Jokainen kuvaaja näyttää sirun ja tulonäytteiden tunnisteiden tiheyden. Tunnisteen histogrammit antavat yhdistetyt tunnisteiden määrät.

ensimmäinen anomaliatyyppi voidaan helposti havaita ja eliminoida, koska se poikkeaa suuresti ympäröivästä tunnistetiheydestä. Muunlaisia poikkeamia, erityisesti kolmatta, on kuitenkin vaikea erottaa Sirutiedon sisällä. Tämä osoittaa, että tulomateriaalin sekvensointi on välttämätöntä taustamerkinnän jakautumisen huomioon ottamiseksi. Mock control-kokeen (epäspesifinen vasta-aine tai vasta-aine) sekvensointi voi myös olla tarpeen.

epätasaisen taustajakauman valvomiseksi alla ehdotetuilla sitomismenetelmillä vähennetään rescued background tag density ennen sitomispaikkojen määrittämistä, jos tällaisia tietoja on saatavilla. Lisäksi hyväksytään vain sitovat positiot alueilla, joilla on merkittävä siru/panos-tag-suhde2. Tällaisten taustakorjausten vaikutusta kuvataan seuraavissa jaksoissa.

Sidontatunnistusmenetelmiä ja sidontapaikkojen suhteellista kattavuutta

olemme tarkastelleet viittä eri tapaa kutsua sidontapaikkoja, mukaan lukien kaksi aiemmin julkaistua algoritmia (CSP, XSET) ja kolme omaa menetelmää. Lyhyesti, chipseq Peak locator (CSP) – menetelmä tunnistaa alueet, joilla on merkittävä rikastus syöttöprofiiliin verrattuna, ja määrittää sitovat asemat sellaisiksi, joilla on eniten tunnisteita kyseisillä alueilla.2. Extended set (XSET) – menetelmä laajentaa positiivisen ja negatiivisen juosteen tunnisteita DNA: n fragmentin odotetun pituuden mukaan ja määrittää sidontapaikat sellaisiksi, joissa on eniten päällekkäisiä fragmenteja11.

menetelmissämme hyödynnetään sitomiskohdissa havaittua säiekohtaista tunnistekuviota (Kuva. 1c). Ensimmäinen tällainen menetelmä, window tag density (WTD), on samanlainen kuin XSET, mutta pisteet kantoja perustuu strand-erityinen tag laskee ylä-ja alavirtaan tarkastellun kannan (Fig. 4 A). Toinen menetelmä, joka vastaa säikeiden huippuja (MSP), määrittää lohkokohtaisen tunnisteen tiheyden paikalliset huiput ja määrittää positiot, joita ympäröivät odotetulla etäisyydellä yhtä suuret positiiviset ja negatiiviset juosteet (Fig). 4b). Kolmas menetelmä, mirror tag correlation (MTC), skannaa genomin tunnistaa kantoja, joissa esiintyy lausutaan positiivinen – ja negatiivinen-juosteen tag malleja, jotka peilaavat toisiaan (Kuva. 4c). Lähdekoodi on saatavilla verkossa (täydentävä lähdekoodi), ja ajantasaisen R-paketin voi ladata osoitteesta http://compbio.med.harvard.edu/Supplements/ChIP-seq.

Kuva 4: Sitoutumisasennon toteamismenetelmät ja niiden suhteellinen herkkyys.

(a) kaavio WTD-menetelmästä. Tunnistaakseen paikat, joissa on vahvasta sitomisesta odotettavissa oleva tunnistekuvio, menetelmä laskee eron tunnisteiden määrän geometrisen keskiarvon välillä oranssilla värillä merkityillä alueilla (p1 ja n2) ja tunnisteiden keskiarvon välillä vihreällä värillä merkityillä alueilla (n1 ja p2). B) MSP-menetelmässä määritetään ensin paikalliset maksimit positiivisilla ja negatiivisilla säikeillä (avoimet ympyrät) ja sitten määritetään paikat, joissa tällaiset kaksi piikkiä ovat oikeassa järjestyksessä, odotetulla erotuksella ja vertailukelpoisella suuruudella. C) MTC – menetelmä perustuu positiivisten ja negatiivisten säikeiden tunnistetiheyksien peilirelaatioon. Negatiivisen juosteen tiheyden peilikuva näkyy rikkoutuneella siniviivalla. Tunnisteet sisällä 15 bp keskustan kannan jätetään pois. (d) kattavuus korkean luottamuksen NRSF motif ottelut huiput. Kuvaaja näyttää motif-esiintymien murto-osan, joka yhtyy (50 bp: n kanssa) tunnistettuihin sidontapaikkoihin, funktiona lisätä eri menetelmillä tunnistettujen top-sidontapaikkojen määrää. Useimmat menetelmät MSP: tä ja CSP: tä lukuun ottamatta pystyvät saavuttamaan yhtä korkean kattavuuden.

vaikka täydellistä luetteloa todellisista sitoutumispaikoista ei tunneta yhdestäkään tutkitusta tietoaineistosta, kaikilla kolmella proteiinilla on tunnettuja sitoutumisjärjestyspesifisyyksiä. Vaikka tässä työssä kuvatut sidontatunnistusmenetelmät eivät perustu sekvenssitietoihin, käytimme korkean pisteytyksen sekvenssimotiiveja arvioidessamme eri sidontatunnistusmenetelmien suhteellisia suorituksia. Näin tehdessämme oletamme vain, että korkean pistemäärän motif instanssit sisältävät edustavan osajoukon todellisista sitovista kannoista, eivätkä vaadi kaikkien korkean pistemäärän saaneiden motiivien sitomista, tai että kaikilla todellisilla sitovilla sivustoilla on motiivi-allekirjoitus. Arvioimme suorituskykyä käyttäen kanonisia sekvenssimotiiveja nrsf: n ja CTCF14,15: n sitomiseen ja gamma-aktivoitua työmotiivia (kaasu) stat1 binding5, 11: n ennustajana. Sitoutumishavaintomenetelmillä saadaan tunnistettuihin sitoutumispaikkoihin liittyvät huippumagnitudipisteet, jolloin kussakin menetelmässä määritetyt sitoutumispaikat voidaan priorisoida.

eri menetelmien herkkyyden vertailemiseksi valitsimme yhä useampia kunkin menetelmän palauttamia top-sidontapaikkoja ja tarkastelimme niiden motif-esiintymien murto-osaa, joille sidontapaikka tunnistettiin (Kuva. 4d). Havaitsimme, että 89% valituista eniten pisteitä saaneista nrsf-matseista osui yhteen Havaittujen sitovien paikkojen kanssa. Motifin peittoaste ylittää selvästi satunnaisennustuksessa odotetun määrän, mikä mahdollistaa eri sitovien havaitsemismenetelmien suhteellisten suoritusten vertailun. MSP: tä ja CSP: tä lukuun ottamatta kaikilla menetelmillä saavutetaan yhtä suuri motiivin kattavuus. CSP menetelmä toimii huonommin näkyvämpi sitovia kantoja (top 500), kun taas MSP lähestymistapa toimii huonosti koko alue. STAT1 – ja CTCF-sitoutumisanalyysit osoittavat vastaavia tuloksia eri menetelmien suhteellisten suoritusten suhteen(täydentävä Kuva. 7 verkossa). Nämä tulokset vahvistetaan myös analysoimalla PCR-validoitu sitova lokus literature2, 11, 15 (täydentäviä viikunoita. 8 ja 9 verkossa). Toteamme, että motif-ja PCR-Validoidut testisarjat edustavat vain murto-osaa todellisista sidontapaikoista. Koska tämä murto-osa on pienempi CTCF: n ja STAT1: n osalta, käytetään suurempia huippusidontapaikkojen sarjoja kuvaamaan testijoukon kattavuutta eri menetelmillä.

edellisessä jaksossa kuvatut taustan vähennyslaskumenetelmät parantavat NRSF-Motifin kattavuutta ja saavuttavat saman kattavuuden jopa 11% pienemmillä ylimmillä sitovilla paikoilla (täydentävä Kuva. 10 verkossa). Korjauksilla ei ole juurikaan vaikutusta 1 500 parhaan sidontapaikkaan, joihin liittyy suurempia tunnistemääriä kuin mihinkään epätasaisesta taustasta johtuviin vääriin positiivisiin piikkeihin. Taustavoimaiset väärät positiiviset kannat ovat yleensä suuruudeltaan pienempiä ja alkavat vaikuttaa ennusteisiin sitovampien kantojen tarkastellessa.

Sitoutumispaikkojen tarkkuus

arvioidaksemme spatiaalista tarkkuutta, jolla proteiininsitoutumispaikat tunnistetaan eri menetelmillä, olemme analysoineet ennustettujen paikkojen ja korkeasti pisteytettyjen motif-osumien sijaintien välisiä etäisyyksiä (Kuva. 5 a). NRSF-aineistolle WTD-menetelmä ennustaa sidontapaikat erittäin tarkasti, ja >60% ennustetuista huipuista sijaitsee 10 bp: n sisällä motif-keskuksesta (Kuva. 5b ja täydentävä Kuva. 11a verkossa). Sitä seuraavat XSET -, MTC-ja MSP-menetelmät, joissa CSP kutsuu ∼40% huipuista 10 bp: n sisällä motiiveista. Taustakorjaukset vaikuttavat vain vähän ennustettujen positioiden tarkkuuteen, ja vain WTD-menetelmä osoittaa 3 prosentin parannusta vahvojen sitovien positioiden osalta (tietoja ei näy).

kuva 5: määritettyjen sidontapaikkojen tarkkuus.

(a) etäisyyksien jakautuminen luotettavien NRSF motif-esiintymien ja eri menetelmillä tunnistettujen sidontapaikkojen välillä. Saadun jakauman S.D. (σ) esitetään kullekin menetelmälle. Huomioon otettiin vain motiivit, jotka sisälsivät sitoutumisasennon 100 bp: n sisällä. (b) nrsf-motif-asennon 10 bp: n sisällä Havaittujen sitomispaikkojen murto-osa esitetään yhä useammille eri menetelmillä tunnistetuille top-sitomispaikoille. Analyysiin otetaan mukaan vain sidontapaikat, jotka esiintyvät 300 bp: n sisällä sekvenssimotifikaatiossa. Mediaani etäisyys motif center vähennettiin kunkin menetelmän huomioon noncentral sijainti sekvenssin motif suhteessa keskustaan suojatun sitova alue. Ctcf (c): lle ja STAT1 (d): lle esitetään vastaavat havaintoalat. MTC-menetelmällä saavutetaan suurin tarkkuus CTCF: lle ja STAT1: lle; kuitenkin WTD antaa tarkemmat asemat NRSF-sidonnalle.

CTCF-ja STAT1-ennusteiden osalta MTC-menetelmä saavuttaa kuitenkin paremman tarkkuuden kuin WTD (Kuva. 5c, d ja täydentävä Kuva. 11 b,c). Ero selittyy tunnisteen jakautumisen ominaisuuksilla heti suojelualueen keskustan tuntumassa. Toisin kuin WTD ja XSET, MTC-menetelmä ei ota huomioon keskialueen (30 bp) tunnisteita sitovia kantoja pistettäessä. MTC-menetelmän muuttaminen siten, että tällaiset positiot otetaan huomioon, vähentää määritettyjen sitovien positioiden tarkkuutta WTD-ennusteita vastaavalle tasolle. Tutkittuamme merkkiasentojen yleistä jakautumista suhteessa korkean pistemäärän saaneisiin motif-osumiin, havaitsimme, että CTCF ja STAT1 osoittivat odottamattomat piikit tunnisteen tiheydessä välittömästi motif-aseman vieressä (10-15 bp: n sisällä) (täydentävä Kuva. 12 verkossa). Tämä kuvio, jossa pienet negatiivisten säikeiden tunnisteet näkyvät välittömästi suojellun alueen yläjuoksulla ja positiivisten säikeiden tunnisteet peilaavat niitä välittömästi alajuoksulla, voi johtua ristiinlinkittävistä vuorovaikutuksista, joita esiintyy suojellun keskusalueen ulkopuolella (Kuva. 1B, broken line). Tämän seurauksena piikkien havaitsemismenetelmät, joissa huomioidaan keskialueen lähellä olevat tunnisteet, pyrkivät kutsumaan kantoja 15-20 bp ylävirtaan tai alavirtaan todellisesta sitoutumiskohdasta.

tilastollisesti merkittävät positiot

sitoutumishavaintomenetelmien tulisi rajoittaa tuloksena olevat sitoutumispaikat niihin, jotka eivät todennäköisesti ole sattuneet. Tilastollisen merkitsevyyden haluttu taso ilmoitetaan yleensä false discovery rate-arvona (FDR) tai odotettujen väärien positiivisten positioiden lukumääränä (e-arvona).

osoitusmenetelmissä voidaan sitten käyttää taustamerkinnän jakautumista määritettäessä vähimmäissitoutumispistemäärä, joka täyttää määritellyn merkitsevyystason. Monet väärät positiiviset puhelut ovat peräisin aiemmin kuvatuilta suurilta poikkeavilta alueilta. Nämä systemaattiset virheet voidaan suodattaa ennen merkittävyyskynnysten määrittämistä. Nrsf: n syöttönäytetietojen perusteella löysimme yhteensä 2,755 sitovaa kantaa FDR-kynnykselle 0,01 WTD-menetelmällä. Tämä vastaa tarkasti niiden huippujen määrää, jotka vaadittiin, jotta edellisissä jaksoissa käytetyt korkean pistemäärän motif-sijainnit olisivat mahdollisimman kattavia (Kuva. 4d).

Jos taustamerkinnän jakaumasta ei ole empiiristä estimaattia, voi olla mahdollista turvautua analyyttiseen malliin. Yksinkertaisin tällainen malli on spatiaalinen Poisson-prosessi, jossa tägit jakautuvat tasaisesti genome11: n esteettömille alueille. Koska todellisissa taustamerkintäjakaumissa esiintyy kuitenkin merkittävä määrä tunnisteiden ryhmittelyä, tämä Poisson-pohjainen kynnys on huomattavasti alhaisempi kuin empiirisestä taustamittauksesta saatu kynnys, mikä johtaa merkittävien sitovien positioiden määrän yliarviointiin (9,206 vs. 2,755, kun FDR on 0,01). Vertailu syöttötietoihin perustuviin FDR-laskelmiin osoittaa, että Poisson – pohjaisessa mallissa FDR: t aliarvioidaan 8-20-kertaisiksi riippuen tavoitearvosta FDR (täydentävä Taulukko 3 verkossa).

tilastollisia raja-arvoja voidaan arvioida tarkemmin laskemalla taustamerkinnän jakauman ryhmittelyaste. Yksinkertainen lähestymistapa on käyttää satunnaistamista, joka ylläpitää samoissa tai lähellä olevissa kohdissa esiintyviä tunnisteita yhdessä, sen sijaan, että ne määritettäisiin itsenäisiksi paikoiksi, kuten Poisson-mallissa. Tällaisten satunnaistamismallien avulla määritettyjen merkittävien positioiden lukumäärä, joilla on eri lokerokoot, on esitetty täydentävässä taulukossa 3. Kun FDR on 0.01, satunnaistamismalli, joka ylläpitää yhdessä tageja esiintyy täsmälleen samassa paikassa genomissa, johtaa vertailukelpoiseen määrään NRSF-sitovia kantoja (2,985). Käytimme tällaista satunnaistamista määrittääksemme tilastollisesti merkittävien sitovien positioiden määrän CTCF: lle (2,3981 positiota 0,01: n FDR: lle) ja STAT1: lle (44,921 positiota 0,01: n FDR: lle). Sitovien positioiden määrän sovittaminen tiukempiin FDR-arvoihin edellyttää suurempia Tag-satunnaistamislohkoja (täydentävä Taulukko 3), mikä osoittaa, että yksinkertaiset satunnaistamisstrategiat eivät pysty kunnolla huomioimaan taustan ryhmittelyominaisuuksia.

riittävän sekvensointisyvyyden testaus

sen arvioimiseksi, onko sekvensointisyvyys saavuttanut saturaatiopisteen, jonka yli ei havaita muita sitoutumispaikkoja, analysoimme, miten ennustettujen sitoutumispaikkojen joukko muuttui, kun ennustamisessa käytettiin vain osajoukkoa tunnistetietoja. Näytteenotto lisäämällä jakeita tunnisteaineistosta, määritimme sidontapaikat ja vertasimme näitä ennusteita kokonaisaineistosta tunnistettuihin viitesidontapaikkoihin (Kuva. 6a ja täydentävä Kuva. 13 verkossa).

kuva 6: sekvensoinnin syvyyden analyysi.

(a Kaikki sitovat ennustukset tuotetaan FDR: llä 0,01 käyttäen WTD-menetelmää. Käyrä ei saavuta vaakasuoraa asymptoottia, mikä osoittaa, että havaittujen nrsf-sidontapaikkojen joukko ei ole vakiintunut nykyiseen sekvensointisyvyyteen. Lisäkäyrät rajaavat analyysin sitoviin asemiin, joiden kertaus-rikastussuhde taustan yli on merkitsevästi (p < 0, 05) suurempi kuin 7, 5 (MSER: Minimal Saturated Rikastussuhde, dashed line) ja 30 (katkoviiva). Havaitut rikastussuhteet arvioidaan erikseen kunkin tunnisteen osanäytteen (x-akseli) osalta. (b) tagien määrän jakautuminen suuren luottamuksen NRSF-motif-asemiin. Nollalapuilla varustettuja asentoja ei ollut mukana. c) Havaittujen sitovien paikkojen MSER: n ja sekvensointisyvyyden välinen suhde (ilmaistuna murtolukuna täydellisestä tietojoukosta). Dashed gray-viivalla on log-log-malli, jota voidaan käyttää arvioitaessa sekvensointisyvyyttä, joka tarvitaan sidontapaikkojen kyllästämiseen alhaisemmalla kertaus-rikastussuhteella. Tämän arvion mukaan tarvittaisiin 1,2 × 106 sekvenssilappua lisää sellaisten sitovien paikkojen kyllästämiseen, jotka ovat kaksiosaisia taustan päällä (MSER = 2 vastaa arvoa y = 0, jolloin katkoviiva ylittää x-akselin: x = 2,8 × 106).

Jos sekvensointisyvyys on siirtynyt saturaatiopisteen yli, olisi mahdollista päästä vertailujoukkoon käyttäen vain osajoukkoa tunnistetietoja. Havaitsimme kuitenkin, että mikään kolmesta tietokokonaisuudesta ei saavuttanut tällaista kyllästymispistettä (horisontaalinen asymptootti) ja että yhtenäisten sitovien paikkojen murto-osa väheni, kun pienikin murto-osa tunnistetietoja jätettiin pois. Tämä viittaa siihen, että lisää sidontapaikkoja tunnistetaan jatkuvasti ja sekvensointisyvyys kasvaa. Havaittu suuntaus koskee useita FDR: n kynnysarvoja (täydentävä Kuva. 13): vaikka kylläisyyskäyrän kaltevuutta voidaan vähentää asettamalla huomattavasti tiukempi FDR-raja-arvo, tämä johtaa huomattavasti pienempään sitoutumiskohtien määrään.

ymmärtääksemme sidontapaikan peittoalueen ominaisuuksia, tutkimme merkkimääriä, jotka liittyvät korkean pisteytyksen sekvenssimotiiveihin (Kuva. 6b ja täydentävä Kuva. 14 verkossa). Kaikissa kolmessa tietokokonaisuudessa tunnisteiden määrän jakauma oli hyvin laaja dynaaminen alue. Siinä missä joissakin asennoissa oli satoja tägejä, toiset nousivat hädin tuskin yli odotettujen taustalukujen. Lisäksi nämä jakaumat näyttivät jatkuvan, koska niissä ei ollut erillisiä sitovien positioiden alapopulaatioita. Tämä viittaa siihen, että sekvensointisyvyyden lisääminen voi mahdollistaa heikkojen sitovuuskohtien erottamisen suuremmasta määrästä ilman laadullista kynnysarvoa, joka määrittelisi täydellisen sitovuuskohtien joukon.

koska selkeämmät sitoutumispaikat tunnistetaan pienemmällä sekvensointisyvyydellä, tietyn syvyyden koe voi kyllästää sitoutumispaikat, jotka ylittävät tietyn merkkirikastussuhteen taustaan nähden. Kutsumme tätä rikastussuhdetta minimaaliseksi tyydyttyneeksi rikastussuhteeksi (MSER). Saturaatiokriteerit, jotka määrittelevät saturaatiokäyrän suurimman hyväksyttävän kaltevuuden (Kuva. 6a) voidaan muotoilla edellytykseksi ennustettujen sitoutumiskohtien pysyvyydelle. Vaadimme esimerkiksi 99-prosenttista sopimusta sitovista kannoista, kun tietokokonaisuutta vähennetään 105 tägillä. Käyttämällä NRSF-syöttötunnistetietoja kunkin sitomisasennon rikastussuhteen luottamusvälien määrittämiseen havaitsimme, että saavutettu sekvensointisyvyys oli riittävä kyllästämään sitoutumispaikkojen havaitsemisen siten, että merkintätunnisteen rikastussuhde oli merkittävästi yli 7,5 (P-arvo < 0,05; Kuva. 6a ja täydentävä Kuva. 15 verkossa). Niistä 2755 NRSF: n sitoutumisasemasta, jotka havaittiin FDR: llä 0.01, 1,879: llä (68%) oli rikastussuhde, joka oli huomattavasti suurempi kuin MSER-arvo 7,5 (täydentävä Kuva. 13). Toteamme, että tietty MSER-arvo ei tarkoita sitä, että kaikki tämän Taitetun rikastuksen todelliset sidontapaikat olisi löydetty, vaan se osoittaa, että uusia sitovia kantoja, joissa rikastus on huomattavasti MSER-arvoa suurempi, havaitaan riittävän hitaasti. Todellisen rikastussuhteen potentiaalinen vaihteluväli voidaan arvioida kuhunkin sitoutumisasentoon lasketuista väkevöinnin luottamusväleistä (täydentävä Kuva. 16 Verkossa). Koska rikastussuhteen luottamusvälien estimointi riippuu myös taustamerkinnän jakaumasta saatavilla olevan tiedon määrästä, eri MSER-arvoja vertailtaessa olisi käytettävä syöttötietoaineistoja, joiden genominen kattavuus on samankaltainen.

käytännön syistä on tärkeää pystyä ennustamaan niiden tunnisteiden määrä, joita tarvitaan tietyn tavoitevirheisuussuhteen ylittävien piikkien kyllästämiseen. Tunnisteiden lukumäärän ja MSER: n suhde asettuu riippuvuuteen, joka voidaan ekstrapoloida log-log-mallin avulla (Fig. 6c). Ennustamme esimerkiksi, että 1.Kyllästymisen saavuttamiseen tarvittaisiin 2 × 106 enemmän tagia NRSF: n sitoutumispaikkojen havaitsemiseksi siten, että rikastuminen taustalla on huomattavasti kaksikertaista suurempi (P-arvo < 0, 05). MSER-arvot ja ekstrapoloinnit riippuvat saturaatiokriteereistä ja rikastuksen luotettavuusvälien laskemiseen käytetyistä menetelmistä (täydentävä Kuva. 17 verkossa).

sekvensointisyvyyden lisääminen johtaa todennäköisesti myös määritettyjen sidontapaikkojen tarkempaan tarkkuuteen. Nrsf-aineistoa käyttäen analysoimme, miten Havaittujen sidontapaikkojen ja sekvenssimotiivien välinen keskimääräinen etäisyys riippuu ennusteissa käytettyjen tunnisteiden määrästä. Tuloksemme osoittavat, että tarkkuus todellakin parani tunnisteiden määrän kasvaessa (täydentävä Kuva. 18 verkossa). Parannus oli kuitenkin pieni: tarkkuus laski vain useilla emäspareilla, vaikka tagien määrä puolittui.

Vastaa

Sähköpostiosoitettasi ei julkaista.