Current guidelines for nomining human genes
for a discussion of our latest guidelines please go to https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038 / S41588-020-0669-3).
universaalisti sovitun vaihtoehdon puuttuessa hgnc säilyttää geenin määritelmän ”DNA-segmenttinä, joka edistää fenotyyppiä / funktiota. Jos osoitettua tehtävää ei ole, geenille voidaan määrittää sekvenssi, transkriptio tai homologia”.
jokaiselle geenille on osoitettu vain yksi symboli; hgnc ei rutiininomaisesti nimeä isoformeja (eli vaihtoehtoisia transkriptejä tai liitosvariantteja). Tämä tarkoittaa, että ei ole erillisiä symboleja proteiinia koodaavan lokuksen proteiinia koodaaville tai ei-koodaaville RNA-isoentsyymeille eikä vaihtoehtoisia transkriptejä ei-koodaavalle RNA-lokukselle. Poikkeuksellisissa olosuhteissa ja yhteisön kysynnän seurauksena on hyväksytty erilliset symbolit kompleksisten lokusten geenisegmenteille, esimerkiksi UGT1-lokukselle. Putatiiviselle bikistroniselle lokukselle voidaan antaa erilliset symbolit, jotka edustavat erillisiä geenituotteita.
jokaiselle nimeämällemme geenille annetaan yksilöllinen symboli, HGNC ID (muodossa HGNC:# ) ja kuvaava nimi. Symboleissa on vain isoja latinalaisia kirjaimia ja arabialaisia numeroita, ja välimerkkejä vältetään, poikkeuksena erityisryhmien väliviivat. Symbolien ei pitäisi olla samoja kuin yleisesti käytetyt lyhenteet tiedonhaun helpottamiseksi. Nimikkeistössä ei saisi olla viittauksia mihinkään lajiin tai g-kirjaimeen, eikä se saisi olla loukkaava tai halventava.
proteiinia koodaavat geenit
pyrimme nimeämään proteiinia koodaavat geenit geenituotteen keskeisen normaalin toiminnan perusteella.
funktionaalisten tietojen puuttuessa proteiinia koodaavat geenit voidaan nimetä seuraavasti:
- geenin koodaamien tunnistettujen rakenteellisten domeenien ja motiivien perusteella (esim. BEND7, ”BEN domeeni, joka sisältää 7”)
- perustuu ihmisen genomissa oleviin homologisiin geeneihin (esim. GPRIN3, ”GPRIN family member 3”)
- perustuu toisen lajin homologisiin geeneihin (esim. FEM1A, ”fem-1 homolog a”)
- perustuu vain avoimen lukukehyksen läsnäoloon (esim. C17orf50,”chromosome 17 open reading frame 50″)
mahdollisuuksien mukaan sukuiset geenit nimetään käyttäen yhteistä juurisymbolia mahdollistamaan ryhmittely, joka perustuu tyypillisesti sekvenssihomologiaan, jaettuun funktioon tai proteiinikompleksien jäsenyyteen.
tiettyihin immuuniprosesseihin tai entsyymiä, reseptoria tai ionikanavaa koodaavien geenien osalta konsultoimme erikoistuneita nimistöryhmiä (katso lisähuomautus osoitteessa https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). Muiden suurten geeniryhmien osalta kuulemme neuvonantajaraatia, kun nimeämme uusia jäseniä ja keskustelemme nimistöpäivityksistä.
Pseudogeenit
määrittelemme pseudogeenin sekvenssiksi, joka ei kykene tuottamaan funktionaalista proteiinituotetta, mutta jolla on korkea homologian taso funktionaaliselle geenille. Yleensä nimeämme vain pseudogeenejä, jotka säilyttävät homologian merkittävässä osassa funktionaalista esi-isägeeniä.
jalostetut pseudogeenit nimetään tietyn kantageenin perusteella siten, että kantageenin symboliin on liitetty P ja numero (esimerkiksi NACAP10, ”NACA pseudogene 10”). Numerointi on yleensä lajikohtaista.
Pseudogeenit, jotka säilyttävät suurimman osan koodausjärjestyksestä muihin perheenjäseniin verrattuna (ja ovat yleensä käsittelemättömiä), nimetään uudeksi perheenjäseneksi, jolla on ”P”-pääte, esim.DDX12P, ”DEAD / H-box helicase 12, pseudogene”. Tätä nimeämismuotoa käytetään myös geeneistä, jotka ovat pseudogenisoituneita suhteessa funktionaaliseen ortologiaansa toisella lajilla. Huomaa, että harvoin tällaiset pseudogeenit eivät sisällä ”P”: tä, jos symboli on hyvin vakiintunut, esim.MMP23A;”matrix metallopeptidase 23A (pseudogene)”.
koodaamattomat RNA-geenit
nimeämme ei-koodaavat RNA-geenit (ncRNA) niiden RNA-tyypin mukaan, katso tuore katsauksemme (https://www.embopress.org/doi/full/10.15252/embj.2019103777) täydellinen kuvaus.
pienten RNA: iden, joissa on asiantuntijaresurssi, nimeämiskäytäntöjä noudatetaan seuraavasti:
MicroRNAs miRBase antaa kullekin micrornan varren silmukkasekvenssille symbolin muodossa ”mir‐#” ja jokaiselle kypsälle mirnalle symbolin muodossa ”miR‐#”, jota seuraa ainutlaatuinen juokseva numero, joka kuvastaa tietokantaan toimitettavien tietojen järjestystä. Tämän jälkeen hgnc hyväksyy geenisymbolin ihmisen miRNA‐geeneille muodossa MIR#; esimerkiksi MIR17 edustaa miRNA‐geeniä, mir‐17 edustaa varren silmukkaa ja miR-17 edustaa kypsää mirnaa. Transfer RNAs (tRNAs) genomisessa Trna-tietokannassa (GtRNAdb) () annetaan yksilöllinen tunniste jokaiselle tRNA-geenille muodossa tRNA -‐‐, esim.tRNA‐Ala‐AGC-1-1. Hgnc antaa hieman tiivistyneen, mutta vastaavan Trna-geenisymbolin muodossa TR‐, esim.TRA‐AGC1-1
muut pienten ncrnojen luokat nimetään yhteistyössä erikoisneuvojien kanssa. Pienten ncrna: n pääluokkia ovat:
Pienet ydinsukuiset Rnat, joiden juurisymboli on ”RNA, U# small nucleolar” Small nucleolar RNA, C/D box ”‐geenit on nimetty juurisymboleilla SNORD#,” small nucleolar RNA, H/ACA box ”-geenit SNORA# ja SCARNA#” small Cajal body-specific RNA ”-geenit Ribosomaaliset Rnat, joiden juurisymbolit ovat Rna45s, RNA28S, RNA18S, RNA5S, RNA5-8s
pitkät Ei-koodaavat Rnat (lncrnat) annetaan ensisijaisesti yksilöllisille symboleille, jotka perustuvat julkaistuihin toimintoihin, jotka muistuttavat proteiinia koodaavia geenejä. Lncrna-geenit, joita RefSeq-ja GENCODE-projektit ovat merkinneet ja joille ei ole olemassa sopivaa julkaistua tietoa symbolin perustaksi, nimetään systemaattisesti seuraavasti:
- lncrnoille, jotka ovat intergeenisiä suhteessa proteiinikoodausgeeneihin, annetaan juurisymboli – LINC#, jota seuraa 5‐numeroinen luku, esim. LINC01018
- lncrnoille, jotka ovat antisense proteiinikoodausgeenin genomiselle span: lle, annetaan symbolimuoto ‐AS# esim. FAS-AS1
- lncrnat, jotka poikkeavat proteiinikoodausgeenin kanssa (jakavat kaksisuuntaisen promoottorin kanssa), osoitetaan symbolimuoto ‐DT esim. ABCF1-DT
- lncrnat, jotka sisältyvät samassa säikeessä olevan proteiinia koodaavan geenin introniin, osoitetaan symbolimuoto ‐se# esim. aoah-IT1
- lncrnat, jotka limittyvät proteiinia koodaavan geenin kanssa samaan säikeeseen, annetaan symbolin muoto ‐ot# esim. C5-OT1
- lncrnat, jotka sisältävät mikroRNA-tai snorna-geenejä intronien tai eksonien sisällä, nimetään isäntägeeneiksi esim. MIR17HG, SNHG7
read Through transkriptit
Readthrough transkriptit tuotetaan yleensä viereisistä lokuksista ja sisältävät koodaavia ja / tai koodaamattomia osia kahdesta (tai useammasta) geenistä. Hgnc vain nimet readthrough transkriptit, jotka ovat johdonmukaisesti merkinnöissä sekä RefSeq merkintöjen klo NCBI ja GENCODE merkintöjen klo Ensembl. Näillä transkripteillä on lokustyyppi ”readthrough transkriptio” ja niitä symboloidaan käyttämällä kahta (tai useampaa) vanhemman geenien symbolia, jotka erotetaan väliviivalla, esim.ZNF511-PRAP1, ja nimellä” readthrough”, esim.”ZNF511-PRAP1 readthrough”. Nimi voi sisältää myös lisätietoja transkriptin mahdollisesta koodaustilasta, kuten ”(NMD candidate)”.
geenejä löytyy vain populaation osajoukoista
historiallisesti hgnc on hyväksynyt vain ihmisen referenssigenomissa olevien geenien symbolit. Harvinaisia poikkeuksia on tehty, kun tietyt yhteisöt, joilla on oma nimistökomiteansa, kuten HLA-yhteisö, ovat sitä pyytäneet. Tulevaisuudessa rakennemuunnosten nimeäminen rajoitetaan vaihtoehtoisiin lokuksiin, jotka Genome Reference Consortium (GRC) on sisällyttänyt ihmisen referenssigenomiin. Alleviivausmerkki on varattu geeneille, jotka on merkitty vaihtoehtoisella viitelokulla, esim. C4B_2 on toinen kopio C4B: stä 6p21.3-vaihtoehtoisella viitelokulla.
Huomautus: HGNC ei enää nimeä fenotyyppejä (Katso yhteystiedot OMIM) tai genomialueita, emmekä nimeä transposable-element insertions in the human genome. Geenien translokaatioiden tai fuusioiden tuotteille suosittelemme muotoa SYMBOL1 / SYMBOL2, jotta vältetään sekaannus hyväksymämme symbol1-SYMBOL2-muodon kanssa transkriptien läpivientiä varten. Sequence variant nomenclature on raskaiden tavarankuljetusajoneuvojen toimiala. Valkuaisainenimikkeistön osalta ks.International Protein Nomenclature Guidelines, joka laadittiin HGNC: n myötävaikutuksella. Näiden ohjeiden mukaisesti suosittelemme, että” proteiini-ja geenisymbolit käyttäisivät samaa lyhennettä”, jolloin proteiinit erottaisivat ne geeneistä kursivoimattomilla symboleilla.
kaikkien lajien ortologien nimeäminen
suosittelemme, että selkärankaisten (ja tarvittaessa muidenkin kuin selkärankaisten) lajien ortologisilla geeneillä olisi sama geenisymboli. Homologisten geenien, joilla on sama geenisymboli, alkuperälajin erottamiseksi suosittelemme NCBI: n taksonomiatunnusta sekä lajinimeä tai Genbankin yleisnimeä, esim.Taksonomiatunnus: 9598 ja joko Pan troglodytes tai simpanssi.
selkärankaisten Geeninimikkeistökomitea
selkärankaisten Geeninimikkeistökomitea (Vgnc, ) on hgnc: n laajennus, joka vastaa standardoidun nimikkeistön antamisesta sellaisten selkärankaisten lajien geeneille, joilta puuttuu tällä hetkellä oma nimistökomitea. Vgnc koordinoi viiden olemassa olevan selkärankaisten nimikkeistökomitean, mgnc: n (hiiri), rgnc: n (rotta), cgnc: n (kana), XNC: n (Xenopus-sammakko) ja ZNC: n (seeprakala), kanssa varmistaakseen, että selkärankaisten geenit nimetään niiden ihmisten homologien mukaisesti.
ihmisen C#orf# – geenien selkärankaisten ortologeille on osoitettu ihmisen symboli, jonka etuliitteenä on muiden lajien kromosomiluku ja ihmistä ilmaiseva H. Esimerkiksi koska ihmisen c1orf100: n ortogi on lehmän kromosomissa 16, lehmän tunnus on c16h1orf100 ja sitä vastaava geeninimi ”kromosomi 16 C1orf100 homolog”.
geeniperheet, joilla on monimutkainen evoluutiohistoria, tulisi mieluiten nimetä alan asiantuntijan avulla, kuten on jo toteutettu hajureseptori-ja sytokromi P450-geeniperheiden kohdalla.
aiemmat HGNC-ohjeet
aiemmat hgnc-ohjeet löytyvät osoitteesta https://www.genenames.org/about/old-guidelines/.