Gjeldende retningslinjer for navngiving av humane gener
for en diskusjon av våre nyeste retningslinjer kan du gå tilhttps://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038 / s41588-020-0669-3).i fravær av et universelt avtalt alternativ opprettholder HGNC definisjonen av et gen som » ET DNA-segment som bidrar til fenotype / funksjon. I fravær av demonstrert funksjon kan et gen karakteriseres av sekvens, transkripsjon eller homologi».
hvert gen er tildelt bare ett symbol; HGNC navngir ikke rutinemessig isoformer(dvs. alternative transkripsjoner eller spleisevarianter). Dette betyr ingen separate symboler for proteinkodende eller ikke-kodende RNA-isoformer av et proteinkodende lokus eller alternative transkripsjoner fra et IKKE-kodende RNA-lokus. I unntakstilfeller, og etter samfunnets etterspørsel, har separate symboler blitt godkjent for gensegmenter i komplekse loci, for EKSEMPEL UGT1 locus. Antatte bicistroniske loci kan tildeles separate symboler for å representere de forskjellige genproduktene.
hvert gen som vi heter, er tildelt et unikt symbol, HGNC ID (i formatet HGNC:# ) og beskrivende navn. Symboler inneholder bare store bokstaver og arabiske tall, og tegnsetting unngås, med unntak av bindestreker i bestemte grupper. Symboler bør ikke være de samme som vanlige forkortelser, for å lette innhenting av data. Nomenklatur skal ikke inneholde referanser Til noen art Eller ‘G’ for gen, og skal heller ikke være støtende eller nedsettende.
proteinkodende gener
vi tar sikte På å navngi proteinkodende gener basert på en nøkkel normal funksjon av genproduktet.
i fravær av funksjonelle data kan proteinkodende gener bli navngitt på følgende måter:
- Basert på anerkjente strukturelle domener og motiver kodet av genet (F. eks BEND7, «BEN-domene som inneholder 7»)
- Basert på homologe gener i det menneskelige genomet (F. EKS. GPRIN3, «gprin family member 3»)
- Basert på homologe gener fra en annen art (F. EKS. FEM1A, «fem-1 homolog A»)
- basert bare på tilstedeværelsen av en åpen leseramme (f. eks. C17orf50, «chromosome 17 open reading frame 50»)
der det er mulig, er relaterte gener navngitt ved hjelp av et felles rotsymbol for å muliggjøre gruppering, typisk basert på sekvenshomologi, delt funksjon eller medlemskap av proteinkomplekser.
for gener involvert i spesifikke immunprosesser, eller koding av et enzym, reseptor eller ionkanal, konsulterer vi med spesialiserte nomenklaturgrupper(se tilleggsnotat på https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). For andre store gengrupper konsulterer vi et panel av rådgivere når vi navngir nye medlemmer og diskuterer foreslåtte nomenklaturoppdateringer.
Pseudogener
vi definerer et pseudogen som en sekvens som ikke er i stand til å produsere et funksjonelt proteinprodukt, men har et høyt nivå av homologi til et funksjonelt gen. Generelt nevner vi bare pseudogener som beholder homologi til en betydelig andel av det funksjonelle forfedre genet.
Behandlede pseudogener er navngitt basert på det spesifikke foreldregenet, med En P og et tall lagt til foreldregenet (f. EKS. NACAP10, «naca pseudogen 10»). Nummereringen er vanligvis artsspesifikk.
Pseudogener som beholder det meste av kodingssekvensen sammenlignet med andre familiemedlemmer (og er vanligvis ubehandlede) er navngitt som et nytt familiemedlem med et» P «- suffiks, f. EKS. DDX12P, «DEAD / H-box helicase 12, pseudogen». Dette navngivningsformatet brukes også for gener som er pseudogenisert i forhold til deres funksjonelle ortolog i en annen art. Merk, sjelden slike pseudogener ikke inkluderer » P «hvis symbolet er godt etablert, f. EKS MMP23A;» matrix metallopeptidase 23A (pseudogen)».
Ikke-kodende rna-gener
vi navngir ikke-kodende rna (ncRNA) – gener i henhold til DERES RNA-type, vennligst se vår siste gjennomgang (https://www.embopress.org/doi/full/10.15252/embj.2019103777) for en fullstendig beskrivelse.
For små Rna-Er der det finnes en ekspertressurs, følger Vi deres navnekonvensjoner som følger:
MicroRNAs miRBase tildeler hver microRNA stem-loop-sekvens et symbol i formatet » mir – # «og hver modne miRNA et symbol i formatet» miR‐# » etterfulgt av et unikt sekvensielt tall som gjenspeiler rekkefølgen på innsending til databasen. HGNC godkjenner deretter et gensymbol for humane miRNA-gener i formatet MIR#; FOR eksempel REPRESENTERER MIR17 miRNA-genet, mir‐17 representerer stammen, og miR‐17 representerer den modne miRNA. Overfør Rna (trna) den genomiske trna-databasen (GtRNAdb) () tilordner en unik ID til hvert trna-gen i formatet tRNA – – -, f. eks. tRNA-Ala‐AGC‐1-1. HGNC tildeler et litt kondensert, men ekvivalent trna-gensymbol i formatet TR‐, FOR EKSEMPEL TRA‐AGC1-1
Andre klasser av små ncrna er oppkalt i samarbeid med spesialistrådgivere. Store klasser av små ncRNA inkluderer:
Små nukleære Rna‐Er Navngitt med rotsymbolet «RNU» for «RNA, U# small nucleolar» Små nukleolære Rna-Er Navngitt MED rotsymboler SNORD# for «small nucleolar RNA, C/d box»-gener; SNORA# for «small nucleolar RNA, H / ACA box»-gener; OG SCARNA# for «small Cajal body-specific RNA» – gener Ribosomale Rna-er Navngitt med rotsymbolene RNA45S, RNA28S, RNA18S, RNA5S, RNA5-8s lange Ikke-Kodende Rna (lncrna) ER FORTRINNSVIS gitt unike symboler basert På Publisert funksjon som Ligner På Proteinkodende gener. Lncrna gener som har blitt kommentert Av RefSeq og GENCODE prosjekter som ingen egnet publisert informasjon som å basere et symbol finnes er navngitt på følgende systematiske måte:
- Lncrna Som er intergenic med hensyn til protein koding gener er tildelt rot symbol – LINC# etterfulgt av et 5‐sifret tall f. EKS LINC01018
- Lncrna som er antisense til genomisk span av et protein koding gen er tildelt symbol format ‐som# f. eks. FAS-AS1
- LncRNAs som er divergerende til (dele en toveis promoter med) et proteinkodende gen er tildelt symbolformatet ‐DT f. EKS ABCF1-DT
- LncRNAs som er inneholdt i et intron av et proteinkodende gen på samme streng er tildelt symbolformatet ‐DET# f. eks AOAH-IT1
- LncRNAs som overlapper et proteinkodende gen på samme streng er tildelt SYMBOLFORMATET ‐ot# f. eks. c5-Ot1
- lncrna som inneholder mikrorna-eller snorna-gener i introner eller EKSONER er navngitt som vertsgener, F. EKS. MIR17HG, SNHG7
Avlesnings transkripsjoner
avlesnings transkripsjoner produseres normalt fra tilstøtende loci og inkluderer kodende og / eller ikke-kodende deler av to (eller flere) gener. HGNC bare navn lese transkripsjoner som er konsekvent annotert av Både RefSeq annotators PÅ NCBI og GENCODE annotators På Ensembl. Disse transkripsjonene har locus-typen «readthrough transcript» og er symbolisert ved hjelp av de to (eller flere) symbolene fra foreldregenene, adskilt av en bindestrek, for EKSEMPEL ZNF511-PRAP1, og navnet «readthrough», for eksempel «ZNF511-PRAP1 readthrough». Navnet kan også inneholde tilleggsinformasjon om den potensielle kodingsstatusen til transkripsjonen, for eksempel «(NMD-kandidat)».
Gener som bare finnes i undergrupper av befolkningen
Historisk SETT har HGNC bare godkjente symboler for gener som er på det menneskelige referansegenomet. Sjeldne unntak er gjort når forespurt av bestemte samfunn med dedikerte nomenklaturkomiteer, som HLA-fellesskapet. Fremtidig navngivning av strukturelle varianter vil være begrenset til de på alternative loci som har blitt innlemmet i det menneskelige referansegenomet av Genome Reference Consortium (GRC). Understrek karakter er reservert for gener annotert på alternative referanse loci, f. eks C4B_2 er en andre kopi AV C4B på en 6p21.3 alternativ referanse locus.
Merk: HGNC ikke lenger navn fenotyper (se kontakt omim) eller genomiske regioner, heller ikke vi navnet transposable-element innsettinger i det menneskelige genom. For produkter av gentranslokasjoner eller fusjoner anbefaler vi FORMATET SYMBOL1 / SYMBOL2, for å unngå forveksling med SYMBOL1-SYMBOL2-formatet vi godkjenner for gjennomlesning av transkripsjoner. Sekvensvariantnomenklaturen er mandatet TIL HGVS. For protein nomenklatur, vennligst se International Protein Nomenklatur Guidelines, som ble skrevet med involvering av HGNC. I samsvar med disse retningslinjene anbefaler vi at «protein – og gensymboler skal bruke samme forkortelse», med proteiner som bruker ikke-kursiverte symboler for å skille dem fra gener.
Navngi ortologier på tvers av arter
vi anbefaler at ortologe gener på tvers av virveldyr (og eventuelt ikke-virveldyr) arter skal ha samme gensymbol. For å skille opprinnelsesartene for homologe gener med samme gensymbol, anbefaler VI Å sitere NCBI-taksonomi-ID, samt artsnavnet Eller Genbankens fellesnavn, for Eksempel Taksonomi-ID: 9598 og Enten Pan troglodytter eller sjimpanse.
Vertebrate Gene Nomenclature Committee
Vertebrate Gene Nomenclature Committee (VGNC ) er en forlengelse AV Hgnc som er ansvarlig for å tildele standardisert nomenklatur til gener i vertebrate arter som for tiden mangler sin egen nomenklaturkomite. VGNC koordinerer med de fem etablerte eksisterende vertebrate nomenklaturkomiteene, MGNC (mouse), rgnc (rat), cgnc (chicken), XNC (Xenopus frog) og ZNC (sebrafisk), for å sikre at vertebrate gener er navngitt i tråd med deres menneskelige homologer.Vertebrate ortologier av humane c# orf # – gener er tildelt det menneskelige symbolet med det andre artsens kromosomnummer som prefiks og En H som betegner menneske. For eksempel, som ortolog av human C1orf100 er på ku kromosom 16, er ku-symbolet C16H1orf100 med det tilsvarende gennavnet «kromosom 16 C1orf100 homolog».Genfamilier med en kompleks evolusjonær historie bør ideelt sett bli navngitt ved hjelp av en ekspert på feltet, som allerede er implementert for olfaktorisk reseptor og cytokrom P450 genfamilier.
Tidligere hgnc retningslinjer
våre tidligere hgnc retningslinjer finner du på https://www.genenames.org/about/old-guidelines/.