Hgnc Guidelines / HUGO Gene Nomenclature Committee

Current guidelines for naming human genes

voor een bespreking van onze laatste richtlijnen ga naar https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038 / s41588-020-0669-3).

bij gebrek aan een universeel aanvaard alternatief handhaaft de HGNC de definitie van een gen als “een DNA-segment dat bijdraagt aan het fenotype/de functie. Bij afwezigheid van aangetoonde functie kan een gen worden gekarakteriseerd door sequentie, transcriptie of homologie”.

elk gen krijgt slechts één symbool; de HGNC niet routinematig naam isovormen (dwz alternatieve transcripten of splice varianten). Dit betekent geen afzonderlijke symbolen voor eiwit-codeert of niet-codeert RNA isovormen van een eiwit-codeert locus of alternatieve transcripten van een niet-codeert RNA locus. In uitzonderlijke omstandigheden, en naar aanleiding van de vraag in de Gemeenschap, zijn afzonderlijke symbolen goedgekeurd voor gensegmenten in complexe loci, bijvoorbeeld de UGT1 locus. Vermeende bicistronische loci kunnen worden toegewezen afzonderlijke symbolen om de verschillende genproducten vertegenwoordigen.

elk gen dat we noemen krijgt een uniek symbool, HGNC ID (in het formaat HGNC:# ) en beschrijvende naam. Symbolen bevatten alleen hoofdletters Latijnse letters en Arabische cijfers, en interpunctie wordt vermeden, met een uitzondering voor koppeltekens in specifieke groepen. Symbolen mogen niet hetzelfde zijn als veelgebruikte afkortingen, om het ophalen van gegevens te vergemakkelijken. De nomenclatuur mag geen verwijzingen bevatten naar een soort of ” G ” voor gen en mag evenmin beledigend of pejoratief zijn.

Eiwitcoderende genen

We streven ernaar om eiwitcoderende genen te benoemen op basis van een belangrijke normale functie van het genproduct.

In de afwezigheid van functionele gegevens, eiwit-coderende genen heet mogelijk op de volgende manieren:

Gebaseerd op erkende structurele domeinen en motieven gecodeerd door het gen (bv. BEND7, “BEN domein met 7”)
op Basis van homologe genen in het menselijk genoom (bijv. GPRIN3, “GPRIN familie lid 3”)
op Basis van homologe genen van een andere soort (bijvoorbeeld FEM1A, “fem-1 homologe A”)
alleen Gebaseerd op de aanwezigheid van een open reading frame (bijv. C17orf50, “chromosoom 17 open reading frame 50”)

indien mogelijk worden verwante genen benoemd met behulp van een gemeenschappelijk wortelsymbool om groepering mogelijk te maken, meestal gebaseerd op sequentiehomologie, gedeelde functie of lidmaatschap van eiwitcomplexen.

voor genen die betrokken zijn bij specifieke immuunprocessen, of die coderen voor een enzym, receptor of ionenkanaal, overleggen wij met gespecialiseerde nomenclatuurgroepen (zie aanvullende aantekening onder https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). Voor andere belangrijke gengroepen raadplegen we een panel van adviseurs bij het benoemen van nieuwe leden en het bespreken van voorgestelde nomenclatuurupdates.

Pseudogenes

We definiëren een pseudogeen als een sequentie die niet in staat is om een functioneel eiwitproduct te produceren, maar een hoog niveau van homologie heeft met een functioneel gen. In het algemeen noemen we alleen pseudogenes die homologie behouden aan een significant deel van het functionele voorouderlijke gen.

verwerkte pseudogenes worden benoemd op basis van het specifieke oudergen, met een P en nummer toegevoegd aan het oudergensymbool (bijvoorbeeld NACAP10, “NACA pseudogeen 10”). De nummering is meestal soortspecifiek.

Pseudogenes die het grootste deel van de codering behouden in vergelijking met andere familieleden (en meestal niet verwerkt zijn) worden genoemd als een nieuw familielid met een “P” achtervoegsel, bijvoorbeeld DDX12P, “DEAD/h-box helicase 12, pseudogeen”. Dit naamgevend formaat wordt ook gebruikt voor genen die ten opzichte van hun functionele ortholog in een andere species pseudogenized zijn. Opmerking: in zeldzame gevallen omvat dergelijke pseudogenes niet de” P “indien het symbool duidelijk is vastgesteld, bijvoorbeeld MMP23A;”matrix METALLOPEPTIDASE 23A (pseudogeen)”.

niet-coderende RNA-genen

we noemen niet-coderende RNA-genen (ncRNA) volgens hun RNA-type, zie onze recente beoordeling (https://www.embopress.org/doi/full/10.15252/embj.2019103777) voor een volledige beschrijving.

voor kleine RNAs waar een expert resource bestaat, volgen we hun naamgevingsconventies als volgt:

MicroRNAs miRBase kent elke microRNA stam-loopsequentie een symbool toe in het formaat “mir‐#” en elke volwassen miRNA een symbool in het formaat “miR‐#”, gevolgd door een uniek sequentieel getal dat de volgorde van indiening bij de database weergeeft. HGNC keurt dan een gensymbool voor menselijke mirnagenen in het formaat MIR# goed; bijvoorbeeld, vertegenwoordigt Mirna gen, vertegenwoordigt miR‐17 de stam‐lijn, en vertegenwoordigt miR‐17 Rijpe miRNA. Transfer RNAs (tRNAs) de genomische tRNA-database (GtRNAdb) () kent een unieke ID toe aan elk tRNA-gen in het formaat tRNA -‐‐, bijvoorbeeld tRNA‐Ala‐AGC-1-1. De HGNC kent een enigszins gecondenseerd maar gelijkwaardig tRNA-gensymbool toe in het formaat TR‐, bijvoorbeeld TRA‐AGC1‐1

andere klassen van kleine ncrna ‘ s worden genoemd in samenwerking met gespecialiseerde adviseurs. Belangrijke klassen van kleine ncRNA omvatten:

Kleine nucleaire Rna ‘ s met de Naam met het wortel-symbool “RNU” voor “RNA, U# kleine nucleaire” Kleine nucleolar Rna ‘ s in de Naam root symbolen SNORD# voor “kleine nucleolar RNA, C/D-box” genen; SNORA# voor “kleine nucleolar RNA, H/ACA-box” genen; en SCARNA# voor “kleine Cajal lichaam‐specifieke RNA-genen” Ribosomaal Rna ‘ s met de Naam met de root symbolen RNA45S, RNA28S, RNA18S, RNA5S, RNA5-8S

Lange niet-coderende Rna ‘ s (lncRNAs) worden bij voorkeur gegeven unieke symbolen op basis van de gepubliceerde functie verwant aan eiwit-coderende genen. LncRNA genen die zijn van commentaar voorzien door de RefSeq en GENCODE projecten waarvoor geen geschikte gepubliceerde informatie op basis waarvan een symbool bestaat, hebben een naam in de volgende systematische manier:

LncRNAs die intergenic met betrekking tot eiwit-coderende genen zijn toegewezen aan de wortel symbool – LINC# gevolgd door een 5‐cijferig nummer bijvoorbeeld LINC01018
LncRNAs die antisense naar de genomische span van een eiwit coderende gen zijn toegewezen aan de symbool-formaat ‐ALS# bijv. FAS-AS1
LncRNAs die om uiteenlopende (deel van een bidirectionele organisator) een eiwit coderende gen zijn toegewezen aan de symbool-formaat ‐DT bijv. ABCF1-DT
LncRNAs die zijn opgenomen in een intron van een eiwit coderende gen op dezelfde streng zijn toegewezen aan de symbool-formaat ‐HET# bijv. AOAH-IT1
LncRNAs die elkaar overlappen een eiwit coderende gen op dezelfde streng zijn toegewezen aan de symbool-formaat ‐OT# bijv. C5-OT1
LncRNAs bevatten microRNA of snoRNA genen binnen introns of exons zijn naam als gastheer genen bijv. MIR17HG, SNHG7

read through transcripts

read through transcripts worden normaal gesproken geproduceerd uit aangrenzende loci en bevatten coderende en / of niet-coderende delen van twee (of meer) genen. De HGNC geeft alleen Namen door transcripten te lezen die consistent zijn geannoteerd door zowel de RefSeq annotators bij NCBI als de GENCODE annotators bij Ensembl. Deze transcripten hebben het locus type “read through transcript” en worden gesymboliseerd met behulp van de twee (of meer) symbolen van de oudergenen, gescheiden door een koppelteken, b.v. ZNF511-PRAP1, en de naam” readthrough”, b. v.”ZNF511-PRAP1 readthrough”. De naam kan ook aanvullende informatie bevatten over de mogelijke coderingsstatus van het transcript, zoals “(NMD-kandidaat)”.

genen die alleen voorkomen in subgroepen van de populatie

historisch gezien heeft de HGNC alleen goedgekeurde symbolen voor genen die zich op het humane referentiegenoom bevinden. Er zijn zeldzame uitzonderingen gemaakt op verzoek van bepaalde gemeenschappen met speciale nomenclatuurcomités, zoals de HLA-gemeenschap. Toekomstige naamgeving van structurele varianten zal worden beperkt tot die op alternatieve loci die zijn opgenomen in het menselijk referentie genoom door het Genome Reference Consortium (GRC). Het underscore karakter is gereserveerd voor genen geannoteerd op alternatieve referentieloci, b. v. C4B_2 is een tweede exemplaar van C4B op een 6p21. 3 alternatieve referentielocus.

opmerking: HGNC noemt geen fenotypen meer (zie Contact omim) of genomische regio ‘ s, noch noemen we transposeerbare elementen in het menselijk genoom. Voor producten van Gen translocaties of fusies, raden wij het formaat SYMBOL1/SYMBOL2 aan, om verwarring te voorkomen met het SYMBOL1-SYMBOL2 formaat dat wij goedkeuren voor Read through transcripts. Sequence variant nomenclature is de opdracht van de HGV ‘ s. Voor eiwitnomenclatuur, zie de International Protein Nomenclature Guidelines, die zijn geschreven met de betrokkenheid van de HGNC. In overeenstemming met deze richtlijnen bevelen wij aan dat “eiwitten en gensymbolen dezelfde afkorting gebruiken”, waarbij eiwitten niet-cursieve symbolen gebruiken om ze van genen te onderscheiden.

het benoemen van orthologen voor alle soorten

Het is raadzaam dat orthogeloge genen voor alle gewervelde (en waar van toepassing niet-gewervelde) soorten hetzelfde gensymbool hebben. Om de soorten van herkomst voor homologe genen met hetzelfde gensymbool te onderscheiden, raden we aan om de NCBI taxonomy ID, evenals de soortnaam of de GenBank algemene naam, bijvoorbeeld Taxonomy ID: 9598 en ofwel Pan troglodytes of chimpansee te citeren.het Comité voor de Genennomenclatuur van vertebraten (Vgnc ) is een uitbreiding van het Comité voor de Genennomenclatuur van vertebraten (Vgnc), dat verantwoordelijk is voor het toekennen van gestandaardiseerde nomenclatuur aan genen in gewervelde soorten die momenteel niet over een eigen nomenclatuurcomité beschikken. De VGNC coördineert met de vijf bestaande gewervelde nomenclatuur comités, mgnc (muis), rgnc (rat), CGNC (Kip), XNC (Xenopus kikker) en ZNC (zebravis), om ervoor te zorgen gewervelde genen worden genoemd in lijn met hun menselijke homologen.

gewervelde orthologen van menselijke C # orf # genen krijgen het menselijk symbool met het chromosoomgetal van de andere soorten als voorvoegsel en een H die de mens aangeeft. Bijvoorbeeld, aangezien de ortholog van menselijke c1orf100 op koe chromosoom 16 is, is het koesymbool C16H1orf100 met de overeenkomstige gennaam “chromosoom 16 c1orf100 homolog”.

genfamilies met een complexe evolutionaire geschiedenis moeten idealiter worden benoemd met de hulp van een expert op dit gebied, zoals reeds is geïmplementeerd voor de olfactorische receptor en cytochroom P450 genfamilies.

vorige hgnc richtlijnen

onze vorige hgnc richtlijnen zijn te vinden op https://www.genenames.org/about/old-guidelines/.