Directives actuelles pour la dénomination des gènes humains
Pour une discussion sur nos dernières directives, veuillez consulter https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038/s41588-020-0669-3 ).
En l’absence d’alternative universellement acceptée, le HGNC maintient la définition d’un gène comme « un segment d’ADN qui contribue au phénotype / à la fonction. En l’absence de fonction démontrée, un gène peut être caractérisé par une séquence, une transcription ou une homologie ”.
Un seul symbole est attribué à chaque gène; le HGNC ne nomme pas systématiquement les isoformes (c’est-à-dire les transcriptions alternatives ou les variantes d’épissure). Cela signifie qu’il n’y a pas de symboles distincts pour les isoformes d’ARN codant ou non codant d’un locus codant une protéine ou de transcrits alternatifs d’un locus d’ARN non codant. Dans des circonstances exceptionnelles, et à la demande de la communauté, des symboles distincts ont été approuvés pour des segments de gènes dans des locus complexes, par exemple le locus UGT1. Les loci bicistroniques putatifs peuvent se voir attribuer des symboles distincts pour représenter les produits génétiques distincts.
Chaque gène que nous nommons se voit attribuer un symbole unique, HGNC ID (au format HGNC:#) et nom descriptif. Les symboles ne contiennent que des lettres latines majuscules et des chiffres arabes, et la ponctuation est évitée, à l’exception des tirets dans des groupes spécifiques. Les symboles ne doivent pas être les mêmes que les abréviations couramment utilisées, afin de faciliter la récupération des données. La nomenclature ne doit contenir aucune référence à une espèce ou à un gène « G », ni être offensante ou péjorative.
Gènes codant les protéines
Nous visons à nommer des gènes codant les protéines en fonction d’une fonction normale clé du produit génétique.
En l’absence de données fonctionnelles, les gènes codant pour les protéines peuvent être nommés de la manière suivante:
- Sur la base de domaines structurels et de motifs reconnus codés par le gène (par exemple BEND7, « domaine BEN contenant 7”)
- Sur la base de gènes homologues du génome humain (par exemple GPRIN3, « membre de la famille GPRIN 3”)
- Sur la base de gènes homologues d’une autre espèce (par exemple FEM1A, « membre de la famille GPRIN 3”)
- Sur la base de gènes homologues d’une autre espèce (par exemple FEM1A, « membre de la famille GPRIN 3″) homologue fem-1 A »)
- Basé uniquement sur la présence d’un cadre de lecture ouvert (par ex. C17orf50, ”cadre de lecture ouvert du chromosome 17 50″)
Dans la mesure du possible, les gènes apparentés sont nommés à l’aide d’un symbole racine commun pour permettre le regroupement, généralement basé sur l’homologie de séquence, la fonction partagée ou l’appartenance à des complexes protéiques.
Pour les gènes impliqués dans des processus immunitaires spécifiques, ou codant pour une enzyme, un récepteur ou un canal ionique, nous consultons des groupes de nomenclature spécialisés (voir la note supplémentaire à https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). Pour les autres grands groupes de gènes, nous consultons un groupe de conseillers lors de la désignation de nouveaux membres et de la discussion des mises à jour proposées de la nomenclature.
Pseudogènes
Nous définissons un pseudogène comme une séquence incapable de produire un produit protéique fonctionnel mais présentant un haut niveau d’homologie avec un gène fonctionnel. En général, nous ne nommons que des pseudogènes qui conservent une homologie pour une proportion significative du gène ancestral fonctionnel.
Les pseudogènes traités sont nommés en fonction du gène parent spécifique, avec un P et un nombre ajoutés au symbole du gène parent (par exemple NACAP10, ”pseudogène NACA 10″). La numérotation est généralement spécifique à l’espèce.
Les pseudogènes qui conservent la majeure partie de la séquence codante par rapport aux autres membres de la famille (et qui ne sont généralement pas traités) sont nommés comme un nouveau membre de la famille avec un suffixe « P”, par exemple DDX12P, « hélicase MORTE / H-box 12, pseudogène”. Ce format de dénomination est également utilisé pour les gènes pseudogénisés par rapport à leur orthologue fonctionnel chez une autre espèce. Notez que rarement de tels pseudogènes n’incluent pas le « P » si le symbole est bien établi, par exemple MMP23A; ”métallopeptidase matricielle 23A (pseudogène) ».
Gènes d’ARN non codants
Nous nommons les gènes d’ARN non codants (ARNN) en fonction de leur type d’ARN, veuillez consulter notre revue récente (https://www.embopress.org/doi/full/10.15252/embj.2019103777) pour une description complète.
Pour les petits ARN pour lesquels une ressource experte existe, nous suivons leurs conventions de nommage comme suit :
MicroRNAs miRBase attribue à chaque séquence de microARN en boucle un symbole au format « mir-# » et à chaque miARN mature un symbole au format ”miR‐# » suivi d’un numéro séquentiel unique qui reflète l’ordre de soumission à la base de données. Le HGNC approuve ensuite un symbole de gène pour les gènes de miARN humains au format MIR #; par exemple, MIR17 représente le gène de miARN, mir‐17 représente la boucle de tige et miR‐17 représente le miARN mature. Arn de transfert (ARNT) La base de données génomique sur les ARNt (GtRNAdb) () attribue un identifiant unique à chaque gène d’ARNt au format ARNt—, par exemple ARNt‐Ala‐AGC‐1‐1. Le HGNC attribue un symbole de gène de l’ARNt légèrement condensé mais équivalent au format TR‐, par exemple TRA‐AGC1-1
D’autres classes de petits ARNNC sont nommées en collaboration avec des conseillers spécialisés. Les principales classes d’arNNC de petite taille comprennent:
Petits ARN nucléaires Nommés avec le symbole racine « RNU” pour « ARN, U # petit nucléaire” Petits ARN nucléolaires Nommés avec les symboles racines SNORD # pour les gènes « petit ARN nucléolaire, boîte C/ D”; SNORA # pour les gènes « petit ARN nucléolaire, boîte H/ ACA”; et SCARNA # pour les gènes « petit ARN spécifique au corps Cajal” ARN ribosomiques Nommés avec les symboles racines RNA45S, RNA28S, RNA18S, RNA5S, RNA5‐8S
Les ARN longs non codants (LNCRNA) reçoivent préférentiellement des symboles uniques basés sur une fonction publiée semblable aux gènes codant les protéines. Les gènes LncRNA qui ont été annotés par les projets RefSeq et GENCODE pour lesquels il n’existe aucune information publiée appropriée sur laquelle fonder un symbole sont nommés de la manière systématique suivante :
- Les LNCRNA qui sont intergéniques en ce qui concerne les gènes codants pour les protéines se voient attribuer le symbole racine – LINC # suivi d’un numéro à 5 chiffres, par exemple LINC01018
- Les LNCRNA qui sont antisens à l’étendue génomique d’un gène codant pour les protéines se voient attribuer le format de symbole ‐AS # par ex. FAS-AS1
- Les lncRNAs qui divergent (partagent un promoteur bidirectionnel avec) d’un gène codant une protéine se voient attribuer le format de symbole ‐ DT par exemple ABCF1-DT
- Les lncRNAs qui sont contenus dans un intron d’un gène codant une protéine sur le même brin se voient attribuer le format de symbole ‐ IT # par exemple AOAH-IT1
- Les lncRNAs qui chevauchent un gène codant une protéine sur le même brin se voient attribuer le format de symbole ‐ OT# par ex. C5-OT1
- Les lncRNAs qui contiennent des gènes de microARN ou de snorn dans des introns ou des exons sont nommés comme gènes hôtes par ex. MIR17HG, SNHG7
Transcriptions de lecture
Les transcriptions de lecture sont normalement produites à partir de locus adjacents et comprennent des parties codantes et/ou non codantes de deux gènes (ou plus). Le HGNC ne nomme que les transcriptions readthrough qui sont annotées de manière cohérente par les annotateurs RefSeq chez NCBI et les annotateurs GENCODE chez Ensembl. Ces transcriptions ont le type de locus « readthrough transcript » et sont symbolisées en utilisant les deux symboles (ou plus) des gènes parents, séparés par un trait d’union, par exemple ZNF511-PRAP1, et le nom « readthrough”, par exemple « ZNF511-PRAP1 readthrough”. Le nom peut également inclure des informations supplémentaires sur le statut de codage potentiel de la transcription, telles que « (candidat NMD) »”
Gènes uniquement présents dans des sous-ensembles de la population
Historiquement, le HGNC n’a approuvé que des symboles pour les gènes qui se trouvent sur le génome de référence humain. De rares exceptions ont été faites à la demande de communautés particulières dotées de comités de nomenclature dédiés, comme la communauté HLA. La dénomination future des variants structurels sera limitée à ceux des loci alternatifs qui ont été incorporés dans le génome de référence humain par le Consortium de référence du génome (GRC). Le caractère de soulignement est réservé aux gènes annotés sur des locus de référence alternatifs, par exemple C4B_2 est une deuxième copie de C4B sur un locus de référence alternatif 6p21.3.
Remarque : HGNC ne nomme plus les phénotypes (voir contact OMIM) ou les régions génomiques, ni les insertions d’éléments transposables dans le génome humain. Pour les produits de translocations ou de fusions de gènes, nous recommandons le format SYMBOL1/ SYMBOL2, pour éviter toute confusion avec le format SYMBOL1-SYMBOL2 que nous approuvons pour les transcriptions en lecture. La nomenclature des variantes de séquence est la compétence des POIDS lourds. Pour la nomenclature des protéines, veuillez consulter les Directives Internationales sur la nomenclature des protéines, qui ont été rédigées avec la participation du HGNC. En accord avec ces lignes directrices, nous recommandons que « les symboles de protéines et de gènes utilisent la même abréviation”, les protéines utilisant des symboles non italiques pour les différencier des gènes.
Nommer les orthologues d’une espèce à l’autre
Nous recommandons que les gènes orthologues d’une espèce vertébrée (et, le cas échéant, non vertébrée) aient le même symbole génétique. Pour distinguer l’espèce d’origine des gènes homologues avec le même symbole de gène, nous recommandons de citer l’ID de taxonomie NCBI, ainsi que le nom d’espèce ou le nom commun de GenBank, par exemple l’ID de taxonomie: 9598 et soit Pan troglodytes, soit chimpanzé.
Le Comité de Nomenclature des gènes des vertébrés
Le Comité de Nomenclature des Gènes des vertébrés (VGNC,) est une extension du HGNC chargé d’attribuer une nomenclature normalisée aux gènes des espèces de vertébrés qui n’ont actuellement pas leur propre comité de nomenclature. Le VGNC se coordonne avec les cinq comités de nomenclature des vertébrés existants, MGNC (souris), RGNC (rat), CGNC (poulet), XNC (grenouille Xenopus) et ZNC (poisson zèbre), pour s’assurer que les gènes des vertébrés sont nommés conformément à leurs homologues humains.
Les orthologues vertébrés des gènes C# orf# humains se voient attribuer le symbole humain avec le numéro chromosomique de l’autre espèce comme préfixe et un H désignant l’humain. Par exemple, comme l’orthogramme de C1orf100 humain se trouve sur le chromosome 16 de la vache, le symbole de la vache est C16H1orf100 avec le nom de gène correspondant « homologue du chromosome 16 C1orf100 ».
Les familles de gènes ayant une histoire évolutive complexe devraient idéalement être nommées avec l’aide d’un expert dans le domaine, comme cela a déjà été mis en œuvre pour les familles de gènes du récepteur olfactif et du cytochrome P450.
Directives précédentes sur le HGNC
Nos directives précédentes sur le HGNC se trouvent à https://www.genenames.org/about/old-guidelines/.