Current guidelines for naming human genes
For a discussion of our latest guidelines please go to https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038 / s41588-020-0669-3).
na ausência de uma alternativa universalmente acordada, o HGNC mantém a definição de um gene como “um segmento de DNA que contribui para fenótipo/função. Na ausência de função demonstrada, um gene pode ser caracterizado por sequência, transcrição ou homologia”.
a cada gene é atribuído apenas um símbolo; o HGNC não denomina normalmente isoformas (ou seja, transcrições alternativas ou variantes de splice). Isto significa que não existem símbolos separados para as isoformas de RNA codificadoras de proteínas ou para as transcrições alternativas de um locus de RNA não codificador. Em circunstâncias excepcionais, e na sequência da procura comunitária, foram aprovados símbolos separados para segmentos genéticos em loci complexo, por exemplo, o locus UGT1. Loci bicistrónico putativo pode ser atribuído símbolos separados para representar os produtos genéticos distintos.
A cada gene que nomeamos é atribuído um símbolo único, o ID HGNC (no formato HGNC:#) e nome descritivo. Símbolos contêm apenas letras latinas maiúsculas e algarismos árabes, e a pontuação é evitada, com uma exceção para hifens em grupos específicos. Os símbolos não devem ser os mesmos que as abreviaturas normalmente utilizadas, para facilitar a recuperação de dados. A nomenclatura não deve conter referências a qualquer espécie ou ” G ” para gene, nem deve ser ofensiva ou pejorativa.
genes codificadores de proteínas
pretendemos nomear genes codificadores de proteínas com base numa função normal fundamental do produto genético.
Na ausência de dados funcionais, genes codificadores de proteínas pode ser chamado da seguinte forma:
- com Base no reconhecido estruturais domínios e motivos codificada pelo gene (e.g. BEND7, “BEN domínio que contém 7”)
- com Base no homólogos de genes dentro do genoma humano (e.g. GPRIN3, “GPRIN membro da família 3”)
- com Base no homólogos de genes de outra espécie (e.g. FEM1A, “fem-1 homóloga A”)
- com Base apenas na presença de uma leitura aberta do quadro (por exemplo, C17orf50,”chromosome 17 open reading frame 50″)
sempre que possível, genes relacionados são nomeados usando um símbolo raiz comum para permitir o agrupamento, tipicamente baseado em homologia de sequência, função compartilhada ou associação de complexos proteicos.
para genes envolvidos em processos imunológicos específicos, ou codificando um enzima, receptor ou canal iónico, consultamos grupos de nomenclatura especializados (Ver nota suplementar em https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). Para outros grandes grupos genéticos, consultamos um painel de conselheiros ao nomear novos membros e discutir as atualizações de nomenclatura propostas.
Pseudogenes
definimos um pseudogeno como uma sequência que é incapaz de produzir um produto proteico funcional, mas tem um alto nível de homologia para um gene funcional. Em geral, nós só nomeamos pseudogenes que retêm a homologia a uma proporção significativa do gene ancestral funcional.
pseudogenes processados são nomeados com base no gene original específico, com um p e número anexado ao símbolo do gene original (por exemplo, NACAP10, “NACA pseudogene 10”). A numeração é geralmente específica da espécie.
Pseudogenes que retêm a maior parte da sequência de codificação em comparação com outros membros da família (e são geralmente não processados) são nomeados como um novo membro da família com um sufixo “P”, por exemplo DDX12P, “DEAD/H-box helicase 12, pseudogene”. Este formato de nomenclatura também é usado para genes que são pseudogenizados em relação ao seu ortolog funcional em outra espécie. Note, raramente tais pseudogenes não incluem o ” P ” Se o símbolo estiver bem estabelecido, por exemplo, MMP23A; “matrix metallopeptidase 23A (pseudogene)”.
genes ARN não codificantes
nomeamos genes ARN não codificantes (ncRNA) de acordo com o seu tipo de ARN, por favor veja a nossa recente revisão (https://www.embopress.org/doi/full/10.15252/embj.2019103777) para uma descrição completa.
Para pequenos RNAs, onde um especialista recurso existe, seguimos suas convenções de nomenclatura da seguinte forma:
MicroRNAs miRBase atribui a cada microRNA stem‐loop sequência de um símbolo em formato de “mir‐#” e cada miRNA maduro de um símbolo em formato de “miR‐#” seguido por um número seqüencial exclusivo que reflete a ordem de envio para o banco de dados. O HGNC então aprova um símbolo genético para genes humanos miRNA no formato MIR#; por exemplo, MIR17 representa o gene miRNA, mir-17 representa o ciclo-tronco, e miR‐17 representa o miRNA Maduro. Transferência RNAs (tRNAs) a base de dados genômica tRNA (GtRNAdb) () atribui um ID único a cada gene tRNA no formato tRNA – – -‐, por exemplo tRNA‐Ala‐AGC‐1-1. O hgnc atribui um símbolo genético tRNA ligeiramente condensado mas equivalente no formato TR‐, por exemplo TRA‐AGC1‐1
outras classes de pequenas ncRNAs são nomeadas em colaboração com consultores especializados. As classes principais da pequena NCR incluem::
Small nuclear Rna Chamado com o símbolo de raiz “RNU” para “RNA, U# pequeno nucleares” Pequenas nucleolar RNAs Chamado com a raiz símbolos SNORD# “pequena nucleolar RNA, C/D” caixa de genes; SNORA# “pequena nucleolar RNA, H/ACA caixa de” genes; e SCARNA# “pequena Cajal corpo RNA específico” genes do Rna Ribossomal Chamado com a raiz símbolos RNA45S, RNA28S, RNA18S, RNA5S, RNA5-8S
há muito Tempo não-codificantes (lncRNAs) são preferencialmente dado símbolos únicos, com base no publicado função semelhante à de genes codificadores de proteínas. LncRNA genes que têm sido anotados pelo RefSeq e GENCODE projetos para os quais não adequado das informações publicadas sobre o qual a base de um símbolo que existe são nomeados da seguinte forma sistemática:
- LncRNAs que são intergenic com respeito a genes codificadores de proteínas é atribuído o símbolo de raiz – LINC# seguido por um número de 5 dígitos e.g. LINC01018
- LncRNAs que são antisense para o genoma span de uma proteína de codificação do gene são atribuídos o formato de símbolo ‐COMO# e.g. FAS-SF1
- LncRNAs que são divergentes para (parte de um bidirecional promotora) uma proteína de codificação do gene são atribuídos o formato de símbolo ‐DT e.g. ABCF1-DT
- LncRNAs que estão contidos dentro de um intron de uma proteína de codificação do gene na mesma vertente é atribuído o símbolo do formato ‐É# e.g. AOAH-IT1
- LncRNAs que se sobrepõem uma proteína de codificação do gene na mesma vertente é atribuído o símbolo formato ‐VT# e.g. C5-OT1
- LncRNAs que contêm microRNA ou snoRNA genes dentro de íntrons ou éxons são nomeados como anfitrião e.g. genes MIR17HG, SNHG7
transcrições de leitura
transcrições de leitura são normalmente produzidas a partir de loci adjacente e incluem partes de codificação e / ou não-codificação de dois (ou mais) genes. The HGNC only names read through transcripts that are consistently annotated by both the RefSeq annotators at NCBI and the GENCODE annotators at Ensembl. Estas transcrições de ter o locus do tipo “readthrough transcrição” e são simbolizados através de dois (ou mais) dos símbolos do pai genes, separados por um hífen, e.g. ZNF511-PRAP1, e o nome “readthrough”, por exemplo, “ZNF511-PRAP1 readthrough”. O nome também pode incluir informações adicionais sobre o estado de codificação potencial da transcrição, como “(candidato NMD)”.Genes
apenas encontrados em subconjuntos da população
historicamente, o HGNC tem apenas símbolos aprovados para genes que estão no genoma de referência humano. Foram feitas raras excepções quando solicitadas por determinadas comunidades com comités de nomenclatura específicos, como a comunidade HLA. A futura designação das variantes estruturais limitar-se-á às do loci alternativo que tenham sido incorporadas no genoma de referência humana pelo Consórcio de referência do genoma (GRC). O caráter do sublinhado é reservado para genes anotados em loci de referência alternativa, por exemplo, C4B_2 é uma segunda cópia de C4B em um locus de referência alternativo 6p21.3.
Nota: O hgnc já não nomeia fenótipos (por favor, consulte o contact OMIM) ou regiões genómicas, nem designamos inserções de elementos transponíveis no genoma humano. Para produtos de translocações ou fusão de genes, recomendamos o formato SYMBOL1 / SYMBOL2, para evitar confusão com o formato SYMBOL1-SYMBOL2 que aprovamos para transcrições de leitura. A nomenclatura das variantes de sequência é o mandato dos veículos pesados de mercadorias. Para a nomenclatura proteica, consulte as Diretrizes da Nomenclatura proteica internacional, que foram escritas com o envolvimento do HGNC. De acordo com essas diretrizes, recomendamos que “Símbolos de proteínas e genes devem usar a mesma abreviação”, com proteínas usando símbolos não-itálico para diferenciá-los dos genes.
nomear ortólogos em espécies
recomendamos que os genes ortólogos em vertebrados (e, quando apropriado, não vertebrados) tenham o mesmo símbolo genético. Para distinguir as espécies de origem de genes homólogos com o mesmo símbolo genético, recomendamos citando o ID da taxonomia NCBI, bem como o nome da espécie ou o nome comum GenBank, por exemplo, o ID da taxonomia: 9598 e ou Pan troglodytes ou chimpanzé.
O Vertebrados Gene da Nomenclatura do Comitê
O Vertebrados Gene da Nomenclatura do Comitê (VGNC, ) é uma extensão do o hgnc responsável pela atribuição de nomenclatura padronizada para os genes em espécies de vertebrados que atualmente não têm a sua própria nomenclatura do comitê. O VGNC coordena com os cinco comités de nomenclatura de vertebrados existentes, MGNC (rato), RGNC (rato), cgnc (galinha), XNC (rà Xenopus) e ZNC (peixe-zebra), para garantir que os genes vertebrados são nomeados de acordo com seus homólogos humanos.ortólogos Vertebrados de genes humanos c#orf# são atribuídos ao símbolo humano com o número de cromossomos de outras espécies como um prefixo e um H que denota o ser humano. Por exemplo, como a ortolog de c1orf100 humano está no cromossomo 16 da vaca, o símbolo da vaca é C16H1orf100 com o nome genético correspondente “cromossomo 16 c1orf100 homolog”.as famílias de genes
com uma história evolutiva complexa devem idealmente ser nomeadas com a ajuda de um especialista no campo, como já foi implementado para as famílias de genes do receptor olfativo e do citocromo P450.
orientações anteriores do HGNC
as nossas orientações anteriores do HGNC podem ser encontradas em https://www.genenames.org/about/old-guidelines/.