Pautas HGNC

Pautas actuales para nombrar genes humanos

Para una discusión de nuestras últimas pautas, visite https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/(PMID 32747822, doi: 10.1038 / s41588-020-0669-3).

En ausencia de una alternativa universalmente acordada, el HGNC mantiene la definición de un gen como «un segmento de ADN que contribuye al fenotipo/función. En ausencia de una función demostrada, un gen puede caracterizarse por secuencia, transcripción u homología».

A cada gen se le asigna un solo símbolo; el HGNC no nombra de forma rutinaria isoformas (es decir, transcripciones alternativas o variantes de empalme). Esto significa que no hay símbolos separados para isoformas de ARN codificantes o no codificantes de un locus codificante de proteínas o transcripciones alternativas de un locus de ARN no codificante. En circunstancias excepcionales, y atendiendo a la demanda de la comunidad, se han aprobado símbolos separados para segmentos de genes en loci complejos, por ejemplo, el locus UGT1. A los loci bicistrónicos putativos se les pueden asignar símbolos separados para representar los distintos productos genéticos.

A cada gen que nombramos se le asigna un símbolo único, HGNC ID (en el formato HGNC:# ) y nombre descriptivo. Los símbolos solo contienen letras latinas en mayúsculas y números arábigos, y se evita la puntuación, con la excepción de los guiones en grupos específicos. Los símbolos no deben ser los mismos que las abreviaturas de uso común, para facilitar la recuperación de datos. La nomenclatura no debe contener referencias a ninguna especie o gen «G», ni debe ser ofensiva o peyorativa.

Genes codificadores de proteínas

Nuestro objetivo es nombrar genes codificadores de proteínas basados en una función normal clave del producto genético.

En ausencia de datos funcionales, los genes codificadores de proteínas pueden nombrarse de las siguientes maneras:

  1. Basado en dominios estructurales reconocidos y motivos codificados por el gen (por ejemplo, BEND7, «dominio BEN que contiene 7»)
  2. Basado en genes homólogos dentro del genoma humano (por ejemplo, GPRIN3, «miembro de la familia GPRIN 3»)
  3. Basado en genes homólogos de otra especie (por ejemplo, FEM1A, «homólogo fem-1 A»)
  4. Basado solo en la presencia de un marco de lectura abierto (p. ej. C17orf50, «marco de lectura abierto del cromosoma 17 50»)

Cuando es posible, los genes relacionados se nombran utilizando un símbolo de raíz común para permitir la agrupación, generalmente basada en la homología de secuencias, la función compartida o la pertenencia a complejos de proteínas.

Para los genes implicados en procesos inmunitarios específicos, o que codifican una enzima, receptor o canal iónico, consultamos con grupos de nomenclatura especializados (consulte la nota complementaria en https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). Para otros grupos principales de genes, consultamos a un panel de asesores cuando nombramos nuevos miembros y discutimos las actualizaciones de nomenclatura propuestas.

Pseudogenes

Definimos un pseudogén como una secuencia que es incapaz de producir un producto proteico funcional pero que tiene un alto nivel de homología a un gen funcional. En general, solo nombramos pseudogenes que retienen homología a una proporción significativa del gen ancestral funcional.

Los pseudogenes procesados se nombran en función del gen progenitor específico, con una P y un número adjuntos al símbolo del gen progenitor (por ejemplo, NACAP10, «pseudogeno NACA 10»). La numeración suele ser específica de cada especie.

Los pseudogenes que retienen la mayor parte de la secuencia de codificación en comparación con otros miembros de la familia (y generalmente no procesados) se nombran como un nuevo miembro de la familia con un sufijo «P», por ejemplo, DDX12P, «DEAD/H-box helicase 12, pseudogene». Este formato de nomenclatura también se utiliza para genes que se pseudogenizan en relación con su ortología funcional en otra especie. Tenga en cuenta que rara vez tales pseudogenes no incluyen la «P» si el símbolo está bien establecido, por ejemplo, MMP23A; «matriz metalopeptidasa 23A (pseudogeno)».

Genes de ARN no codificantes

Nombramos genes de ARN no codificantes (ncRNA) de acuerdo con su tipo de ARN, consulte nuestra revisión reciente (https://www.embopress.org/doi/full/10.15252/embj.2019103777) para obtener una descripción completa.

Para ARN pequeños donde existe un recurso experto, seguimos sus convenciones de nomenclatura de la siguiente manera:

microRNAs miRBase asigna a cada secuencia de bucle de raíz de microRNAs un símbolo en el formato «mir‐#» y a cada miRNA maduro un símbolo en el formato «miR‐#» seguido de un número secuencial único que refleja el orden de envío a la base de datos. El HGNC aprueba un símbolo genético para los genes de miARN humano en el formato MIR#; por ejemplo, MIR17 representa el gen de miARN, mir‐17 representa el bucle del tallo y miR‐17 representa el miARN maduro. La base de datos genómica de ARNt (GtRNAdb) () asigna un identificador único a cada gen de ARNt en el formato ARNt—, por ejemplo, ARNt‐Ala‐AGC‐1‐1. El HGNC asigna un símbolo de gen tRNA ligeramente condensado pero equivalente en el formato TR -, por ejemplo, TRA-AGC1-1

Otras clases de ncRNAs pequeños se nombran en colaboración con asesores especializados. Las clases principales de ncRNA pequeños incluyen:

ARN nucleares pequeños Nombrados con el símbolo de raíz «RNU» para «ARN, U# pequeño nuclear» ARN nucleolar pequeño Nombrado con símbolos de raíz SNORD# para genes de «ARN nucleolar pequeño, caja C/D»; SNORA# para genes de «ARN nucleolar pequeño, caja H/ACA»; y SCARNA# para genes de «ARN específico corporal Cajal pequeño» ARN ribosomal Nombrados con los símbolos de raíz RNA45S, RNA28S, RNA18S, RNA5S, RNA5‐Los 8S

ARN largos no codificantes (lncRNAs) reciben preferentemente símbolos únicos basados en funciones publicadas similares a genes codificadores de proteínas. Los genes lncRNA que han sido anotados por los proyectos RefSeq y GENCODE para los que no existe información publicada adecuada en la que basar un símbolo se nombran de la siguiente manera sistemática:

  • lncRNAs que son intergénicos con respecto a los genes codificadores de proteínas se les asigna el símbolo raíz – LINC# seguido de un número de 5 dígitos, por ejemplo, LINC01018
  • lncRNAs que son antisentidos al intervalo genómico de un gen codificador de proteínas se les asigna el formato de símbolo‐COMO# e. g. FAS-AS1
  • lncRNAs que son divergentes (comparten un promotor bidireccional con) un gen codificador de proteínas se les asigna el formato de símbolo ‐DT, por ejemplo, ABCF1-DT
  • lncRNAs que están contenidos dentro de un intrón de un gen codificador de proteínas en la misma cadena, se les asigna el formato de símbolo ‐IT#, por ejemplo, AOAH-IT1
  • lncRNAs que se superponen a un gen codificador de proteínas en la misma cadena, se les asigna el símbolo format ‐OT#, por ejemplo, C5-OT1
  • los lncRNAs que contienen genes de microRNA o snoRNA dentro de intrones o exones se denominan genes del huésped, por ejemplo. Las transcripciones de lectura de MIR17HG, SNHG7

Las transcripciones de lectura de lectura se producen normalmente a partir de loci adyacentes e incluyen partes codificantes y / o no codificantes de dos (o más) genes. El HGNC solo nombra transcripciones de lectura que son anotadas consistentemente tanto por los anotadores RefSeq en NCBI como por los anotadores GENCODE en Ensembl. Estas transcripciones tienen el tipo locus «transcripción de lectura» y se simbolizan usando los dos (o más) símbolos de los genes padres, separados por un guion, por ejemplo, ZNF511-PRAP1, y el nombre «lectura de lectura», por ejemplo, «lectura de ZNF511-PRAP1». El nombre también puede incluir información adicional sobre el estado de codificación potencial de la transcripción, como «(candidato a NMD)».

Genes que solo se encuentran dentro de subconjuntos de la población

Históricamente, el HGNC solo tiene símbolos aprobados para genes que se encuentran en el genoma humano de referencia. Se han hecho raras excepciones cuando lo solicitan comunidades particulares con comités de nomenclatura dedicados, como la comunidad HLA. La denominación futura de las variantes estructurales se limitará a aquellas en loci alternativos que hayan sido incorporados al genoma de referencia humano por el Genome Reference Consortium (GRC). El carácter de subrayado está reservado para genes anotados en loci de referencia alternativos, por ejemplo, C4B_2 es una segunda copia de C4B en un locus de referencia alternativo 6p21.3.

Nota: HGNC ya no nombra fenotipos (consulte OMIM de contacto) o regiones genómicas, ni nombramos inserciones de elementos transponibles en el genoma humano. Para productos de translocaciones o fusiones de genes, recomendamos el formato SYMBOL1 / SYMBOL2, para evitar confusiones con el formato SYMBOL1-SYMBOL2 que aprobamos para transcripciones de lectura. La nomenclatura de variantes de secuencia es competencia de los vehículos pesados. Para la nomenclatura de proteínas, consulte las Directrices Internacionales de Nomenclatura de Proteínas, que fueron escritas con la participación del HGNC. De acuerdo con estas directrices, recomendamos que «los símbolos de proteínas y genes utilicen la misma abreviatura», y que las proteínas utilicen símbolos sin cursiva para diferenciarlos de los genes.

Nombrar ortólogos entre especies

Recomendamos que los genes ortólogos de las especies vertebradas (y, en su caso, no vertebradas) tengan el mismo símbolo genético. Para distinguir la especie de origen de genes homólogos con el mismo símbolo de gen, recomendamos citar el ID de taxonomía NCBI, así como el nombre de la especie o el nombre común del GenBank, por ejemplo, ID de taxonomía: 9598 y Pan troglodytes o chimpancé.

El Comité de Nomenclatura de Genes de Vertebrados

El Comité de Nomenclatura de Genes de Vertebrados (VGNC, por sus siglas en inglés ) es una extensión del HGNC responsable de asignar nomenclatura estandarizada a genes en especies de vertebrados que actualmente carecen de su propio comité de nomenclatura. El VGNC se coordina con los cinco comités de nomenclatura de vertebrados existentes, MGNC (ratón), RGNC (rata), CGNC (pollo), XNC (rana Xenopus) y ZNC (pez cebra), para asegurar que los genes de los vertebrados se nombran de acuerdo con sus homólogos humanos.

A los ortólogos vertebrados de genes humanos C#orf # se les asigna el símbolo humano con el número cromosómico de la otra especie como prefijo y una H que denota humano. Por ejemplo, como el ortólogo del C1orf100 humano está en el cromosoma 16 de la vaca, el símbolo de la vaca es C16H1orf100 con el nombre del gen correspondiente «homólogo del cromosoma 16 C1orf100».

Las familias de genes con una historia evolutiva compleja deberían nombrarse idealmente con la ayuda de un experto en el campo, como ya se ha implementado para las familias de genes de receptores olfativos y citocromo P450.

Pautas anteriores de HGNC

Nuestras pautas anteriores de HGNC se pueden encontrar en https://www.genenames.org/about/old-guidelines/.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.