HGNC-Richtlinien

Aktuelle Richtlinien zur Benennung menschlicher Gene

Eine Diskussion unserer neuesten Richtlinien finden Sie unter https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038/s41588-020-0669-3).In Ermangelung einer allgemein anerkannten Alternative behält das HGNC die Definition eines Gens als „ein DNA-Segment bei, das zum Phänotyp / zur Funktion beiträgt. In Ermangelung einer nachgewiesenen Funktion kann ein Gen durch Sequenz, Transkription oder Homologie charakterisiert werden“.

Jedem Gen ist nur ein Symbol zugeordnet; das HGNC benennt nicht routinemäßig Isoformen (d. H. alternative Transkripte oder Spleißvarianten). Dies bedeutet keine separaten Symbole für Protein-kodierende oder nicht-kodierende RNA-Isoformen eines protein-kodierenden Locus oder alternative Transkripte von einem nicht-kodierenden RNA-Locus. In Ausnahmefällen und auf Nachfrage der Gemeinschaft wurden separate Symbole für Gensegmente in komplexen Loci, z. B. dem UGT1-Locus, genehmigt. Mutmaßlichen bicistronischen Loci können separate Symbole zugewiesen werden, um die unterschiedlichen Genprodukte darzustellen.

Jedem Gen, das wir benennen, wird ein eindeutiges Symbol zugewiesen, HGNC ID (im Format HGNC:#) und beschreibender Name. Symbole enthalten nur lateinische Großbuchstaben und arabische Ziffern, und Interpunktion wird vermieden, mit Ausnahme von Bindestrichen in bestimmten Gruppen. Symbole sollten nicht mit häufig verwendeten Abkürzungen identisch sein, um den Datenabruf zu erleichtern. Nomenklatur sollte keine Hinweise auf eine Spezies oder ‚G‘ für Gen enthalten, noch sollte es beleidigend oder abwertend sein.

Protein-kodierende Gene

Unser Ziel ist es, Protein-kodierende Gene basierend auf einer wichtigen normalen Funktion des Genprodukts zu benennen.

In Ermangelung funktioneller Daten können proteinkodierende Gene auf folgende Weise benannt werden:

  1. Basierend auf erkannten Strukturdomänen und Motiven, die vom Gen kodiert werden (z. B. BEND7, „BEN-Domäne, die 7 enthält“)
  2. Basierend auf homologen Genen innerhalb des menschlichen Genoms (z. B. GPRIN3, „GPRIN-Familienmitglied 3“)
  3. Basierend auf homologen Genen einer anderen Spezies (z. B. FEM1A, “ fem-1 homolog A“)
  4. Basiert nur auf dem Vorhandensein eines offenen Leserahmens (z.B. C17orf50, „chromosome 17 open reading frame 50“)

Wo möglich, werden verwandte Gene mit einem gemeinsamen Wurzelsymbol benannt, um eine Gruppierung zu ermöglichen, die typischerweise auf Sequenzhomologie, gemeinsamer Funktion oder Zugehörigkeit von Proteinkomplexen basiert.

Für Gene, die an spezifischen Immunprozessen beteiligt sind oder für ein Enzym, einen Rezeptor oder einen Ionenkanal kodieren, wenden wir uns an spezialisierte Nomenklaturgruppen (siehe ergänzende Anmerkung unter https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). Für andere große Gengruppen konsultieren wir ein Beratergremium, wenn wir neue Mitglieder benennen und vorgeschlagene Nomenklaturaktualisierungen diskutieren.

Pseudogene

Wir definieren ein Pseudogen als eine Sequenz, die nicht in der Lage ist, ein funktionelles Proteinprodukt zu produzieren, aber ein hohes Maß an Homologie zu einem funktionellen Gen aufweist. Im Allgemeinen nennen wir nur Pseudogene, die die Homologie zu einem signifikanten Teil des funktionellen Ahnengens beibehalten.

Verarbeitete Pseudogene werden basierend auf dem spezifischen Elterngen benannt, wobei ein P und eine Nummer an das Elterngensymbol angehängt werden (z. B. NACAP10, „NACA pseudogene 10“). Die Nummerierung ist in der Regel artspezifisch.Pseudogene, die im Vergleich zu anderen Familienmitgliedern den größten Teil der kodierenden Sequenz behalten (und normalerweise unverarbeitet sind), werden als neues Familienmitglied mit einem „P“ -Suffix benannt, z. B. DDX12P, „DEAD/ H-box helicase 12, pseudogene“. Dieses Benennungsformat wird auch für Gene verwendet, die in Bezug auf ihr funktionelles Ortholog in einer anderen Spezies pseudogenisiert sind. Beachten Sie, dass solche Pseudogene selten das „P“ nicht enthalten, wenn das Symbol gut etabliert ist, z. B. MMP23A; „Matrix Metallopeptidase 23A (Pseudogen)“.

Nicht-kodierende RNA-Gene

Wir benennen nicht-kodierende RNA (ncRNA) -Gene nach ihrem RNA-Typ, siehe unsere aktuelle Rezension (https://www.embopress.org/doi/full/10.15252/embj.2019103777) für eine vollständige Beschreibung.

Für kleine RNAs, bei denen eine Expertenressource vorhanden ist, folgen wir ihren Namenskonventionen wie folgt:

microRNAs miRBase weist jeder microRNA‐Stammschleifensequenz ein Symbol im Format „mir‐#“ und jeder reifen miRNA ein Symbol im Format „miR‐#“ zu, gefolgt von einer eindeutigen fortlaufenden Nummer, die die Reihenfolge der Übermittlung an die Datenbank widerspiegelt. Der HGNC genehmigt dann ein Gensymbol für menschliche miRNA-Gene im Format MIR #; Zum Beispiel repräsentiert MIR17 das miRNA-Gen, mir‐17 repräsentiert die Stammschleife und miR‐17 repräsentiert die reife miRNA. Transfer-RNAs (tRNAs) Die genomische tRNA-Datenbank (GtRNAdb) () weist jedem tRNA-Gen eine eindeutige ID im Format tRNA-‐‐ zu, z.B. tRNA‐Ala‐AGC-1-1. Das HGNC weist ein leicht kondensiertes, aber äquivalentes tRNA-Gensymbol im Format TR- zu, z.B. TRA-AGC1-1

Weitere Klassen kleiner ncRNAs werden in Zusammenarbeit mit Fachberatern benannt. Hauptklassen von kleinen ncRNA sind:

Kleine nukleare RNAs mit dem Wurzelsymbol „RNU“ für „RNA, U # small nuclear“ Kleine nukleolare RNAs mit den Wurzelsymbolen SNORD # für „small nucleolar RNA, C / D box“ Gene; SNORA # für „small nucleolar RNA, H / ACA box“ Gene; und SCARNA # für „small Cajal body‐specific RNA“ Gene Ribosomale RNAs mit den Wurzelsymbolen RNA45S, RNA28S, RNA18S, RNA5S, RNA5-8S

Lange nicht-kodierende RNAs (lncRNAs) erhalten bevorzugt eindeutige Symbole basierend auf einer Funktion, die Protein-kodierenden Genen ähnelt. lncRNA-Gene, die von den RefSeq- und GENCODE-Projekten annotiert wurden, für die keine geeigneten veröffentlichten Informationen existieren, auf denen ein Symbol basieren soll, werden auf folgende systematische Weise benannt:

  • lncRNAs, die in Bezug auf proteinkodierende Gene intergen sind, erhalten das Wurzelsymbol – LINC# gefolgt von einer 5-stelligen Zahl, z. B. LINC01018
  • lncRNAs, die für die genomische Spanne eines proteinkodierenden Gens antisense sind, erhalten das Symbolformat -AS# z.B. FAS-AS1
  • lncRNAs, die zu einem proteinkodierenden Gen divergieren (einen bidirektionalen Promotor mit ihm teilen), wird das Symbolformat ‐DT zugewiesen, z. B. ABCF1-DT
  • lncRNAs, die in einem Intron eines proteinkodierenden Gens auf demselben Strang enthalten sind, wird das Symbolformat ‐IT # zugewiesen, z. B. AOAH-IT1
  • lncRNAs, die ein proteinkodierendes Gen auf demselben Strang überlappen, wird das Symbolformat zugewiesen ‐OT# z.B. C5-OT1
  • lncRNAs, die microRNA- oder snoRNA-Gene innerhalb von Introns oder Exons enthalten, werden als Wirtsgene bezeichnet, z.B. MIR17HG, SNHG7

Readthrough-Transkripte

Readthrough-Transkripte werden normalerweise aus benachbarten Loci hergestellt und umfassen kodierende und/oder nicht-kodierende Teile von zwei (oder mehr) Genen. Der HGNC benennt nur durchgelesene Transkripte, die sowohl von den RefSeq-Annotatoren bei NCBI als auch von den GENCODE-Annotatoren bei Ensembl konsistent kommentiert werden. Diese Transkripte haben den Locus-Typ „Readthrough transcript“ und werden durch die zwei (oder mehr) Symbole aus den Elterngenen, getrennt durch einen Bindestrich, z.B. ZNF511-PRAP1, und den Namen „readthrough“, z.B. „ZNF511-PRAP1 readthrough“ symbolisiert. Der Name kann auch zusätzliche Informationen über den potenziellen Codierungsstatus des Transkripts enthalten, z. B. „(NMD-Kandidat)“.

Gene, die nur in Teilmengen der Bevölkerung vorkommen

Historisch gesehen hat das HGNC nur Symbole für Gene zugelassen, die sich im menschlichen Referenzgenom befinden. Seltene Ausnahmen wurden gemacht, wenn sie von bestimmten Gemeinschaften mit speziellen Nomenklaturausschüssen wie der HLA-Gemeinschaft angefordert wurden. Die zukünftige Benennung von Strukturvarianten wird auf solche an alternativen Loci beschränkt sein, die vom Genome Reference Consortium (GRC) in das menschliche Referenzgenom aufgenommen wurden. Der Unterstrich ist für Gene reserviert, die an alternativen Referenzorten annotiert sind, z. B. C4B_2 ist eine zweite Kopie von C4B an einem alternativen Referenzort 6p21.3.

Hinweis: HGNC nennt keine Phänotypen mehr (siehe Kontakt OMIM) oder genomische Regionen, noch nennen wir Transposable-Element-Insertionen im menschlichen Genom. Für Produkte von Gentranslokationen oder Fusionen empfehlen wir das Format SYMBOL1/SYMBOL2, um Verwechslungen mit dem SYMBOL1-SYMBOL2-Format zu vermeiden, das wir für Readthrough-Transkripte genehmigen. Sequenzvariante Nomenklatur ist die Aufgabe der LKW. Zur Proteinnomenklatur siehe die International Protein Nomenclature Guidelines, die unter Beteiligung des HGNC verfasst wurden. In Übereinstimmung mit diesen Richtlinien empfehlen wir, dass „Protein- und Gensymbole dieselbe Abkürzung verwenden sollten“, wobei Proteine nicht kursive Symbole verwenden, um sie von Genen zu unterscheiden.

Orthologe über Arten benennen

Wir empfehlen, dass orthologe Gene über Wirbeltierarten (und gegebenenfalls Nicht-Wirbeltierarten) hinweg dasselbe Gensymbol haben sollten. Um die Ursprungsart für homologe Gene mit demselben Gensymbol zu unterscheiden, empfehlen wir, die NCBI-Taxonomie-ID sowie den Artnamen oder den gemeinsamen Namen der GenBank anzugeben, z. B. die Taxonomie-ID: 9598 und entweder Pan Troglodytes oder chimpanzee.

Das Vertebrate Gene Nomenclature Committee

Das Vertebrate Gene Nomenclature Committee (VGNC) ist eine Erweiterung des HGNC, die für die Zuordnung standardisierter Nomenklatur zu Genen in Wirbeltierarten verantwortlich ist, denen derzeit ein eigenes Nomenklaturkomitee fehlt. Das VGNC koordiniert sich mit den fünf bestehenden Wirbeltier-Nomenklatur-Komitees MGNC (Maus), RGNC (Ratte), CGNC (Huhn), XNC (Xenopusfrosch) und ZNC (Zebrafisch), um sicherzustellen, dass Wirbeltiergene entsprechend ihren humanen Homologen benannt werden.

Wirbeltierorthologen menschlicher C #orf # -Gene wird das menschliche Symbol mit der Chromosomennummer der anderen Spezies als Präfix und einem H für den Menschen zugewiesen. Da sich beispielsweise das Ortholog des menschlichen C1orf100 auf dem Kuhchromosom 16 befindet, ist das Kuhsymbol C16H1orf100 mit dem entsprechenden Gennamen „Chromosom 16 C1orf100 Homolog“.

Genfamilien mit einer komplexen Evolutionsgeschichte sollten idealerweise mit Hilfe eines Experten auf dem Gebiet benannt werden, wie es bereits für die Genfamilien olfaktorischer Rezeptor und Cytochrom P450 implementiert wurde.

Bisherige HGNC-Richtlinien

Unsere bisherigen HGNC-Richtlinien finden Sie unter https://www.genenames.org/about/old-guidelines/.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.