Linee guida attuali per la denominazione dei geni umani
Per una discussione delle nostre ultime linee guida si prega di andare a https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038 / s41588-020-0669-3).
In assenza di un’alternativa universalmente accettata, l’HGNC mantiene la definizione di un gene come “un segmento di DNA che contribuisce al fenotipo/funzione. In assenza di funzione dimostrata un gene può essere caratterizzato da sequenza, trascrizione o omologia”.
A ciascun gene viene assegnato un solo simbolo; l’HGNC non nomina abitualmente isoforme (cioè trascrizioni alternative o varianti di giunzione). Ciò significa che non ci sono simboli separati per isoforme di RNA codificanti proteine o non codificanti di un locus codificante proteine o trascritti alternativi da un locus di RNA non codificante. In circostanze eccezionali, e in seguito alla domanda comunitaria, sono stati approvati simboli separati per segmenti genici in loci complessi, ad esempio il locus UGT1. I loci bicistronici putativi possono essere assegnati a simboli separati per rappresentare i prodotti genetici distinti.
Ad ogni gene che chiamiamo viene assegnato un simbolo univoco, HGNC ID (nel formato HGNC:# ) e nome descrittivo. I simboli contengono solo lettere latine maiuscole e numeri arabi e la punteggiatura è evitata, con un’eccezione per i trattini in gruppi specifici. I simboli non dovrebbero essere gli stessi delle abbreviazioni comunemente usate, per facilitare il recupero dei dati. La nomenclatura non dovrebbe contenere riferimenti a nessuna specie o ” G ” per gene, né dovrebbe essere offensiva o peggiorativa.
Geni codificanti proteine
Miriamo a nominare geni codificanti proteine in base a una funzione normale chiave del prodotto genico.
In assenza di dati funzionali, geni codificanti proteine, può essere nominato nei modi seguenti:
- in Base riconosciuto domini strutturali e motivi codificata dal gene (ad esempio BEND7, “BEN dominio contenente 7”)
- in Base omologa geni all’interno del genoma umano (ad es. GPRIN3, “GPRIN membro della famiglia 3”)
- Basato su geni omologhi di un’altra specie (ad es. FEM1A, “fem-1 omologo A”)
- Basato solo sulla presenza di un open reading frame (ad es. C17orf50, “cromosoma 17 open reading frame 50”)
Ove possibile, i geni correlati sono denominati utilizzando un simbolo radice comune per consentire il raggruppamento, in genere basato sull’omologia delle sequenze, sulla funzione condivisa o sull’appartenenza a complessi proteici.
Per i geni coinvolti in specifici processi immunitari, o che codificano un enzima, un recettore o un canale ionico, ci consultiamo con gruppi di nomenclatura specialistica (si veda la nota supplementare ahttps://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). Per altri importanti gruppi genetici, consultiamo un gruppo di consulenti quando nominiamo nuovi membri e discutiamo gli aggiornamenti della nomenclatura proposti.
Pseudogeni
Definiamo uno pseudogene come una sequenza che non è in grado di produrre un prodotto proteico funzionale ma ha un alto livello di omologia a un gene funzionale. In generale, nominiamo solo pseudogeni che mantengono l’omologia a una percentuale significativa del gene ancestrale funzionale.
Gli pseudogeni elaborati sono denominati in base al gene genitore specifico, con un P e un numero aggiunto al simbolo del gene genitore (ad esempio NACAP10, “NACA pseudogene 10”). La numerazione è solitamente specifica per specie.
Gli pseudogeni che mantengono la maggior parte della sequenza codificante rispetto ad altri membri della famiglia (e di solito non sono elaborati) sono chiamati come un nuovo membro della famiglia con un suffisso “P”, ad esempio DDX12P, “DEAD/H-box helicase 12, pseudogene”. Questo formato di denominazione è utilizzato anche per i geni che sono pseudogenizzati rispetto al loro ortolog funzionale in un’altra specie. Nota, raramente tali pseudogeni non includono la ” P “se il simbolo è ben stabilito, ad esempio MMP23A;”matrix metallopeptidase 23A (pseudogene)”.
Geni a RNA non codificanti
Nominiamo i geni a RNA non codificanti (ncRNA) in base al loro tipo di RNA, si prega di consultare la nostra recente recensione (https://www.embopress.org/doi/full/10.15252/embj.2019103777) per una descrizione completa.
Per i piccoli RNA in cui esiste una risorsa esperta, seguiamo le loro convenzioni di denominazione come segue:
MicroRNAs miRBase assegna ad ogni sequenza di loop stem microRNA un simbolo nel formato “mir‐#” e ad ogni miRNA maturo un simbolo nel formato “miR‐#” seguito da un numero sequenziale univoco che riflette l’ordine di invio al database. L’HGNC approva quindi un simbolo genetico per i geni miRNA umani nel formato MIR#; ad esempio, MIR17 rappresenta il gene miRNA, mir‐17 rappresenta il ciclo dello stelo e miR‐17 rappresenta il miRNA maturo. Trasferimento RNA (tRNA) Il database genomico tRNA (GtRNAdb) () assegna un ID univoco a ciascun gene tRNA nel formato tRNA—, ad esempio tRNA‐Ala‐AGC‐1‐1. L’HGNC assegna un simbolo del gene tRNA leggermente condensato ma equivalente nel formato TR‐, ad esempio TRA‐AGC1-1
Altre classi di piccoli NCRNA sono denominate in collaborazione con consulenti specializzati. Le principali classi di piccoli ncRNA includono:
Small nuclear Rna Chiamato con il simbolo di radice “RNU” per “RNA, U# nucleare piccolo” Small nucleolar Rna Chiamato con il root simboli SNORD# per “small nucleolar RNA, C/D box” geni; SNORA# per “small nucleolar RNA, H/ACA casella” geni; e SCARNA# “piccola Cajal corpo‐specifiche di RNA di geni Rna Ribosomiale Denominato con il root simboli RNA45S, RNA28S, RNA18S, RNA5S, RNA5-8
Long non-coding RNAs (lncRNAs) sono una preferenza unica simboli di base pubblicato funzione simile a geni codificanti proteine. LncRNA geni che sono stati annotati dai Medlars e GENCODE progetti per i quali non adatto pubblicato informazioni su cui basare un simbolo esiste sono denominate nel seguente modo sistematico:
- LncRNAs che sono intergenic rispetto ai geni di codificazione della proteina viene assegnato il simbolo di radice – LINC# seguito da un numero di 5 cifre, ad es. LINC01018
- LncRNAs che sono antisenso per la genomica arco di una codificazione della proteina del gene sono contrassegnati con il simbolo formato ‐COME# ad es. FAS-AS1
- LncRNAs che sono divergenti (condivisione bidirezionale soggetto promotore) una codificazione della proteina del gene sono contrassegnati con il simbolo formato ‐DT ad esempio ABCF1-DT
- LncRNAs che sono contenute all’interno di un introne del gene codifica una proteina sullo stesso filone sono contrassegnati con il simbolo formato# ad esempio AOAH-IT1
- LncRNAs che si sovrappongono una codificazione della proteina del gene sullo stesso filone sono contrassegnati con il simbolo formato ‐OT# ad esempio, C5-OT1
- LncRNAs che contengono microRNA o snoRNA geni all’interno di introni o esoni sono chiamato come ospite geni ad es. MIR17HG, SNHG7
Trascrizioni Readthrough
Le trascrizioni Readthrough sono normalmente prodotte da loci adiacenti e includono parti codificanti e / o non codificanti di due (o più) geni. L’HGNC nomina solo le trascrizioni readthrough che sono costantemente annotate sia dagli annotatori RefSeq di NCBI che dagli annotatori GENCODE di Ensembl. Queste trascrizioni hanno il tipo di locus “readthrough transcript” e sono simboleggiate usando i due (o più) simboli dei geni genitori, separati da un trattino, ad esempio ZNF511-PRAP1, e il nome” readthrough”, ad esempio”ZNF511-PRAP1 readthrough”. Il nome può anche includere ulteriori informazioni sul potenziale stato di codifica della trascrizione, come “(candidato NMD)”.
Geni trovati solo all’interno di sottoinsiemi della popolazione
Storicamente, l’HGNC ha approvato solo simboli per i geni che si trovano sul genoma umano di riferimento. Rare eccezioni sono state fatte quando richiesto da particolari comunità con comitati di nomenclatura dedicati, come la comunità HLA. La futura denominazione delle varianti strutturali sarà limitata a quelle su loci alternativi che sono stati incorporati nel genoma umano di riferimento dal Genome Reference Consortium (GRC). Il carattere di sottolineatura è riservato ai geni annotati su loci di riferimento alternativi, ad esempio C4B_2 è una seconda copia di C4B su un locus di riferimento alternativo 6p21.3.
Nota: HGNC non nomina più fenotipi (vedi contatto OMIM) o regioni genomiche, né nominiamo inserimenti di elementi trasponibili nel genoma umano. Per i prodotti di traslocazioni geniche o fusioni, si consiglia il formato SYMBOL1 / SYMBOL2, per evitare confusione con il formato SYMBOL1-SYMBOL2 che approviamo per le trascrizioni readthrough. La nomenclatura della variante di sequenza è il mandato degli HGV. Per la nomenclatura delle proteine, consultare le Linee guida internazionali sulla nomenclatura delle proteine, che sono state scritte con il coinvolgimento dell’HGNC. In accordo con queste linee guida, raccomandiamo che “i simboli delle proteine e dei geni debbano usare la stessa abbreviazione”, con le proteine che utilizzano simboli non in corsivo per differenziarli dai geni.
Denominazione degli ortologhi tra le specie
Raccomandiamo che i geni ortologhi tra le specie vertebrate (e, se del caso, non vertebrate) abbiano lo stesso simbolo genico. Per distinguere le specie di origine per i geni omologhi con lo stesso simbolo del gene, si consiglia di citare l’NCBI taxonomy ID, così come il nome della specie o il nome comune GenBank, ad esempio Taxonomy ID: 9598 e Pan troglodytes o scimpanzé.
Il Vertebrate Gene Nomenclatura Committee
Il Vertebrate Gene Nomenclatura Committee (VGNC, ) è un’estensione del HGNC responsabile per l’assegnazione di nomenclatura standardizzata ai geni in specie vertebrate che attualmente mancano di un proprio comitato nomenclatura. Il VGNC si coordina con i cinque comitati di nomenclatura dei vertebrati esistenti, MGNC (mouse), RGNC (rat), CGNC (chicken), XNC (Xenopus frog) e ZNC (zebrafish), per garantire che i geni dei vertebrati siano nominati in linea con i loro omologhi umani.
Agli ortologi vertebrati dei geni umani C#orf# viene assegnato il simbolo umano con il numero cromosomico dell’altra specie come prefisso e una H che indica l’essere umano. Ad esempio, poiché l’ortolog di C1orf100 umano si trova sul cromosoma 16 della mucca, il simbolo della mucca è C16H1orf100 con il nome del gene corrispondente “cromosoma 16 C1orf100 homolog”.
Le famiglie di geni con una storia evolutiva complessa dovrebbero idealmente essere nominate con l’aiuto di un esperto nel campo, come è già stato implementato per le famiglie di geni del recettore olfattivo e del citocromo P450.
Linee guida HGNC precedenti
Le nostre linee guida HGNC precedenti possono essere trovate inhttps://www.genenames.org/about/old-guidelines/.