Aktuální pokyny pro pojmenování lidské geny
Pro diskusi o naší nejnovější pokyny, prosím, jděte na https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038/s41588-020-0669-3).
Pokud neexistuje všeobecně dohodnutá alternativa, hgnc udržuje definici genu jako “ segment DNA, který přispívá k fenotypu / funkci. Při absenci prokázané funkce může být gen charakterizován sekvencí, transkripcí nebo homologií“.
každému genu je přiřazen pouze jeden symbol; hgnc běžně nepojmenovává izoformy (tj. alternativní přepisy nebo varianty spojů). To znamená, že žádné samostatné symboly pro protein-kódující nebo nekódující RNA izoforem proteinu-kódování locus nebo alternativní přepisy z non-coding RNA locus. Ve výjimečných případech a na základě poptávky Společenství byly schváleny samostatné symboly pro genové segmenty v komplexních lokusech, např. lokus UGT1. Domnělým bicistronickým lokusům mohou být přiřazeny samostatné symboly, které reprezentují odlišné genové produkty.
každému genu, který pojmenujeme, je přiřazen jedinečný symbol, HGNC ID (ve formátu HGNC:# ) a popisný název. Symboly obsahují pouze velká latinská písmena A Arabské číslice a interpunkce se vyhýbá, s výjimkou spojovníků ve specifických skupinách. Symboly by neměly být stejné jako běžně používané zkratky, aby se usnadnilo vyhledávání dat. Nomenklatura by neměla obsahovat odkazy na žádný druh nebo “ G “ pro Gen, ani by neměla být urážlivá nebo pejorativní.
protein kódující geny
Naším cílem je pojmenovat protein kódující geny na základě klíčové normální funkce genového produktu.
V nepřítomnosti funkčních dat, protein-kódujících genů může být jmenován v následujících způsobů:
- na Základě uznávaných strukturální domény a motivy kódován genem (např. BEND7, „BEN domény obsahující 7“)
- Založené na homologní geny v lidském genomu (např. GPRIN3, „GPRIN člena rodiny 3“)
- na Základě homologních genů z jiných druhů (např. FEM1A, „fem-1 homolog“)
- Založena pouze na přítomnosti otevřený čtecí rámec (např. C17orf50, „chromozomu 17 otevřený čtecí rámec 50“)
pokud je to možné, související geny jsou pojmenovány pomocí společné kořenové symbol povolit seskupování, obvykle na základě sekvenční homologie, společná funkce nebo členství proteinové komplexy.
Pro geny podílející se na specifické imunitní procesy, nebo kódování enzymů, receptorů nebo iontových kanálů, jsme se poradit s odborníkem nomenklatury skupin (viz doplňující poznámka: na https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). U ostatních hlavních genových skupin konzultujeme panel poradců při pojmenování nových členů a diskusi o navrhovaných aktualizacích nomenklatury.
Pseudogeny
definujeme pseudogen jako sekvenci, která není schopna produkovat funkční proteinový produkt, ale má vysokou úroveň homologie vůči funkčnímu genu. Obecně nazýváme pouze pseudogeny, které si zachovávají homologii na významnou část funkčního rodového genu.
Zpracované pseudogenes jsou pojmenovány na základě konkrétních rodičovských genů, s P a počet připojených do nadřazeného genu symbol (např. NACAP10, „NACA pseudogene 10“). Číslování je obvykle druhově specifické.
Pseudogenes, které zachovávají většinu kódující sekvence ve srovnání s jinými členy rodiny (a jsou obvykle nezpracovaných) jsou pojmenovány jako nového člena rodiny s „P“ přípona, např. DDX12P, „MRTVÝ/H-box helicase 12, pseudogene“. Tento formát pojmenování se používá také pro geny, které jsou pseudogenizovány vzhledem k jejich funkčnímu orthologu u jiného druhu. Poznámka: zřídka takové pseudogeny nezahrnují „P“, pokud je symbol dobře zaveden, např. MMP23A; “ matrix metallopeptidáza 23A (pseudogen)“.
nekódující RNA geny
pojmenujeme nekódující RNA (ncrna) geny podle jejich typu RNA, úplný popis naleznete v naší nedávné recenzi (https://www.embopress.org/doi/full/10.15252/embj.2019103777).
Pro malé RNAs, kde odborný zdroj existuje, budeme sledovat jejich konvence takto:
Mikrorna miRBase přiřadí každé mikrorna stem‐loop sekvence symbol v podobě „mir‐#“ a každá zralá miRNA symbol v podobě „miR‐#“ následovaný jedinečné pořadové číslo, které odráží pořadí podání žádostí do databáze. Na HGNC pak schvaluje gen symbol pro lidské miRNA genů v podobě MIR#; například, MIR17 představuje miRNA genů, mir‐17 představuje stem‐loop, a miR‐17 představuje zralou miRNA. Přenos RNA (tRNA) genomická databáze tRNA (GtRNAdb) () přiřadí každému genu tRNA jedinečné ID ve formátu tRNA—, např. Hgnc přiřazuje mírně kondenzovaný, ale ekvivalentní symbol genu tRNA ve formátu TR -, např. TRA-AGC1-1
Další třídy malých ncrna jsou pojmenovány ve spolupráci s odbornými poradci. Hlavní třídy malých ncRNA zahrnují:
Malé jaderné Rna Jménem s kořenem symbol „RNU“ pro „RNA, U# malé jaderné“ Malé nukleolární Rna Jménem s root symboly SNORD# pro „malé nukleolární RNA, C/D box“ geny; SNORA# pro „malé nukleolární RNA, H/ACA box“ geny; a SCARNA# pro „malé Cajal těla‐specifické RNA“ genů Ribozomální Rna Jménem s kořenem symboly RNA45S, RNA28S, RNA18S, RNA5S, RNA5-8S
Long non-coding RNAs (lncRNAs) jsou přednostně vzhledem k jedinečné symboly na základě zveřejněných funkce podobný protein-kódujících genů. LncRNA geny, které byly anotovány pomocí RefSeq a GENCODE projektů, pro které není vhodný zveřejněné informace, na jejichž základě symbol existuje, jsou uvedeny v následující systematický způsob:
- LncRNAs, které jsou intergenic s ohledem na protein kódující geny jsou přiřazena kořenový symbol – LINC# následuje 5‐místné číslo, např. LINC01018
- LncRNAs, že jsou „antisense“ na genomické rozpětí protein kódujících genů je přiřazen symbol formátu ‐JAKO# např. FAS-AS1
- LncRNAs, že jsou rozdílné (podíl obousměrné promotér s) protein kódující gen je přiřazen symbol formát ‐DT např. ABCF1-DT
- LncRNAs, které jsou obsaženy v intron proteinu kódování genu na stejném řetězci je přiřazen symbol formát ‐# např. AOAH-IT1
- LncRNAs, které se překrývají protein kódujících genů na stejném řetězci je přiřazen symbol formát ‐OT# např. C5-OT1
- LncRNAs, které obsahují mikrorna nebo snoRNA geny uvnitř intronů nebo exonů jsou pojmenovány jako hostitelské geny, např. MIR17HG, SNHG7
Readthrough přepisy
Readthrough přepisy jsou obvykle vyrobeny z přilehlých loci a patří kódování a/nebo nekódující části dvou (nebo více) geny. Hgnc jmenuje pouze přepisy readthrough, které jsou důsledně anotovány jak Anotátory RefSeq na NCBI,tak anotátory GENCODE na Ensembl. Tyto přepisy mít locus typu „readthrough přepis“ a symbolizují pomocí dvou (nebo více) symbolů z mateřské geny, které jsou odděleny pomlčkou, např. ZNF511-PRAP1, a jméno „readthrough“, např. „ZNF511-PRAP1 readthrough“. Název může také obsahovat další informace o potenciálním kódovacím stavu přepisu, například „(kandidát NMD)“.
Geny nalézt pouze v rámci podskupiny populace
Historicky, HGNC má pouze schválené symboly pro geny, které jsou na lidské referenční genom. Vzácné výjimky byly učiněny na žádost konkrétních komunit s vyhrazenými nomenklaturními výbory, jako je komunita HLA. Budoucí pojmenování strukturálních variant bude omezeno na alternativní lokusy, které byly začleněny do lidského referenčního genomu konsorciem Genome Reference Consortium (GRC). Znak podtržítka je vyhrazen pro geny anotované na alternativních referenčních lokusech, např. C4B_2 je druhá kopie C4B na alternativním referenčním lokusu 6p21.3.
Poznámka: HGNC již název fenotypy (viz kontakt OMIM) nebo genomové regiony, ani jsme jméno transponovatelných elementů inzercí v lidském genomu. Pro produkty genové translokace nebo fúze, doporučujeme formát SYMBOL1/SYMBOL2, aby nedošlo k záměně s SYMBOL1-SYMBOL2 formátu schvalujeme pro readthrough přepisy. Nomenklatura sekvenčních variant je kompetencí HGV. Pro nomenklaturu bílkovin, viz pokyny pro mezinárodní nomenklaturu bílkovin, které byly napsány za účasti HGNC. V souladu s těmito pokyny doporučujeme, aby „proteinové a genové symboly používaly stejnou zkratku“, přičemž proteiny používaly symboly bez kurzívy k jejich odlišení od genů.
pojmenování ortologů napříč druhy
doporučujeme, aby ortologické geny napříč druhy obratlovců (a případně i bezobratlých) měly stejný symbol genu. Rozlišit druhy původu pro homologní geny se stejnou gen symbol, doporučujeme citovat NCBI taxonomy ID, stejně jako druhové jméno nebo GenBank společný název, např. Taxonomie ID: 9598, a to buď Pan troglodytes nebo šimpanz.
Výbor pro nomenklaturu genů obratlovců
Výbor pro nomenklaturu obratlovců (Vgnc, ) je rozšířením Výboru pro nomenklaturu genů u obratlovců, kterým v současné době chybí vlastní Výbor pro nomenklaturu. Na VGNC souřadnice s pěti zavedených stávajících obratlovců nomenklatury výborů, MGNC (myš), RGNC (krysa), CGNC (kuřecí), XNC (žába Xenopus) a ZNC (danio pruhované), aby bylo zajištěno obratlovců geny jsou pojmenovány v souladu s jejich lidskými protějšky.
ortologové obratlovců lidských genů C # orf# jsou přiřazeni lidskému symbolu s číslem chromozomu jiného druhu jako předponou a H označujícím člověka. Například, protože ortholog lidského C1orf100 je na chromozomu 16 krávy, symbol krávy je C16H1orf100 s odpovídajícím názvem genu „chromozom 16 c1orf100 homolog“.
genové rodiny se složitou evoluční historií by měly být v ideálním případě pojmenovány pomocí odborníka v oboru, jak již bylo implementováno pro genové rodiny čichových receptorů a cytochromu P450.
předchozí pokyny HGNC
naše předchozí pokyny HGNC naleznete na https://www.genenames.org/about/old-guidelines/.