HGNC Guidelines / HUGO Génnómenklatúra Bizottság

az emberi gének elnevezésére vonatkozó jelenlegi irányelvek

a legfrissebb irányelveink megvitatásához keresse fel a https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038 / s41588-020-0669-3).

egyetemesen elfogadott alternatíva hiányában a HGNC fenntartja a gén meghatározását, mint ” DNS-szegmenst, amely hozzájárul a fenotípushoz/funkcióhoz. Bizonyított funkció hiányában a gént szekvencia, transzkripció vagy homológia jellemezheti”.

minden génhez csak egy szimbólum tartozik; a HGNC nem rutinszerűen nevezi meg az izoformákat (azaz alternatív átiratokat vagy illesztési változatokat). Ez azt jelenti, hogy nincsenek külön szimbólumok a fehérjét kódoló vagy nem kódoló RNS izoformák számára fehérje-kódoló lokusz vagy alternatív transzkripciók egy nem kódoló RNS lokuszból. Kivételes körülmények között és a közösség igényét követve külön szimbólumokat hagytak jóvá a komplex lókuszokban lévő génszegmensekre, például az UGT1 lókuszra. A feltételezett bicistronikus lókuszokhoz külön szimbólumokat lehet rendelni a különálló géntermékek képviseletére.

minden génhez, amelyet megnevezünk, egyedi szimbólum, HGNC ID (HGNC formátumban:# ) és leíró név. A szimbólumok csak nagybetűs Latin betűket és arab számokat tartalmaznak, és az írásjelek elkerülhetők, kivéve a kötőjeleket bizonyos csoportokban. Az adatok visszakeresésének megkönnyítése érdekében a szimbólumok nem lehetnek azonosak az általánosan használt rövidítésekkel. A nómenklatúra nem tartalmazhat semmilyen fajra vagy G-re utaló utalást, és nem lehet sértő vagy pejoratív.

fehérje kódoló gének

célunk a fehérje kódoló gének megnevezése a géntermék kulcsfontosságú normális funkciója alapján.

funkcionális adatok hiányában a fehérjét kódoló gének a következő módokon nevezhetők el:

a gén által kódolt elismert szerkezeti domének és motívumok alapján (pl. BEND7, “ben domén 7-et tartalmaz”)
az emberi genomban lévő homológ gének alapján (pl. GPRIN3, “GPRIN család 3. tagja”)
egy másik faj homológ génjei alapján (pl. FEM1A, “fem-1 homológ a”)
kizárólag nyitott olvasókeret (pl. C17orf50, “17. kromoszóma nyitott olvasókeret 50”)

ahol lehetséges, a rokon géneket közös gyökérszimbólummal nevezik meg a csoportosítás lehetővé tétele érdekében, jellemzően szekvencia homológia, megosztott funkció vagy fehérjekomplexek tagsága alapján.

a specifikus immunfolyamatokban részt vevő vagy enzimet, receptort vagy ioncsatornát kódoló gének esetében konzultálunk speciális nómenklatúra-csoportokkal (lásd a kiegészítő megjegyzést a https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0címen). Más nagyobb géncsoportok esetében konzultálunk egy tanácsadói Bizottsággal az új tagok megnevezésekor és a javasolt nómenklatúra-frissítések megvitatásakor.

Pseudogenes

a pszeudogént olyan szekvenciaként definiáljuk, amely nem képes funkcionális fehérjetermék előállítására, de magas szintű homológiája van egy funkcionális génnek. Általában csak azokat a pszeudogéneket nevezzük meg, amelyek megtartják a homológiát a funkcionális ősi gén jelentős részében.

a feldolgozott pszeudogéneket a specifikus szülő gén alapján nevezik el, a P és a szám a szülő gén szimbólumához van csatolva (pl. NACA 10, “NACA pseudogen 10”). A számozás általában fajspecifikus.

azokat a Pszeudogéneket, amelyek a kódolási szekvencia nagy részét megtartják a többi családtaghoz képest (és általában feldolgozatlanok), új családtagként nevezik meg “P” utótaggal, pl. DDX12P, “DEAD/H-box helicase 12, pseudogen”. Ezt az elnevezési formátumot olyan gének esetében is használják, amelyek pszeudogenizálódnak funkcionális ortológusukhoz képest egy másik fajban. Ne feledje, hogy az ilyen pszeudogének ritkán nem tartalmazzák a “P” – t, ha a szimbólum jól megalapozott, például MMP23A; “mátrix metallopeptidáz 23a (pszeudogén)”.

nem kódoló RNS gének

a nem kódoló RNS (ncrns) géneket RNS-típusuk szerint nevezzük el, kérjük, olvassa el legutóbbi áttekintésünket (https://www.embopress.org/doi/full/10.15252/embj.2019103777) a teljes leírásért.

a kis RNS-ek esetében, ahol szakértői erőforrás létezik, az elnevezési konvencióikat a következőképpen követjük:

A Microrns miRBase minden mikroRNS szárhurok‐szekvenciához “mir‐#” formátumú szimbólumot, minden érett miRNS‐ hez pedig “miR – #” formátumú szimbólumot rendel, amelyet egy egyedi sorszám követ, amely tükrözi az adatbázisba történő benyújtás sorrendjét. A HGNC ezután jóváhagyja az emberi miRNS gének génszimbólumát mir# formátumban; például a MIR17 a miRNS gént, a mir‐17 a szárhurkot, a miR‐17 pedig az érett miRNS‐t képviseli. Transzfer RNS-ek (tRNS-ek) a genomi tRNS adatbázis (GtRNAdb) () minden tRNS-génhez egyedi azonosítót rendel tRNS‐‐‐formátumban, pl. tRNS‐Ala-AGC-1-1. A HGNC egy kissé sűrített, de egyenértékű tRNS génszimbólumot rendel TR-formátumban, pl. TRA-AGC1-1

a kis ncrns-ek más osztályait speciális tanácsadókkal együttműködve nevezik meg. A kis ncrns főbb osztályai a következők:

kis nukleáris RNS‐ek, amelyeket “RNU” gyökérszimbólummal neveztek el az “RNS, U# kis nukleáris” kis nukleoláris RNS-ek gyökérszimbólumokkal SNORD# a “kis nukleoláris RNS, C/D doboz” génekhez; SNORA# a “kis nukleoláris RNS, H/ACA doboz” génekhez; SCARNA# a “kis Cajal testspecifikus RNS” génekhez riboszomális RNS-ek, amelyeket rna45s, RNA28S, RNA18S, RNA5S gyökérszimbólumokkal neveztek el, rna5-8s

hosszú, nem kódoló RNS-ek (lncrns-ek) előnyösen egyedi szimbólumokat kapnak a közzétett funkció alapján, hasonlóan a fehérjét kódoló génekhez. A RefSeq és a GENCODE projektek által annotált lncrns géneket, amelyekre nem létezik megfelelő közzétett információ, amelyre egy szimbólum alapozható, a következő szisztematikus módon nevezik meg:

a fehérjekódoló gének tekintetében intergenikus Lncrns – ekhez a gyökér szimbólum‐LINC#, amelyet egy 5 jegyű szám követ, pl. LINC01018
a fehérjét kódoló gén genomiális tartományához antiszensz lncrns ‐ekhez a szimbólum formátum-as# pl. FAS-AS1
azok az Lncrns ‐ek, amelyek eltérnek egy fehérjét kódoló géntől (kétirányú promóterrel osztoznak), a szimbólumformátumot kapják-DT pl. ABCF1 ‐DT
az ugyanazon szálon lévő fehérjét kódoló gén intronjában található Lncrns-ekhez a szimbólumformátumot rendelik ‐IT# pl. AOAH-IT1
az ugyanazon szálon lévő fehérjét kódoló gént átfedő Lncrns-ekhez a szimbólumformátumot-ot# pl. C5-ot1
az intronokban vagy exonokban mikroRNS vagy snorna géneket tartalmazó lncrns-eket GAZDAGÉNEKNEK nevezzük pl. MIR17HG, SNHG7

Átolvasási átiratok

az Átolvasási átiratok általában szomszédos lókuszokból készülnek, és két (vagy több) gén kódoló és/vagy nem kódoló részeit tartalmazzák. A HGNC csak olyan átolvasott átiratokat nevez meg, amelyeket mind az NCBI RefSeq kommentátorai, mind az Ensembl GENCODE kommentátorai következetesen kommentálnak. Ezek az átiratok a “readthrough transcript” lokusz típusúak, és a szülő gének két (vagy több) szimbólumával vannak szimbolizálva, kötőjellel elválasztva, pl. ZNF511-PRAP1ÉS a “readthrough” név, pl. “ZNF511-PRAP1 readthrough”. A név tartalmazhat további információkat az átirat lehetséges kódolási állapotáról, például “(NMD jelölt)”.

gének csak a populáció részhalmazain belül találhatók

történelmileg a HGNC csak az emberi referencia genomban található gének szimbólumait hagyta jóvá. Ritka kivételeket tettek, amikor a dedikált nómenklatúra-bizottságokkal rendelkező egyes közösségek, például a HLA közösség kérték. A szerkezeti változatok jövőbeli elnevezése azokra korlátozódik alternatív lókuszok amelyeket a Genome Reference Consortium (GRC) épített be az emberi referencia genomba. Az aláhúzási karakter az alternatív referencia lókuszokon jegyzetelt gének számára van fenntartva, pl. C4B_2 a C4B második példánya egy 6p21.3 alternatív referencia lókuszon.

Megjegyzés: A HGNC már nem nevez fenotípusokat (lásd kapcsolat OMIM) vagy genomi régiókat, sem transzponálható elem inszerciókat nem nevezünk meg az emberi genomban. Géntranszlokációk vagy fúziók termékeihez a SYMBOL1/SYMBOL2 formátumot javasoljuk, hogy elkerüljük az összetévesztést a symbol1-SYMBOL2 formátummal, amelyet az átolvasáshoz jóváhagyunk átiratok. A szekvencia variáns nómenklatúra a HGV-k feladata. A fehérje nómenklatúra tekintetében, kérjük, olvassa el a nemzetközi fehérje nómenklatúra irányelveket, amelyeket a HGNC bevonásával írtak. Ezen irányelvekkel egyetértésben azt javasoljuk, hogy a” fehérje és gén szimbólumok ugyanazt a rövidítést használják”, a fehérjék pedig nem dőlt betűs szimbólumokat használnak a gének megkülönböztetésére.

az ortológusok elnevezése a fajok között

azt javasoljuk, hogy a gerinces (és adott esetben nem gerinces) fajok ortológ génjeinek azonos génszimbólummal rendelkezzenek. Az azonos génszimbólummal rendelkező homológ gének származási fajainak megkülönböztetéséhez javasoljuk az NCBI taxonómia azonosítóját, valamint a faj nevét vagy a GenBank köznevét, például a taxonómia azonosítóját: 9598, vagy a Pan troglodytes vagy a csimpánz hivatkozását.

A gerinces Génnómenklatúra Bizottság

a gerinces Génnómenklatúra Bizottság (VGNC ) a HGNC kiterjesztése, amely felelős a szabványosított nómenklatúra hozzárendeléséért gerinces fajok génjeihez, amelyeknek jelenleg nincs saját nómenklatúra-Bizottsága. A VGNC koordinálja az öt létező gerinces nómenklatúra-Bizottságot, az MGNC-t (egér), az RGNC-t (patkány), a CGNC-t (csirke), az XNC-t (Xenopus béka) és a ZNC-t (zebrafish), hogy biztosítsa a gerinces gének emberi homológoknak megfelelő megnevezését.

az emberi C#orf# gének gerinces ortológusai az emberi szimbólumot kapják, a többi faj kromoszómaszámával előtagként, a H pedig az embert jelöli. Például, mivel az emberi c1orf100 ortológusa a tehén 16. kromoszómáján található, a tehén szimbóluma a C16H1orf100, a megfelelő génnévvel “16.kromoszóma C1orf100 homológ”.

a komplex evolúciós történelemmel rendelkező Géncsaládokat ideális esetben a terület szakértőjének segítségével kell megnevezni, amint azt a szaglóreceptor és a citokróm P450 géncsaládok esetében már megvalósították.

korábbi HGNC Irányelvek

korábbi HGNC Irányelveink a https://www.genenames.org/about/old-guidelines/címen találhatók.