Hgnc Guidelines

nuvarande riktlinjer för namngivning av mänskliga gener

för en diskussion om våra senaste riktlinjer, gå till https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038 / s41588-020-0669-3).i avsaknad av ett universellt överenskommet alternativ upprätthåller HGNC definitionen av en gen som ”ett DNA-segment som bidrar till fenotyp/funktion. I frånvaro av demonstrerad funktion kan en gen karakteriseras av sekvens, transkription eller homologi”.

varje gen tilldelas endast en symbol; HGNC namnger inte rutinmässigt isoformer (dvs. alternativa transkript eller skarvvarianter). Detta betyder inga separata symboler för proteinkodande eller icke-kodande RNA-isoformer av ett proteinkodande locus eller alternativa transkript från ett icke-kodande RNA-locus. Under exceptionella omständigheter och efter gemenskapens efterfrågan har separata symboler godkänts för gensegment i komplexa loci, t.ex. UGT1-locus. Förmodade bicistronic loci kan tilldelas separata symboler för att representera de distinkta genprodukterna.

varje gen som vi namnger tilldelas en unik symbol, HGNC ID (i formatet HGNC:# ) och beskrivande namn. Symboler innehåller endast stora bokstäver och arabiska siffror, och skiljetecken undviks, med undantag för bindestreck i specifika grupper. Symboler bör inte vara samma som vanliga förkortningar, för att underlätta datahämtning. Nomenklaturen bör inte innehålla hänvisningar till någon art eller ’G’ för gen, och den bör inte heller vara stötande eller nedsättande.

proteinkodande gener

Vi strävar efter att namnge proteinkodande gener baserat på en viktig normal funktion hos genprodukten.

i avsaknad av funktionella data kan proteinkodande gener namnges på följande sätt:

  1. baserat på erkända strukturella domäner och motiv som kodas av genen (t. ex. BEND7, ”bendomän innehållande 7”)
  2. baserat på homologa gener i det mänskliga genomet (t. ex. GPRIN3, ”gprin family member 3”)
  3. baserat på homologa gener från en annan art (t. ex. FEM1A, ”fem-1 homolog a”)
  4. baserat endast på närvaron av en öppen läsram (t. ex. C17orf50, ”kromosom 17 öppen läsram 50”)

om möjligt namnges relaterade gener med en gemensam rotsymbol för att möjliggöra gruppering, vanligtvis baserad på sekvenshomologi, delad funktion eller medlemskap i proteinkomplex.

för gener som är involverade i specifika immunprocesser, eller kodar för ett enzym, receptor eller jonkanal, konsulterar vi med specialnomenklaturgrupper (se kompletterande anmärkning på https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). För andra stora gengrupper konsulterar vi en panel av rådgivare när vi namnger nya medlemmar och diskuterar föreslagna nomenklaturuppdateringar.

Pseudogenes

Vi definierar en pseudogen som en sekvens som inte kan producera en funktionell proteinprodukt men har en hög nivå av homologi till en funktionell gen. I allmänhet heter vi bara pseudogener som behåller homologi till en betydande del av den funktionella förfädergenen.

bearbetade pseudogener namnges baserat på den specifika modergenen, med ett P och nummer bifogat till modergensymbolen (t.ex. NACAP10, ”NACA pseudogene 10”). Numreringen är vanligtvis artspecifik.

pseudogener som behåller det mesta av kodningssekvensen jämfört med andra familjemedlemmar (och är vanligtvis obearbetade) namnges som en ny familjemedlem med ett ”P”-suffix, t.ex. DDX12P, ”död/H-box helikas 12, pseudogen”. Detta namnformat används också för gener som är pseudogeniserade i förhållande till deras funktionella ortolog i en annan art. Observera, sällan inkluderar sådana pseudogener inte” P ”Om symbolen är väl etablerad, t.ex. MMP23A;”matrismetallopeptidas 23a (pseudogen)”.

icke-kodande RNA-gener

vi namnger icke-kodande RNA (ncRNA) – gener enligt deras RNA-Typ, se vår senaste recension (https://www.embopress.org/doi/full/10.15252/embj.2019103777) för en fullständig beskrivning.

för små RNA där det finns en expertresurs följer vi deras namnkonventioner enligt följande:

microRNA miRBase tilldelar varje microRNA stam‐loop‐ sekvens en symbol i formatet ”mir‐#” och varje mogen miRNA en symbol i formatet ”miR – #” följt av ett unikt sekventiellt nummer som återspeglar inlämningsordning till databasen. HGNC godkänner sedan en gensymbol för humana miRNA‐gener i formatet MIR#; till exempel representerar MIR17 miRNA‐genen, mir‐17 representerar stamslingan och miR-17 representerar den mogna miRNA. Överför rna (tRNAs) den genomiska tRNA-databasen (GtRNAdb) () tilldelar ett unikt ID till varje tRNA-gen i formatet tRNA -‐‐, t.ex. tRNA‐Ala‐AGC-1-1. HGNC tilldelar en något kondenserad men ekvivalent tRNA – gensymbol i formatet TR‐, t.ex. TRA‐AGC1-1

andra klasser av små ncRNA namnges i samarbete med specialrådgivare. Stora klasser av små ncRNA inkluderar:

små nukleära rna namngivna med rotsymbolen ”RNU” för ”RNA, U# små nukleära” små nukleolära rna namngivna med rotsymboler SNORD# för ”små nukleolära RNA, C/D box” gener; SNORA# för ”små nukleolära RNA, H/ACA box” gener; och SCARNA# för ”små Cajal kroppsspecifika RNA” gener ribosomala RNA namngivna med rotsymbolerna RNA45S, RNA28S, RNA18S, RNA5S, rna5‐8s

långa icke-kodande RNA (lncRNA) ges företrädesvis unika symboler baserade på Publicerad funktion som liknar proteinkodande gener. LncRNA-gener som har kommenterats av RefSeq-och GENCODE-projekten för vilka ingen lämplig publicerad information för att basera en symbol finns namnges på följande systematiska sätt:

  • lncRNA som är intergena med avseende på proteinkodande gener tilldelas rotsymbolen – LINC# följt av ett 5‐siffrigt nummer, t. ex. LINC01018
  • lncRNA som är antisense till den genomiska spänningen hos en proteinkodande gen tilldelas symbolformatet-som# t. ex. FAS-AS1
  • lncRNA som är divergerande till (dela en dubbelriktad promotor med) en proteinkodande gen tilldelas symbolformat ‐DT t. ex. ABCF1-dt
  • lncRNA som finns i en intron av en proteinkodande gen på samma sträng tilldelas symbolformat ‐IT# t. ex. AOAH-IT1
  • lncRNA som överlappar en proteinkodande gen på samma sträng tilldelas symbolen format ‐IT# t. ex. AOAH-IT1
  • lncRNA som överlappar en proteinkodande gen på samma sträng tilldelas C5-OT1
  • lncRNAs som innehåller mikroRNA-eller snoRNA-gener inom introner eller exoner benämns som värdgener t. ex. MIR17HG, SNHG7

Genomläsningsavskrifter

Genomläsningsavskrifter produceras normalt från angränsande loci och inkluderar kodande och / eller icke-kodande delar av två (eller flera) gener. HGNC namnger endast genomläsningsavskrifter som konsekvent kommenteras av både RefSeq-annotatorerna på NCBI och GENCODE-annotatorerna på Ensembl. Dessa transkript har locus-typen ”readthrough transcript” och symboliseras med de två (eller flera) symbolerna från modergenerna, åtskilda av ett bindestreck, t.ex. ZNF511-PRAP1, och namnet” readthrough”, t. ex.”ZNF511-PRAP1 readthrough”. Namnet kan också innehålla ytterligare information om transkriptets potentiella kodningsstatus, till exempel ”(nmd-kandidat)”.

gener som bara finns inom undergrupper av befolkningen

historiskt har HGNC endast godkända symboler för gener som finns på det mänskliga referensgenomet. Sällsynta undantag har gjorts på begäran av särskilda samhällen med särskilda nomenklaturutskott, såsom HLA-gemenskapen. Framtida namngivning av strukturella varianter kommer att begränsas till de på alternativa loci som har införlivats i det mänskliga referensgenomet av Genomreferenskonsortiet (GRC). C4b_2 är en andra kopia av C4B på en 6p21.3 alternativ referens locus.

Obs: HGNC namnger inte längre fenotyper (se kontakt OMIM) eller genomiska regioner, och vi namnger inte heller transposerbara elementinsatser i det mänskliga genomet. För produkter av gentranslokationer eller fusioner rekommenderar vi formatet SYMBOL1/SYMBOL2, för att undvika förväxling med SYMBOL1-SYMBOL2-formatet som vi godkänner för genomläsning av transkript. Sekvensvariantnomenklaturen är HGVS: s uppdrag. För proteinnomenklaturen, se International Protein Nomenclature Guidelines, som skrevs med deltagande av HGNC. I överensstämmelse med dessa riktlinjer rekommenderar vi att ”protein-och gensymboler ska använda samma förkortning”, med proteiner som använder icke-kursiverade symboler för att skilja dem från gener.

namngivning av orthologer över arter

Vi rekommenderar att orthologa gener över ryggradsdjur (och i förekommande fall icke-ryggradsdjur) arter ska ha samma gensymbol. För att skilja ursprungsarterna för homologa gener med samma gensymbol rekommenderar vi att du citerar NCBI taxonomi ID, liksom artnamnet eller Genbankens vanliga namn, t.ex. taxonomi ID: 9598 och antingen Pan troglodytes eller schimpans.

Vertebrate Gene Nomenclature Committee

Vertebrate Gene Nomenclature Committee (VGNC, ) är en förlängning av Hgnc som ansvarar för att tilldela standardiserad nomenklatur till gener i ryggradsarter som för närvarande saknar sin egen nomenklaturutskott. VGNC samordnar med de fem etablerade befintliga vertebrate nomenclature committees, MGNC (mouse), RGNC (rat), CGNC (chicken), XNC (Xenopus frog) och ZNC (zebrafish), för att säkerställa att ryggradsgener namnges i linje med deras mänskliga homologer.

Ryggradsorthologer av humana C# orf # – gener tilldelas den mänskliga symbolen med det andra artens kromosomnummer som ett prefix och en H som betecknar människa. Till exempel, eftersom orthologen för human C1orf100 är på Ko kromosom 16, är kosymbolen C16H1orf100 med motsvarande gennamn ”kromosom 16 C1orf100 homolog”.

genfamiljer med en komplex evolutionär historia bör helst namnges med hjälp av en expert på området, vilket redan har implementerats för olfaktoriska receptor-och cytokrom P450-genfamiljer.

tidigare hgnc-riktlinjer

våra tidigare hgnc-riktlinjer finns på https://www.genenames.org/about/old-guidelines/.

Lämna ett svar

Din e-postadress kommer inte publiceras.