Hgnc retningslinjer

nuværende retningslinjer for navngivning af humane gener

for en diskussion af vores seneste retningslinjer gå til https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038/s41588-020-0669-3).

i mangel af et universelt aftalt alternativ opretholder HGNC definitionen af et gen som “et DNA-segment, der bidrager til fænotype / funktion. I fravær af demonstreret funktion kan et gen karakteriseres ved sekvens, transkription eller homologi”.

hvert gen tildeles kun et symbol; HGNC navngiver ikke rutinemæssigt isoformer (dvs.alternative udskrifter eller splejsningsvarianter). Dette betyder ingen separate symboler for proteinkodende eller ikke-kodende RNA-isoformer af et proteinkodende locus eller alternative udskrifter fra et ikke-kodende RNA-locus. Under ekstraordinære omstændigheder og efter efterspørgsel i samfundet er separate symboler blevet godkendt for gensegmenter i komplekse loci, f.eks. UGT1 locus. Formodede bicistroniske loci kan tildeles separate symboler til at repræsentere de forskellige genprodukter.

hvert gen, som vi navngiver, tildeles et unikt symbol, HGNC ID (i formatet HGNC:# ) og beskrivende navn. Symboler indeholder kun store latinske bogstaver og arabiske tal, og tegnsætning undgås, med undtagelse af bindestreger i bestemte grupper. Symboler bør ikke være de samme som almindeligt anvendte forkortelser for at lette dataindhentning. Nomenklaturen bør ikke indeholde henvisninger til nogen art eller ‘G’ for gen, og den bør heller ikke være stødende eller pejorativ.

proteinkodende gener

vi sigter mod at navngive proteinkodende gener baseret på en vigtig normal funktion af genproduktet.

i mangel af funktionelle data kan proteinkodende gener navngives på følgende måder:

  1. baseret på anerkendte strukturelle domæner og motiver kodet af genet (f. eks. BEND7, “BEN-domæne indeholdende 7”)
  2. baseret på homologe gener i det humane genom (f. eks. GPRIN3, “GPRIN-familiemedlem 3”)
  3. baseret på homologe gener fra en anden art (f. eks. FEM1A, “fem-1 homolog a”)
  4. kun baseret på tilstedeværelsen af en åben læseramme (f. eks. C17orf50,”kromosom 17 åben læseramme 50″)

hvor det er muligt, navngives relaterede gener ved hjælp af et fælles rodsymbol for at muliggøre gruppering, typisk baseret på sekvenshomologi, delt funktion eller medlemskab af proteinkomplekser.for gener, der er involveret i specifikke immunprocesser eller koder for en receptor-eller ionkanal, konsulterer vi specialiserede nomenklaturgrupper (se supplerende note på https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). For andre større gengrupper konsulterer vi et panel af rådgivere, når vi navngiver Nye medlemmer og diskuterer foreslåede nomenklaturopdateringer.

Pseudogenes

Vi definerer et pseudogen som en sekvens, der ikke er i stand til at producere et funktionelt proteinprodukt, men har et højt niveau af homologi til et funktionelt gen. Generelt navngiver vi kun pseudogener, der bevarer homologi til en betydelig del af det funktionelle forfædres gen.

forarbejdede pseudogener navngives baseret på det specifikke forældregen med et P og nummer knyttet til forældregensymbolet (f.eks. NACAP10, “NACA pseudogen 10”). Nummereringen er normalt artsspecifik.

pseudogener, der bevarer det meste af kodningssekvensen sammenlignet med andre familiemedlemmer (og er normalt uforarbejdede), er navngivet som et nyt familiemedlem med et “P”-suffiks, f.eks. Dette navngivningsformat bruges også til gener, der er pseudogeniseret i forhold til deres funktionelle ortolog i en anden art. Bemærk, at sådanne pseudogener sjældent ikke inkluderer “P”, Hvis symbolet er veletableret, f.eks. MMP23A;”matrice metallopeptidase 23a (pseudogen)”.

ikke-kodende RNA-gener

vi navngiver ikke-kodende RNA (ncRNA) gener i henhold til deres RNA-type, se vores nylige gennemgang (https://www.embopress.org/doi/full/10.15252/embj.2019103777) for en komplet beskrivelse.

for små RNA ‘ er, hvor der findes en ekspertressource, følger vi deres navngivningskonventioner som følger:

MicroRNAs miRBase tildeler hver microRNA stem‐loop‐ sekvens et symbol i formatet “mir‐#” og hver moden miRNA et symbol i formatet “miR – #” efterfulgt af et unikt sekventielt nummer, der afspejler rækkefølgen af indsendelse til databasen. HGNC godkender derefter et gensymbol for humane miRNA‐gener i formatet MIR#; for eksempel repræsenterer MIR17 miRNA‐genet, mir‐17 repræsenterer stamsløjfen, og miR-17 repræsenterer det modne miRNA. Overførsel af RNA ‘er (tRNA’ er) den genomiske tRNA-database (GtRNAdb) () tildeler et unikt ID til hvert tRNA-gen i formatet tRNA -‐‐, f.eks. HGNC tildeler et let kondenseret, men ækvivalent tRNA‐ gensymbol i formatet TR‐, f.eks. TRA‐AGC1-1

andre klasser af små ncrna ‘ er navngives i samarbejde med specialiserede rådgivere. Større klasser af små ncRNA inkluderer:

små nukleare RNA ‘ er navngivet med rodsymbolet “RNU” for “RNA, u# små nukleare” små nukleolære RNA ‘ er navngivet med rodsymboler SNORD# for “små nukleolære RNA, C/D boks” gener; SNORA# for “små nukleolære RNA, H / ACA boks” gener; og SCARNA# for “små Cajal kropsspecifikke RNA” gener ribosomale RNA ‘er navngivet med rodsymbolerne RNA45S, RNA28S, RNA18S, RNA5S, RNA5‐8s

lange ikke-kodende RNA ‘er (lncrna’ er) gives fortrinsvis unikke symboler baseret på offentliggjort funktion, der ligner proteinkodende gener. Lncrna – gener, der er kommenteret af Refseks‐og GENCODE ‐projekterne, for hvilke der ikke findes nogen passende offentliggjort information, som et symbol skal basere, er navngivet på følgende systematiske måde:

  • Lncrna ‘er, der er intergeniske med hensyn til proteinkodende gener, tildeles rodsymbolet-LINC# efterfulgt af et 5-cifret tal f. eks. LINC01018
  • Lncrna’ er, der er antisense til det genomiske spændvidde for et proteinkodende gen, tildeles symbolformatet-som # f. eks. FAS-AS1
  • Lncrna ‘er, der er divergerende til (del en tovejs promotor med) et proteinkodende gen tildeles symbolformatet ‐DT f. eks. ABCF1-DT
  • Lncrna’ er, der er indeholdt i en intron af et proteinkodende gen på den samme streng, tildeles symbolformatet ‐det# f. eks. AOAH-IT1
  • Lncrna ‘er, der overlapper et proteinkodende gen på den samme streng, tildeles symbolformatet ‐det# f. eks. AOAH-IT1
  • Lncrna’ er, der overlapper et proteinkodende gen på den samme streng SYMBOLFORMATET-OT # f. eks. C5-OT1
  • lncrna ‘ er, der indeholder mikroRNA-eller snorna-gener inden for introner eller eksoner, er navngivet som værtsgener f. eks. MIR17HG, SNHG7

Gennemlæsningstranskripter

Gennemlæsningstranskripter produceres normalt fra tilstødende loci og inkluderer kodende og/eller ikke-kodende dele af to (eller flere) gener. HGNC navngiver kun gennemlæste udskrifter, der konsekvent er kommenteret af både Refseks-annotatorerne hos NCBI og GENCODE-annotatorerne på Ensembl. Disse udskrifter har locus-typen” read through transkription ” og symboliseres ved hjælp af de to (eller flere) symboler fra forældregenerne, adskilt af en bindestreg, f.eks. Navnet kan også indeholde yderligere oplysninger om transkriptionens potentielle kodningsstatus, såsom “(NMD-kandidat)”.

gener findes kun inden for delmængder af befolkningen

historisk set har HGNC kun godkendte symboler for gener, der er på det humane referencegenom. Der er foretaget sjældne undtagelser, når særlige samfund med dedikerede nomenklaturudvalg anmoder om det, såsom HLA-samfundet. Fremtidig navngivning af strukturelle varianter vil være begrænset til dem på alternative loci, der er blevet inkorporeret i det humane referencegenom af Genomreferencekonsortiet (GRC). Understregningstegnet er forbeholdt gener kommenteret på alternativ reference loci, f.eks.C4B_2 er en anden kopi af C4B på en 6p21. 3 alternativ reference locus.

Bemærk: HGNC navngiver ikke længere fænotyper (se venligst kontakt OMIM) eller genomiske regioner, og vi navngiver heller ikke transponerbare elementindsættelser i det menneskelige genom. For produkter af gentranslokationer eller fusioner anbefaler vi formatet SYMBOL1 / SYMBOL2 for at undgå forveksling med SYMBOL1-SYMBOL2-formatet, som vi godkender til gennemlæsningstranskripter. Sekvensvariantnomenklatur er HGV ‘ ernes opgave. For proteinnomenklatur, se de internationale retningslinjer for Proteinnomenklatur, som blev skrevet med inddragelse af HGNC. I overensstemmelse med disse retningslinjer anbefaler vi, at “protein-og gensymboler skal bruge den samme forkortelse”, hvor proteiner bruger ikke-kursiverede symboler for at skelne dem fra gener.

navngivning af ortologer på tværs af arter

Vi anbefaler, at ortologe gener på tværs af hvirveldyr (og hvor det er relevant, Ikke-hvirveldyr) arter skal have det samme gensymbol. For at skelne oprindelsesarterne for homologe gener med det samme gensymbol anbefaler vi at citere NCBI taksonomi ID, såvel som artsnavnet eller Genbankens almindelige navn, f.eks. taksonomi ID: 9598 og enten Pan troglodytes eller chimpanse.

Vertebratgenomenklaturudvalget

Vertebratgenomenklaturudvalget (VGNC, ) er en udvidelse af hgnc, der er ansvarlig for at tildele standardiseret nomenklatur til gener i hvirveldyr arter, der i øjeblikket mangler deres eget nomenklaturudvalg. VGNC koordinerer med de fem etablerede eksisterende hvirveldyrsnomenklaturudvalg, MGNC (mus), RGNC (rotte), cgnc (kylling), NNC (Ksenopus frø) og NNC (sebrafisk) for at sikre, at hvirveldyrsgener navngives i overensstemmelse med deres humane homologer.

hvirveldyr ortologer af humane C#orf# gener tildeles det menneskelige symbol med det andet Arts kromosom nummer som et præfiks og et H, der betegner menneske. For eksempel, da ortologen til human C1orf100 er på Ko-kromosom 16, er ko-symbolet C16H1orf100 med det tilsvarende gennavn “kromosom 16 C1orf100 homolog”.

Genfamilier med en kompleks evolutionær historie bør ideelt set navngives ved hjælp af en ekspert på området, som det allerede er implementeret for olfaktorisk receptor og cytokrom P450 genfamilier.

tidligere hgnc retningslinjer

vores tidligere hgnc retningslinjer kan findes påhttps://www.genenames.org/about/old-guidelines/.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.