liniile directoare actuale pentru denumirea genelor umane
pentru o discuție despre ultimele noastre orientări, vă rugăm să mergeți lahttps://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, doi: 10.1038 / s41588-020-0669-3).
în absența unei alternative universal convenite, HGNC menține definiția unei gene ca „un segment ADN care contribuie la fenotip/funcție. În absența funcției demonstrate, o genă poate fi caracterizată prin secvență, transcriere sau omologie”.
fiecărei gene i se atribuie un singur simbol; HGNC nu numește în mod obișnuit izoforme (adică transcrieri alternative sau variante de îmbinare). Aceasta înseamnă că nu există simboluri separate pentru izoformele ARN care codifică proteinele sau care nu codifică un locus care codifică proteinele sau transcrieri alternative dintr-un locus ARN care nu codifică. În circumstanțe excepționale și în urma cererii comunitare, au fost aprobate simboluri separate pentru segmentele de gene din loci complexi, de exemplu locusul UGT1. Locilor bicistronici putativi li se pot atribui simboluri separate pentru a reprezenta produsele genetice distincte.
fiecărei gene pe care o numim i se atribuie un simbol unic, HGNC ID (în formatul HGNC:# ) și numele descriptiv. Simbolurile conțin doar litere latine majuscule și cifre arabe, iar punctuația este evitată, cu excepția cratimelor din anumite grupuri. Simbolurile nu trebuie să fie aceleași cu abrevierile utilizate în mod obișnuit, pentru a facilita recuperarea datelor. Nomenclatura nu trebuie să conțină referințe la nicio specie sau’ G ‘ pentru genă și nici nu trebuie să fie ofensatoare sau peiorative.
genele care codifică proteinele
ne propunem să denumim genele care codifică proteinele pe baza unei funcții normale cheie a produsului genetic.
în absența datelor funcționale, genele care codifică proteinele pot fi denumite în următoarele moduri:
- Pe baza domeniilor structurale recunoscute și a motivelor codificate de genă (de exemplu, BEND7, „domeniul BEN care conține 7”)
- Pe baza genelor omoloage din genomul uman (de exemplu, GPRIN3, „membru al familiei gprin 3”)
- Pe baza genelor omoloage fem-1 omolog a”)
- bazat numai pe prezența unui cadru de citire deschis (de ex. C17orf50, „cromozomul 17 open reading frame 50”)
acolo unde este posibil, genele înrudite sunt denumite folosind un simbol rădăcină comun pentru a permite gruparea, de obicei bazată pe omologia secvenței, funcția partajată sau apartenența la complexe proteice.
pentru genele implicate în procese imune specifice sau care codifică o enzimă, receptor sau canal ionic, ne consultăm cu grupuri de nomenclatură specializate (a se vedea nota suplimentară la https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). Pentru alte grupuri majore de gene, consultăm un grup de consilieri atunci când numim noi membri și discutăm actualizările nomenclaturii propuse.
Pseudogene
definim o pseudogenă ca o secvență care este incapabilă să producă un produs proteic funcțional, dar are un nivel ridicat de omologie cu o genă funcțională. În general, numim doar pseudogene care păstrează omologia la o proporție semnificativă a genei ancestrale funcționale.
pseudogenele procesate sunt denumite pe baza genei părinte specifice, cu un P și un număr anexate simbolului genei părinte (de exemplu, NACAP10, „NACA pseudogene 10”). Numerotarea este de obicei specifică speciilor.
Pseudogenele care păstrează cea mai mare parte a secvenței de codificare în comparație cu alți membri ai familiei (și sunt de obicei neprelucrate) sunt denumite ca un nou membru al familiei cu un sufix „P”, de ex.DDX12P, „helicaza moartă / h-box 12, pseudogen”. Acest format de denumire este, de asemenea, utilizat pentru genele care sunt pseudogenizate în raport cu ortologul lor funcțional la o altă specie. Rețineți că rareori astfel de pseudogene nu includ „P” dacă simbolul este bine stabilit, de exemplu MMP23A; „metalopeptidaza matricială 23A (pseudogen)”.
gene ARN necodificatoare
denumim genele ARN necodificatoare (ncRNA) în funcție de tipul lor de ARN, vă rugăm să consultați recenzia noastră recentă (https://www.embopress.org/doi/full/10.15252/embj.2019103777) pentru o descriere completă.
pentru ARN‐urile mici în care există o resursă expertă, urmăm convențiile lor de denumire după cum urmează:
microARN‐ urile miRBase atribuie fiecărei secvențe de buclă stem microARN un simbol în formatul „mir‐#” și fiecărui miARN Matur un simbol în formatul „miR – #” urmat de un număr secvențial unic care reflectă ordinea de depunere în baza de date. HGNC aprobă apoi un simbol al genei pentru genele miARN umane în format MIR#; de exemplu, MIR17 reprezintă gena miARN, mir‐17 reprezintă bucla stem, iar miR‐17 reprezintă miARN Matur. Transfer ARNr (Arnt) baza de date genomică Arnt (GtRNAdb) () atribuie un ID unic fiecărei gene Arnt în formatul Arnt—, de ex.Arnt‐Ala‐AGC‐1‐1. HGNC atribuie un simbol al genei Arnt ușor condensat, dar echivalent în format TR‐, de ex.TRA‐AGC1‐1
alte clase de ncrna mici sunt denumite în colaborare cu consilieri specialiști. Clasele majore de ncRNA mici includ:
ARN‐uri nucleare mici denumite cu simbolul rădăcină „RNU” pentru „ARN, U# ARN-uri nucleolare mici nucleare” denumite cu simboluri rădăcină SNORD# pentru genele „ARN nucleolar mic, cutie C/D”; SNORA# pentru genele „ARN nucleolar mic, cutie h / ACA”; și SCARNA# pentru genele „ARN-uri specifice corpului Cajal mic” ARN-uri ribozomale numite cu simbolurile rădăcină ARN45S, ARNA28S, ARN18S, ARN5S, ARN5-8S
ARN-urile lungi necodificatoare (LNCRN) sunt date preferențial simboluri unice bazate pe funcția publicată asemănătoare genelor care codifică proteinele. Genele LncRNA care au fost adnotate de proiectele RefSeq și GENCODE pentru care nu există informații publicate adecvate pe care să se bazeze un simbol sunt denumite în următorul mod sistematic:
- Lncrna care sunt intergenice în ceea ce privește genele de codificare a proteinelor li se atribuie simbolul rădăcină – LINC# urmat de un număr de 5 cifre, de exemplu LINC01018
- Lncrna care sunt antisens la intervalul genomic al unei gene de ex. FAS-AS1
- Lncrn ‐urile care sunt divergente (împărtășesc un promotor bidirecțional cu) o genă codificatoare de proteine li se atribuie formatul simbolului-DT de ex. ABCF1 ‐DT
- Lncrn-urile care sunt conținute într ‐un intron al unei gene codificatoare de proteine pe aceeași catenă li se atribuie formatul simbolului-it# de ex. AOAH-IT1
- Lncrn-urile care se suprapun unei gene codificatoare de proteine pe C5-OT1
- lncrn-urile care conțin gene microARN sau snorna în introni sau exoni sunt denumite gene gazdă, de ex. MIR17HG, SNHG7
transcrieri de citire
transcrierile de citire sunt produse în mod normal din loci adiacenți și includ părți de codare și / sau necodificare a două (sau mai multe) gene. Hgnc numește doar transcrieri de citire care sunt adnotate în mod constant atât de adnotatorii RefSeq de la NCBI, cât și de ADNOTATORII GENCODE de la Ensembl. Aceste transcrieri au tipul locus „transcriere citire” și sunt simbolizate folosind cele două (sau mai multe) simboluri din genele părinte, separate printr-o cratimă, de ex.ZNF511-PRAP1, și numele” citire”, de ex.”znf511-prap1 citire”. Numele poate include, de asemenea, informații suplimentare despre starea potențială de codificare a transcrierii, cum ar fi „(candidat NMD)”.
genele găsite doar în subseturile populației
Din punct de vedere istoric, HGNC a aprobat doar simboluri pentru genele care se află pe genomul de referință uman. Excepții Rare au fost făcute atunci când au fost solicitate de anumite comunități cu comitete de nomenclatură dedicate, cum ar fi comunitatea HLA. Denumirea viitoare a variantelor structurale va fi limitată la cele de pe loci alternativi care au fost încorporați în genomul de referință uman de către Genome Reference Consortium (GRC). Caracterul de subliniere este rezervat genelor adnotate pe loci de referință alternativi, de ex.C4B_2 este o a doua copie a C4B pe un locus de referință alternativ 6p21.3.
notă: HGNC nu mai numește fenotipuri (vă rugăm să consultați OMIM de contact) sau regiuni genomice și nici nu numim inserții de elemente transpozabile în genomul uman. Pentru produsele de translocații sau fuziuni genetice, recomandăm formatul SYMBOL1 / SYMBOL2, pentru a evita confuzia cu formatul SYMBOL1-SYMBOL2 pe care îl aprobăm pentru transcrieri de citire. Nomenclatura variantelor de secvență este de competența HGV-urilor. Pentru nomenclatura proteinelor, vă rugăm să consultați orientările internaționale privind Nomenclatura proteinelor, care au fost scrise cu implicarea HGNC. În acord cu aceste linii directoare, recomandăm ca „simbolurile proteice și genetice să utilizeze aceeași abreviere”, proteinele folosind simboluri non-cursive pentru a le diferenția de gene.
denumirea ortologilor între specii
recomandăm ca genele ortologice între speciile vertebrate (și, dacă este cazul, non-vertebrate) să aibă același simbol genetic. Pentru a distinge speciile de origine pentru genele omoloage cu același simbol al genei, vă recomandăm să citați NCBI taxonomie ID, precum și numele speciei sau numele comun GenBank, de ex.taxonomie Id: 9598 și fie Pan troglodytes, fie cimpanzeu.
Comitetul de nomenclatură a genelor Vertebrate
Comitetul de nomenclatură a genelor Vertebrate (Vgnc, ) este o extensie a HGNC responsabilă de atribuirea nomenclaturii standardizate genelor din speciile vertebrate care în prezent nu au propriul Comitet de nomenclatură. Vgnc se coordonează cu cele cinci comitete existente de nomenclatură a vertebratelor, MGNC (șoarece), RGNC (șobolan), cgnc (pui), XNC (broască Xenopus) și ZNC (pește zebră), pentru a se asigura că genele vertebratelor sunt denumite în conformitate cu omologii lor umani.
ortologii vertebrați ai genelor umane c#orf# li se atribuie simbolul uman cu numărul cromozomului celeilalte specii ca prefix și un H care denotă omul. De exemplu, deoarece ortologul C1orf100 uman este pe cromozomul de vacă 16, simbolul vacii este C16H1orf100 cu numele genei corespunzătoare „cromozomul 16 c1orf100 omolog”.
familiile de Gene cu o istorie evolutivă complexă ar trebui denumite în mod ideal cu ajutorul unui expert în domeniu, așa cum a fost deja implementat pentru receptorul olfactiv și familiile de gene ale citocromului P450.
liniile directoare HGNC anterioare
liniile directoare hgnc anterioare pot fi găsite lahttps://www.genenames.org/about/old-guidelines/.