Hgnc Guidelines

Current guidelines for naming human genes

aby omówić nasze najnowsze wytyczne, przejdź do https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7494048/ (PMID 32747822, DOI: 10.1038 / s41588-020-0669-3).

w przypadku braku powszechnie uzgodnionej alternatywy, HGNC utrzymuje definicję genu jako „segmentu DNA, który przyczynia się do fenotypu/funkcji. W przypadku braku wykazanej funkcji gen może być scharakteryzowany przez sekwencję, transkrypcję lub homologię”.

każdemu genowi przypisany jest tylko jeden symbol; HGNC nie rutynowo nazywa izoform (tj. alternatywnych transkryptów lub wariantów splicingu). Oznacza to brak oddzielnych symboli dla kodujących białko lub niekodujących izoform RNA miejsca kodującego białko lub alternatywnych transkryptów z niekodującego miejsca RNA. W wyjątkowych okolicznościach i w odpowiedzi na zapotrzebowanie wspólnoty zatwierdzono oddzielne symbole dla segmentów genów w złożonych loci, np. locus UGT1. Przypuszczalne loci bicistroniczne mogą być przypisane osobnym symbolom reprezentującym różne produkty genowe.

każdy gen, który nazwaliśmy, ma przypisany unikalny symbol, HGNC ID (w formacie HGNC:# ) oraz nazwę opisową. Symbole zawierają tylko wielkie litery łacińskie i cyfry arabskie, a interpunkcja jest unikana, z wyjątkiem myślników w określonych grupach. Symbole nie powinny być takie same jak powszechnie używane skróty, aby ułatwić pobieranie danych. Nomenklatura nie powinna zawierać odniesień do żadnego gatunku lub ” G ” dla genu, nie powinna być też obraźliwa lub pejoratywna.

geny kodujące białka

naszym celem jest nazwanie genów kodujących białka w oparciu o kluczową normalną funkcję produktu genowego.

w przypadku braku danych funkcjonalnych geny kodujące białka można nazwać w następujący sposób:

  1. na podstawie rozpoznanych domen strukturalnych i motywów kodowanych przez gen (np. BEND7, „domena BEN zawierająca 7”)
  2. na podstawie genów homologicznych w obrębie ludzkiego genomu (np. GPRIN3, „członek rodziny GPRIN 3”)
  3. na podstawie genów homologicznych z innego gatunku (np. fem-1 homolog a”)
  4. opiera się tylko na obecności otwartej ramki odczytu (np. C17orf50, „chromosom 17 open reading frame 50”)

tam, gdzie to możliwe, pokrewne geny są nazwane przy użyciu wspólnego symbolu korzenia, aby umożliwić grupowanie, zazwyczaj w oparciu o homologię sekwencji, wspólną funkcję lub przynależność do kompleksów białkowych.

W przypadku genów zaangażowanych w specyficzne procesy immunologiczne lub kodujących enzym, receptor lub kanał jonowy, konsultujemy się ze specjalnymi grupami nomenklatorycznymi (patrz uwaga uzupełniająca pod adresem https://www.readcube.com/articles/supplement?doi=10.1038%2Fs41588-020-0669-3&index=0). W przypadku innych głównych grup genów konsultujemy się z zespołem doradców przy określaniu nowych członków i omawianiu proponowanych aktualizacji nazewnictwa.

Pseudogenes

określamy pseudogen jako sekwencję, która nie jest w stanie wytworzyć funkcjonalnego produktu białkowego, ale ma wysoki poziom homologii do funkcjonalnego genu. Ogólnie rzecz biorąc, nazywamy tylko pseudogeny, które zachowują homologię do znacznej części funkcjonalnego genu przodków.

przetworzone pseudogeny są nazwane na podstawie konkretnego genu macierzystego, z P i liczbą dołączoną do symbolu genu macierzystego (np. NACAP10, „NACA pseudogene 10”). Numeracja jest zazwyczaj specyficzna dla gatunku.

Pseudogeny, które zachowują większość sekwencji kodującej w porównaniu z innymi członkami rodziny (i są zwykle nieprzetworzone), są nazwane jako nowy członek rodziny z przyrostkiem „P”, np. ddx12p, „DEAD/H-box helicase 12, pseudogene”. Ten format nazewnictwa jest również używany dla genów, które są pseudogenizowane w stosunku do ich funkcjonalnego ortologu u innego gatunku. Zauważ, że rzadko takie pseudogeny nie zawierają „P”, Jeśli symbol jest dobrze ugruntowany, np. MMP23A;”metalopeptydaza macierzowa 23A (pseudogen)”.

niekodujące geny RNA

nazywamy niekodujące geny RNA (ncRNA) zgodnie z ich typem RNA, zapoznaj się z naszą najnowszą recenzją (https://www.embopress.org/doi/full/10.15252/embj.2019103777), aby uzyskać pełny opis.

dla małych RNA, w których istnieje zasób ekspercki, stosujemy się do ich konwencji nazewnictwa w następujący sposób:

MicroRNAs miRBase przypisuje każdej sekwencji pętli macierzystej mikroRNA symbol w formacie „mir‐#”, A każdej dojrzałej miRNA symbol w formacie „mir‐#”, po którym następuje unikalny numer sekwencyjny, który odzwierciedla kolejność przesyłania do bazy danych. HGNC następnie zatwierdza symbol genu dla ludzkich genów miRNA w formacie mir#; na przykład, MIR17 reprezentuje Gen miRNA, mir‐17 reprezentuje pętlę macierzystą, a miR‐17 reprezentuje dojrzałą miRNA. Transfer RNA (tRNAs) genomowa baza danych tRNA (GtRNAdb) () przypisuje unikalny identyfikator każdemu genowi tRNA w formacie tRNA—, np. tRNA‐Ala‐AGC‐1‐1. HGNC przypisuje nieco skondensowany, ale równoważny symbol genu tRNA w formacie TR‐, np. tra‐AGC1-1

Inne klasy małych ncrna są nazwane we współpracy ze specjalistami. Do głównych klas małych ncRNA należą:

Małe nuklearne RNA nazwane symbolem korzenia „RNU” dla „RNA, u# small nuclear” Małe nuklearne RNA nazwane symbolami korzenia SNORD# dla genów „small nucleolar RNA, C/D box”; SNORA# dla genów „small nucleolar RNA, H/ACA box”; i SCARNA# dla genów „small Cajal body‐specific RNA” rybosomalne RNA nazwane symbolami korzenia RNA45S, RNA28S, RNA18S, RNA5S, RNA5-8S

długie niekodujące RNA (lncrna) są preferencyjnie podane unikalne symbole oparte na opublikowanej funkcji podobnej do genów kodujących białka. Geny LncRNA, które zostały opisane przez RefSeq i GENCODE, dla których nie opublikowano odpowiednich informacji, na których można oprzeć symbol, są nazwane w następujący sposób systematyczny:

  • Lncrna, które są intergeniczne w odniesieniu do genów kodujących białko, przypisuje się symbol główny – LINC#, po którym następuje 5‐cyfrowy numer, np. LINC01018
  • lncrna, które są antysensowne do zakresu genów kodującego białko, przypisuje się Format symbolu ‐jako# np. FAS-AS1
  • Lncrna, które są rozbieżne (współdzielą dwukierunkowy promotor z) genem kodującym białko, są przypisane do formatu symbolu ‐DT, np. ABCF1-dt
  • Lncrna, które są zawarte w intronie genu kodującego białko na tej samej nici, są przypisane do formatu symbolu ‐IT# np. AOAH-IT1
  • Lncrna, które nakładają się na gen kodujący białko na tej samej nici, są przypisane do formatu symbolu ‐OT# np. C5-OT1
  • lncrna zawierające geny mikroRNA lub snorna wewnątrz intronów lub egzonów nazywane są genami gospodarza np. MIR17HG, SNHG7

transkrypty odczytu

transkrypty odczytu są zwykle wytwarzane z sąsiednich loci i obejmują kodujące i/lub niekodujące części dwóch (lub więcej) genów. HGNC tylko nazwy odczytywanych transkryptów, które są konsekwentnie adnotowane zarówno przez adnotatory RefSeq w NCBI, jak i ADNOTATORY GENCODE w Ensemblerze. Transkrypty te mają typ locus „readthrough transcript” i są symbolizowane za pomocą dwóch (lub więcej) symboli z genów macierzystych, oddzielonych myślnikiem, np. ZNF511-PRAP1, oraz nazwą” readthrough”, np.”ZNF511-PRAP1 readthrough”. Nazwa może również zawierać dodatkowe informacje o potencjalnym stanie kodowania transkryptu, takie jak ” (NMD candidate)”.

geny znajdują się tylko w podgrupach populacji

historycznie, HGNC ma tylko zatwierdzone symbole dla genów, które znajdują się w ludzkim genomie referencyjnym. Na wniosek poszczególnych społeczności z wyspecjalizowanymi komitetami ds. nomenklatury, takimi jak wspólnota HLA, poczyniono rzadkie wyjątki. Przyszłe nazewnictwo wariantów strukturalnych będzie ograniczone do tych na alternatywnych loci, które zostały włączone do ludzkiego genomu referencyjnego przez Genome Reference Consortium (GRC). Znak podkreślenia jest zarezerwowany dla genów przypisanych do alternatywnych loci odniesienia, np. C4B_2 jest drugą kopią C4B na alternatywnym locus odniesienia 6p21.3.

Uwaga: HGNC nie nazywa już fenotypów (patrz kontakt z OMIM) ani regionów genomowych, ani nie nazywamy insercji transponowalnych pierwiastków w ludzkim genomie. W przypadku produktów translokacji lub fuzji genów zalecamy format SYMBOL1 / SYMBOL2, aby uniknąć pomyłki z formatem SYMBOL1-SYMBOL2, który zatwierdzamy do transkrypcji odczytu. Nomenklatura wariantów sekwencji jest zadaniem pojazdów ciężarowych. Nomenklatura białek znajduje się w międzynarodowych wytycznych dotyczących Nomenklatury białek, które zostały napisane przy udziale HGNC. Zgodnie z tymi wytycznymi, zalecamy ,aby” symbole białek i genów używały tego samego skrótu”, a białka używały symboli nie kursywą w celu odróżnienia ich od genów.

nazewnictwo ortologów w różnych gatunkach

zalecamy, aby geny ortologiczne w gatunkach kręgowców (i, w stosownych przypadkach, innych niż kręgowce) miały ten sam symbol genu. Aby odróżnić gatunki pochodzenia dla genów homologicznych o tym samym symbolu genu, zalecamy przytoczyć identyfikator taksonomii NCBI, a także nazwę gatunku lub nazwę zwyczajową GenBank, np. identyfikator taksonomii: 9598 i Pan troglodytes lub szympans.

The Vertebrate Gene Nomenclature Committee

Vertebrate Gene Nomenclature Committee (Vgnc, ) jest rozszerzeniem Hgnc odpowiedzialnym za przypisywanie standaryzowanej nomenklatury Genom u gatunków kręgowców, które obecnie nie mają własnego komitetu ds. nomenklatury. VGNC koordynuje się z pięcioma istniejącymi komitetami nomenklatury kręgowców, MGNC (mysz), RGNC (szczur), cgnc (kurczak), XNC (żaba Xenopus) i ZNC (danio pręgowany), aby zapewnić, że geny kręgowców są nazwane zgodnie z ich ludzkimi homologami.

Ortologom kręgowców ludzkich genów C#orf# przypisuje się symbol ludzki z liczbą chromosomów innych gatunków jako przedrostek i H oznaczającą człowieka. Na przykład, ponieważ ortolog ludzkiego C1orf100 znajduje się na chromosomie 16 krowy, symbolem krowy jest c16h1orf100 z odpowiadającą mu nazwą genu „chromosom 16 c1orf100 homolog”.

rodziny genów o złożonej historii ewolucyjnej powinny być idealnie nazwane z pomocą eksperta w tej dziedzinie, jak już zostało wdrożone dla receptorów węchowych i rodzin genów cytochromu P450.

poprzednie zalecenia HGNC

nasze poprzednie zalecenia HGNC można znaleźć pod adresem https://www.genenames.org/about/old-guidelines/.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.