Przejdź do zawartości

Pangenom

Z Wikipedii, wolnej encyklopedii

Pangenom (także supergenom) – termin z dziedziny genetyki i biologii molekularnej wprowadzony w 2005 roku przez Tettelina i współpracowników[1]. Oznacza pełny zestaw genów danego gatunku; składa się z genów rdzeniowych, które są obecne u wszystkich osobników, oraz genów zmiennych, które są obecne tylko u niektórych osobników[2]. Jest to narzędzie służące do wizualizacji podobieństw i różnic między blisko spokrewnionymi osobnikami w obrębie gatunku lub rodzaju, badania zmienności genomu w konkretnym gatunku, ustalenia stopnia poziomego transferu genów (HGT), a także do zrozumienia różnic fenotypowych[3]. Badaniem pangenomów zajmuje się pangenomika[4].

Historia

[edytuj | edytuj kod]

Pojęcie pangenom („pan” – „παν” po grecku – oznacza „całość”)[5] zostało wprowadzony przez Tettelina i współpracowników[1]. Po raz pierwszy został opracowany dla chorobotwórczego paciorkowca Streptococcus agalactiae szczególnie niebezpiecznego dla kobiet w ciąży i noworodków[5]. Tettelin i współpracownicy[1] przeanalizowali osiem izolatów tego drobnoustroju, których pangenom „obejmuje genom rdzeniowy wspólny dla wszystkich izolatów, stanowiący około 80% pojedynczego plus genom zbędny składający się z częściowo wspólnych i specyficznych dla szczepu genów”[5].

Budowa pangenomu

[edytuj | edytuj kod]

Rozwój technik sekwencjonowania umożliwił analizę coraz większej liczby genomów drobnoustrojów należących do tej samej jednostki taksonomicznej. Ostatecznie doprowadziło to do koncepcji pangenomu, czyli całego zestawu genów występujących w grupie przedstawicieli tego samego gatunku/rodzaju[4], który z kolei można podzielić na:

  • genom rdzeniowy definiowany jako zbiór tych genów obecny we wszystkich badanych genomach[4] zwykle obejmuje geny odpowiedzialne za funkcje otoczki komórkowej lub regulatorowe[6]
  • genom zmienny (nazywany również zbędnym, dodatkowym, elastycznym)[6] zbiór genów posiadany tylko przez jeden organizm lub jego podgrupę[4] na przykład geny specyficznej adaptacji szczepu, takie jak oporność na antybiotyki[6]

Rodzaje pangenomu

[edytuj | edytuj kod]

Uważa się, że niektóre gatunki bakterii mają nieograniczony repertuar genów, a inne gatunki są ograniczone przez maksymalną liczbę w puli genów[6].

Open/closed pangenomes
  • Otwarty pangenom: liczba genów pangenomu wzrasta wraz z liczbą dodatkowo sekwencjonowanych szczepów. Innymi słowy jego rozmiar zwiększa się w nieskończoność podczas dodawania nowych genomów. Przykład: Escherichia coli[6].
  • Zamknięty pangenom: w tym przypadku dodanie nowych genomów nie doprowadzi do odkrycia nowych możliwości kodowania[4]. Sekwencjonowanie genów nowych szczepów nie dostarczy nowych genów do pangenomu. Pangenom zamknięty jest typowy dla gatunków żyjących w izolowanych niszach z ograniczonym dostępem do globalnej puli genów drobnoustrojów. W przypadku tych gatunków niewielka liczba zsekwencjonowanych szczepów obejmuje już cały pangenom. Przykład: Bacillus anthracis[6].

Opracowywanie pangenomów – narzędzia i procedury

[edytuj | edytuj kod]

Narzędzia

[edytuj | edytuj kod]
  • Roary – szybkie narzędzie do wyodrębniania pełnych pangenomów, podstawowych zestawów genów lub różnic między genomami referencyjnymi
  • panX – analiza pangenomów i wizualizacja internetowa
  • PanOCT – uwzględnia zarówno homologię genów, jak i konserwatywne sąsiedztwa genów
  • OrthoMCL – ekstrakcja genomów rdzenia itp.
  • LS-BSR – szybkie porównanie zawartości genetycznej dużej liczby genomów
  • PanPhlAn – wykrywanie kompozycji genów szczepów w próbkach środowiskowych WGS w oparciu o pangenomy[6].

Różnorodność między genomami często przejawia się w postaci drzew a ich zdecydowana większość konstruowana jest celem ostatecznej rekonstrukcji ewolucji, a także w naukach stosowanych, takich jak medycyna czy nauki rolnicze jako analiza funkcjonalna[3].

Procedura

[edytuj | edytuj kod]

Drzewa genomu są tworzone na podstawie odległości między profilami pangenomu. Używamy względnej odległości Manhattanu, tj. odległości między genomem i i k wynosi[3]:

Gdzie n to całkowita liczba rodzin genów, Wj to ciężar właściwy danej rodziny genów, a W to suma tych wag. Domyślnie Wj= 1 dla wszystkich j, ale niektóre geny mogą mieć obniżoną wagę, jak opisano poniżej. Odległość ta opisuje odsetek pangenomu, w którym różnią się genomy i i k[3].

Wagi rodziny genów

[edytuj | edytuj kod]

Geny rdzeniowe, tj. rodziny genów obecne we wszystkich genomach, przyczyniają się do braku różnic między genomami i mogą zostać odrzucone – mając wagę zerową. Inne rodziny genów również mogą mieć obniżoną wagę. Geny obecne tylko w jednym genomie, określanym jako ORF, są często wątpliwe i mogą być produktem zbyt wrażliwych wyszukiwarek genów. Dlatego też nadanie takim genom zerowej wagi poprawia odporność drzewa genomowego na tego typu błędy[3].

Przykład – analiza genomowa Bifidobacterium longum

[edytuj | edytuj kod]

W celu określenia zawartości genetycznej, różnorodności i ogólnej charakterystyki B. longum przeprowadzono sekwencjonowanie genomu 20 wybranych izolatów w celu analizy porównawczej w odniesieniu do szeregu publicznie dostępnych genomów tego szczepu. Aby ułatwić spójną analizę porównawczą, przeprowadzono jednorodną prognozę otwartej ramki odczytu (ORF). Zsekwencjonowane genomy zostały pobrane z bazy danych NCBI. Zdefiniowano pulę 1200 rodzin genów, które są wspólne dla 20 genomów B. longum i w pełni zsekwencjonowano genomy B. longum reprezentując w ten sposób przewidywany genom rdzenia. Zaobserwowano rodziny genów zaangażowane w proces kolonizacji i adaptacji do środowiska gospodarza (np. białka powierzchniowe, pilusy zależne od sortazy, produkcja egzopolisacharydów, systemy R), a także hipotetyczne białka i ruchome elementy genetyczne. Wykazano, że całkowite przewidywane ORF na genom wykazuje szerszy zakres (od 1761 do 2189), co wskazuje, że B. longumum prezentuje wyższy poziom zróżnicowania genetycznego niż inne taksony bifidobakteryjne. Analizowane w tym badaniu genomy B. longum pozwoliły na opisanie jego pangenomu i został on zdefiniowany jako nie w pełni zamknięty, ale zbliżający się do zamkniętego genomu. Geny rdzeniowe są obecne co najmniej raz w każdym badanym genomie, a w tym przypadku stanowią one ~33% wszystkich rodzin genów uzyskanych w analizie. Pozostałe 67% (co w sumie stanowi 2433 rodziny genów) reprezentują geny, które składają się na zmienny lub zbędny genom, który składa się z genów, które są obecne w niektórych, ale nie we wszystkich genomach[7].

Przypisy

[edytuj | edytuj kod]
  1. a b c Hervé Tettelin i inni, Comparative genomics: the bacterial pan-genome, „Current Opinion in Microbiology”, 11 (5), Antimicrobials/Genomics, 2008, s. 472–477, DOI10.1016/j.mib.2008.09.006, ISSN 1369-5274, PMID19086349 [dostęp 2020-11-20] (ang.).
  2. Bhavna Hurgobin, David Edwards, SNP Discovery Using a Pangenome: Has the Single Reference Approach Become Obsolete?, „Biology”, 6 (1), 2017, s. 21, DOI10.3390/biology6010021, PMID28287462, PMCIDPMC5372014 [dostęp 2020-11-20] (ang.).
  3. a b c d e Lars Snipen, David W. Ussery, Standard operating procedure for computing pangenome trees, „Standards in Genomic Sciences”, 2 (1), 2010, s. 135–141, DOI10.4056/sigs.38923, ISSN 1944-3277, PMID21304685, PMCIDPMC3035256 [dostęp 2020-11-20] (ang.).
  4. a b c d e Emanuele Bosi, Renato Fani, Marco Fondi, Defining Orthologs and Pangenome Size Metrics, Alessio Mengoni, Marco Galardini, Marco Fondi (red.), t. 1231, New York, NY: Springer New York, 2015, s. 191–202, DOI10.1007/978-1-4939-1720-4_13, ISBN 978-1-4939-1719-8 [dostęp 2020-11-20].
  5. a b c Hervé Tettelin i inni, Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: implications for the microbial „pan-genome”, „Proceedings of the National Academy of Sciences of the United States of America”, 102 (39), 2005, s. 13950–13955, DOI10.1073/pnas.0506758102, ISSN 0027-8424, PMID16172379, PMCIDPMC1216834 [dostęp 2020-11-20].
  6. a b c d e f g Pangenome – Metagenomics [online], www.metagenomics.wiki [dostęp 2020-11-20].
  7. Silvia Arboleya i inni, Gene-trait matching across the Bifidobacterium longum pan-genome reveals considerable diversity in carbohydrate catabolism among human infant strains, „BMC Genomics”, 19 (1), 2018, s. 33, DOI10.1186/s12864-017-4388-9, ISSN 1471-2164, PMID29310579, PMCIDPMC5759876 [dostęp 2020-11-20].

Linki zewnętrzne

[edytuj | edytuj kod]