Ugrás a tartalomhoz

Pfam

Ellenőrzött
A Wikipédiából, a szabad enciklopédiából
Pfam

Kategóriabiológiai adatbázis
LicencGNU Lesser General Public License
A Pfam weboldala

A Pfam fehérjecsaládok adatbázisa, mely azok rejtett Markov-modellel generált jelölését és szekvenciaelrendezését tartalmazza.[1][2][3] A legújabb változat, a Pfam 36.0 2023 szeptemberében jelent meg, és 20 795 családot tartalmaz 660 klánban.[4]

Használata

[szerkesztés]

A Pfam adatbázis célja a fehérjecsaládok és -domének teljes körű, pontos besorolása.[5] Eredeti célja egy ismert fehérjecsaládokról szóló információt félautomata módon frissítő rendszer biztosítása a genomjelölés hatékonyságának javítására.[6] A Pfam fehérjecsalád-osztályzása széles körben használt lett széles körű fehérjelefedése és nevezéktani konvenciói miatt.[7]

Bizonyos fehérjéket kutató kísérleti, szerkezetmeghatározást célzó szerkezeti, szekvenciarendező számítógépes és a fehérjék eredetét kutató evolúciós biológusok is használják.[8] Az első genomprojektek, például a humán- és muslicagenom-projekt a genomikai adatok jelöléséhez használták.[9][10][11]

A Pfam oldala lehetővé teszi fehérje- vagy DNS-szekvenciák beírását az adatbázisban lévő családokkal való egyezések keresésére. DNS beküldésekor 6 keretes transzláció történik, ezek mindegyikével történik keresés.[12] A gyakori BLAST-keresés helyett a Pfam rejtett Markov-profilmodelleket használ, melyek nagyobb súlyt adnak az állandó helyeken való egyezésnek, lehetővé téve a jobb távolihomológia-keresést és a jól ismert genomú rokonok nélküli élőlények genomjának megismerését.[13]

A Pfam használható továbbá más katalógusokhoz, például fehérjén belüli és fehérjeközi domén-domén interakciókat szerkezeti adatbázisokban lévő információ és a Pfam-domének e szerkezetekhez való hozzárendelése alapján tartalmazó iPfamhez.[14]

Funkciók

[szerkesztés]

A Pfamben szereplő családok esetén:

  • megtekinthető a család leírása
  • megtekinthető több nézetben a fehérje
  • megtekinthetők a fehérjedomén-szerkezetek
  • megvizsgálható a faji eloszlás
  • követhetők más adatbázisok linkjei
  • megtekinthetők az ismert fehérjeszerkezetek

Az elemek lehetnek családok, domének, ismétlődések vagy motívumok. A család az alapértelmezett osztály, mely azt jelenti, hogy a tagok kapcsolódnak. A domének autonóm szerkezeti egységként vagy újra felhasználható szekvenciaegységként vannak jelen, melyek több fehérjében is is jelen vannak. Az ismétlődések általában nem stabilak izolálva, de domén vagy kiterjedt szerkezet képzéséhez szükségesek. A motívumok gyakran globuláris doméneken kívüli rövid szekvenciaegységek.[9]

A Pfam-családok leírása a Wikipédián történik.

A UniProtKB fehérjeszekvenciáinak 76,1%-a megtalálható volt legalább egy Pfam 29.0-doménben.[15]

Új bejegyzések létrehozása

[szerkesztés]

Az új családok több forrásból származnak, elsősorban a PDB-ből és teljes proteomelemzésekből Pfam találat nélküli gének megtalálásához.[16]

Minden családban a szekvenciák reprezentatív részhalmaza magas minőségű elrendezésbe kerül. Ezek szekvenciái elsősorban a pfamseq-ből (nem redundáns referenciaproteom-adatbázisból) származnak a UniProt általi kiegészítéssel.[15] Ez ezután rejtett Markov-modell építésére van felhasználva HMMER-rel. Ezt szekvencia-adatbázisokban keresik, és minden küszöbértéket elérő találat a fehérjecsalád tagja. A taggyűjtemény ezután a HMM-hez kerül teljes elrendezést adva. Egy manuálisan irányított gyűjtési küszöb is van, mely maximalizálja a valós egyezéseket a hamis pozitívok kizárásával. A hamis pozitívok a család nem azonos klánba tartozó találatai közti átfedések megfigyelésével becsülhetők. E küszöb használható, annak elemzésére, hogy egy családban való egyezés beszámítható-e a fehérjecsaládba. A Pfam frissítésekor a gyűjtési küszöbök frissülnek az új és a meglévő családok átfedéseinek megakadályozásához.[16]

Ismeretlen funkciójú domének

[szerkesztés]

Az ismeretlen funkciójú domének (DUF) a Pfam adatbázis egyre nagyobb részét adják. E név onnan ered, hogy fajok közti állandóságot mutatnak, de szerepük ismeretlen. Az újonnan hozzáadott DUF-ok hozzáadásuk sorrendjében kapnak nevet. Ezek nevei frissülnek a funkció azonosításakor. Általában ha legalább egy DUF-hoz tartozó fehérje funkciója ismert lesz, az egész DUF funkciója frissül, és családátnevezés is történik. Egyes megnevezett családok, például az YbbR DUF-ok, ezek egy jellemző fehérjéről kapták nevüket. A DUF-ok száma tovább növekszik ismeretlen funkciójú állandósult sorozatok szekvenciaadatokban való észlelésekor.[16]

Klánok

[szerkesztés]

Idővel a szekvencia- és csoportlefedettség nőtt, és a családok növekedésével több evolúciós hasonlóságot fedeztek fel, lehetővé téve a családok csoportosítását klánokba.[8] A klánok 2005-ben jelentek meg a Pfam adatbázisban. Ezek szerkezeti, funkciós, szekvencia- és HMM-összehasonlításokon alapuló közös evolúciós eredetű hasonló családok csoportjai.[5] A Pfam 29.0-ban a fehérjecsaládok közel egyharmada klánba volt sorolva.[15] Ez mintegy 75%-ra nőtt 2019-re (Pfam 32.0).[17]

A lehetséges klánkapcsolatok azonosítására a Pfam kezelői a Simple Comparison Of Outputs Programet (SCOOP) és az ECOD adatbázis információit használják.[17] Az ECOD félautomata hierarchikus adatbázis ismert szerkezetekkel rendelkező, könnyen Pfam-bejegyzésekhez rendelhető fehérjecsaládokkal és Pfam-klánokhoz könnyen rendelhető homológiaszintekkel.[18]

Története

[szerkesztés]

A Pfamet 1995-ben alapították Erik Sonnhammer, Sean Eddy és Richard Durbin gyakori fehérjedomének gyűjteményeként, melyek többsejtűek fehérjekódoló génjeinek jelzésére használhatók.[6] Egyik célja a C. elegans-genom jelölésének segítése volt.[6] A projektet részben Círus Chothia Ezer család a molekuláris biológusnak-jának elképzelése vezérelte, mely szerint mintegy 1500 különböző fehérjecsalád van, és ezek többsége csupán 1000-be tartozik.[5][19] Ezen elképzeléssel szemben a Pfam jelenleg 16 306 fehérjedoménekhez és -családokhoz tartozó bejegyzést tartalmaz. Azonban számos ilyen család szerkezeti és funkciós hasonlóságokat mutat, melyek közös evolúciós eredetet jeleznek.[5]

A Pfam és más adatbázisok különbsége a bevezetéskor a bejegyzések két elrendezési típusa volt: volt egy kisebb, kézzel ellenőrzött „mag”, valamint egy teljes elrendezés, mely a szekvenciák Markov-modellhez rendelésével keletkezik a magból. E kisebb mag könnyebben volt frissíthető az új szekvencia-adatbázisok megjelenésével, így jó megoldásnak bizonyult az adatbázis frissítésére a genomszekvenálás hatékonyabbá válása, így az idővel feldolgozandó adatmennyiség növekedése mellett. További sebességnövekedést jelentett a 24.0 verzióban megjelent HMMER3, mely mintegy 100-szor gyorsabb a HMMER2-nél, és érzékenyebb is.[8]

Mivel a Pfam-A-bejegyzések nem tartalmaznak minden ismert fehérjét, egy automatikusan létrehozott mellékletet is hozzáadtak, a Pfam-B-t. Ez sok kis családból állt, melyek az ADDA által levezetett csoportokból álltak.[20] Bár alacsonyabb minőségű, a Pfam-B-családok használhatók, ha nincs azonosítva Pfam-A-család. A Pfam-B a 28.0-ban megszűnt,[21] a 33.1-ben újra megjelent MMSeqs2 csoportosító algoritmussal.[22]

A Pfam eredetileg 3 különböző helyen volt tárolva a redundancia végett. Azonban 2012–2014 közt a Pfam átkerült az EMBL-EBI-hez, lehetővé téve a webhely egy doménen (xfam.org) való kezelését több független adatközpont révén. Ez lehetővé tette a frissítések jobb központosítását és a más Xfam-projektekkel, például a Rfammel, a Treefammel, az iPfammel stb. való csoportosítást a több központ által biztosított ellenállás fenntartásáa mellett.[23]

A Pfam 2016–18 közt jelentősen átrendeződött a kezeléshez szükséges kézi beavatkozás további csökkentéséhez és a gyakoribb frissítésekhez.[15]

A Pfam a 36.0 verziótól már csak az InterPro révén férhető hozzá.[4]

Közösségi működtetés

[szerkesztés]

Egy ilyen nagy adatbázis működtetése gondokat okozott az új családok és a hozzáadott információ frissülésével való lépés tartása terén. Az adatbázis kiadásának gyorsítása érdekében a fejlesztők számos lépést tettek az adatbázis kezelésében való nagyobb közösségi részvételért.

A bejegyzések frissítésének és javításának gyorsításában fontos volt a Pfam-domének jelölésének megnyitása a Wikipédia felé a 26.0 kiadásban.[16] A Wikipédia-cikkel már rendelkező bejegyzések esetén ez a Pfam-oldal felé volt kapcsolva, a vele még nem rendelkezők esetén a közösséget meghívták egy ilyen létrehozására és a működtetők informálására azok bekapcsolására. Fontos, hogy bár a közösségi bekapcsolódás javította e családok jelölését, egyesek nem lettek elég nevezetesek a Wikipédiába kerüléshez, ekkor fennmaradt az eredeti Pfam-leírásuk. Egyes Wikipédia-szócikkek több családról szólnak. Az InterPro- és Pfam-adatokon alapuló automatikus bejegyzés-létrehozás is elindult, amely a lapba információt, adatbázis-hivatkozásokat és képeket helyez, majd a szócikk értékelés után átkerül a homokozóból a tényleges Wikipédiába. A szócikkek vandalizmusa ellen minden Wikipédia-szerkesztést áttekintenek a kezelők, mielőtt a Pfam-oldalra kerül. A legtöbb vandalizmust azonban a közösség visszavonta, mielőtt a kezelőkhöz ért volna.[16]

A Pfamet 3 csoport nemzetközi konzorciuma futtatja. A korábbi változatokban a családbejegyzések csak a cambridge-in voltak módosíthatók. A Pfam 26.0-tól azonban a fejlesztők lehetővé tették regisztrált felhasználóknak mindenhonnan a Pfam-családok hozzáadását vagy módosítását.[16]

Jegyzetek

[szerkesztés]
  1. Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). „The Pfam protein families database”. Nucleic Acids Res 36 (Database issue), D281–8. o. DOI:10.1093/nar/gkm960. PMID 18039703. PMC 2238907. 
  2. Finn, R. D. (2006. január 1.). „Pfam: clans, web tools and services” (Free full text). Nucleic Acids Research 34 (Database issue), D247–D251. o. DOI:10.1093/nar/gkj149. ISSN 0305-1048. PMID 16381856. PMC 1347511. 
  3. Bateman, A. (2004). „The Pfam protein families database”. Nucleic Acids Research 32 (Database issue), 138D–1141. o. DOI:10.1093/nar/gkh121. ISSN 0305-1048. PMID 14681378. PMC 308855.  „open access” publikáció – ingyenesen elolvasható
  4. a b Pfam 36.0 release. Xfam Blog , 2023. szeptember 18. (Hozzáférés: 2023. november 24.)
  5. a b c d Sammut, Stephen (2008). „Pfam 10 years on: 10 000 families and still growing”. Briefings in Bioinformatics 9 (3), 210–219. o. DOI:10.1093/bib/bbn010. PMID 18344544. 
  6. a b c Sonnhammer, Erik L. L. (1997). „Pfam: A Comprehensive Database of Protein Domain Families Based on Seed Alignments”. Proteins 28 (3), 405–420. o. DOI:<405::aid-prot10>3.0.co;2-l 10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l. PMID 9223186. 
  7. Xu, Qifang (2012). „Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB”. Bioinformatics 28 (21), 2763–2772. o. DOI:10.1093/bioinformatics/bts533. PMID 22942020. PMC 3476341. 
  8. a b c Finn, R. D. (2009). „The Pfam protein families database”. Nucleic Acids Research 38 (Database), D211–D222. o. DOI:10.1093/nar/gkp985. ISSN 0305-1048. PMID 19920124. PMC 2808889. 
  9. a b Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL (2002). „The Pfam protein families database”. Nucleic Acids Res. 30 (1), 276–80. o. DOI:10.1093/nar/30.1.276. PMID 11752314. PMC 99071. 
  10. Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, Amanatides PG, Scherer SE, Li PW, Hoskins RA, Galle RF, George RA, Lewis SE, Richards S, Ashburner M, Henderson SN, Sutton GG, Wortman JR, Yandell MD, Zhang Q, Chen LX, Brandon RC, Rogers YH, Blazej RG, Champe M, Pfeiffer BD, Wan KH, Doyle C, Baxter EG, Helt G, Nelson CR, Gabor GL, Abril JF, Agbayani A, An HJ, Andrews-Pfannkoch C, Baldwin D, Ballew RM, Basu A, Baxendale J, Bayraktaroglu L, Beasley EM, Beeson KY, Benos PV, Berman BP, Bhandari D, Bolshakov S, Borkova D, Botchan MR, Bouck J, Brokstein P, Brottier P, Burtis KC, Busam DA, Butler H, Cadieu E, Center A, Chandra I, Cherry JM, Cawley S, Dahlke C, Davenport LB, Davies P, de Pablos B, Delcher A, Deng Z, Mays AD, Dew I, Dietz SM, Dodson K, Doup LE, Downes M, Dugan-Rocha S, Dunkov BC, Dunn P, Durbin KJ, Evangelista CC, Ferraz C, Ferriera S, Fleischmann W, Fosler C, Gabrielian AE, Garg NS, Gelbart WM, Glasser K, Glodek A, Gong F, Gorrell JH, Gu Z, Guan P, Harris M, Harris NL, Harvey D, Heiman TJ, Hernandez JR, Houck J, Hostin D, Houston KA, Howland TJ, Wei MH, Ibegwam C, Jalali M, Kalush F, Karpen GH, Ke Z, Kennison JA, Ketchum KA, Kimmel BE, Kodira CD, Kraft C, Kravitz S, Kulp D, Lai Z, Lasko P, Lei Y, Levitsky AA, Li J, Li Z, Liang Y, Lin X, Liu X, Mattei B, McIntosh TC, McLeod MP, McPherson D, Merkulov G, Milshina NV, Mobarry C, Morris J, Moshrefi A, Mount SM, Moy M, Murphy B, Murphy L, Muzny DM, Nelson DL, Nelson DR, Nelson KA, Nixon K, Nusskern DR, Pacleb JM, Palazzolo M, Pittman GS, Pan S, Pollard J, Puri V, Reese MG, Reinert K, Remington K, Saunders RD, Scheeler F, Shen H, Shue BC, Sidén-Kiamos I, Simpson M, Skupski MP, Smith T, Spier E, Spradling AC, Stapleton M, Strong R, Sun E, Svirskas R, Tector C, Turner R, Venter E, Wang AH, Wang X, Wang ZY, Wassarman DA, Weinstock GM, Weissenbach J, Williams SM, WoodageT, Worley KC, Wu D, Yang S, Yao QA, Ye J, Yeh RF, Zaveri JS, Zhan M, Zhang G, Zhao Q, Zheng L, Zheng XH, Zhong FN, Zhong W, Zhou X, Zhu S, Zhu X, Smith HO, Gibbs RA, Myers EW, Rubin GM, Venter JC (2000). „The genome sequence of Drosophila melanogaster”. Science 287 (5461), 2185–95. o. DOI:10.1126/science.287.5461.2185. PMID 10731132. 
  11. Lander, Eric S. (2001). „Initial sequencing and analysis of the human genome”. Nature 409 (6822), 860–921. o. DOI:10.1038/35057062. ISSN 0028-0836. PMID 11237011. 
  12. Finn, Robert D. (2014). „Pfam: the protein families database”. Nucleic Acids Research 42 (D1), D222–D230. o. DOI:10.1093/nar/gkt1223. ISSN 0305-1048. PMID 24288371. PMC 3965110. 
  13. Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R (1998). „Pfam: multiple sequence alignments and HMM-profiles of protein domains”. Nucleic Acids Res. 26 (1), 320–2. o. DOI:10.1093/nar/26.1.320. PMID 9399864. PMC 147209. 
  14. Finn, R. D. (2004). „iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions”. Bioinformatics 21 (3), 410–412. o. DOI:10.1093/bioinformatics/bti011. ISSN 1367-4803. PMID 15353450. 
  15. a b c d Finn, Robert D. (2016). „The Pfam protein families database: towards a more sustainable future”. Nucleic Acids Research 44 (D1), D279–D285. o. DOI:10.1093/nar/gkv1344. ISSN 0305-1048. PMID 26673716. PMC 4702930. 
  16. a b c d e f Punta, M. (2011). „The Pfam protein families database”. Nucleic Acids Research 40 (D1), D290–D301. o. DOI:10.1093/nar/gkr1065. ISSN 0305-1048. PMID 22127870. PMC 3245129. 
  17. a b El-Gebali, Sara (2019. január 8.). „The Pfam protein families database in 2019”. Nucleic Acids Research 47 (D1), D427–D432. o. DOI:10.1093/nar/gky995. PMID 30357350. PMC 6324024. 
  18. Evolutionary Classification of Protein Domains. prodata.swmed.edu . (Hozzáférés: 2019. május 18.)
  19. Chothia, Cyrus (1992). „One thousand families for the molecular biologist”. Nature 357 (6379), 543–544. o. DOI:10.1038/357543a0. ISSN 0028-0836. PMID 1608464. 
  20. Heger, A. (2005. január 1.). „ADDA: a domain database with global coverage of the protein universe” (Free full text). Nucleic Acids Research 33 (Database issue), D188–D191. o. DOI:10.1093/nar/gki096. ISSN 0305-1048. PMID 15608174. PMC 540050. 
  21. Pfam 28.0 release notes. (Hozzáférés: 2015. június 30.)
  22. A new Pfam-B is released (angol nyelven). Xfam Blog , 2020. június 30.
  23. Moving to xfam.org. (Hozzáférés: 2016. november 25.)

Fordítás

[szerkesztés]

Ez a szócikk részben vagy egészben a Pfam című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

További információk

[szerkesztés]