İçeriğe atla

Pfam

Vikipedi, özgür ansiklopedi
Pfam
İçerik
AçıklamaPfam veritabanı, protein alanları için hizalamalar ve gizli Markov modelleri sağlar.
Yakalanan veri türleriProtein aileleri
Organizmalartümü
İletişim
Araştırma merkeziEBI
Birincil alıntıPMID 19920124
Erişim
Veri formatıStockholm formatı
İnternet sitesiebi.ac.uk/interpro/entry/pfam/
İndirme bağlantısıFTP
Diğer
LisansGNU Kısıtlı Genel Kamu Lisansı
Sürüm37.0
Yer imi konulabilir varlıklarevet

Pfam, gizli Markov modelleri kullanılarak oluşturulan ek açıklamalarını ve çoklu dizi hizalamalarını içeren protein ailelerinin bir veritabanıdır.[1][2][3] Pfam'ın en son sürümü olan 37.0, Haziran 2024'te yayınlandı ve 21.979 aile içeriyor.[4] Şu anda InterPro web sitesi aracılığıyla sağlanmaktadır.

Pfam veritabanının genel amacı, protein ailelerinin ve alanlarının eksiksiz ve doğru bir sınıflandırmasını sağlamaktır.[5] Başlangıçta, veritabanının oluşturulmasının ardındaki mantık, genomların açıklanmasının verimliliğini artırmak için bilinen protein aileleri hakkında bilgi toplamak için yarı otomatik bir yönteme sahip olmaktı.[6] Protein ailelerinin Pfam sınıflandırması, proteinlerin geniş kapsamı ve mantıklı adlandırma kuralları nedeniyle biyologlar tarafından yaygın olarak benimsenmiştir.[7]

Belirli proteinleri araştıran deneysel biyologlar tarafından, yapı belirleme için yeni hedefleri tanımlamak üzere yapısal biyologlar tarafından, dizileri düzenlemek için hesaplamalı biyologlar tarafından ve proteinlerin kökenlerini izleyen evrimsel biyologlar tarafından kullanılır.[8] İnsan ve sinek gibi ilk genom projeleri, genomik verilerin işlevsel ek açıklamaları için Pfam'ı kapsamlı bir şekilde kullanmıştır.[9][10][11]

InterPro web sitesi, kullanıcıların Pfam veritabanındaki ailelerle eşleşmeleri aramak için protein veya DNA dizileri göndermelerine olanak tanır. DNA gönderilirse, altı çerçeveli bir translasyon yapılır, ardından her çerçeve aranır.[12] Pfam, tipik bir BLAST araması yapmak yerine, korunmuş bölgelerdeki eşleşmelere daha fazla ağırlık veren, daha iyi uzaktan homoloji tespitine izin veren profil gizli Markov modellerini kullanır ve bu da onları iyi notlandırılmış yakın akrabaları olmayan organizmaların genomlarını açıklamak için daha uygun hale getirir.[13]

Pfam, yapı veritabanlarındaki bilgilere ve Pfam alanlarının bu yapılarla eşleştirilmesine dayanarak proteinlerin içindeki ve arasındaki alan-alan etkileşimlerini kataloglayan iPfam gibi diğer kaynakların oluşturulmasında da kullanılmıştır.[14]

Pfam'daki her aile için bir tane olabilir:

  • Ailenin açıklamasını görüntüleyin
  • Çoklu hizalamalara bakın
  • Protein alan mimarilerini görüntüleyin
  • Türlerin dağılımını inceleyin
  • Diğer veritabanlarına giden bağlantıları takip edin
  • Bilinen protein yapılarını görüntüleyin

Girişler çeşitli türlerde olabilir: aile, alan, tekrar veya motif. Aile, basitçe üyelerin ilişkili olduğunu gösteren varsayılan sınıftır. Etki alanları, birden fazla protein bağlamında bulunabilen özerk bir yapısal birim veya yeniden kullanılabilir sekans birimi olarak tanımlanır. Tekrarlar genellikle izolasyonda kararlı değildir, bunun yerine genellikle bir alan veya genişletilmiş yapı oluşturmak için tandem tekrarlar oluşturmak için gereklidir. Motifler genellikle globüler alanların dışında bulunan daha kısa dizi birimleridir.[9]

Pfam ailelerinin açıklamaları Vikipedi kullanılarak genel halk tarafından yönetilmektedir (bkz. #Topluluk küratörlüğü).

Sürüm 29.0 itibarıyla, UniprotKB'deki protein dizilerinin %76,1'i en az bir Pfam alanıyla eşleşmiştir.[15]

Yeni girişlerin oluşturulması

[değiştir | kaynağı değiştir]

Yeni aileler, başta PDB ve Pfam isabeti olmayan genleri bulmak için eksiksiz proteomların analizi olmak üzere bir dizi kaynaktan gelmektedir.[16]

Her aile için, dizilerin temsili bir alt kümesi yüksek kaliteli bir tohum hizalamasına hizalanır. Tohum hizalaması için diziler öncelikle UniprotKB'den bir miktar takviye ile pfamseq'ten (referans proteomların yedekli olmayan bir veritabanı) alınır.[15] Bu tohum hizalaması daha sonra HMMER kullanılarak bir profil gizli Markov modeli oluşturmak için kullanılır. Bu HMM daha sonra dizi veritabanlarına karşı aranır ve küratörlü bir toplama eşiğine ulaşan tüm isabetler protein ailesinin üyeleri olarak sınıflandırılır. Ortaya çıkan üye koleksiyonu daha sonra tam bir hizalama oluşturmak için profil HMM ile hizalanır.

Her aile için, yanlış pozitif eşleşmeleri hariç tutarken aileyle doğru eşleşme sayısını en üst düzeye çıkaran manuel olarak küratörlü bir toplama eşiği atanır. Yanlış pozitifler, aynı klandan olmayan Pfam ailesi isabetleri arasındaki örtüşmeler gözlemlenerek tahmin edilir. Bu eşik, bir aile HMM'si ile eşleşmenin protein ailesine dahil edilip edilmeyeceğini değerlendirmek için kullanılır. Pfam'ın her güncellemesinde, yeni ve mevcut aileler arasındaki çakışmaları önlemek için toplama eşikleri yeniden değerlendirilir.[16]

Bilinmeyen işlev alanları

[değiştir | kaynağı değiştir]

İşlevi bilinmeyen alanlar (DUF'lar) Pfam veritabanının giderek büyüyen bir bölümünü temsil etmektedir. Bu aileler, türler arasında korundukları ancak bilinmeyen bir rol oynadıkları tespit edildiği için bu şekilde adlandırılmıştır. Yeni eklenen her DUF, eklenme sırasına göre adlandırılır. Bu girdilerin isimleri, işlevleri belirlendikçe güncellenir. Normalde, bir DUF'a ait en az bir proteinin işlevi belirlendiğinde, tüm DUF'un işlevi güncellenir ve aile yeniden adlandırılır. Bazı adlandırılmış aileler hala işlevi bilinmeyen alanlardır ve YbbR gibi temsili bir proteinden sonra adlandırılırlar. İşlevi bilinmeyen korunmuş diziler sekans verilerinde tanımlanmaya devam ettikçe DUF'ların sayısının artmaya devam etmesi beklenmektedir. DUF'ların sonunda işlevi bilinen ailelerin sayısından fazla olması beklenmektedir.[16]

Zaman içinde hem dizi hem de kalıntı kapsamı artmış ve aileler büyüdükçe, ailelerin klanlar halinde gruplandırılmasına izin veren daha fazla evrimsel ilişki keşfedilmiştir.[8] Klanlar ilk olarak 2005 yılında Pfam veritabanına tanıtılmıştır. Bunlar, yapısal, işlevsel, sekans ve HMM karşılaştırmalarıyla doğrulandığı gibi, tek bir evrimsel kökeni paylaşan ilgili ailelerin gruplandırılmasıdır.[5] Sürüm 29.0 itibarıyla, protein ailelerinin yaklaşık üçte biri bir klana aitti.[15] Bu oran 2019 itibariyle yaklaşık dörtte üçe çıkmıştır (sürüm 32.0).[17]

Olası klan ilişkilerini belirlemek için Pfam küratörleri, Çıktıların Basit Karşılaştırma Programını (SCOOP) ve ECOD veritabanındaki bilgileri kullanır.[17] ECOD, Pfam girişleriyle kolayca eşleşen aileler ve genellikle Pfam klanlarıyla eşleşen homoloji seviyeleri ile bilinen yapılara sahip protein ailelerinin yarı otomatik hiyerarşik bir veritabanıdır.[18]

Pfam 1995 yılında Erik Sonnhammer, Sean Eddy ve Richard Durbin tarafından, çok hücreli hayvanların protein kodlayan genlerini açıklamak için kullanılabilecek yaygın olarak oluşan protein alanlarının bir koleksiyonu olarak kurulmuştur.[6] Başlangıçtaki en önemli amaçlarından biri C. elegans genomunun açıklanmasına yardımcı olmaktı.[6] Proje kısmen Cyrus Chothia'nın 'One thousand families for the molecular biologist' adlı kitabında yaklaşık 1500 farklı protein ailesi olduğu ve proteinlerin çoğunun bunlardan sadece 1000'ine girdiği iddiasıyla yönlendirildi.[5][19] Bu iddianın aksine, Pfam veritabanı şu anda benzersiz protein alanlarına ve ailelerine karşılık gelen 16.306 giriş içermektedir. Bununla birlikte, bu ailelerin çoğu, ortak bir evrimsel kökene işaret eden yapısal ve işlevsel benzerlikler içermektedir (bkz. Klanlar).[5]

Başlangıçta Pfam ve diğer veritabanları arasındaki önemli bir fark noktası, girişler için iki hizalama türünün kullanılmasıydı: daha küçük, manuel olarak kontrol edilen bir tohum hizalaması ve dizileri tohum hizalamasından oluşturulan bir profil gizli Markov modeline hizalayarak oluşturulan tam bir hizalama. Bu daha küçük tohum hizalamasının, dizi veritabanlarının yeni sürümleri çıktıkça güncellenmesi daha kolaydı ve bu nedenle, genom dizilimi daha verimli hale geldikçe ve zaman içinde daha fazla verinin işlenmesi gerektiğinde veritabanının nasıl güncel tutulacağı ikilemine umut verici bir çözüm sundu. Veritabanının güncellenme hızındaki bir başka gelişme, HMMER2'den ~100 kat daha hızlı ve daha hassas olan HMMER3'ün tanıtılmasıyla 24.0 sürümünde geldi.[8]

Pfam-A'daki girişler bilinen tüm proteinleri kapsamadığından, Pfam-B adı verilen otomatik olarak oluşturulmuş bir ek sağlanmıştır. Pfam-B, ADDA adı verilen bir algoritma tarafından üretilen kümelerden türetilen çok sayıda küçük aile içeriyordu.[20] Daha düşük kalitede olmasına rağmen, Pfam-A aileleri bulunamadığında Pfam-B aileleri yararlı olabilirdi. Pfam-B, 28.0 sürümünden itibaren durdurulmuş,[21] daha sonra yeni bir kümeleme algoritması olan MMSeqs2 kullanılarak 33.1 sürümünde yeniden kullanıma sunulmuştur.[22]

Pfam başlangıçta yedekliliği korumak için dünya çapında üç ayna sitede barındırılıyordu. Ancak 2012 ve 2014 yılları arasında Pfam kaynağı EMBL-EBI'ye taşındı ve bu da web sitesinin tek bir alandan (xfam.org), iki bağımsız veri merkezi kullanılarak barındırılmasına olanak sağladı. Bu, güncellemelerin daha iyi merkezileştirilmesine ve Rfam, TreeFam, iPfam ve diğerleri gibi diğer Xfam projeleriyle gruplandırmaya izin verirken, birden fazla merkezden barındırmanın sağladığı kritik esnekliği korudu.[23]

Yaklaşık 2014'ten 2016'ya kadar Pfam, küratörlükle ilgili manuel çabayı daha da azaltmak ve daha sık güncellemelere izin vermek için önemli bir yeniden yapılanma geçirdi.[15] 2022 civarında Pfam, Avrupa Biyoenformatik Enstitüsündeki InterPro'ya entegre edildi.[24]

Topluluk küratörlüğü

[değiştir | kaynağı değiştir]

Bu kadar büyük bir veritabanının düzenlenmesi, yeni ailelerin ve eklenmesi gereken güncellenmiş bilgilerin hacmine ayak uydurma açısından sorunlar ortaya çıkardı. Veritabanının yayınlanmasını hızlandırmak için geliştiriciler, veritabanının yönetiminde daha fazla topluluk katılımına izin vermek için bir dizi girişim başlattılar.

Girişlerin güncellenme ve iyileştirilme hızını artırmada kritik bir adım, 26.0 sürümünde Pfam alanlarının işlevsel açıklamasını Vikipedi topluluğuna açmaktı.[16] Halihazırda bir Vikipedi girişi olan girdiler için bu Pfam sayfasına bağlandı ve olmayanlar için topluluk bir tane oluşturmaya ve bağlanması için küratörleri bilgilendirmeye davet edildi. Topluluk katılımının bu ailelerin açıklama düzeyini büyük ölçüde geliştireceği, ancak bazılarının Vikipedi'ye dahil edilmek için yeterince kayda değer olmayacağı ve bu durumda orijinal Pfam açıklamalarını koruyacakları beklenmektedir. Çinko parmak maddesi gibi bazı Vikipedi maddeleri birden fazla aileyi kapsamaktadır. InterPro ve Pfam verilerine dayalı makaleler oluşturmak için otomatik bir prosedür de uygulanmıştır; bu prosedür, bir sayfayı bilgi ve veritabanlarına bağlantıların yanı sıra mevcut resimlerle doldurur, ardından bir makale bir küratör tarafından incelendikten sonra Sandbox'tan Vikipedi'ye taşınır. Maddelerin vandalizmine karşı koruma sağlamak amacıyla, her Vikipedi revizyonu Pfam web sitesinde gösterilmeden önce küratörler tarafından gözden geçirilir. Ancak neredeyse tüm vandalizm vakaları, küratörlere ulaşmadan önce topluluk tarafından düzeltilmiştir.[16]

Pfam üç gruptan oluşan uluslararası bir konsorsiyum tarafından yönetilmektedir. Pfam'ın önceki sürümlerinde, aile girişleri yalnızca Cambridge, İngiltere sitesinde değiştirilebiliyordu ve bu da konsorsiyum üyelerinin site küratörlüğüne katkıda bulunma yeteneğini sınırlıyordu. 26.0 sürümünde, geliştiriciler dünyanın herhangi bir yerindeki kayıtlı kullanıcıların Pfam ailelerini eklemelerine veya değiştirmelerine izin veren yeni bir sisteme geçtiler.[16]

  1. ^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). "The Pfam protein families database". Nucleic Acids Res. 36 (Database issue). ss. D281-8. doi:10.1093/nar/gkm960. PMC 2238907 $2. PMID 18039703. 
  2. ^ Finn, R. D.; Mistry, J.; Schuster-Böckler, B.; Griffiths-Jones, S.; Hollich, V.; Lassmann, T.; Moxon, S.; Marshall, M.; Khanna, A.; Durbin, R.; Eddy, S. R.; Sonnhammer, E. L.; Bateman, A. (Jan 2006). "Pfam: clans, web tools and services". Nucleic Acids Research (Free full text). 34 (Database issue). ss. D247-D251. doi:10.1093/nar/gkj149. ISSN 0305-1048. PMC 1347511 $2. PMID 16381856. 
  3. ^ Bateman, A.; Coin, L.; Durbin, R.; Finn, R. D.; Hollich, V.; Griffiths-Jones, S.; Khanna, A.; Marshall, M.; Moxon, S.; Sonnhammer, E. L.; Studholme, D. J.; Yeats, C.; Eddy, S. R. (2004). "The Pfam protein families database". Nucleic Acids Research. 32 (Database issue). ss. 138D-1141. doi:10.1093/nar/gkh121. ISSN 0305-1048. PMC 308855 $2. PMID 14681378. 
  4. ^ "Xfam Blog". Xfam Blog (İngilizce). 14 Haziran 2009 tarihinde kaynağından arşivlendi. Erişim tarihi: 10 Eylül 2024. 
  5. ^ a b c d Sammut, Stephen; Finn, Robert D.; Bateman, Alex (2008). "Pfam 10 years on: 10 000 families and still growing". Briefings in Bioinformatics. 9 (3). ss. 210-219. doi:10.1093/bib/bbn010. PMID 18344544. 
  6. ^ a b c Sonnhammer, Erik L.L.; Eddy, Sean R.; Durbin, Richard (1997). "Pfam: A Comprehensive Database of Protein Domain Families Based on Seed Alignments". Proteins. 28 (3). ss. 405-420. doi:10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l. PMID 9223186. 
  7. ^ Xu, Qifang; Dunbrack, Roland L. (2012). "Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB". Bioinformatics. 28 (21). ss. 2763-2772. doi:10.1093/bioinformatics/bts533. PMC 3476341 $2. PMID 22942020. 
  8. ^ a b c Finn, R. D.; Mistry, J.; Tate, J.; Coggill, P.; Heger, A.; Pollington, J. E.; Gavin, O. L.; Gunasekaran, P.; Ceric, G.; Forslund, K.; Holm, L.; Sonnhammer, E. L. L.; Eddy, S. R.; Bateman, A. (2009). "The Pfam protein families database". Nucleic Acids Research. 38 (Database). ss. D211-D222. doi:10.1093/nar/gkp985. ISSN 0305-1048. PMC 2808889 $2. PMID 19920124. 
  9. ^ a b Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL (2002). "The Pfam protein families database". Nucleic Acids Res. 30 (1). ss. 276-80. doi:10.1093/nar/30.1.276. PMC 99071 $2. PMID 11752314. 
  10. ^ Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, ve diğerleri. (2000). "The genome sequence of Drosophila melanogaster". Science. 287 (5461). ss. 2185-95. Bibcode:2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639 $2. doi:10.1126/science.287.5461.2185. PMID 10731132. 
  11. ^ Lander, Eric S.; Linton, Lauren M.; Birren, Bruce; Nusbaum, Chad; Zody, Michael C.; ve diğerleri. (2001). "Initial sequencing and analysis of the human genome". Nature. 409 (6822). ss. 860-921. doi:10.1038/35057062. hdl:2027.42/62798. ISSN 0028-0836. PMID 11237011. 
  12. ^ Finn, Robert D.; Bateman, Alex; Clements, Jody; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Heger, Andreas; Hetherington, Kirstie; Holm, Liisa; Mistry, Jaina; Sonnhammer, Erik L. L.; Tate, John; Punta, Marco (2014). "Pfam: the protein families database". Nucleic Acids Research. 42 (D1). ss. D222-D230. doi:10.1093/nar/gkt1223. ISSN 0305-1048. PMC 3965110 $2. PMID 24288371. 
  13. ^ Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R (1998). "Pfam: multiple sequence alignments and HMM-profiles of protein domains". Nucleic Acids Res. 26 (1). ss. 320-2. doi:10.1093/nar/26.1.320. PMC 147209 $2. PMID 9399864. 
  14. ^ Finn, R. D.; Marshall, M.; Bateman, A. (2004). "iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions". Bioinformatics. 21 (3). ss. 410-412. doi:10.1093/bioinformatics/bti011. ISSN 1367-4803. PMID 15353450. 
  15. ^ a b c d Finn, Robert D.; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Mistry, Jaina; Mitchell, Alex L.; Potter, Simon C.; Punta, Marco; Qureshi, Matloob; Sangrador-Vegas, Amaia; Salazar, Gustavo A.; Tate, John; Bateman, Alex (2016). "The Pfam protein families database: towards a more sustainable future". Nucleic Acids Research. 44 (D1). ss. D279-D285. doi:10.1093/nar/gkv1344. ISSN 0305-1048. PMC 4702930 $2. PMID 26673716. 
  16. ^ a b c d e f Punta, M.; Coggill, P. C.; Eberhardt, R. Y.; Mistry, J.; Tate, J.; Boursnell, C.; Pang, N.; Forslund, K.; Ceric, G.; Clements, J.; Heger, A.; Holm, L.; Sonnhammer, E. L. L.; Eddy, S. R.; Bateman, A.; Finn, R. D. (2011). "The Pfam protein families database". Nucleic Acids Research. 40 (D1). ss. D290-D301. doi:10.1093/nar/gkr1065. ISSN 0305-1048. PMC 3245129 $2. PMID 22127870. 
  17. ^ a b El-Gebali, Sara; Mistry, Jaina; Bateman, Alex; Eddy, Sean R; Luciani, Aurélien; Potter, Simon C; Qureshi, Matloob; Richardson, Lorna J; Salazar, Gustavo A; Smart, Alfredo; Sonnhammer, Erik L L; Hirsh, Layla; Paladin, Lisanna; Piovesan, Damiano; Tosatto, Silvio C E; Finn, Robert D (8 Ocak 2019). "The Pfam protein families database in 2019". Nucleic Acids Research. 47 (D1). ss. D427-D432. doi:10.1093/nar/gky995. PMC 6324024 $2. PMID 30357350. 
  18. ^ "Evolutionary Classification of Protein Domains". prodata.swmed.edu. 15 Temmuz 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Mayıs 2019. 
  19. ^ Chothia, Cyrus (1992). "One thousand families for the molecular biologist". Nature. 357 (6379). ss. 543-544. Bibcode:1992Natur.357..543C. doi:10.1038/357543a0. ISSN 0028-0836. PMID 1608464. 
  20. ^ Heger, A.; Wilton, C. A.; Sivakumar, A.; Holm, L. (Jan 2005). "ADDA: a domain database with global coverage of the protein universe". Nucleic Acids Research (Free full text). 33 (Database issue). ss. D188-D191. doi:10.1093/nar/gki096. ISSN 0305-1048. PMC 540050 $2. PMID 15608174. 
  21. ^ "Pfam 28.0 release notes". 24 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 30 Haziran 2015. 
  22. ^ "A new Pfam-B is released". Xfam Blog (İngilizce). 30 Haziran 2020. 11 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Ocak 2021. 
  23. ^ "Moving to xfam.org". 19 Ekim 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Kasım 2016. 
  24. ^ Paysan-Lafosse, Typhaine (2023). "InterPro in 2022". Nucleic Acids Research. 51 (D1). ss. D418-D427. doi:10.1093/nar/gkac993. PMC 9825450 $2. 

Dış bağlantılar

[değiştir | kaynağı değiştir]