Aller au contenu

Pfam

Un article de Wikipédia, l'encyclopédie libre.
Logo de la Pfam.

Pfam est une base de données bio-informatique de familles de protéines qui classe diverses propriétés des domaines protéiques sur la base de leurs alignements de séquences multiples (en)[1],[2]. Créée en 1997 par les bio-informaticiens Erik Sonnhammer de l'institut Karolinska à Stockholm, Sean Eddy de l'université Washington à Saint-Louis (Missouri) et Richard Durbin du centre Sanger à Cambridge, elle fournit notamment des informations sur l'architecture des domaines protéiques, leur distribution parmi les espèces vivantes, les liens vers d'autres bases de données et les structures connues de protéines de ces familles[3].

La classification des domaines protéiques par Pfam couvre près de 80 % des protéines répertoriées sur UniProt[4]. Elle est construite par identification de séquences récurrentes à l'aide d'algorithmes d'apprentissage automatique par reconnaissance de formes utilisant un modèle de Markov caché[5].

Cette base de données comprend deux sections, désignées par Pfam A et Pfam B.

La section A est annotée manuellement en ligne et comptait, au 11 juin 2020 (version 33.1), 18 259 familles. Depuis la dernière version, 355 nouvelles familles ont été créés et 25 ont été supprimées[6]. Chaque famille comprend des données d'alignement de séquences et un modèle de Markov caché, ce dernier pouvant être utilisé afin d'identifier de nouveaux alignements de séquences à l'aide du module HMMER (en).

Jusqu'à la version 28.0, la section B complétait la précédente avec un grand nombre de familles de protéines plus petites et moins bien documentées. Elle était générée automatiquement par un algorithme appelé ADDA[7], pour Automatic Domain Decomposition Algorithm. Elle permettait de couvrir le plus grand nombre de domaines protéiques possible, au prix cependant d'une qualité inférieure à Pfam A. Sa dernière mise à jour remonte à 2015.

Notes et références

[modifier | modifier le code]
  1. (en) Robert D. Finn, John Tate, Jaina Mistry, Penny C. Coggill, Stephen John Sammut, Hans-Rudolf Hotz, Goran Ceric, Kristoffer Forslund, Sean R. Eddy, Erik L. L. Sonnhammer et Alex Bateman, « The Pfam protein families database », Nucleic Acids Research, vol. 36,‎ , D281-D288 (PMID 18039703, PMCID 2238907, DOI 10.1093/nar/gkm960, lire en ligne)
  2. (en) Alex Bateman, Lachlan Coin, Richard Durbin, Robert D. Finn, Volker Hollich, Sam Griffiths‐Jones, Ajay Khanna, Mhairi Marshall, Simon Moxon, Erik L. L. Sonnhammer, David J. Studholme, Corin Yeats et Sean R. Eddy, « The Pfam protein families database », Nucleic Acids Research, vol. 32,‎ , D138-D141 (PMID 14681378, PMCID 308855, DOI 10.1093/nar/gkh121, lire en ligne)
  3. (en) Robert D. Finn, Jaina Mistry, Benjamin Schuster-Böckler, Sam Griffiths-Jones, Volker Hollich, Timo Lassmann, Simon Moxon, Mhairi Marshall, Ajay Khanna, Richard Durbin, Sean R. Eddy, Erik L. L. Sonnhammer et Alex Bateman, « Pfam: clans, web tools and services », Nucleic Acids Research, vol. 43,‎ , D247-D251 (PMID 16381856, PMCID 1347511, DOI 10.1093/nar/gkj149, lire en ligne)
  4. (en) Marco Punta, Penny C. Coggill, Ruth Y. Eberhardt, Jaina Mistry, John Tate, Chris Boursnell, Ningze Pang, Kristoffer Forslund, Goran Ceric, Jody Clements, Andreas Heger, Liisa Holm, Erik L. L. Sonnhammer, Sean R. Eddy, Alex Bateman et Robert D. Finn, « The Pfam protein families database », Nucleic Acids Research, vol. 40, no D1,‎ , D290-D301 (PMID 22127870, PMCID 3245129, DOI 10.1093/nar/gkr1065, lire en ligne)
  5. (en) R. Durbin, S. Eddy, A. Krogh et G. Mitchison, Biological Sequence Analysis, Cambridge, University Press, (ISBN 0-521-62041-4)
  6. (en) Jaina and Alex, « Pfam 33.1 is available », sur Xfam Blog, (consulté le ).
  7. (en) Andreas Heger, Christopher Andrew Wilton, Ashwin Sivakumar et Liisa Holm, « ADDA: a domain database with global coverage of the protein universe », Nucleic Acids Research, vol. 33, no Supplement 1,‎ , D188-D191 (PMID 15608174, PMCID 540050, DOI 10.1093/nar/gki096, lire en ligne)