Politique de confidentialitÃ© et conditions dâ€™utilisation

Comment Google anonymise les donnÃ©es

L'anonymisation est une technique de traitement de donnÃ©es au moyen de laquelle on supprime ou modifie les donnÃ©es permettant d'identifier les utilisateurs. On obtient ainsi des donnÃ©es qui ne peuvent pas Ãªtre associÃ©es Ã une personne en particulier. Cette technique fait aussi partie intÃ©grante de l'engagement de Google en matiÃ¨re de confidentialitÃ©.

En analysant les donnÃ©es anonymisÃ©es, nous sommes en mesure de crÃ©er des produits et des fonctionnalitÃ©s Ã la fois sÃ©curitaires et utiles, comme le remplissage automatique des requÃªtes de recherche et une meilleure dÃ©tection des menaces de sÃ©curitÃ©, comme les sites d'hameÃ§onnage et de logiciels malveillants, tout en protÃ©geant l'identitÃ© des utilisateurs. Nous pouvons aussi partager en toute sÃ©curitÃ© des donnÃ©es anonymisÃ©es Ã l'externe, les rendant utiles pour d'autres, sans risquer la confidentialitÃ© de nos utilisateurs.

Deux des techniques que nous utilisons pour protÃ©ger vos donnÃ©es

GÃ©nÃ©ralisation des donnÃ©es

Certains Ã©lÃ©ments de donnÃ©es sont plus facilement associÃ©s Ã certaines personnes. Afin de protÃ©ger ces gens, nous utilisons un processus appelÃ© gÃ©nÃ©ralisation afin de supprimer une partie des donnÃ©es ou d'en remplacer une partie par une valeur commune. Par exemple, nous pourrions remplacer des segments de tous les indicatifs rÃ©gionaux ou des numÃ©ros de tÃ©lÃ©phone par la mÃªme sÃ©quence de nombres.

La gÃ©nÃ©ralisation nous permet d'obtenir le Â« k-anonymat Â», une norme de l'industrie qui dÃ©crit une technique permettant de masquer l'identitÃ© des gens appartenant Ã un groupe de personnes similaires. Le Â« k Â» dans Â« k-anonymat Â» correspond Ã un chiffre qui reprÃ©sente la taille d'un groupe. Si, sur tous les gens de l'ensemble de donnÃ©es, au moins Â« k-1 Â» personnes prÃ©sentent les mÃªmes propriÃ©tÃ©s, nous avons atteint le k-anonymat pour cet ensemble de donnÃ©es. Par exemple, imaginez un ensemble de donnÃ©es pour lequel Â« k Â» est Ã©gal Ã 50 et la propriÃ©tÃ© est un code postal. Si nous analysons tous les membres de cet ensemble, nous en trouverons toujours 49 autres partageant le mÃªme code postal. Il serait alors impossible d'identifier une personne en particulier uniquement sur la base de son code postal.

Si tous les membres d'un ensemble de donnÃ©es partagent la mÃªme valeur pour un attribut sensible, de l'information confidentielle est susceptible d'Ãªtre rÃ©vÃ©lÃ©e, simplement en sachant que ces individus font partie de l'ensemble de donnÃ©es en question. Pour limiter ce risque, nous pouvons avoir recours Ã la Â« l-diversitÃ© Â». Ce terme fait rÃ©fÃ©rence Ã une norme de l'industrie qui dÃ©signe un certain niveau de diversitÃ© dans les valeurs sensibles. Par exemple, imaginez que tous les individus d'un groupe aient effectuÃ© une recherche sur un mÃªme sujet sensible en lien avec la santÃ© (les symptÃ´mes de la grippe, par exemple) en mÃªme temps. L'analyse de cet ensemble de donnÃ©es ne permettrait pas d'identifier les personnes ayant recherchÃ© ce sujet, et ce, grÃ¢ce au k-anonymat. Toutefois, il peut toujours subsister un problÃ¨me de confidentialitÃ©, puisque tous les membres de l'ensemble partagent un attribut sensible (le sujet de la requÃªte). La l-diversitÃ© permet de faire en sorte que l'ensemble de donnÃ©es anonymisÃ©es ne contienne pas que des recherches en lien avec la grippe. Il peut inclure d'autres recherches, en plus de celles portant sur la grippe, pour protÃ©ger encore davantage la vie privÃ©e des utilisateurs.

La Â« confidentialitÃ© diffÃ©rentielle Â» (autre terme faisant rÃ©fÃ©rence Ã une norme de l'industrie) dÃ©signe une technique d'ajout de bruit mathÃ©matique aux donnÃ©es. Avec la confidentialitÃ© diffÃ©rentielle, il est plus difficile de dÃ©terminer si un individu en particulier fait partie d'un ensemble de donnÃ©es, car le rÃ©sultat d'un algorithme donnÃ© sera fondamentalement identique, que les donnÃ©es d'un individu soient incluses ou non. Imaginez par exemple que nous Ã©valuions la tendance gÃ©nÃ©rale des recherches liÃ©es Ã la grippe dans une certaine rÃ©gion gÃ©ographique. Pour respecter le principe de confidentialitÃ© diffÃ©rentielle, nous ajoutons du bruit Ã cet ensemble de donnÃ©es. En d'autres termes, nous pouvons ajouter ou enlever le nombre de personnes effectuant une recherche en lien avec la grippe dans un quartier donnÃ©. Cette opÃ©ration n'aurait toutefois pas d'influence sur notre Ã©valuation de la tendance dans la rÃ©gion gÃ©ographique dans son ensemble. Il est Ã©galement important de noter que l'ajout de bruit Ã un ensemble de donnÃ©es peut aussi le rendre moins utile.

L'anonymisation n'est que l'une des techniques que nous utilisons pour tenir notre engagement visant Ã protÃ©ger la vie privÃ©e des utilisateurs. Parmi les autres moyens que nous mettons en Å“uvre figurent des contrÃ´les stricts de l'accÃ¨s aux donnÃ©es des utilisateurs, des politiques visant Ã contrÃ´ler et Ã limiter la combinaison d'ensembles de donnÃ©es qui pourraient permettre d'identifier des utilisateurs, ainsi que l'examen centralisÃ© des stratÃ©gies d'anonymisation et de gouvernance des donnÃ©es afin d'assurer un niveau de protection constant dans tous les produits et services de Google.

Changer la langue :

Politique de confidentialitÃ© et conditions dâ€™utilisation

Comment Google anonymise les donnÃ©es

Deux des techniques que nous utilisons pour protÃ©ger vos donnÃ©es

GÃ©nÃ©ralisation des donnÃ©es

Ajout de bruit aux donnÃ©es