Archives par étiquette : gdpr

Anonymisation

Les données personnelles sont précieuses, au moins encore quelques temps (je ne sais pas si cela va durer). En tout cas, plusieurs lois et règlements imposent à tous ceux qui en traitent de les protéger.

Pour cela, une techniques possible est l’anonymisation des données, qui consiste(rait) à faire en sorte que les données utilisées ne permettent pas de retrouver l’individu qui en est la source (volontaire ou pas).

Critères d’évaluation

En général, on en retient 3 :

  • L’individualisation, qui consiste à voir si on peut isoler ou pas les données concernant une seule et même personne ;
  • La corrélation, qui est la faculté de rapprocher des données a priori distinctes d’un seul et même individu (ou d’un groupe d’individus) ;
  • L’inférence, qui est la possibilité de déduire d’un ensemble de données des caractéristiques d’un individu. Par exemple on arrive à savoir si c’est un homme ou une femme sans avoir aucune indication du sexe dans les données qu’on possède.

Si un seul de ces critères n’est pas respecté, l’anonymisation n’est que partielle. Autant dire qu’une véritable anonymisation est, en pratique, quasiment impossible à obtenir, surtout à l’heure du big data. D’autant que si elle était effective, cela poserait de gros soucis pour réaliser des tests, car l’anonymisation risque de rompre des contraintes d’intégrité ou des contraintes fonctionnelles dans les jeux de données concernés.

Un exemple : Yoodle, un broker de données (beurk), qui annonce suivre les recommandations de son régulateur, fournit à ses clients des données dont le niveau d’anonymisation est très faible (trop faible), car s’il anonymise unitairement les noms, prénoms, numéros de téléphone ou de sécurité sociale, certains libellés de transactions, etc., il suffit souvent de remettre dans un contexte, de croiser les donner avec d’autres infos pour ré-identifier les personnes. Au mieux on peut dire que les données sont pseudonymisées (et non anonymiser).

Voir : https://www.vice.com/en_us/article/jged4x/envestnet-yodlee-credit-card-bank-data-not-anonymous

Méthodes d’anonymisation

Il y en a plusieurs types, plus ou moins faciles à mettre en oeuvre, plus ou moins efficace, et plus ou moins utilisables ensuite (dans les tests). Voici une synthèse de ce qui a été publié par l’AFCDP :

Méthodes radicales

  • La suppression de la donnée : si elle vraiment sensible, on la vire (un point c’est tout) ;
  • La génération de données (données fictives), la plus efficace mais assez difficile à mettre en oeuvre ;
  • Le hachage (de préférence avec salage), mais cela pose problème dans leur traitement ; cela ne peut s’appliquer qu’à des données transférées pour lecture et non pour traitement.

Méthodes de lutte contre l’inférence

  • La variance (vieillissement, modification dans une certaine plage, etc.) ;
  • Le mélange, où certaines données d’un enregistrement #1 sont mises dans un enregistrement #2, et ainsi de suite ;
  • La concaténation où on fabrique une donnée à partir d’autres (à préciser…) ;

Dans tous les cas, on risque d’amener un incohérence fonctionnelle dans le jeu de données (par exemple des parents peuvent devenir trop jeunes par rapport à leurs enfants, dans le cas de modification des dates de naissance).

Méthodes partielles

Souvent inadaptées à une anonymisation réelle, elles peuvent néanmoins contribuer à une certaine sécurité, dans certaines conditions.

  • Le masquage (comme le numéro de la carte de crédit) ou l’appauvrissement pour rendre les données moins précises ;
  • Le chiffrement qui n’est qu’une anonymisation faible  ;
  • L’obfuscation qui n’a qu’une efficacité faible.

Pseudonymisation

La grande différence entre l’anonymisation et la pseudonymisation est que cette dernière est en principe réversible.

Voir aussi

Sources

Article lié

Sur l’anonymisation

Biométrie et GDPR

Un mois à peine après l’entrée en vigueur du Règlement Général sur la Protection des Données (RGPD en français, GDPR en anglais), voilà qu’arrive une première action concernant la collecte de données biométriques, en l’occurrence vocales1. Cela me réjouit vu ma position sur la biométrie, bien que je pense que cela n’aboutira à pas grand-chose.

Le contexte

Le service des impôts du Royaume-Uni (Majesty’s Revenue and Customs ou HMRC) s’est mis en tête d’utiliser la biométrie vocale (donc de type intermédiaire) pour authentifier les personnes appelant leurs services. Fluidifier le parcours utilisateur est souvent une très bonne idée, et la biométrie de ce point de vue y concourt assez bien.

Sauf que

Si le confort d’utilisation est au rendez-vous, les questions quant à l’utilisation de la biométrie sont légitimes. Il me semble reconnaître la solution dont il est question (il s’agit de la solution développée par Nuance23, que j’ai pu tester il y a quelques années pour mon employeur, avec leur célèbre sésame « ma voix est mon mot de passe ») et si Nuance respecte de bonnes pratiques en la matière, cela ne dédouane pas le responsable du traitement (le HMRC) de respecter les droits énoncés par le RGPD, notamment :

  • Le droit à l’effacement des données
  • L’obligation de recueillir de façon simple le consentement des utilisateurs pour l’usage de leurs données personnelles.

Les éléments biométriques font bien sûr partie des données personnelles, et il semble que le HMRC pousse un peu trop ses utilisateurs à utiliser la biométrie vocale, et que l’opacité entoure à la fois l’usage précis des données (qu’est-ce qui est utilisé, qu’est-ce qui est conservé et comment) et la possibilité de faire supprimer ses données.

Pourquoi ça n’aboutira pas

Parce que je vois mal le HMRC ne pas se mettre en conformité, même à contre-cœur. Il suffirait d’améliorer le processus de collecte, et de mieux gérer la suppression, en indiquant clairement comment procéder.

Pourquoi c’est important quand même

Cela prouve que ce n’est pas parce que ça plaît à plein de monde que la solution est bonne, ou qu’elle ne soulève pas d’inquiétudes chez d’autres personnes. Par exemple, comment savoir si des échantillons vocaux n’ont pas été conservés, ou pire transmis à d’autres entités ? Même s’il est peu probable que ça soit le cas, cette affaire montre que des citoyens sont inquiets sur l’usage de ces données.

La biométrie vocale demande de recueillir (au moins temporairement) des échantillons, pour former un modèle ou plus précisément un gabarit (au sens biométrique) caractérisant l’utilisateur, un peu comme un hash.

En France, recueillir une base biométrique centralisée, même si elle n’est constituée que de gabarits (et non d’échantillons) exige l’accord de la CNIL. On ne fait donc pas n’importe quoi avec ce type de données.