Big data, la grande inconnue

Pratique
Par · 16/10/2013

“Big data”. Le terme fait immanquablement penser à ce tsunami d’informations et de données qui déferle dans notre vie, privée et professionnelle. Avec des volumes et une fréquence qui dépassent désormais les capacités de traitement de bien des systèmes et infrastructures IT. Météo, données comportementales collectées sur les réseaux sociaux, signaux de santé générés au quotidien, Internet of Things, données générées par des capteurs ou par les processus industriels…

Outre des considérations de volumes, de formats, de signaux à traiter le plus efficacement possible pour en extraire des informations réellement “signifiantes”, le phénomène du big data implique aussi une remise en question de certains principes chèrement acquis. Que ce soit en termes de qualité de données, de monétisation de l’information ou de respect de la vie privée.

Agoria avait récemment organisé un atelier axé sur les aspects de protection de la vie privée, de sécurité des données ou encore de mesures de gouvernance à mettre en oeuvre pour leur traitement.

Côté vie privée et sécurité, l’orateur invité était Jos Dumortier, professeur à la faculté de droit de la KULeuven, directeur de l’ICRI (Interdisciplinary Center for Law and ICT) et avocat auprès du cabinet Timeplex.

S’il fallait résumer son intervention, nous pourrions retenir deux choses:

  • le problème majeur ne vient pas du volume de données mais plutôt de leur diversité, née de la multiplicité des sources et des systèmes qui les génèrent
  • le concept même de big data remet en cause plusieurs principes fondamentaux qui balisent la législation en matière de protection des données à caractère personnel.

Le pour et le contre

Abordant le sujet par son aspect positif, Jos Dumortier tenait à souligner que l’exploitation du big data peut avoir de nombreux avantages, à tous les “étages” de notre société. Il rappelait par exemple qu’individuellement nous sommes très heureux de voir Amazon nous proposer des lectures proches de nos centres d’intérêt. Qu’en tant que consommateurs, des rapports et signalements nés de la veille de la “communauté” sont utiles pour pointer du doigt des produits néfastes à la santé. Pour les entreprises, la collecte des données de trafic permet de mieux planifier les itinéraires des camions de livraison. Et la collectivité sort gagnante d’une surveillance anti-terrorisme ou des processus de détection de fraude.

L’envers de la médaille toutefois se traduit notamment par des risques pour la vie privée et pour les valeurs de notre société.

Quels risques? “Que seuls les nantis et les plus puissants, ou encore les plus forts dans un conflit, puissent exploiter le big data. Que le profilage du consommateur lui fasse perdre son identité. Nous la maîtrisons encore à l’heure actuelle dans la mesure où nous pouvons encore imposer nos choix. Mais qu’en sera-t-il demain?”

“We are sleep walking into a surveillance society. Il est temps de se réveiller.”

Pour illustrer son propos, il faisait allusion à l’une des “ficelles” qu’exploite d’ores et déjà la société américaine Netflix, fournisseur de contenus vidéo à la demande, proposés en streaming. En décortiquant les données collectées auprès des téléspectateurs (qui a regardé quoi, quand, sur quel système, a interrompu quel programme, quel film, à quel moment… etc.), la société oriente ses décisions sur le choix ou le financement de futures productions audiovisuelles. De quoi fournir du contenu qui répondra aux souhaits (non exprimés explicitement) de telle ou telle tranche d’audience, potentiellement plus rémunératrice. De quoi faire titrer à un média américain, en début d’année: “Netflix transforme les spectateurs en marionnettes”…

Va-t-on dès lors vers une crise d’identité et de maîtrise d’identité de la part de l’individu, s’interrogeait Jos Dumortier, “vers des systèmes qui tirent des conclusions des données, en niant l’humain?”

Trop is te veel?

Autre risque qu’il épinglait: le “paradoxe de la transparence”.

En cause, le fait que les données générées ne le sont plus uniquement par l’homo sapiens mais que machines et systèmes en tous genres en créent à chaque instant, souvent sans que nous en ayons conscience, sans que nous cherchions à canaliser non seulement leur production mais aussi leur exploitation. Capteurs en tous genres, objets “intelligents”, géolocalisation omniprésente… “Comment rendre les données “visibles”, déterminer et décider quelles données sont captées?”

Jos Dumortier (ICRI): “Le problème majeur ne vient pas du volume de données mais plutôt de leur diversité.”

D’autant plus qu’en combinant ces données puisées à de multiples sources, les systèmes peuvent tirer des conclusions, anticiper des faits qui ne se sont pas encore produits. Jusqu’à profiler un comportement potentiel: sur base des données collectées et interprétées, telle personne, par exemple, est susceptible de commettre un délit. Le profilage et flicage se transforme alors en fichage a priori.

Autres déviances possibles: la négation de tout un pan de la population dont les “données“ ne seraient pas prises en compte parce que ces personnes ne sont simplement pas- ou trop peu- connectées à Internet; ou encore la virtualisation de notre vie sociale, où nous créerions des relations avec des “amis” uniquement sur base de profils générés artificiellement au départ de l’analyse des traces que nous laissons à chaque instant.

Déviance et dérapage potentiel aussi si l’on évolue vers une monétisation des données personnelles. Avec des opérateurs qui rémunéreraient les individus prêts à leur fournir des données en tous genres.

Il y a là également la possibilité d’inverser le phénomène du CRM, soulignait Jos Dumortier. Aujourd’hui, le fournisseur, le prestataire analyse sa clientèle pour détecter ses choix, demandes et préférences et pour adapter sa démarche commerciale en conséquence. Dès l’instant où l’individu prend en main le contrôle de l’information, qu’il vend au prestataire, on fait surgir le concept de VRM- vendor relationship management, “avec un individu qui est en mesure de gérer et d’orienter ses relations avec le fournisseur ou le prestataire de services.”

Une législation inadaptée?

Dans l’état actuel des choses, la vie privée de l’individu est garantie par la loi, cette dernière reposant sur quatre principes de base concernant la collecte et le traitement de données à caractère personnel:

  • la légitimité: à savoir, une finalité explicite des traitements
  • la proportionnalité: pas de collecte de données inutiles par rapport à l’objectif recherché
  • la transparence: obligation d’informer la personne de la collecte des données et de l’usage qui en est fait
  • la sécurité des traitements.

S’y ajoute, selon certains textes, l’obligation d’information et de consentement préalable à toute collecte.

Le big data est-il compatible, conciliable avec ces contraintes? Plusieurs principes posent de toute évidence problème. La collecte et la génération de très nombreuses données se font de manière spontanée, automatique, sans consentement préliminaire. Voire même sans prise de conscience que des données sont captées.

Le concept-même de big data implique des volumes importants, de plus en plus titanesques, à mille lieues de la “proportionnalité” qui suppose de la mesure en toute chose. Idem pour la légitimité puisque le raisonnement qui prévaut désormais est de commencer par collecter un maximum de données et de voir ensuite ce qu’on peut en faire…

Mais comment ne pas donner accès à “plus de données que nécessaire” quand on entre dans un processus big data? Quels nouveaux mécanismes mettre en oeuvre pour baliser les usages, les tracer, documenter?

Jos Dumortier terminait son exposé en passant en revue une nouvelle proposition de directive européenne, définie en janvier 2012, qui aura pour effet, si elle est confirmée et implémentée, de modifier certaines règles en matière de protection de données à caractère personnel.

Notamment:

  • l’entrée en vigueur de nouvelles procédures de notification pour des traitements “à risque”: “le responsable du traitement ou le sous-traitant consulte l’autorité de contrôle avant le traitement de données à caractère personnel qui feront partie d’un nouveau fichier à créer, si […] en raison notamment de l’utilisation de nouveaux mécanismes, technologies ou procédures, le type de traitement présente des risques spécifiques pour les libertés et droits fondamentaux, notamment la protection des données à caractère personnel, des personnes concernées”
  • obligation de consentement explicite (et non plus simplement tacite) avant de pouvoir combiner des données
  • apparition de la notion de “droit à l’oubli numérique”: “Toute personne devrait avoir le droit de faire rectifier des données à caractère personnel inexactes la concernant, et disposer d’un “droit à l’oubli numérique” à leur égard lorsque le traitement n’est pas conforme aux principes généraux énoncés dans la présente directive.” Le responsable de traitement de données qui a publié des données pourrait par ailleurs être obligé d’informer tout tiers concerné qui les utilisent que la personne a demandé un effacement par exemple des liens vers ces données.
  • obligation de notification de toute violation de données à l’autorité nationale de supervision dans un délai légal prédéterminé, “si possible dans les 24 heures”
  • possibilité de pénalités envers les sociétés qui violent les règles (jusqu’à 2% de leur chiffre d’affaires annuel, avec plafonnement à une certaine somme), avec responsabilité personnelle du responsable du traitement des données qui aurait procédé à un traitement illégitime.