DataVillage: remettre chaque individu aux commandes de la finalité et de la valeur de ses données

Portrait
Par · 05/02/2021

2021 sera sans doute l’année de concrétisation pour la jeune pousse DataVillage, positionnée dans le champ de ce qu’elle appelle “l’intelligence artificielle personnelle”. Autrement dit, des outils et solutions qui permettent à chaque individu et internaute de recouvrir le contrôle de ses données, de l’usage qui en est fait par autrui, même lorsqu’il les a généreusement éparpillées et publiées sur la Toile, les réseaux sociaux, des forums en tous genres, ou lorsqu’elles ont incité des prestataires de services, fournisseurs et autres “plates-formes” (GAFA ou autres) à les collecter dans des bases de données et listings devenus armes de monétisation massive.

La société a développé et s’apprête à commercialiser divers outils et mécanismes qui permettent de nourrir des algorithmes de prédiction comportementale, d’évaluation de crédit etc. avec des données personnelles mais avec une originalité majeure: DataVillage enfourche la tendance de la reprise de contrôle des données personnelles, pour inverser une situation profondément ancrée et exploitée qui voit le commun des mortels abdiquer tout droit sur l’utilisation qui est faite de ses données personnelles au bénéfice des acteurs économiques, politiques ou autres.  

“Le concept nouveau est celui de la décentralisation des données et de leur retour vers l’utilisateur”, explique Quentin Felice, co-fondateur de la société. “Ce dernier les confie à un espace personnel sécurisé – PDS (personal data store) – et ne permet leur utilisation par un quelconque prestataire que moyennant autorisation préalable”.

Une autorisation qui, selon les mécanismes mis en oeuvre, peut être hyper-granulaire. Telle banque pourra accéder uniquement aux données de transactions financières, voire à un sous-jeu de données. Un opérateur télécom aura des accès autres. Les données publiées sur tel ou tel réseau social ne seront accessibles à personne ou uniquement à tel ou tel. Etc. etc.

Le but est de restaurer de la décence, de la transparence, de permettre à d’autres acteurs que les seuls GAFA ou majors du monde économique d’exploiter “honnêtement” les données – aux conditions posées par chaque individu.

Maîtriser l’usage des données de “profil”

Pour concevoir ces outils et services d’“IA personnelle”, la société a recours à une série de concepts, principes et technologies: jumeaux numériques, social linked data, personal data stores, blockchain…

Le principe des “jumeaux numériques” (sorte d’être ou d’objet purement virtuel reconstitué sur base de l’agrégat des données concernant la personne, le produit ou le projet concerné) est un concept désormais bien ancré dans le paysage – que l’on parle de simulation et modélisation d’une chaîne de production, d’une opération chirurgicale, de la conception d’un nouveau composé médicamenteux, de la simulation du comportement d’un consommateur dans tel ou tel contexte, etc. etc.

Source: DataVillage.

 

DataVillage s’en est servi pour ses propres finalités d’acteur de ce qu’on pourrait appeler l’“analytique responsabilisé”. “Dans notre cas, un “jumeau numérique” est créé en recourant aux techniques de graphes de connaissances et de “linked data”. Nous créons un modèle de données propre à chaque individu, qui reprend la totalité des données le concernant – informations bancaires, données client auprès de divers fournisseurs ou prestataires, données de santé, données sur réseaux sociaux…. – et qui définit et documente ce qu’il fait, avec qui, à quel moment… Ces données sont normalisées, rendues génériques afin de pouvoir communiquer entre elles au sein du PDS.”

 

Quentin Felice (DataVillage): “Le RGPD est une opportunité pour créer de nouvelles valeurs et de nouveaux modèles économiques, pour redonner une place centrale au consommateur. Notre solution permet de lutter contre les GAFA. Pour mieux nous connaître, enrichir les profils qu’il fait de nous, Google a dépensé des milliards pour racheter Fitbit ou Nest. Notre concept permet à chacun de décider de la valeur de ses données.”

 

Moyennant autorisation préalable de cet individu, une entreprise, un fournisseur, un autre citoyen pourra interroger le profil ainsi généré, au sein du PDS, pour en extraire des informations spécifiques sur la base desquelles il pourra par exemple personnaliser l’expérience d’utilisation de son service, formuler une proposition personnalisée… Le tout sans enfreindre la vie privée et la confidentialité des données. En conformité dès lors aux préceptes du RGPD.

Les données ne quittent pas le PDS. Seule l’information extraite du profil, selon les critères et les finalités qu’aura au préalable autorisés l’individu, sera procurée au requérant. 

Quentin Felice prend l’exemple d’une chaîne de télévision ou d’un fournisseur de contenus qui désirerait connaître les préférences audiovisuelles d’un individu afin de personnaliser le service proposé.

Dans la masse de données personnelles qui sont agrégées pour constituer son modèle de données, il s’en trouve qui portent par exemple sur sa “consommation” de contenus Netflix ou YouTube.

“Notre solution permettrait de traiter les informations contenues dans son modèle de données [jumeau numérique], d’en extraire des informations ciblées, par exemple un intérêt plus particulier pour des contenus ayant trait à l’écologie. La chaîne de télévision n’aura accès qu’à ces seules données” – et toujours, répétons-le, moyennant autorisation spécifique de l’individu.

DataVillage dit garantir la sécurité et l’intégrité de ses outils (espaces personnels, chaîne de traitements…) par divers mécanismes.

Notamment la sécurité et l’“inviolabilité” des PDS (les clés d’accès individuelles, notamment, sont stockées dans le PDS), “data cages” et “data passports” (voir l’explication plus loin dans l’article) ; un recours au principe de blockchain, pour garantir la non-manipulation de l’historique de traitements ; et “autre garde-fou, un cadre légal rigoureux appliqué à l’infrastructure technique pour garantir que l’utilisateur garde réellement le contrôle sur toute la chaîne.”

Quatre domaines prioritaires

Le principe des jumeaux numériques appliqué à l’utilisation “vertueuse”, maîtrisée et pré-autorisée des données et profils personnels, intéresse potentiellement une flopée de secteurs et d’acteurs de tous poils. DataVillage présente donc sa solution comme une “plate-forme transversale” mais, débuts obligent, a défini quatre domaines verticaux prioritaires pour sa stratégie commerciale. Il s’agit, par ordre décroissant de priorité, du secteur des médias, de la mobilité, de la finance et de la santé.

“Ces quatre domaines ont été identifiés comme présentant des opportunités concrètes de démonstration de valeur et sont tous dans notre périmètre d’action, avec des cas d’usages déjà balisés. Mais nous nous concentrons d’abord sur ceux qui sont les plus simples ou les moins sensibles”.

Source: DataVillage.

 

“Notre démarche est de réaliser l’équilibre entre, en amont, la sensibilité des données et, en aval, la qualité et valeur de la recommandation qui est générée par les algorithmes”, explique Quentin Felice. “Une information concernant le comportement de consommation sur Netflix est de toute évidence moins sensible qu’une information sur le taux d’oxygénation du sang.

Si le contenu, les informations de base sur la consommation d’un individu en streaming sont biaisées, l’impact sur l’individu [d’un algorithme qui se tromperait] serait mineur – si ce n’est de la frustration. Un mauvais diagnostic, lui, aurait un impact beaucoup plus sérieux sur le suivi d’une pathologie.”

Raison pour laquelle la santé figure en quatrième position… Et ce, même si elle fut au coeur de l’exercice de validation effectué dans le cadre du programme d’accélération MoveUp (Digital Attraxion), un programme pendant lequel DataVillage a été accompagné par Accenture. “A ce stade, nous nous sommes contentés, avec eux, de tester la proposition de valeur. Il n’y a pas encore de concrétisation. Par contre, Félix Amez, directeur Innovation chez Accenture BeLux, a rejoint notre comité consultatif.”

Priorité donc au monde des médias (par exemple pour de l’exploitation de données à des fins récréatives) ou celui de la mobilité.

Dans ce dernier registre, un prototype fonctionnel a été finalisé pour les besoins du SPW. Sujet: la recommandation de solutions de mobilité alternative pour les agents sur base de et par rapport à leurs habitudes actuelles de déplacement et à leurs données occupationnelles (fonctions, activités professionnelles au quotidien). Le projet-pilote devrait bientôt démarrer.

2021, année-charnière…

Le projet de DataVillage a franchi le cap du développement initial et du prototypage et s’apprête à entrer en phase de commercialisation.

“Après 18 mois de R&D, nous sommes désormais assez mûrs et les prototypes suffisamment fonctionnels pour passer à la production sur projets. La phase de pilotes avec des tests réels avec utilisateurs va pouvoir commencer cette année”. Pour la financer, la start-up a procédé à un premier tour de table, récoltant 500.000 euros (voir encadré ci-dessous).

La start-up DataVillage vient de boucler un tour de table qui porte son financement à un million d’euros. Répartition?
500.000 euros en aide régionale pour la phase de R&D
250.000 euros glanés auprès de quelque 120 investisseurs à l’occasion d’une campagne de crowdfunding sur la plate-forme Spreds (nettement mieux qu’espéré puisque la société s’était fixée 60.000 euros comme objectif)
150.000 euros de Sambrinvest (50.000 en equity ; 100.000 en prêt subordonné MoveUp)
50.000 euros investis, à titre personnel (business angel), par Mathieu Demaré (par ailleurs responsable de l’axe Creative & Digital de Sambrinvest)
50.000 euros injectés par l’Imec, via son programme iStart

Les fonds récoltés serviront notamment à renforcer l’équipe, via l’engagement de développeurs mais aussi de profils d’ingénieurs, de data scientists, et de spécialistes UX (user experience).

Plusieurs produits devraient entrer rapidement en phase de déploiement. Parmi eux, le “data passeport”, sorte de scénario par lequel l’utilisateur peut déterminer et autoriser l’utilisation qui pourra être faite de ses données et sources de données, avec consentement pouvant être accordé en fonction des finalités de traitement annoncées par les requérants. Traitement au sein du PDS, “dans un cadre et selon des conditions dès lors clairement définis”.

Ce “data passport” pourra être intégré par les requérants ou des prestataires de services dans leur propre “expérience numérique, comme on peut par exemple le faire avec la solution Itsme”, précise Quentin Felice.

Pour que le “data passport” soit réellement efficace, il faut bien entendu que sa définition et son paramétrage soient aisés pour l’utilisateur qui n’aura pas toujours de compétences ou connaissances techniques poussées. “Nous le concevons de manière à en simplifier la compréhension tout en demeurant exhaustif…”

Cet outil sera hébergé sur la plate-forme de DataVillage, “où chaque utilisateur pourra donc gérer son jumeau numérique. Il pourra en outre consulter l’historique de tous les traitements qui auront été faits pour chaque source de données. Et il aura bien entendu toujours le droit de révoquer tout traitement.”

Un univers en formation

Le concept de données maîtrisées par les utilisateurs et de PDS a été imaginé au départ par le MIT (Massachusetts Institute of Technology) et Tim Berners-Lee, à l’origine du projet Solid (social linked data).

Quentin Felice (DataVillage): “Nous pourrons nous connecter à tout type de PDS, selon le choix fait par les utilisateurs”. Crédit photo: Jérémy Monin

Ce concept suppose qu’un ensemble d’éléments d’infrastructure et qu’un maillage d’acteurs, adhérant à ces principes, se constituent. Notamment des “hébergeurs” de PDS, des organismes de certification de leur sérieux et de leur sécurité, des fournisseurs de solutions de sécurisation, d’échanges et migration de données entre PDS, d’outils d’intégration à l’usage des entreprises…

“L’un des défis actuels est d’assurer l’interopérabilité entre différents PDS”, commente Quentin Felice. Il y aura en effet toute une série d’hébergeurs, de prestataires proposant ou utilisant le principe des PDS. “Les fournisseurs de PDS, dans l’état actuel des choses, sont positionnés sur des créneaux bien précis”.

Un individu, une entreprise, pourra fort bien “panacher” ses jumeaux numériques et ses PDS, choisissant différents hébergeurs et prestataires de services selon le type de données ou le service recherché. Et il voudra également avoir la possibilité de “changer de crémerie” s’il le désire… La portabilité et la compatibilité seront donc essentielles.

DataVillage, on l’a vu, ne joue pas dans ce registre. La société a décidé de se positionner en aval ou en couche supplémentaire – au niveau des outils de data science et d’IA. “Nous ne développerons pas nous-mêmes des algorithmes. Nous utiliserons plutôt des algorithmes pré-existants, notamment ceux validés par les autorités pour des domaines touchant par exemple à de la recommandation dans les domaines des services financiers ou de l’assurance.

Notre rôle actif spécifique se situera plutôt dans l’instanciation de l’environnement de traitement au sein du PDS, dans ce que nous appelons la “data cage”, un espace de type boîte noire où les données et algorithmes de tiers entre en jeu pour dériver les données pertinentes” [pour les requérants].