Une appli “AI Assessment Tool” belge, au stade du mock-up

Pratique
Par · 19/05/2022

Dans le cadre de la première édition, en 2021, de la Belgian AI Week, le groupe de travail Ethique & Juridique d’AI 4 Belgium avait annoncé lancer un projet de “trustworthy AI assessment tool” (outil d’évaluation du caractère éthique et fiable des solutions et algorithmes AI) dans le but “de rendre la liste européenne “Assessment List on Trustworthy AI” (ALTAI), plus concrète, plus directement utilisable dans le contexte belge, et d’y ajouter des spécificités sectorielles, afin que les entreprises et les organismes belges puissent améliorer le caractère fiable de leurs systèmes d’IA”. 

“Rendre la liste plus concrète”. En fait, plus lisible, davantage compréhensible par ceux et celles qui seraient appelées à l’utiliser (concepteurs, responsables de projets, concepteurs de solutions, décideurs, chefs d’entreprises). Au-delà des adaptations au contexte belge, le but est plus vaste: rendre cette liste d’évaluation plus aisément appropriable par tous – tous pays, tous secteurs confondus.

L’Assessment List for Trustworthy Artificial Intelligence (ALTAI), élaborée par le High-Level Expert Group on AI, vise à “aider les entreprises et organisations à auto-évaluer le degré de confiance des systèmes AI en cours de développement”.
La liste de contrôle s’articule autour des sept principes de base, ou lignes directrices, de ce que l’UE considère comme une “IA digne de confiance”. A savoir: mise au service de l’humain et contrôle humain ; robustesse technique et sécurité ; respect de la vie privée et gouvernance des données ; transparence ; diversité, non-discrimination et équité ; bien-être sociétal et environnemental ; et responsabilisation par rapport aux résultats des système IA.
Pour plus de détails, relire notre article de 2021.
La liste “Assessment List on Trustworthy AI” (ALTAI) peut être téléchargée à partir de ce site de l’UE.

C’est que la liste de questions à parcourir, telle que conçue au niveau européen, est parfois aride, manque de clarté, pêche parfois par manque de logique dans la succession des questions… Ce qui risque d’aller à l’encontre de l’objectif-même des sept principes directeurs d’une “AI digne de confiance” telle qu’imaginée par l’UE. Objectif qui, rappelle Nathalie Smuha, co-respondable du groupe d’experts Ethique & Juridique belge, chercheuse à la Faculté de droit de la KULeuven, est d’“amener les développeurs à réfléchir notamment aux risques de biais ou aux risques pour la vie privée qu’impliquent leurs développements AI”.

Premier souci pour l’appropriation et l’usage de la liste ALTAI: elle n’existe que sous format PDF. Raison pour laquelle, le groupe d’experts AI belge a voulu en faire un outil directement exploitable. Et cela prendra, à terme, la forme d’une appli ou d’un outil disponible en ligne sur un site Internet (par le biais, par exemple du SPF Stratégie et Appui-BOSA).

Signalons ici que le groupe d’experts d’AI4Belgium n’est pas le seul à avoir eu cette idée. Divers acteurs de terrain (sociétés de consultance, notamment) devraient eux aussi imaginer et proposer des canevas plus directement exploitables, “pour aider à la conception de dispositifs, pour passer en revue les problèmes juridiques ou éthiques”. On peut imaginer que certains de ces outils seront propriétaires, resteront la propriété des consultants. Mais d’autres pourraient être mis à disposition de manière plus large. A vérifier lorsqu’ils apparaîtront. 

La différenciation qu’espère avoir le groupe de travail d’AI4Belgium est le fait que l’outil – en principe – sera gratuit, accessible sans entrave, destiné aux utilisateurs “lambda”, pour un accompagnement de base. Et, bien entendu, il sera ancré sur les recommandations d’une brochette d’experts neutres et de gens de terrain…

Côté gratuité, la chose serait possible dans la mesure où le budget de développement devrait venir du SPF BOSA et que l’outil est imaginé comme devant être open source, mis à disposition (probablement) sous licence creative commons. Mais cela doit encore être confirmé…

Autre caractéristique (probable ou en tout cas espérée), c’est que l’outil soit conçu afin d’être accessible et utilisable par tout type d’utilisateur, en ce compris par des personnes souffrant de handicaps.

Les éléments à améliorer

A l’analyse (par des experts AI belges mais aussi par des acteurs de terrain – notamment des développeurs), la liste ALTAI européenne a été jugée “longue, difficile à utiliser, peu conviviale, peu pratique, manquant de concret, sans spécificités par rapport à différents secteurs…” 

Résultat: une série assez longue de propositions ont été faites pour y remédier. 

Un projet d’IA doit nécessairement faire intervenir divers profils. (Mock-up de l’appli imaginée au sein du groupe de travail d’AI4Belgium).

Premier exemple: la nécessité pour le futur outil d’opérer dans un esprit collaboratif. “Tout projet de solution AI éthique suppose en effet que le développement soit fait en coordination avec une équipe interdisciplinaire, qui inclue des profils juridiques, éthiques, des personnes venues du marketing, du business development. Et pas uniquement des data scientists”, commente Nathalie Smuha.

Parmi les désidératas et suggestions émis, il y eut notamment ce souhait que l’outil permette de garder une trace des améliorations éventuelles apportées à une future solution IA au cours de son développement. “En effet”, explique Nathalie Smuha, “un développeur n’a pas forcément une idée précise, en début de projet, de la manière dont il va s’attaquer aux biais éventuels de la solution. L’outil d’évaluation doit donc fonctionner de manière itérative, permettre de mettre à jour certaines réponses, de revenir en arrière par rapport à des critères de confiance.”

Certains formulations ont dès lors été revues, l’ordre de certaines questions modifié. Exemple au chapitre Diversité, non-discrimination et équité. La première question à laquelle répondre est la suivante: “Did you establish a strategy or a set of procedures to avoid creating or reinforcing unfair bias in the AI system, both regarding the use of input data as well as for the algorithm design?”

“La formulation est mauvaise”, explique Nathalie Smuha. “Did you fait référence au passé. Cela suppose que le concepteur de la solution IA, avant même de la développer, ait défini sa méthode pour éviter les biais.” Primo, comme indiqué ci-dessus, il ne sait pas forcément a priori comment il va procéder. Deuzio, l’affaire n’est pas pliée… “Le but de la liste de contrôle est d’amener les gens à réfléchir dès le stade de la conception de leur solution, d’anticiper. Une meilleure formulation [à ce stade du questionnaire] serait de dire “Will you establish a strategy” ou “Please establish a strategy…”

 

Nathalie Smuha (AI4Belgium): “Un développeur n’a pas forcément une idée précise, en début de projet, de la manière dont il va s’attaquer aux biais éventuels de la solution. L’outil doit donc être itératif.”

 

Si on garde par contre le “Did you…”, il n’y aucune conséquence. Mieux vaut donc permettre au concepteur d’effectuer des aménagements. “Et il est encore plus efficace d’ajouter quelques liens que le concepteur pourra consulter pour avoir accès à des ressources qu’il pourra utiliser pour résoudre les biais, pour trouver davantage d’informations sur ce qu’il doit faire. Ou bien savoir à qui s’adresser pour obtenir de l’aide…”

Autre exemple de souplesse itérative désirée: l’une des questions que propose la liste ALTAI d’origine est “avez-vous cherché du feedback auprès des utilisateurs?” Cette question, explique Nathalie Smuha, apparaît en fin de questionnaire. L’outil belge permettra de faire en sorte que cette question intervienne plus tôt afin qu’elle puisse être posée à différents stades d’un projet de développement. “Avec possibilité de cliquer sur ce champ pour que la question resurgisse deux mois plus tard, lorsque le projet aura évolué…”

EXERGUE

Nathalie Smuha (AI4Belgium): “Le but est avant tout de faire se poser les bonnes questions, en termes de biais, de guider les développeurs et porteurs de projet vers des outils qu’ils pourraient utiliser pour rendre leurs développements plus éthiques…”.

Nathalie Smuha (AI4Belgium): “Le but est avant tout de faire se poser les bonnes questions, en termes de biais, de guider les développeurs et porteurs de projet vers des outils qu’ils pourraient utiliser pour rendre leurs développements plus éthiques…”.

Autre potentiel à intégrer à l’appli: permettre de visualiser ce qui a été fait [par le développeur, par le prestataire sollicité] tout au long du projet. “Avec production d’une documentation, en fin de projet”. Non seulement pour servir de “trace” à usage interne mais aussi pour montrer au client pour lequel la solution IA a été développée, afin dès lors de lui prouver que la solution ou l’application en question respecte bien les critères d’IA éthique et digne de confiance…

Une précision – importante – toutefois à cet égard: “l’outil d’évaluation ne sera pas, en soi, une garantie juridique que la solution IA développée est éthique”, précise Nathalie Smuha. Plus modestement, il permettra de jauger l’attention qui aura été portée aux paramètres nécessaires. “Le but est avant tout de faire se poser les bonnes questions, en termes de biais, de guider les développeurs et porteurs de projet vers des outils qu’ils pourraient utiliser pour rendre leurs développements plus éthiques…”.

Autre demande: la possibilité pour une entreprise ou un service public d’évaluer sa solution AI par rapport à la moyenne des autres entreprises ou acteurs de son secteur ou d’une taille similaire à la sienne.

“La demande en a été faite mais, au niveau du groupe de travail et du SPF BOSA [qui supervise et finance le développement], nous ne sommes pas encore sûrs d’intégrer cette fonctionnalité à notre futur AI assessment tool dans la mesure où cela implique de conserver, même anonymisés, les résultats d’auto-évaluation des entreprises et organismes qui utiliseraient l’outil. Personnellement, je préfèrerais ne pas le faire…”

Autre adaptation: la possibilité, pour chaque entreprise, acteur public, développeur utilisant l’outil, d’ajouter des critères qui leur seraient propres, nécessaires par exemple par rapport à leur secteur d’activité ou au type de projet. Exemple cité par Nathalie Smuha: la possibilité d’octroyer un score plus important au critère de “non-discrimination”, “parce qu’il serait plus important, pour certains types d’applications, que les autres principes de base d’une IA digne de confiance, tels que spécifiés par l’Europe…”

L’outil étant développé en open source, une société aura donc (probablement) la possibilité de modifier ou d’ajouter certaines questions, certains critères. Au risque de voir l’outil perdre en cohérence? Le risque existe en effet “mais cela vaut toujours mieux d’avoir un outil que pas d’outil du tout…”, estime Nathalie Smuha.

Un outil pour qui?

L’une des objections majeures par rapport à la liste ALTAI était son côté “pas pratique”, voire aride. Si le futur assessment tool belge vise davantage de facilité d’utilisation, la question est donc de savoir qui est censé devoir ou pouvoir utiliser cet outil… “Il ne faudra pas nécessairement être un spécialiste en IA ou en développement. Pas besoin de formation excessive. Le but étant surtout de sensibiliser, il doit pouvoir être utilisable par tout le monde.”

Par ailleurs, le public-cible est plus particulièrement les concepteurs et les entreprises de petite ou moyenne envergure, qui, contrairement aux grandes entreprises “qui n’ont pas les moyens de payer des consultants.”

Un développeur, une société commanditaire pour visualiser le “score” éthique/confiance du développement, dans les 7 “dimensions” imaginées par l’UE.

Autre question: compte tenu du fait que des lacunes avaient été détectées, au niveau de la liste ALTAI, en termes de prise en compte de spécificités sectorielles, et que le groupe de travail belge s’est plus particulièrement intéressé à trois secteurs dans un premier temps [à savoir les pouvoirs publics, le secteur de la santé et celui des ressources humaines], doit-on en conclure que l’outil final sera décliné en différentes versions?

Réponse de Nathalie Smuha: pas forcément. “C’était un peu l’idée de départ mais au final, on a constaté qu’i n’y a pas de grandes différences entre les secteurs. Même si, par exemple, chaque secteur doit se plier à certaines contraintes juridiques ou à des règles spécifiques, par exemple celles du droit administratif pour le secteur public ou le code de déontologie dans le secteur médical… Ces contraintes devront donc être intégrées dans l’outil.”

L’une des premières cases à cocher dans le déroulé des questions de l’outil d’évaluation sera donc la précision du secteur concerné. Le contenu qui s’affichera alors sera adapté en conséquence. “Les exemples cités, pour rendre certaines questions ou paramètres davantage compréhensibles, seront personnalisés. Notamment pour mieux expliquer les risques, les biais, en fonction du secteur.”

Nathalie Smuha prend un exemple dans le secteur des ressources humaines. “Le logiciel de recrutement d’Amazon [qui avait conçu, dès 2014, un outil pour recruter des collaborateurs, notamment pour le travail en entrepôts de distribution] faisait de la discrimination au détriment des femmes [Ndlr: les candidats aux postes de développeur de logiciel et aux autres postes techniques étaient notés avec une grosse touche de sexisme!]. Ce sera l’un des exemples qu’on intègrera dans l’outil. Avec des liens vers divers outils qui permettent d’éliminer ce genre de biais. Outils qui peuvent être spécifiques en fonction des secteurs…”

Un outil pour “sensibiliser”

L’esprit dans lequel travaille le groupe d’experts et la philosophie de l’outil d’évaluation correspondent à une volonté de “sensibiliser” les entreprises, les développeurs, les porteurs de projets de solutions IA. “Nous ne voulons pas donner l’impression qu’il sert à des fins de contrôle”, souligne Nathalie Smuha. Raison aussi pour laquelle la fonctionnalité de benchmarking, de comparaison à ce que d’autres utilisateurs ont fait pour respecter les paramètres d’IA digne de confiance, n’est pas considérée comme forcément souhaitable… “Les données devraient rester dans chaque société.”

L’outil ne sera pas non plus contraignant. “C’est essentiellement une aide pour satisfaire aux obligations juridiques.”

Nathalie Smuha ajoute que l’objectif du futur outil d’évaluation est aussi de servir d’instrument pour favoriser la création d’un “écosystème autour de l’outil, un espace où des personnes impliquées dans l’IA puissent échanger des conseils, leurs expériences, de bonnes pratiques… Cet écosystème peut s’avérer utile pour les auteurs de l’outil afin de savoir comment le faire évoluer.”

 

Nathalie Smuha (AI4Belgium): “Favoriser la création d’un écosystème autour de l’outil, chose qui peut s’avérer utile pour les auteurs de l’outil afin de savoir comment le faire évoluer.”

 

Où en sont les travaux du groupe de travail belge?

Le processus de développement de l’outil d’évaluation belge a franchi le stade du mock-up permettant de juger de l’apparence qu’aura l’interface. Même si la version actuelle ne sera pas forcément la version finale…

Suite à la présentation de ce mock-up, de nouveaux feedbacks sont attendus. En ce compris d’ailleurs en dehors des frontières belges puisque la maquette sera soumise pour avis aux membres du High-Level Expert Group européen qui est à l’origine de la liste ALTAI.

Un questionnaire structuré, aménageable, assorti d’exemples et de liens vers différentes ressources. (Mock-up préliminaire. Groupe de travail Ethique & Juridique. AI4Belgium)

Prochaine étape: la conception proprement dite de l’outil, sur base d’une liste finalisée de fonctionnalités. Certaines d’entre elles seront priorisées, certains choix risquant de devoir intervenir en fonction du budget de développement qui sera mis à disposition.

D’ici quand peut-on espérer un atterrissage? Sans doute d’ici un an, à condition que le budget soit libéré au niveau du SPF BOSA. Le dévoilement de la solution pourrait intervenir lors de l’AI Week 2023.

Un autre agenda, nettement plus éloigné, imaginait un lancement “dans le cadre de la présidence belge de l’Union européenne” (celle-ci interviendra au premier semestre 2024).

Le délai paraît long. Le marché, lui, n’attendra pas. D’autant que l’outil d’évaluation n’aura rien de coercitif. Tout juste un guide à suivre ou non…