L’IA pour interpréter les émotions humaines. Jusqu’où ira-t-on?

Source: MoodMe.

Mesurer l’efficacité d’un site Internet, de son contenu, d’une action marketing, du lancement d’un produit, de l’organisation d’un webinaire, etc. etc. en analysant et décortiquant les “émotions” des participants ou de la “cible”. Vieux mirage ou perspective donnant (aussi) froid dans le dos? Un peu des deux sans doute.

C’est en tout cas sur ce thème que s’est focalisé un projet de recherche de trois ans (qui arrive à échéance, sauf prolongement exceptionnel pour cause de Covid) auquel s’est livrée une équipe de recherche de l’UMons dans le cadre d’un projet porté par la start-up MoodMe.

On connaît déjà ces outils déclaratifs qui s’affichent sur certains écrans, certaines pages Internet, certaines applis et qui demandent à l’internaute de cocher l’émoticone qui correspond le mieux à leur ressenti ou à l’impression qu’il retire de l’interaction qu’il a eue. Il y a aussi, un chouia plus intrusif (mais exigeant un avertissement préalable), l’usage de la webcam ou d’une caméra pour capter l’expression du visage et déterminer (plus ou moins) le “ressenti” du quidam. Réglementation sur la protection de la vie privée oblige, cette pratique est sensée être clairement encadrée et balisée.

Aujourd’hui, l’intelligence artificielle, déjà utilisée pour l’analyse d’images notamment à des fins d’identification de personnes, est pressentie (et d’ailleurs déjà parfois utilisée) pour mieux cerner et identifier les émotions des internautes, clients, spectateurs et tutti quanti…

Voilà qui soulève énormément de questions – tant purement techniques et pratiques qu’éthiques et juridiques.

La technique

Deux modes d’identification et d’analyse des émotions existent pour l’instant, explique Matei Mancas, chercheur spécialisé en modélisation computationnelle de l’attention et par ailleurs fondateur de la spin-off Ittention, émanation de l’UMons.

>> Sept émotions de base

D’une part, l’interprétation, via algorithmes, des sept expressions dites de base ou primaires (joie, tristesse, surprise, colère, peur, dégoût, mépris). Une technique qui exige qu’un certain nombre de conditions soient respectées. A commencer, souligne Matei Mancas, par la qualité des bases de données sur lesquelles entraîner les algorithmes. “Il faut les nettoyer, éliminer les biais.” Des biais qui sont parfois aussi élémentaires qu’une prédominance de visages d’hommes blancs ou de personnes affichant un visage réjoui… “Les autres émotions sont parfois sous-représentées”, ce qui risque d’aiguiller l’“intelligence” de l’algorithme dans une mauvaise direction.

Il y a aussi le “nettoyage” à effectuer sur des paramètres tels que mauvaise qualité d’image, éclairage insuffisant, main qui masque une partie du visage…

Autre piège et source de biais: la “véracité” de l’image. L’émotion captée est-elle spontanée, authentique, saisie dans la “vraie vie” ou est-elle simulée pour les besoins de la constitution de la bibliothèque ou la réalisation de telle ou telle étude?

Matei Mancas (UMons, Ittention): “Le plus difficile en matière de deep learning pour ce genre d’application est de disposer d’une bonne base d’images, non biaisée, non erronée…”

N’oublions pas aussi les imperfections humaines. Non pas celles, physiques, d’un visage (même si, dans certains cas, elles risquent d’avoir une incidence sur le travail d’identification). Mais plutôt le travail d’annotation (étiquette, tags, labels, métadonnées…) auquel il faut nécessairement procéder pour qualifier, décrire les émotions figurant sur les images. “Il arrive que le label associé à une image soit erronée”. La main de l’homme a par exemple encodé triste alors que l’individu-témoin est mort de rire…

Erreur humaine, volontaire ou involontaire. Qui peut se produire d’autant plus fréquemment, souligne Matei Mancas, que ce travail de bénédiction des temps modernes est souvent confié à des cohortes d’individus sous payés, dans des pays à (très) bas salaires, travaillant à la chaîne et à longueur de journée, pour labelliser des images… Par milliers…

Quid des biais culturels? A quel point les sept émotions “primaires” sont-elles réellement universelles? A la base des techniques d’identification de ces émotions, souligne Matei Mancas, il y a, du moins en partie, les travaux d’anthropologiques. Donc le socle est raisonnablement sérieux. Même s’il y a bel et bien des spécificités culturelles qui influencent la manière dont s’expriment ou se reflètent les émotions sur le visage.

Mais aux yeux de ce spécialiste, l’écueil majeur demeure la prédominance des visages d’Européens ou d’Américains blancs dans les bases d’images. “Il a déjà été démontré que certains modèles [algorithmiques] existants sont mauvais ou inefficaces sur des visages de noirs, par exemple. Par manque de visages de référence.
Raison pour laquelle, à l’UMons, nous travaillons également sur un modèle d’ethnicité” pour virer les biais…

D’une manière générale, les algorithmes et solutions du marché reposent donc “sur un travail le plus générique possible”. Histoire d’être utilisable partout dans le monde. “Bien évidemment, si on voulait lancer une appli à destination du marché chinois, par exemple, il faudrait rentraîner le système…”

Le recours à la caractérisation des sept émotions de base est en tout cas ce qu’utilise par exemple jusqu’à présent MoodMe dans ses solutions.

MoodMe avait toutefois besoin de faire évoluer le potentiel de “calcul” d’émotion afin de le rendre utilisable sur smartphone. Dans le cadre du projet de recherche, en partie financé par la Région wallonne, les chercheurs de l’UMons se sont donc attelés à adapter les réseaux neuronaux, en trouvant d’autres moyens que les techniques de compression “insuffisantes pour le but recherché”. Des réseaux neuronaux qui soient suffisamment légers et néanmoins efficaces et rapides pour s’installer dans nos précieux assistants mobiles.

>> Expressions faciales et réactions physiologiques

Autre piste, toujours sur base d’algorithmes et de réseaux neuronaux mais selon des éléments d’analyse différents et plus complexes: la méthode FACS – Facial Action Coding System. Définition? Il s’agit d’une méthode de description des mouvements du visage développée à l’origine par les psychologues Paul Ekman et Wallace Friesen, dès… 1978. Le socle: l’étude des muscles du visage et de ceux qui sont activés pour chaque émotion. Et ce, pour un panel d’émotions plus large et plus varié que les 7 “primaires”. Cette technique est censée ouvrir la voie vers une “lecture” d’émotions où se combinent plusieurs états émotionnels, ou encore en tenant compte par exemple de l’influence de la fatigue sur l’expression de la joie…

Ici encore les prémices de la technique sont scientifiques, donc, a priori, fiables et exploitables. Mais toute une série de questions se posent quand on s’aventure sur le terrain FACS, souligne Matei Mancas. Des exemples? Un moins grand nombre de bases labellisées selon la technique FACS. L’inefficacité, de manière plus fondamentale, à détecter une vingtaine de positions des muscles qui, pourtant, caractérisent telle ou telle émotion. “On détecte actuellement une vingtaine de positions”. Et ce, dans le meilleur des cas, c’est-à-dire lorsque la base de données est pertinente.

Et là réside l’un d’un gros soucis. La qualité ou pertinence de la base de référence. Car les pièges et écueils sont similaires à ceux évoqués pour les bases utilisées pour qualifier les sept émotions de base. Il faut donc vérifier les conditions dans lesquelles elles ont été constituées: qualité des images, description exacte, sérieux des auteurs, équilibre ethnique et/ou culturel de la cohorte…

Alors, où trouver ces bases de référence FACS?

Source: UMons / MobFaceNet.

“Il est plus difficile de trouver des bases FACS”, souligne Matei Mancas. “Certaines sont utilisables [autorisées comme telles par leurs auteurs] uniquement à des fins de recherche. La difficulté s’accentue quand on veut s’en servir pour lancer un produit, une appli ou un service sur le marché.”

Il existe aussi des bases qui pourraient servir de point de départ mais elles ont été développées par un thésard et sont tombées en déshérence. Incomplètes, non actualisées, voire insuffisamment documentées…

Certaines bases ont été élaborées pour des finalités d’étude psychologique: “Ces bases de données sont souvent très “propres”. Mais elles présentent certaines lacunes. Il arrive souvent que les photos de référence aient été prises de manière artificielle: dans un labo, sur un fond neutre… Une confrontation avec des images prises dans la “vraie vie”, un peu n’importe comment, pose alors problème.

D’autant que pour les besoins de la thèse (par exemple), l’étudiant ou le chercheur a sélectionné des individus de référence qu’il avait sous la main. Donc pas très diversifiés. Bonjour les biais – ou encore par exemple, souligne Matei Mancas, “une sous-représentation de femmes puisqu’on évolue dans un cadre éducatif scientifique… Souvent, 70% de la base consiste en étudiants ou collègues, ou en ingénieurs hommes, majoritairement blancs…”

La qualité des annotations et labellisations est aussi un écueil fréquemment rencontré: “le groupe de recherche ou le thésard, pour gagner du temps, a procédé à une classification d’images semi-automatique sur base d’un modèle d’émotion existant. Qui n’est pas forcément adapté. Ou bien ils ont eu recours aux “fermes” d’annotateurs bon marché que nous évoquions plus haut… Qualité et pertinence pas forcément au rendez-vous…

Faut-il dès lors constituer de nouvelles bases FACS? C’est une piste mais ce sera un long chantier – de l’ordre de deux ans ou plus – pour obtenir un résultante valable !

Le projet de l’UMons

Pour les besoins du projet, effectué, pour rappel, pour les besoins de MoodMe, les chercheurs de l’UMons se sont attelés à “disposer d’un maximum de modèles pour l’extraction d’un maximum de caractéristiques du visage”. Des modèles qui gèrent spécifiquement des cas d’espèce tels que l’âge, le genre, l’ethnicité, port ou non de masque (un effet Covid…).

Qui dit multiplicité de modèles suppose aussi un besoin de puissance de calcul décuplé et des tests poussés pour déterminer l’interaction ou les influences croisées entre plusieurs modèles aux thématiques différentes. Deux exemples…

Fatigué? Déçu? Apeuré? Un peu de tout?

Dans telle ou telle circonstance, pour telle ou telle émotion, un jeune sera-t-il plus expressif qu’une personne âgée? Tel modèle est-il plus efficace sur les femmes ou sur les hommes, sur les jeunes ou sur les personnes plus âgées? …

Côté taille des modèles et puissance de calcul, le travail est encore loin d’être terminé pour adapter la solution multi-modèles à l’“empreinte” limitée des smartphones.

Le projet (pour rappel, financé par la Région) arrive à son terme. Avec éventuel prolongement de quelques mois, octroyé pour cause d’interruption Covid. Mais, pour poursuivre les travaux au-delà de cette échéance, l’UMons devra nécessairement trouver de nouveaux financements. L’équipe, toutefois, est bien décidée à continuer dans la mesure où la piste de solutions embarquées (exploitables et opérationnelles en mode mobile voire sur objet connecté) constitue une originalité – et une différenciation – par rapport aux multiples développements qu’inspire l’interprétation des émotions. Généralement, en effet, notamment pour des raisons de puissance de calcul, c’est en effet vers des solutions desktop ou des infrastructures basées dans le cloud que s’orientent les développements…

Aboutir à une solution embarquée constituerait un précieux argument différenciateur, estime Matei Mancas. “Pas besoin de devoir envoyer les images vers les serveurs d’un GAFA ou d’un BATX”. Avec toutes les implications que cela suppose: moins de risque de piratage, préservation de la confidentialité, non exploitation à des fins mercantiles inavouées, dépendance vis-à-vis des plates-formes, efficience énergétique…

L’éthique… “by design”

Jusqu’où peut-on ou pourra-t-on aller? Doit-on s’attendre à ce que l’Europe définisse un cadre sur l’utilisation “vertueuse” de ces techniques FACS? Pour en faire un différenciateur mais aussi une source de progrès en recherche et en applications, tout comme la “reliable AI” (“l’IA de confiance”) est devenue un argument?

La ligne rouge sera sans doute difficile à définir. D’autant plus – on ne le sait que trop bien – que les usages peuvent souvent trouver des champs inattendus et que les dérapages ou abus sont le revers de la médaille humaine…

Un exemple? Une fois les bases de données constituées et, de préférence, vérifiées et validées par des professionnels compétents et de confiance, une fois les mécanismes (algorithmes, réseaux neuronaux…) conçus et vérifiés, pourrait-on franchir le pas de l’utilisation prédictive voire prescriptive de solutions FACS?

Les types d’applications potentielles sont légion: “guider” un acheteur en fonction de l’“émotion” ressentie (ou suscitée?) ; permettre à une société d’anticiper ainsi ses réactions et choix et d’adapter les propositions en conséquence ; optimiser le comportement ou la démarche de commerciaux ou encore le fonctionnement en équipe ; conseiller à un individu la manière de rendre ses présentations plus efficaces lors de webinaires et autres vidéo-réunions ; de même, aider un enseignant à mieux capter l’attention de ses élèves ; aider un professionnel des soins de santé à adapter son discours, voire ses prescriptions, en fonction de l’état émotionnel du patient ; etc. etc.

On le voit, les objectifs, parfois, peuvent être méritoires, “respectables”, mais on flirte bien souvent avec une frontière intangible et friable…

La reconnaissance des émotions sera-t-elle jugée plus sensible que la reconnaissance (automatisée) des visages qui, ces derniers temps, suscite de nouveaux débats? Pour Matei Mancas, le degré de sensibilité ou les implications sont sensiblement différents. “Si la reconnaissance des visages est aujourd’hui remise en question, c’est parce qu’elle permet de mettre un nom sur un visage, de retrouver un individu sur une vidéo, de le “tracer” à long terme… Du côté de l’identification des émotions, on parle plutôt d’une utilisation qui n’est pas liée à un processus d’identification personnelle. On agrège et compare les données avec une cohorte, avec d’autres personnes.”

Mais il reconnaît qu’on ne saurait nier la possibilité d’utilisations à des fins néfastes ou dommageables ou qui pousseraient le “bouchon” trop loin. “Il est dès lors important de définir un cadre légal et éthique.

Il faut adopter une démarche “ethics by design” dès le tout début d’un projet. Par exemple, entraîner un algorithme et effacer immédiatement les données sur les visages des individus sur lesquels on s’est basé pour l’exercice d’entraînement. Ou encore en prenant toutes les garanties possibles et imaginables pour qu’un hacker qui prendrait le contrôle d’une application mobile ne puisse pas, par la même occasion, mettre la main sur des données…”

Le problème, une fois encore, est que la frontière est ténue, floue, mouvante. Exemple: certaines pratiques en Chine où on ne sait plus très bien si on est dans de la reconnaissance de visage, dans de l’identification d’émotion ou sur un savant mélange des deux – de quoi brouiller encore un peu plus le cadre à définir.

Nous pensons ici à un cas précis d’utilisation que font les autorités chinoises de l’image et de l’IA. Avec de claires implications en termes de diktat comportemental. A savoir… l’utilisation de l’analyse d’images, pilotée et analysée par algorithmes, pour déterminer si… un élève, un étudiant est attentif en classe ! On est à la fois dans de l’identification d’individu et dans l’identification de son attitude, voire de ses “émotions”. Les élèves et étudiants tentent certes de tromper le système en fixant la caméra, sans broncher un muscle, pour ne pas se faire étiqueter “bailleur”, “distrait” etc. mais le scénario existe bel et bien.

Dès lors, l’éthique de conception devra baliser, au cas par cas, les finalités poursuivies – selon un schéma similaire aux balises que définit par exemple le RGPD.

Pour rester dans cet exemple d’utilisation de l’identification visage/émotion en classe, une exploitation “à la chinoise” serait bannie tandis qu’on accepterait la finalité d’aide à l’amélioration des techniques et pratiques pédagogiques, pour aider l’enseignant à mieux captiver son auditoire?

Un projet en ce sens a en tout cas été lancé du côté de la fac de psychologie de l’UMons. “Apprendre aux professeurs à apprendre des attitudes et réactions de leurs élèves, pour lutter contre la perte d’attention”. Avec garantie que les données collectées pour créer le modèle analytique ne seront pas conservées. Et que l’on ne visera pas un individu (élève, étudiant) en particulier.

Regional-IT Toute l'information sur les startups et les TICs en région Wallonie-Bruxelles

La technique

>> Sept émotions de base

>> Expressions faciales et réactions physiologiques

Le projet de l’UMons

L’éthique… “by design”

Thèmes

Regional-IT Toute l'information sur les startups et les TICs en région Wallonie-Bruxelles

L’IA pour interpréter les émotions humaines. Jusqu’où ira-t-on?

La technique

>> Sept émotions de base

>> Expressions faciales et réactions physiologiques

Le projet de l’UMons

L’éthique… “by design”

Découvrez-nous sur Facebook

Suivez-nous sur Twitter

Retrouvez-nous sur LinkedIn

Thèmes

Connectez-vous à votre espace membre sur Régional-IT