Douze projets open data en guise de travaux pratiques à l’UNamur

Article
Par · 10/12/2019

Cela devient une tradition à l’UNamur: les étudiants de 1ère et 2ème master – filières Sciences mathématiques (finalité Data Sciences), Ingénieurs de gestion et Sciences informatiques – challengent leurs compétences théoriques en devant porter un projet concret exploitant des jeux d’open data.

Le thème, cette année, était “l’open data au service des défis environnementaux”. Sur base de ce fil rouge relativement générique, les étudiants, constitués en équipe de 3 personnes, pouvaient donner libre cours à leur imagination – ou à leurs préférences.

Pour donner encore plus de poids à l’exercice, le projet intervient dans leur évaluation finale.

Autre particularité – et intérêt – de l’exercice: un travail en équipe pluridisciplinaire puisque, dans la mesure du possible et des contingents disponibles, ils étaient invités à faire collaborer les trois types de profils (matheux, ingénieur de gestion, informaticien). Le but, souligne Benoît Frenay, responsable de la finalité Data Sciences à la Faculté d’Informatique, est de faire de rencontrer et interagir des sensibilités différentes – vision purement technique, problématiques métier… Mais ce n’est pas toujours possible, compte tenu du fait qu’il y a davantage d’étudiants en ingénieur de gestion qu’en informatique…”.

Pour ce qui est de la mixité, faisons un rapide petit détour par l’équilibre des genres: cette année, les filles représentaient environ un quart des effectifs, venues surtout des filières ingénieurs de gestion et, un peu moins, de l’orientation Maths. Par contre, leur pénurie est toujours aussi flagrante du côté de l’informatique…

Douze projets

Parmi les 12 projets, que nous listons plus exhaustivement en fin d’article, nous en avons sélectionné trois – sans vouloir privilégier l’un ou l’autre mais simplement pour expliquer la démarche des étudiants, les obstacles qu’ils ont rencontrés et les leçons qu’ils en ont retirées.

Une des équipes s’est concentrée sur la problématique de la mobilité à Bruxelles. Mobilité douce, plus exactement – les moyens de transport étudiés étant le train, le bus, le vélo (partagé) et la voiture partagée. Le but était de déterminer quelles communes étaient le mieux desservie et de comparer cela avec la densité et les besoins de la population.

Un projet pour quantifier et juger de la pertinence des infrastructures de mobilité douce à Bruxelles…

Pour leur projet, les étudiants ont utilisé des jeux de données provenant de la STIB, de la SNCB, de Villo ainsi que des jeux de données socio-démographiques (niveau de revenu médian, registres de population…).

Par contre, ils ont fait chou blanc en termes de données d’utilisation des infrastructures… “Nous n’avons donc pas pu pousser l’analyse plus loin alors qu’il aurait été intéressant de voir dans quelle mesure des infrastructures disponibles, par exemple dans les communes qui sont bien desservies, sont réellement utilisées.” Pour sensibiliser éventuellement les habitants à y avoir davantage recours ou pour éviter des investissements futurs inutiles…

Technique d’analyse utilisée par l’équipe: l’ACP (analyse de composantes principales), avec réduction des paramètres en deux dimensions: l’infrastructure (intensité, disponibilité) sur l’axe horizontal et le niveau socio-démographique de chaque commune sur l’axe vertical (âge, niveau de revenu…).

L’exercice réalisé par les étudiants namurois a confirmé un phénomène que les Bruxellois connaissent bien: les communes les plus pauvres sont moins bien desservies. Uccle, par contre, est très bien desservie – en nombre de gares (pas moins de cinq même si quatre sont mineures), nombreux arrêts de bus… Par contre, peu de voitures partagées.

Autre angle d’analyse: le degré de proximité des arrêts de bus par rapport à la densité de population. Là encore, Uccle “cartonne” par rapport à d’autres communes (aisées ou non), si l’on procède à l’évaluation uniquement en fonction du nombre d’habitants.

Par contre, comme on l’a vu plus haut, objectiver l’utilisation réelle de l’infrastructure aurait été un plus. Si les données avaient été (librement) disponibles…

Une autre équipe a analysé la congestion du métro de Londres afin de faire émerger des recommandations dont les autorités de la ville pourraient se servir pour en fluidifier la fréquentation et, de manière plus large, la fluidité du trafic. Une carte a ainsi été dressée, représentant cinq catégories de stations, selon leur degré de congestion (une congestion exprimée en fonction du degré d’occupation des rames passant par cette station pendant les jours de semaine). Avec dans la foulée, proposition d’amélioration par création de lignes de bus ou ajout de rames.

“En cartographiant la congestion interne du métro, on peut en déduire que tel ou tel jour de la semaine, à telle ou telle heure, un usager trouvera difficilement de la place s’il embarque dans certaines stations. Cela peut aider les usagers à mieux choisir leur station d’embarquement.” Pour les responsables municipaux, ce genre d’analyse pourrait donc être utile pour imaginer des solutions alternatives ou déflationnistes.

Quels pays sont les plus vertueux en termes de respect de l’environnement d’un point de vue agricole?

Troisième exemple épinglé: le projet “Sensibilisation sur la pollution liée à l’agriculture”. Le trio a eu recours à des jeux de données de FAOstat (Organisation des Nations Unies pour l’alimentation et l’agriculture) et les données de PIB des pays (chiffres entre 1980 et 2015).

Le but du projet: comparer l’impact de différents facteurs – utilisation de pesticides, de fertilisants, production de carbone. En appliquant trois filtres d’analyse (type de polluant, PIB, année), les étudiants ont dressé une série de cartes permettant de comparer entre eux les pays de la planète, avec une focalisation plus précise sur les pays les plus riches (Europe occidentale, Amérique du Nord et du Sud, Chine, Russie…) et une comparaison entre pays comparables (en termes de richesse et de production agricole).

“Le plus difficile a été de comparer différents types de données. Pour analyser et comparer les pays et les années, nous avons dû normaliser.”

L’exercice ne donne pas que des résultats purement chiffrés et théoriques. Non seulement, cela permet de pointer les pays les moins “vertueux” en termes d’usage de pesticides, par exemple, mais aussi de confronter le taux d’utilisation de produits polluants avec la productivité.

“Un autre angle d’attaque intéressant – mais nous n’avions pas le temps de le développer – aurait été d’ajouter une analyse en fonction du caractère exportateur ou importateur de chaque pays…”. 

Des projets “formatifs”

Pour mener leurs projets à bien (en l’espace de deux mois), les étudiants n’ont pas été totalement livrés à eux-mêmes mais l’accompagnement fut minimal afin de les amener à se débrouiller et à apprendre par eux-mêmes. “Toutes les deux semaines, le point était fait sur le projet”, indique Benoît Fresnay. “Nous les avons un peu conseillé par exemple lorsque nous nous apercevions qu’ils n’avaient pas forcément choisi les meilleurs outils pour atteindre leur objectif. Mais ils devaient par exemple sélectionner eux-mêmes les jeux de données, la méthode d’analyse…”

Et ils ont aussi appris “sur le tas” à trouver des outils permettant d’améliorer la qualité de certaines données.

Les seules vraies ficelles qu’ils aient reçues des enseignants, ce sont des conseils pour “pitcher” utilement le projet, que l’audience soit un parterre de profs ou de possibles futurs partenaires et clients. 

Qu’en disent les étudiants eux-mêmes? Qu’ont-ils retiré de l’expérience?

“L’intérêt d’un tel projet est de nous faire travailler sur une application réelle, avec de vraies données et des problèmes réels. Les données ne sont pas “lisses” – parfaites – contrairement à ce à quoi on a droit en cours. Nous avons donc du trouver et utiliser des outils pour arriver à un résultat. Le projet nous a aussi ouvert les yeux en matière de statistiques. On a pu constater combien le choix d’une variante plutôt qu’une autre peut réellement changer la vision du résultat. Dans notre cas, nous avons par exemple choisi comme variante socio-démographique le revenu médian des habitants d’une commune. Si l’on fait le même exercice avec le revenu moyen, on constate que le positionnement d’une commune peut être tout-à-fait différent.” Dixit le trio d’étudiants qui s’est concentré sur la mobilité douce à Bruxelles. 

“En cours, nous avions étudié la technique que nous avons utilisée (le clustering) mais de manière brute, en quelque sorte. Le projet nous a permis d’appliquer la technique à une application concrète. Et cela nous a obligé à adapter notre méthode de travail par rapport à l’objectif poursuivi, une chose que l’on n’apprend pas [Ndlr: ou qu’on ne pratique pas] en cours.” Dixit l’équipe “Métro de Londres”.

“Le projet était réellement quelque chose d’excitant parce qu’on est vraiment parti de rien, pour créer quelque chose qui n’existe pas encore. On a dû trouver les données nous-mêmes. D’habitude, les jeux de données nous sont fournis et on s’appuie sur des consignes précises qu’il faut suivre…” Dixit l’équipe “Sensibilisation à la pollution d’origine agricole”.

Quelques projets et thématiques en vrac…

– travail de recensement et analyse de répartition des installations de panneaux photovoltaïques sur le territoire de la Ville de Namur (jeux de données utilisés: des data sets venant de la Ville et de Statbel)

Et puisque l’on parle d’open data, voyez cette étude de Capgemini Invent comparant le “degré de maturité” d’une série de pays – dont le nôtre – en matière de sensibilisation et d’implémentation des open data. La Belgique se situe en milieu de peloton… A lire dans l’article paru aujourd’hui.

– analyse de la répartition des parcs à conteneurs en province de Namur ; analyse par rapport à la densité de population
– prévention des feux de forêt en Corse: identification des zones qui se caractérisent par davantage de départs de feu et développement d’un outil analytique permettant aux pompiers de (mieux) les anticiper
– solution de sensibilisation des agriculteurs à la pollution d’origine agricole
– une analyse comparative des initiatives climatiques (sur les années 2018 et 2019) prises par les grandes villes dans le monde
– développement d’un outil de sensibilisation du grand public à la problématique environnementale, qui prend la forme d’un outil comparant la Belgique à d’autres pays en termes d’émissions de CO2, de consommation d’eau…
– analyse de la congestion du métro de Londres (voir plus haut)
– analyse de la mobilité “douce” à Bruxelles (train, bus, vélo, vélos et voitures partagées) (voir plus haut)
– outil conseillant le type de culture à développer dans son potager ou dans une petite exploitation, afin d’identifier et de cultiver des groupes de produits complémentaires de ce qui existe déjà ailleurs. [ Retour au texte ]