Derrière les chiffres du nouveau super-calculateur wallon “Lucia”

Article
Par · 23/11/2022

Le nouveau supercalculateur “Lucia”, 12 fois plus puissant que son prédécesseur (“Zenobe”).

Il avait fait son temps. Largement. Son fonctionnement avait commencé à donner des sueurs froides à son propriétaire depuis environ un an, devant en passer par de la récupération, voire achat, de certains éléments pour compenser la fin de vie de quelques autres.

Ce “il” en question? Le supercalculateur Tier-1 “Zenobe” géré par Cenaero pour les besoins de la communauté des chercheurs belges francophones et des entreprises, opérationnel depuis 2014.

Son remplacement était prévu depuis déjà quelques années: décision formelle, approuvée par le gouvernement, prise dès 2018 ; attribution, par le gouvernement wallon, d’un budget de 10 millions d’euros en juin 2020. Ce n’est toutefois qu’à l’automne 2021 (voir plus loin) que la commande avait pu être passée. Son successeur, répondant au doux nom de Lucia (en référence à Lucia de Brouckère – voir encadré ci-dessous), sera opérationnel au début 2023. Déjà installé dans les locaux de l’A6K à Charleroi (dans une salle spécialement aménagée pour la circonstance), il passe actuellement par une phase de réglage et d’optimisation.

Lucia De Brouckère est une grande figure de la scène scientifique belge. Professeur de chimie physique et analytique dès la fin des années 20, elle devient directrice, en 1944, de la Section des Industries chimiques au Ministère des Affaires économiques du gouvernement belge en exil à Londres. Après la guerre, elle devient professeur de chimie générale, chimie analytique et chimie physique à l’ULB où elle réorganise le département de chimie.
Collaboratrice, au début des années 50, d’Ilia Prigogine, elle joue un rôle important dans ses travaux en thermodynamique. Lucia De Brouckère se voit décerner le prix Adolphe Wetrems en 1953 pour ses propres travaux dans le cadre du laboratoire de minéralogie et d’analyse (le prix Wetrems est décerné à des “chercheurs à l’origine d’un progrès scientifique significatif et récent”).
À partir de 1965, elle rejoint le conseil d’administration des institutions internationales de physique et de chimie de Solvay.

Les performances et capacités intrinsèques de Lucia (voir l’encadré en fin d’article) lui valent de figurer à la 245ème place dans le classement Top500 mondial des supercalculateurs (un classement qui inclut aussi bien les “bécanes” Tier-0 – les supercalculateurs les plus puissants, tels ceux relevant de la stratégie EuroHPC – que les Tier-1, superordinateurs à finalité davantage régionale).

Petite comparaison: en 2014, Zenobe se pointait à la 300ème place dans le classement Top500 de l’époque. Un classement qui, entre-temps, a profondément changé de visage, avec des performances toujours plus décoiffantes. Aujourd’hui, le supercalculateur qui arrive en tête de peloton revendique des performances fort peu modestes dépassant l’exaflops… Il s’agit en l’occurrence du “Frontier”, un supercalculateur américain, hébergé au Oak Ridge National Laboratory, qui est pointé à 1,102 exaflops. Architecture: HPE Cray EX235a, processeurs AMD EPYC 64C 2GHz, et pas moins de 8,73 millions de noeuds !

Le LUMI européen (Large Unified Modern Infrastructuresuper-ordinateur EuroHPC Tier-0, installé dans le datacenter de CSC à Kajaani, en Finlande) s’est par ailleurs hissé dans le Top 10. Puissance: 152 pétaflops et 1,11 million de noeuds.

Entrée en service retardée

En principe, si les plans de départ avaient pu être respectés, Lucia serait entré en service dès 2021 (fin du deuxième semestre). Le retard n’est pas dû à une quelconque réticence ou lenteur gouvernementale (on a vu que l’accord de renouvellement avait été acquis dès 2018 et le budget prévu dès 2020) mais davantage pour des raisons procédurales et logistico-technologiques.

Côté procédure, la sélection du remplaçant de Zenobe est passée par une procédure de marché avec concurrence qui a impliqué deux phases (au lieu d’une seule comme par le passé): appel à candidatures, négociation après pré-sélection. “Cela prend plus de temps mais nous procure aussi plus de garantie en termes d’adéquation de la proposition avec les besoins de l’écosystème”, souligne Philippe Geuzaine, directeur général du Cenaero.

Côté “logistique”, une partie du retard est due aux problèmes d’approvisionnement en composants électroniques que connaissent tous les fournisseurs ainsi que leurs clients. HPE ne fait pas exception, même si, se réjouit Philippe Geuzaine, le retard encouru est minime comparé à ce que certains autres clients subissent. “Tous nos contacts nous confirment que nous avons eu de la chance…”

En phase avec son temps

De par sa structure intrinsèque et la nature de ses composants, Zenobe était principalement utilisé par des chercheurs et porteurs de projets devant confier à une “grosse bécane” le soin d’effectuer des calculs essentiellement de type statistique, avec toutefois déjà des charges davantage orientées simulation (les centres de recherche tels que le Cenaero en sont friands). Mais il ne pouvait par exemple pas faire face à des applications conteneurisées. Ou satisfaire aux exigences que posent les modèles IA de nouvelle génération.

“Zenobe”, résume Philippe Geuzaine, directeur du Cenaero, “c’était l’âge des équations physiques. Lucia est paré pour la gestion des métadonnées.”

Lucia est en effet sensiblement plus orienté simulation, traitements complexes de gros volumes de données… Plus en phase avec les usages nouveaux ou futurs qu’imposent ou que permettent l’intelligence artificielle, l’apprentissage automatique ou profond… Quels que soient les secteurs ou domaines visés – santé, climat, environnement, industrie, cybersécurité, astrophysique… Pour espérer accrocher le train de la stratégie EuroHPC, ce saut de génération était d’ailleurs inévitable, permettant à la Région wallonne de s’insérer dans les schémas et objectifs R&I et industriels de l’Europe, via le réseau HPC (high performance computing) en cours de constitution.

Lucia atteint donc la puissance agrégée de quasi 4 pétaflops, soit 4 millions de milliards d’opérations en virgule flottante par seconde. L’infrastructure et les composants qui le composent devraient en principe lui permettre une longévité – et une pertinence – de cinq à sept ans. A noter que la capacité système pourra encore être renforcée. Le taux d’occupation des baies n’est en effet pas totale: environ 15% restent libres. De quoi insérer des baies et composants de future génération.

Des usages qui prendront forme au fil du temps

Cette possibilité d’extension et d’adjonction de composants et de technologies nouvelles (des processeurs ARM, par exemple) permettra à Lucia de s’adapter aux besoins et usages, dont certains sont sans doute difficilement prévisibles à l’heure actuelle. “On s’attend à ce que les usages évoluent”, déclare Philippe Geuzaine. “On constate en effet, partout dans le monde, que la part des GPU est de plus en plus prédominante. C’est un phénomène qui est à l’oeuvre depuis déjà quelques années et qui devient une véritable lame de fond. On est passé du monde des équations physiques à celui du traitement des données. Voici cinq ans, le taux d’utilisation des données était encore faible. Aujourd’hui, on se dirige d’ores et déjà vers un équilibrage entre les cycles dédiés à ces deux types d’usage.

Il est certain qu’avec l’entrée en service de Lucia, nous allons découvrir de nouveaux utilisateurs…”

Lucia étant une nouvelle génération de supercalculateur, les utilisateurs (qu’ils viennent des rangs de ceux qui utilisaient déjà Zenobe ou qu’ils soient nouveaux) devront découvrir cette nouvelle plate-forme, ses capacités et ses spécificités. Notamment pour “porter” efficacement certaines applications existantes.

Dans l’immédiat, c’est-à-dire dès la fin de ce mois de novembre, Lucia sera rendu accessible pour des beta testeurs, selon un échantillonnage “représentatif de l’écosystème, des usagers prêts à porter leurs outils sur Lucia”, explique Philippe Geuzaine. “Les retours que nous avons à ce jour d’utilisateurs “avancés” – tels que les chercheurs académiques ou les propres collaborateurs de Cenaero qui utilisent déjà le super-ordinateur EuroHPC Tier-0 LUMI – sont encourageants. Ces utilisateurs, familiers du LUMI, ont en effet déjà porté leurs outils et applications. Or, les infrastructures CPU de LUMI et de Lucia sont identiques…”

Aujourd’hui, poursuit Philippe Geuzaine, “on ne migre que les utilisateurs dont les projets et recherches n’exigent que des noeuds CPU. Sur Zenobe, on ne disposait en effet que de deux GPU pour des visualisations et simulations à distance…”

Après cette phase ouverte aux testeurs bêta, appel sera lancé à l’ensemble de la communauté des chercheurs belges francophones (sans oublier les entreprises intéressées) à migrer vers le nouveau supercalculateur.

L’opération de portage/migration devrait donc être facilitée par cette similitude d’infrastructure (CPU) mais aussi par la similitude d’environnement de développement [du Cray pour du calcul hautes performances] et le fait que, depuis de nombreuses années, les caractéristiques du supercalculateur Tier-1 et des systèmes Tier-2 du réseau CECI (Consotium des Equipements de Calcul Intensif] sont alignées.

“Il y aura certes sans doute des difficultés mais rien de bloquant…”

A 85% dédié recherche

Le supercalculateur Lucia est essentiellement destiné à la communauté scientifique (centres de recherche tels que Cenaero, labos et chercheurs universitaires – qui ont un accès gratuit, avec condition expresse de partager les résultats avec la communauté et de communiquer leurs indicateurs de dissémination/mutualisation).

85% des temps de cycle et de la puissance calcul devraient en effet leur être réservés. Les entreprises, petites ou grandes, venant de Wallonie ou d’ailleurs, auront donc droit à 15%. Un pourcentage toutefois encore mis au conditionnel, dans la mesure où la ventilation précise doit encore être validée par le gouvernement. Une décision (ou une confirmation) qui devrait tomber “incessamment sous peu”, en même temps que la confirmation du budget supplémentaire de 4,5 millions (impliquant un avenant à la convention initiale), destiné à financer le fonctionnement proprement du système et à couvrir les frais de personnel qui lui est affecté.

Lucia en chiffres

Puissance agrégée : 3,839 pétaflops (1,1 Pflops pour la partie CPU ; 2,72 Pflops pour la partie GPU). La puissance agrégée est 12 fois supérieure à celle que pouvait développer Zenobe.
Répartition : un “îlot” de 300 noeuds CPU ; un “îlot” de 50 noeuds GPU ; et un volet “hybride” fait de noeuds CPU associés à une mémoire plus généreuse (4 TB) et deux noeuds GPU “optimisés” pour des tâches et calculs de type Intelligence Artificielle (mémoire et nombre de GPU doublés).
Mémoire: 121 To
Stockage: 3 Po (SSD et disques classiques)
Archivage : 4 Po (sur bandes)
Connexions entre noeuds par fibre optique
Connectivité externe: 10 Gbps, assurée par le POP que Belnet installera d’ici février à l’A6K – du 10 Gbps donc, que ce soit pour les utilisateurs, les connexions vers les systèmes des universités, ou vers l’infrastructure d’archivage (infrastructure hébergée dans un datacenter situé sur le sol belge)
Système de refroidissement: eau réfrigérée pour les CPU (technologie InRow RC de Schneider Electric), air pulsé pour les autres composants
Fournisseur : HPE (technologie Apollo) – signalons que quatre candidats avaient été pré-sélectionnés pour remplacer Zenobe
Intégrateur : Axians (Vinci Energies)