Super-calculateurs wallons: une nouvelle génération dès 2017

Article
Par · 17/01/2017

Lors d’un colloque HPC (High-Performance Computing) organisé fin 2016 par le Cenaero, plusieurs intervenants soulignaient combien il est primordial de maintenir et de continuer à assurer la pertinence technologique des différents super-calculateurs existant en Belgique francophone. Que ce soit au niveau Tier 2 (en l’occurrence les supercalculateurs des différentes universités) ou Tier 1 (le supercalculateur Zenobe du Cenaero).

Plusieurs intervenants semblaient s’inquiéter de certains risques du côté du financement qui est nécessaire pour pérenniser et renouveler les infrastructures existantes. Ils peuvent aujourd’hui avoir leurs apaisements: la mise à niveau des super-calculateurs “Tier2” des universités (voir plus loin dans l’article) est chose acquise et celle du super-calculateur Tier1 “Zenobe” du Cenaero devrait suivre le même chemin. Même si, pour ce dernier, les décisions et les modalités doivent encore être précisées… (voir plus loin dans l’article)

Question de performances et de crédibilité

Depuis 2010, le CECI (Consortium des Équipements de Calcul Intensif) orchestre la mise en commun, au bénéfice des chercheurs, des infrastructures de calcul intensif des 5 universités francophones, chacune disposant d’un super-calculateur dont les caractéristiques et capacités sont spécifiques – et donc complémentaires par rapport à celles des autres. Relire notre article sur le CECI.

Certains disposent de davantage de mémoire, d’autres d’une puissance de calcul plus affûtée ou d’un nombre de processeurs plus important, de telle sorte à répondre aux besoins aussi spécifiques que variables des chercheurs.

Les infrastructures en place, toutefois, ont besoin d’une mise à niveau afin de pouvoir rester au diapason des technologies et des nouveaux types d’usages.

Lors de ce colloque HPC, Martine Raes, vice-présidente Recherche à l’Université de Namur, soulignait toute l’importance de cette mise à jour, parlant d’une infrastructure existante qui était (trop) “modeste, reposant sur des équipements vieillissants. La mise à niveau nous permettra de nous ouvrir à de nouveaux champs disciplinaires ayant trait à la bio-informatique, à la médecine, à la climatologie, aux sciences du vivant…

La qualité et la crédibilité de la recherche en Fédération Wallonie-Bruxelles en dépendent. Car sans Tier2, il ne peut y avoir de Tier1 efficace.” Il est d’ailleurs dans l’intérêt des chercheurs – et de leurs compétences – qu’ils aient accès à ces deux niveaux d’infrastructure.

Philippe Chatelain, de l’UCL, abondait dans le même sens lorsqu’il pointait l’une des spécialités de son université, à savoir la mécanique des fluides. “C’est un knowhow spécifique à la Wallonie, un savoir-faire qu’il faut préserver. Le calcul parallèle hautes performances est, en soi, une technologie mais aussi un catalyseur de technologies.”

Martine Raes (UNamur): “Un renouvellement des infrastructures est cruciale pour la qualité et la crédibilité de la recherche en Fédération Wallonie-Bruxelles. Sans Tier2, il ne peut y avoir de Tier1 efficace.”

Autre exemple d’opportunité à ne pas laisser passer, tel que souligné par Philippe Ghosez, de l’ULg: la science des matériaux. “L’un des défis et l’une des utilités du HPC est de permettre l’identification de nouveaux matériaux et (nano)structures, d’en inventer de nouveaux ou d’adapter les structures existantes.”

On pourrait encore y ajouter bien des exemples, tenant notamment au big data dans l’industrie: modélisation, maintenance prédictive, analyse de données satellitaires, prédiction des seuils de tolérance en aéronautique…

Mise à jour assurée

Les quelques inquiétudes, au sujet du financement de la mise à niveau des infrastructures, que certains responsables académiques et recherche avaient formulées ont été rapidement apaisées. Le jour-même, Jean-Claude Marcourt, invité au colloque du Cenaero, avait déclaré sa “volonté de renouveler les équipements. Les matériels, désormais, n’ont plus une durée de vie de 10 ans. Nous sommes dès lors obligés d’avoir une perspective claire, de savoir vers quoi nous voulons aller dans une région telle la Wallonie.” Il parlait même de “réfléchir à l’après-supercalculateur.” Autrement dit, à la capacité d’inscrire la Wallonie dans une perspective de réseau, de mutualisation [potentiellement en dehors de ses limites géographiques] “afin de supporter les Pôles de Compétitivité. Les équipements de pointe doivent être très partagés afin de supporter tous les Pôles.”

La confirmation du déblocage du budget nécessaire au renouvellement des supercalculateurs Tier2 arrivait aux oreilles des premiers concernés dans les jours qui suivaient. Fin décembre, le gouvernement entérinait la décision.

Les infrastructures HPC (High-Performance Computing) des différentes universités francophones, bénéficieront d’une mise à niveau progressive au cours des prochaines années.

Cette 3ème phase d’investissement en HPC (qui s’étalera de 2017 à 2020) bénéficiera d’une enveloppe de 3 millions d’euros, co-financée par la Wallonie et le FNRS.

Le renouvellement des super-calculateurs se fera selon un déploiement progressif:

– HMem et Lemaître 2 (UCL): 2017-2018

– Dragon1 (UMons), Hercules (UNamur) et Vega (ULB) – 2018-2019

– NIC4 (ULg) en 2019.

La première tranche du financement (un tiers 1/3 du budget total) a été confirmée. Elle permettra de renouveler le cluster Lemaitre 2 de l’UCL et de financer pendant 3 ans le logisticien CECI, qui sera basé à l’ULg.

L’agenda de renouvellement suit simplement une logique d’ancienneté. Voilà pourquoi on commence par le supercalculateur Lemaître 2, livré en février 2012 par HP… Voir en fin d’article, les taux de saturation actuels, tant en Tier 2 qu’en Tier 1.

Un taux d’utilisation qui adopte une courbe exponentielle depuis de nombreuses années…

Quelle montée en puissance ou capacités est-elle prévue?

“Celle classique d’un changement de génération”, indique Benoît Champagne, de l’UNamur, président du CECI jusqu’à cet été (il a passé la main à Christophe Geuzaine de l’ULg).

“L’évolution vers Lemaître 3 apportera le même ratio de différence que celle qui distingue le Lemaître 2 du NIC4. Le ratio de progression annuelle est légèrement inférieur à un facteur 2…”

La logique de mise à niveau préservera le principe de la complémentarité des super-calculateurs (plus de mémoire RAM pour les uns, plus de coeurs pour d’autres, etc.).

Les appels d’offres devraient être lancés début de cette année, pour déploiement dans le courant 2017.

Une mise à niveau déjà engagée

La montée en puissance a déjà été enclenchée à d’autres niveaux de l’infrastructure partagée.

L’année 2016 a ainsi été consacrée au renforcement de l’infrastructure partagée de stockage. L’implémentation est en cours et concerne deux unités de stockage de 400 téra-octets chacune, à l’UCL et à l’ULg.

Par ailleurs, le déploiement du nouveau réseau Belnet à 10 Gbps est, lui aussi, en cours. “Nous sommes engagés dans une phase de perfectionnement et de simplification opérationnelle de ce qui existe déjà”, explique Benoît Champagne.

“Compte tenu des spécificités de chaque super-calculateur, les tâches leur sont allouées en fonction de leurs capacités (RAM, nombre de coeurs…). Il se peut aussi que le travail soit organisé de manière séquentielle, avec des charges de calcul qui sont traitées en plusieurs étapes, sollicitant successivement les différents clusters.

Cela implique des déplacements d’information, en volumes de données variables. Il arrive parfois de devoir faire transiter plusieurs téra-octets de données par le réseau des universités, ce qui n’est pas rentable. Le réseau universitaire, lui aussi, opère à 10 Gbps mais est utilisé à d’autres choses (courriel, consultations Internet…). Seulement un dixième environ de la capacité est affectée à des transferts de données CECI.

La mise en oeuvre du nouveau réseau à 10 Gbps et des deux unités de stockage va changer le mode de travail du CECI. Elle nous garantit une plus grande souplesse dans la soumission des jobs. Tous les systèmes étant reliés entre eux par un réseau dédié, le dispatching au cluster le plus approprié se fait automatiquement [via un répartiteur Slurm]. Il ne sera plus nécessaire de tester quel cluster est le plus approprié.”

Benoît Champagne (CECI): “Seulement un dixième environ de la capacité du réseau universitaire est affectée à des transferts de données CECI. La mise en oeuvre du réseau dédié à 10 Gbps laisse donc entrevoir un gain potentiel d’un facteur 10.”

La mise en oeuvre du réseau dédié est actuellement en phase finale de test et d’optimisation des échanges. “Beaucoup s’effectuent déjà en débit 9,8 Gbps.”

Le Tier1 ensuite

Après (ou en parallèle avec) le renouvellement des infrastructures Tier2, il faudra aussi s’attaquer à la mise à niveau du super-calculateur Tier1 “Zenobe” du Cenaero.

L’une des “racks” du supercalculateur “Zenobe” du Cenaero.

Un dossier documentant les besoins a été déposé dès le mois d’octobre mais le dossier est toujours à l’étude afin de déterminer un scénario “optimal” pouvant prendre en compte, d’une part, les besoins des différents acteurs du calcul intensif en Belgique francophone et, de l’autre, les moyens que la Wallonie – ou la Fédération Wallonie-Bruxelles – peut dégager. Compte tenu de cet aspect toujours délicat des moyens financiers, un exercice de définition “opportunité/besoins/objectifs” est en cours.

Le supercalculateur, en tout cas, est à saturation depuis déjà plus d’un an – son taux d’utilisation flirte avec les 92-93% depuis quelques mois.

Il avait certes fait l’objet d’une extension voici environ 3 ans mais son taux de sollicitation étant ce qu’il est…

Et le temps presse. Certains noeuds (blocs de processeurs) arrivent en fin de vie. Opérationnels depuis 4 ans, voire plus pour certains, leur taux de panne tend à s’accroître. Ils devraient être décommissionnés en fin d’année, tout comme d’autres, parmi les plus anciens (leur mise en service datait de 2011), ont déjà été remplacés voici un an. Un renouvellement s’impose donc pour éviter les mauvaises surprises…

Anticiper la prochaine étape

Alors que les différentes parties concernées sont encore attelées à garantir la bonne fin de l’actuelle phase de mise à niveau, leurs regards se portent déjà sur l’étape suivante. C’est en tout cas l’un des messages que veut faire passer Christophe Geuzaine, le nouveau président du réseau CECI. “Notre espoir est que l’on évolue vers une convergence des types d’infrastructure.

Le fait est que le HPC (high-performance computing) et le “big data” sont deux mondes réellement séparés. A moyen terme, il faudra une convergence technologique afin de garantir une utilisation duale. Il faudra se doter de moyens souples, de techniques de virtualisation pour pouvoir supporter à la fois des tâches classiques de calcul intensif et des tâches orientées mégadonnées. Les besoins existants sont aujourd’hui couverts par les systèmes dédiés que l’on a installés, avec des types de systèmes différents selon l’usage visé. D’ici 3 ans, il faudra une plus grande convergence.”

Précisons toutefois que si l’on envisage une “convergence HPC/big data”, la suppression de la structuration pyramidale actuelle (convergence tier-2/tier-1/tier-0) n’est nullement à l’ordre du jour.


Supercalculateurs Tier2

Les infrastructures HPC actuelles des 5 universités francophones représentent un “parc” de 400 noeuds de traitement (8.000 processeurs) et de quelque 400 téra-octets de stockage.

Taux d’utilisation: entre 85 et 90%. Autant dire quasi à saturation. “Tous les super-calculateurs Tier2 sont à un niveau de fonctionnement maximum”, souligne Benoît Champagne, précédent président du CECI.

Tier1 Zenobe

Puissance de calcul de crête: 408,7 Téraflops (milliard de milliards d’opérations à la seconde). Taux d’utilisation depuis fin 2015: “plus de 90%” (92 à 93% au cours de ces 3 derniers mois).

Profils des utilisateurs:

  • 154 utilisateurs académiques, dont 44 doctorants, travaillant dans 30 unités de recherche
  • 67 chercheurs de centres de recherche wallons
  • 56 utilisateurs industriels.

Nombre de projets de recherche académiques concernés: 65.

Nombre d’heures de calcul “utilisées” par des projets de recherche académiques entre juillet 2014 et septembre 2016 : 114.334.511 heures.

Du côté des centres de recherche wallons (non académiques), le volume d’heures, pour la même période, s’est chiffré à 25.957.638 heures. Quant aux entreprises (commerciales ou industrielles), elles ont “consommé” 16.333.204 heures.  [ Retour au texte ]