50 ième Forum « HPC et Applications : quelques perspectives »

50 ième Forum « HPC et Applications : quelques perspectives »

9 mai 2023, CNRS Michel-Ange, Paris

Inscription ici https://orap50.sciencesconf.org

  • 8h45 Accueil

  • 9h30-9h40 Introduction (Edouard Audit, Maison de la Simulation)

  • 9h40-10h10 Exascale multiphysics simulator platform for CO2 sequestration and monitoring (Henri Calandra, TotalEnergies)

    Abstract

    CO2 sequestration and monitoring have become key in reducing CO2 emissions. their simulation at scale requires a fully integrated multi-physics platform based on multiphase flow, geomechanics and elastic wave propagation advanced solvers. Ensuring the safety and acceptability of CO2 geological storage requires to interconnect and couple all these different physics solvers together and build efficient workflows to simulate the injection and the monitoring of the evolution of the plume of CO2 into the saline aquifer, to model the geomechanical deformation of the subsurface and to improve the image of the plume of CO2, the reservoir properties and geometry. The setup of realistic uses case and demonstrators at scale will be mandatory to prove the value of our development and will target accelerator based exascale capability resources. With this goal in mind, an ambitious joint research project has been set up in 2022 by TotalEnergies and Inria, named “Makutu”, with the objective to extend the platform GEOSX originally designed for fluid flow simulation and geomechanical to seismic wave propagation in complex media. GEOSX is an open-source code managed by Lawrence Livermore National Laboratory (LLNL), Stanford University and TotalEnergies, and hosted @ https://github.com/ GEOSX/GEOSX. Developed in C++, GEOSX is designed to target exascale systems on the top of a software architecture which supplies programming models and data structures for highly accelerated architectures. Advanced workflows using GEOSX are developed through python scripts. Numerical kernels are wrapped in python. This approach supplies the flexibility to implement use cases and applications including machine learning and advanced optimization libraries, all while keeping the high efficiency and scalability of the core GEOSX solver kernels.

    In this work, we present the Makutu project, and its implications in terms of research and industrial impact. In particular, we show how such a close partnership has allowed to develop effective workflows integrating the different phases necessary for the modeling of the injection and monitoring of CO2, exploiting different algorithms requiring different computing powers. We will also discuss the perspectives and future goals of the collabo- ration, in which machine learning will play an important role to increase the efficiency of the workflows.

    Bio

    Henri Calandra is currently an expert in Digital and HPC for geosciences at TotalEnergies. He joined TotalEnergies in 1990 and has spent the past 32 years working in the development of seismic depth imaging algorithms and high performance computing.

  • 10h10-10h40 Relever les défis du traitement des données des expériences LHC au CERN, quelle place pour le HPC ? (Sabine Crépé-Renaudin, IN2P3)

    Résumé

    Chaque expérience du LHC, le grand collisionneur de hadrons du CERN, produit environ 1 Petaoctet de données par seconde. Des systèmes électroniques et informatiques les filtrent en temps réel pour ne garder que les collisions intéressantes.  La grille de calcul WLCG (Worldwide Computing Grid), un système distribué de ressources de calcul (principalement HTC) et de stockage permet le traitement de ces données ainsi que leur analyse de façon transparente par les 12000 physiciens répartis dans le monde.  WLCG stocke actuellement 1,5 exaoctet de données et met à dispositions environ 1,5 millions de cœurs CPU, le taux de transfert global dépassant 260Go/s.

    D’ici la fin de la décennie, les performances du LHC et des expériences seront améliorées et le HL-LHC (HighLumi-LHC) sera mis en route. Les données produites seront à la fois plus nombreuses et plus complexes. Les collaborations des expériences et de WLCG travaillent à relever ces nouveaux défis en prenant en compte les besoins de techniques comme l’intelligence artificielle de plus en plus adoptées et en explorant l’utilisation de ressources de calcul hétérogènes dont celles de type HPC. Après un état des lieux du traitement des données des expériences LHC et de son évolution, les développements et les pistes de recherche actuellement explorées seront discutées.

    Bio

    Sabine Crépé-Renaudin est directrice de recherche au CNRS, à l’Institut National de Physique des Particules et de Physique Nucléaire (IN2P3). Elle est physicienne des particules au Laboratoire de Physique Subatomique et de Cosmologie (LPSC) de Grenoble. Elle a travaillé auprès des grands collisionneurs de particules (LEP, TeVatron, LHC) et ses recherches portent principalement sur la particule élémentaire la plus massive connue à ce jour, le quark top, comme objet d’étude ou comme sonde vers la mise en évidence de nouvelles particules.

    Les expériences sur collisionneurs nécessitant le traitement et l’analyse de grandes masses de données complexes, elle s’est aussi impliquée dans le calcul distribué de l’expérience ATLAS auprès du LHC ainsi que dans la collaboration internationale WLCG (Worldwide LHC Computing Grid) qui permet le traitement, l’analyse et le stockage distribués des données du LHC. Elle est depuis 2020 Directrice Adjointe Scientifique pour les thématiques du calcul et des données à l’IN2P3.

  • 10h40-11h10 Pause

  • 11h10-11h40 Centre d’Excellence en médecine personnalisée : PerMedCoE (Alfonso Valencia, BSC)

    Abstract

    PerMedCoE (https://permedcoe.eu/) bridges the world of mechanistic simulations with the one of molecular biology and genomics, with application to Personalised Medicine.

    In its two years of existence, PerMedCoE has developed a core application known as PhysiBoSS that implements both parallel and distributed computing. PhysiBoSS combines in a single software intra-cellular simulations (molecular pathways) and inter-cellular interactions (cell-cell and cell-environment). PhysiBoSS includes a probabilistic Boolean and an agent-based model, that are embedded in workflows that provide the tools necessary to treat the massive input genomic data and conditions (e.g. drug treatments).

    One of the successes of PerMedCoE has been the organization of an “observatory and benchmark platform”. In this environment, it has been possible, in collaboration with the community of method developers to define standards tests for the evaluation of method performance and to test applications in different scenarios.

    Finally, PerMedCoE has provided evidence of the performance of the method in different HPC environments dealing with complex real-world  disease scenarios, e.g. drug treatments in cell lines or differential patient responses to leukaemia treatments.

    For PerMedCoE-2, we propose to continue with the development and adaptation of PhysiBoSS to the new EuroHPC pre-exascale environments, to further develop the standards for method evaluation, and to extend the initial work in the interface between AI/ML and simulations. In terms of application domain, in the general context of Personalised Medicine, PerMedCoe-2 will focus in the development of “Virtual Twins” of drug screening platforms based on organoids. The recent regulations to reduce experimentation in animals have made  this a hot area of commercial activity, in which PerMedCoE exascale level simulations can have a significant impact.

    Bio

    Prof. Alfonso Valencia is ICREA research Professor, Director of the Life Sciences Department of the Barcelona Supercomputing Center, and Director of the Spanish National Bioinformatics Institute INB-ELIXIR-ES. His research interest is the development of Computational Biology methods and their application to biomedical problems. Some of the computational methods he developed are considered pioneering work in areas such as biological text mining, protein coevolution, disease networks and more recently modelling cellular systems (digital twins). He participates in some of the key cancer related international consortia. In terms of community services, he is one of the initial promoters of what is now the ELIXIR infrastructure, founder of the Spanish Bioinformatics network and founder member and former president of ISCB the professional association of Bioinformaticians and the Executive Editor of the main journal in the field (Bioinformatics OUP).

  • 11h40-12h25 JUPITER ASCENDING. Creating Europe’s Exascale Leadership Supercomputer (Thomas Lippert, Jülich Supercomputing Centre)

    Abstract

    In 2018, the European Community decided to commission two exascale-class supercomputers by 2024 and 2025. These systems will follow the installation of three pre-exascale systems and five petascale systems, which is scheduled to be completed by the end of 2023. The Jülich Supercomuting Centre at Forschungszentrum Jülich, a member of the German Helmholtz Association of Research Centers has been designated by the Governing Board of EuroHPC Joint Undertaking (EuroHPC, as the host institution and operator of the system. In my talk, I will present the plans for the system, called JUPITER (Joint Undertaking Pioneer for Innovative and Transformative Exascale Research), address the technical criteria and application requirements, and explain the current status of the JUPITER project at JSC. I will also explain Jülich’s strategy of involving users in an early access program and exascaling quite a few codes before installing the machine.

    Bio

    Prof. Dr. Dr. Thomas Lippert is the director of the Institute for Advanced Simulation (IAS) at Forschungszentrum Jülich, Germany. He is the head of the Jülich Supercomputing Centre (JSC), a division of the IAS, and acts as managing director of the John von Neumann Institute for Computing (NIC). He is professor for Modular Supercomputing and Quantum Computing at the Goethe University Frankfurt, Germany. He is chair of the board of directors of the Gauss Centre for Supercomputing e.V. From 2018 to 2020 (June), he was chair of the council of the Partnership for Advanced Computing in Europe (PRACE). Currently, he acts as German representative at the PRACE council. Since 2019, he has been spokesman of the Helmholtz Programme “Engineering Digital Futures: Supercomputing, Data Management and Information”. He has initiated the series of Europe founded DEEP projects. In 2022, he was elected vice chair of the RIAG of the EuroHPC JU.

  • 12h25-12h45 Point Europe (Jean-Philippe Nominé, CEA)

  • 13h00 - 14h15 Pause déjeuner

  • 14h15-14h45 BigScience: Collaboratively training a large multilingual language model (Lucile Saulnier, Hugging Face )

    Abstract 

    In recent years, pre-trained self-supervised language models have demonstrated their value in various domains and applications. These models aim to learn general representations from vast amounts of text without requiring human annotation, which can be costly and time-consuming. The resulting representations can significantly reduce the amount of annotated data and training time necessary for downstream applications. Unfortunately, only a few organizations can afford to train such models, making it challenging for the scientific community to understand how they work and how to improve them.

    BigScience is a research project that aims to train a 176 billion parameters language model in a transparent, public, and collaborative manner. Over 1000 researchers from academia and industry gathered in working groups in order to take decisions every step of the way: the creation of multilingual datasets, the design of the model, the engineering challenges, the formulation of a new license for the model, legal considerations of personal identifiable information within training datasets, the development of evaluation tools and finally reflections on downstream applications in different domains, such as bio-medical.

    The project has resulted in a community-created dataset with over 46 languages, the training of a 176 billion parameters language model using Jean Zay supercomputer with 384 GPUs (A100) for four months, the open-sourcing of the tools used, and the publication of multiple research papers.

    Bio

    Lucile Saulnier is a research engineer at Hugging Face specialised in the research and reproduction of large language models. In particular, she has worked on the multilingual Bloom model and the reproduction of the multimodal Flamingo model.

  • 14h45-15h15 Modeling a novel laser-driven electron acceleration scheme with Particle-In-Cell simulations on exascale-class supercomputers (Luca Fedeli, CEA)

    Abstract

    Laser WakeField Acceleration (LWFA) can accelerate ultra-short electron bunches up to very high energies (from hundreds of MeV to several GeV). However, LWFA usually does not provide enough charge for most of the foreseen applications, especially if high beam quality and high energies are also required.
    Recently, we have devised a novel injection scheme consisting of a solid target coupled to a gas jet to accelerate substantially more charge than conventional injection schemes, while preserving at the same time the quality of the beam. In 2022 we validated this concept with proof-of-principle experiments at the LOA (France), and with a large-scale Particle-In-Cell simulation campaign, carried out with the open-source WarpX code[1,2].  In this contribution, we will summarize the insights gained from these simulations, carried out on the most powerful supercomputers in the world, including Summit (OLCF, #5 in the Top500), Fugaku (Riken, #2 in the Top500), and Frontier (OLCF, #1 in the Top500).  A work describing the technical challenges that we addressed to make these simulations possible was awarded the Gordon Bell prize in 2022 [3].

    1.  https://ecp-warpx.github.io/ (WarpX github repository)
    2. A.Myers et al. Parallel Computing 108:102833, 2021
    3. L.Fedeli et al. 2022 SC22: International Conference for High Performance Computing, Networking, Storage and Analysis (SC). IEEE Computer Society, 2022

    Bio

    Luca Fedeli a obtenu son Master en Physique à l’Université de Milano-Bicocca, en Italie. Il a réalisé sa thèse à l’Université de Pise et, après un post-doc à l’école Polytechnique de Milan, il a rejoint le groupe « Physique à Haute Intensité » du laboratoire LIDYL (CEA) en 2019. Ses recherches portent principalement sur le développement de codes Particle-In-Cell massivement parallèles, l’étude des effets d’Électrodynamique Quantique dans les interactions laser-plasma à ultra-haute intensité, et le développement de sources d’électrons accélérés par laser.
  • 15h15-15h45 PEPR Origins (Guillaume Laibe, CRAL)

    Résumé

    La planétologie théorique moderne repose sur les simulations numériques magnétohydrodynamiques impliquant l’évolution de solides incompressibles dans des milieux magnétiques réactifs. Cette physique est également cruciale pour l’autre bout de la chaîne des origines de la vie, pour l’évolution des prébiotiques et des virus et est au cœur de grands problèmes industriels et sociétaux (combustion, mélange, climat, pollution, propagation des virus…). Je présenterai la stratégie développée par la communauté astrophysique française pour développer une nouvelle génération d’algorithmes avec des modules physiques pionniers capables de s’adapter aux contraintes techniques des nouvelles architectures Exascale GPU/CPU.

    Bio

    Guillaume Laibe, professeur des universités, Ens de Lyon, membre du comité exécutif et co-coordinateur du WP exascale du PEPR ORIGINS
  • 15h45-16h15 Pause

  • 16h15-16h45 DIAMOND : la plateforme numérique du PEPR DIADEM visant à accélérer le développement des matériaux (François Willaime, CEA)

    Résumé

    Le PEPR exploratoire DIADEM vise à développer de manière accélérée des matériaux innovants, performants, durables et issus de matières premières non critiques et non toxiques, en s’appuyant notamment sur la synthèse et la caractérisation à haut débit ainsi que sur les outils d’intelligence artificielle. Après une description générale du projet, la plateforme numérique DIAMOND sera présentée. Elle comprend une plateforme de codes et workflows ainsi qu’une infrastructure de bases de données.

    Bio

    57 ans, Directeur de Recherche au CEA, expert en modélisation multi-échelles des matériaux, coordinateur de la plateforme numérique du PEPR DIADEM, porteur de la Chaire Energies Durables EDF-Ecole polytechnique, co-auteur d’une centaine d’articles dans le domaine des défauts d’irradiation et de la plasticité à l’échelle atomique dans les métaux ainsi que des nano-particules en carbo-nitrure de bore.

  • 16h45-17h15 Le PEPR TRACCS : Transformer la modélisation du climat pour les services climatiques (Masa Kageyama, CNRS/IPSL)

    Résumé

    Le programme TRACCS, porté conjointement par le CNRS et Météo-France, fait partie des lauréats de la deuxième vague de l’appel à projets pour des Programmes et équipements prioritaires de recherche exploratoires. L’objectif de TRACCS (https://climeri-france.fr/pepr-traccs/) est de développer les outils qui permettront de développer, déployer, et passer à l’échelle les services climatiques. Ces services climatiques doivent être adossés aux meilleurs modèles de climat qui constituent des outils incontournables pour la compréhension et l’anticipation des impacts et risques climatiques. Développés initialement dans un cadre de recherche, ils deviennent progressivement des outils pour accompagner l’action climatique avec des informations quantitatives et pertinentes. Cependant, il est indispensable de continuer à les faire progresser sur les plans scientifique et technique, et de renforcer les équipes en charge de leur développement, évaluation et exploitation.

    Les avancées technologiques en calcul intensif et le développement de l’intelligence artificielle représentent à la fois un risque sur la pérennité des modèles de climat et des opportunités à saisir pour les améliorer et accélérer la production de connaissances. En effet, du fait de leur complexité scientifique et technique, ces modèles numériques pouvant atteindre plusieurs millions de lignes de code ne peuvent être adaptés facilement à ces nouvelles architectures et des changements de paradigme de calcul sont nécessaires. Le programme TRACCS dédie une partie importante de ses ressources pour accompagner ces transitions.

    Bio

    Directrice de Recherches au CNRS, Responsable du thème « Climat et Cycles – Modélisation de leurs variabilités et de leurs interactions » au Laboratoire des Sciences du Climat et de l’Environnement/Institut Pierre-Simon Laplace, et co-responsable du Centre de Modélisation du Climat de l’IPSL. Co-directrice du PEPR TRACCS (https://climeri-france.fr/pepr-traccs/). Thèse (1998) sur la circulation atmosphérique des moyennes latitudes au Dernier Maximum Glaciaire et lors de l’entrée dans la dernière glaciation, HDR en 2006 sur la modélisation et la compréhension des changements climatiques passés et futurs en se basant sur une hiérarchie de modèles climatiques.

  • Fin prévue à 17h15