38e Forum : High Performance Data Analytics

38e Forum : High Performance Data Analytics

Il aura lieu le 18 octobre 2016 au CNRS Michel-Ange, Paris

Le formulaire d’inscription est disponible ici.

Programme

9:00      Accueil et enregistrement des participants

Session: Contexte national et européen
Présidente de séance : Sylvie Joussaume

9:15-9:45   La mission Calcul – Données (MICADO) et quelques éléments de la
vision du CNRS, Michel Daydé

Résumé

Nous ferons  un point sur la stratégie du CNRS en matière de calcul  haute-performance et de données en apportant un certain nombre  d’éléments de contexte liés aux besoins scientifiques et aux réflexions que nous avons menées autour des infrastructures. Ces travaux se sont  concrétisés entre autre par la mise en place au sein du CNRS de la  mission MICADO autour du Calcul et des Données dont les objectifs et les premières actions seront présentés.

La présentation : Michel Dayde Forum 38

Bio

Michel Daydé a soutenu sa thèse de Doctorat en Informatique à l’Institut National Polytechnique de Toulouse (France) in 1986. De 1987 à 1995, il effectué un post-doctorat puis a été ‘Visiting Senior Scientist’ dans le « Parallel Algorithms Group » au CERFACS.
Depuis 1988, il a été successivement Maître de Conférences puis à partir de 2000, Professeur à l’Ecole Nationale Supérieure d’Electrotechnique, d’Electronique, d’Informatique, d’Hydraulique et de Télécommunications (ENSEEIHT) de l’Institut National Polytechnique de Toulouse, actuellement au sein du Département Réseaux et Télécommunication. Il est en Délégation CNRS depuis Février 2011.
Il a obtenu son Habilitation à Diriger des Recherches en 1996 et effectue ses recherches dans l’équipe « Algorithmes Parallèles et  Optimisation » à l’Institut de Recherche en Informatique de Toulouse (IRIT).
Il est Directeur de l’IRIT depuis Juillet 2011 après en avoir été  Directeur-adjoint ainsi que responsable du site INPT de l’IRIT entre 2001 et 2011.
Il est Délégué scientifique au CNRS / INS2I en charge du Calcul  Haute-Performance, des grilles et du Cloud depuis Janvier 2010 et directeur du Comité  d’Orientation pour le Calcul Intensif au CNRS (COCIN).
Ses centres d’intérêts en recherche portent sur le calcul parallèle, les grilles de calcul et le Cloud, le calcul haute-performance, les  noyaux de calcul, l’algèbre linéaire, les problèmes d’optimisation de grande taille et le portage de industriels sur les infrastructures de calcul.

9h45:00-10:15 HPC et paysage numérique pour l’Enseignement Supérieur et la Recherche, Laurent Crouzet

Résumé

Le MENESR a lancé un processus de rationalisation des infrastructures numériques qui touchent directement les infrastructures de calcul et de données, tant nationales que régionales. L’exposé rappellera les grandes orientations du plan INFRANUM, et fera un point sur les actions en cours.

La présentation : Laurent Crouzet Forum 38

Bio

Laurent Crouzet est titulaire d’un DEA de Mathématique Appliquées mention « calcul parallèle » de l’Université Joseph Fourier, et d’un Doctorat de Mathématiques Appliquées de l’Université Pierre et Marie Curie.

Il a fait l’essentiel de sa carrière au CEA, d’abord à la Direction des Applications Militaires où il a développé des codes de simulation, puis à la Direction des Sciences de la Matière où il a exercé la fonction de responsable du secteur « informatique, calcul intensif et simulation ».

Depuis 1 an, Laurent Crouzet est Chargé de Mission « calcul intensif et infrastructures numériques » à la Direction Générale de la Recherche et de l’Innovation du MENESR.

10:15-10:45 Evolutions récentes de Genci et Prace, Philippe Lavocat

Résumé 

Dans le cadre de la mise en place du dispositif national numérique de l’enseignement supérieur et de la recherche, les missions de GENCI ont récemment évolué à la demande de ses associés prenant entre autres en compte la convergence observée actuellement entre le monde du HPC et le monde du Big Data, plus particulièrement dans sa composante relative au traitement de données massives. L’exposé présentera l’évolution pressentie de GENCI et les activités impliquées.

Une évolution similaire au niveau européen se traduit dans la réflexion sur la place du projet d’infrastructure européenne de recherche PRACE dans le cadre de l’« European Cloud Initiative » et le concept de « European Data Infrastructure ». PRACE met à disposition des scientifiques un réseau de calculateurs de classe mondiale, dont Curie en France, ainsi que des services à forte valeur ajoutée. L’exposé présentera la situation de PRACE, dans sa phase de transition dénommée PRACE2 destinée à pérenniser cette très grande infrastructure de recherche, dont la France bénéficie fortement au niveau académique et industriel.

La présentation : Philippe Lavocat Forum 38

Bio 

Philippe Lavocat est titulaire d’un diplôme d’ingénieur-physicien de l’Ecole Nationale Supérieure de Physique de Marseille.

Il a réalisé depuis 1983 l’essentiel de sa carrière au CEA, essentiellement à l’Institut de Recherche Fondamentale puis à la Direction des Sciences de la Matière comme responsable-système puis chef de différents projets internationaux dans le domaine de l’instrumentation pour la physique des hautes énergies en collaboration avec le CERN et le FERMILAB-USA et pour les missions scientifiques spatiales de l’ESA et de la NASA.

Depuis 2003, il a exercé des responsabilités de management au CNRS à la direction de l’IN2P3, puis à la Direction des Sciences de la Matière en 2006, et d’expertise au Cabinet du Haut-Commissaire à l’Energie Atomique. Il a créé en 2012 un Département pour les Très Grandes Infrastructures de Recherche au Ministère de l’Enseignement Supérieur et de la Recherche avant de prendre la responsabilité du Service de la Stratégie de la Recherche et de l’Innovation et de Conseiller du Directeur Général de la Recherche et de l’Innovation.

Il a été nommé PdG de GENCI depuis le 1er juillet 2016.

10:45-11:15 Pause

11:15-11:40 HPC et Big Data en Europe – les nouvelles ambitions et initiatives en 2016, Jean Philippe Nominé, CEA – Direction des Analyses Stratégiques

Résumé

En 2012 la Commission européenne affichait des ambitions claires en HPC (communication de N. Kroes en février 2012), et la dynamique créée a permis de mettre en place dans Horizon 2020 un programme complet alliant technologies, infrastructures et usages du HPC. Nous ferons un rapide bilan de l’avancée de ce programme en 2016, et un ‘instantané’ de l’écosystème, à travers ses acteurs et les projets soutenus par H2020 (ETP4HPC, cPPP sur le HPC puis sur les Big Data, FETHPC et Centres d’Excellence, EXDCI…).

En avril/mai 2016 la Commission européenne définissait des ambitions renouvelées et élargies en HPC, Big Data, cloud, quantum computing…. dans le contexte général du Digital Single Market. Nous commenterons notamment les annonces sur le « European Cloud Initiative » et l’IPCEI HPC-BDA, et leurs liens avec les programmes H2020 en cours.

Présentation : Jean-Philippe Nomine Forum 38

Bio

Après quelques années en robotique (CEA Saclay et Fontenay-aux-Roses), rejoint en 1992 les activités Calcul Haute Performance du CEA/DAM, à Limeil puis à Bruyères-le-Châtel. Diverses activités techniques et de management autour des chaînes de calcul sur les machines du programme TERA (TERA1, TERA10…) dès sa préparation en 1996. Depuis 2008, implication dans le développement des activités et collaborations européennes en HPC au CEA, notamment PRACE et les projets PRACE IP, puis plus récemment ETP4HPC et le PPP sur le HPC. En septembre 2016, rejoint la Direction des Analyses Stratégiques du CEA pour contribuer à la stratégie numérique de l’organisme.

Membre du Conseil Scientifique ORAP.

11:40- 12:10 Le calcul haute performance en Chine, Serge Petiton

Résumé

Cette année la Chine est au centre de nombreuses avancées et annonces dans le domaine du HPC. Les deux machines les plus puissantes au monde sont en Chine avec pour la première des processeurs made in China. La mise en service d’une machine exascale chinoise est toujours prévue pour 2020. Néanmoins, est-ce que la Chine possède actuellement un écosystème et des compétences en écriture de logiciels scientifiques efficaces et scalables ? Est-ce que ces machines sont utilisées intensivement et est-ce que suffisamment de spécialistes sont formés ? De nombreuses questions sont posées dans la communauté du HPC mondial, qui semble, par ailleurs, prendre parfois un retard par rapport aux projets chinois. Un des meilleurs moyens de répondre à ces questions est de visiter les centres et spécialistes chinois du domaine. Cet exposé est un retour de diverses actions et visites menées dans ce sens cette année. Une synthèse est proposée et la possibilité de collaborations avec la Chine sur le HPC est discutée.

La présentation : Serge Petiton Forum 38

Le rapport de mission : Le calcul haute performance en Chine

Bio

Serge G. Petiton received his Ph.D. degree and his “Habilitation à diriger des recherches” from Pierre and Marie Curie University. He was researcher scientist at Yale University and at the “Site Experimental en Hyperparallelisme”. Since 1994, Serge is professor at the University of Lille 1 and associated to several laboratories. Since 2012, Serge G. Petiton is associated senior researcher at the “Maison de la Simulation” in Saclay. He was visiting professor at the Chinese Academy of Science in 2016.

Serge has been scientific director of more than 24 Ph.D.s, 3 “habilitations”, and has authored more than 100 articles on international journals and conferences. His main current research interests are in “Parallel and Distributed Extreme Computing”, “Intelligent Dense and Sparse Linear Algebra”, and “Language and Programming Paradigms for Extreme Computing”.

 

Session: High Performance Data Analytics-1
Président de séance : François Bodin

12:10-13:00 Parallel Computing at the Edge:  Deploying Parallel Computers and Sensors on Chicago Street Poles, Pete Beckman, Northwestern-Argonne Institute for Science and Engineering

Abstract

Sensors and embedded computing devices are being woven into buildings, roads, household appliances, and light bulbs. Most sensors and actuators are designed to be as simple as possible, with low-power microprocessors that just push sensor values up to the cloud.  However, another class of powerful, programmable sensor node is emerging.  The Waggle (www.wa8.gl) platform supports parallel computing, machine learning, and computer vision for advanced intelligent sensing applications. Waggle is an open source and open hardware project at Argonne National Laboratory that has developed a novel wireless sensor system to enable a new breed of smart city research and sensor-driven environmental science. Leveraging machine learning tools such as Google’s TensorFlow and Berkeley’s Caffe and computer vision packages such as OpenCV, Waggle sensors can understand their surroundings while also measuring air quality and environmental conditions.  Waggle is the core technology for the Chicago ArrayOfThings (AoT) project (https://arrayofthings.github.io). The AoT will deploy 500 Waggle-based nodes on the streets of Chicago beginning in 2016. Prototype versions are already deployed on a couple campuses. The presentation will outline the current progress of designing and deploying the current platform, and our progress on research topics in computer science, including parallel computing, operating system resilience, data aggregation, and HPC modeling and simulation.

La présentation : Pete Beckman Forum 38

Bio

Pete Beckman is the co-director of the Northwestern-Argonne Institute for Science and Engineering.  From 2008-2010 he was the director of the Argonne Leadership Computing Facility, where he led the Argonne team working with IBM on the design of Mira, a 10 petaflop Blue Gene/Q. Pete joined Argonne in 2002, serving first as director of engineering and later as chief architect for the TeraGrid, where he led the design and deployment team that created the world’s most powerful Grid computing system for linking production HPC computing centers for the National Science Foundation.  After the TeraGrid became fully operational, Pete started a research team focusing on petascale high-performance system software, wireless sensors, and operating systems. Pete also coordinates the collaborative research activities in extreme-scale computing between the US Department of Energy and Japan’s ministry of education, science, and technology.  He is the founder and leader of the Waggle project to build intelligent attentive sensors.  The Waggle technology and software framework is being used by the Chicago Array of Things project to deploy 500 sensors on the streets of Chicago beginning in 2016.  Pete also has experience in industry.  After working at Los Alamos National Laboratory on extreme-scale software for several years, he founded a Turbolinux-sponsored research laboratory in 2000 that developed the world’s first dynamic provisioning system for cloud computing and HPC clusters.  The following year, Pete became vice president of Turbolinux’s worldwide engineering efforts, managing development offices in the US, Japan, China, Korea, and Slovenia.  Dr Beckman has a Ph.D. in computer science from Indiana University (1993) and a BA in Computer Science, Physics, and Math from Anderson University (1985).

 

13:00-14:15 Repas

Session: High Performance Data Analytics-2
Président de séance : Diego Klahr

14:15-14:45  HPC for AI at Facebook,  Antoine Bordes, Facebook Artificial Intelligence Research lab de Paris

Abstract

AI is getting increasingly important in all Facebook services. Scaling AI-based methods to the gigantic amounts of data that Facebook has to handle daily involves many computational and algorithmic challenges. This talk will present some of these challenges and also introduce some works conducted at Facebook AI Research to overcome them.

La présentation : Antoine Bordes Forum 38

Bio

Antoine Bordes is a staff research scientist at Facebook Artificial Intelligence Research. Prior to joining Facebook in 2014, he was a CNRS researcher in the Heudiasyc laboratory of the University of Technology of Compiegne in France. In 2010, he was a postdoctoral fellow in Yoshua Bengio’s lab of University of Montreal. He received his PhD in machine learning from Pierre & Marie Curie University in Paris in early 2010. He received two awards for best PhD from the French Association for Artificial Intelligence and from the French Armament Agency, as well as a Scientific Excellence Scholarship awarded by CNRS in 2013. Antoine’s current interests are mainly centered around natural language understanding using neural networks, with a focus on question answering and dialog.

14:45-15:15 CATI a national platform for multi-centric neuroimaging research studies, Yann Cointepas, UNATI, Neurospin

Summary

The CATI (http://cati-neuroimaging.com) is a french national platform providing assistance for acquiring, controlling, analyzing, organizing and sharing neuroimaging data in the context of multi-centric clinical research studies. The CATI is supporting a data acquisition network spread over more than 50 sites in France, it also develops software solutions for data quality control and automatic measurement of various biomarkers related to specific modalities. To date, there are 52 studies that have been using CATI services.

This presentation will give an overview of the CATI platform organization and describe how the services are operated. It will show the solution developed to build services performed by several teams located in various research facilities. It will also present the technical platform that is used to organize and process the data.

La présentation : Yann Cointepas Forum 38

Bio

Yann Cointepas is a scientist and engineer at CEA/Neurospin. He his working on image processing for neuroimagery and on the development of software for image processing and population imaging. He has a PhD in signal and image processing. He is the creator of the BrainVISA project. He his still managing this project (with Denis Rivière) and is contributing to many application toolboxes of BrainVISA. His image processing work is focused on MRI, especially on structural anatomy, diffusion MRI and fiber tracking. He is an operational director of the CATI, especially for of software development, IT infrastructure and data flow. He is in the steering committee of a national infrastrucuture project :FLI/IAM (France Life Imaging / Information Analysis and Management).

15:15-15:45 Pause

Session: High Performance Data Analytics-3
Président de séance : Marie-Alice Foujols

15:45- 16:15 Le HPDA chez Total,  Yves Le Stunff, Chief Digital Officer Total EP

Abstract

Data Analytics is a key of Total E&P digital transformation. Total E&P has a long history in acquiring, processing and analyzing very large volumes of data in geosciences activities especially in seismic imaging for hydrocarbon exploration purposes. However new data challenges arise in our industry: for instance, more and more sensors are being deployed on our industrial sites that generate large amount of data that can be analyzed to improve our assets performance (from health monitoring of equipment to process optimization). In parallel more and more unstructured data is being generated in all activities (geosciences or engineering studies, multi-billion construction projects,.. ) and a fast access to the relevant information remains critical both for exploration, reducing our costs or business decisions.

Over the past years various data projects have been valuable for the company. For instance worldwide monitoring of rotating equipment is being done routinely for predictive maintenance. The next step will be to connect more pieces of equipment and combine sensors data to a history of breakdowns or maintenance reports. That is combining structured data with unstructured information in order to automatically generate prescriptive actions that will help operators. Our long term target regarding the optimization of hydrocarbon production of our assets is to combine these emerging data driven approaches to existing (or to be developed) model driven approaches (based on multi-scale/multi-networks/multi-phenomena simulations). We are at the start of this exciting journey.

Another challenge (in a very different context) is automated pattern recognition in 3D images for hydrocarbon reservoir understanding: this challenge ranges very different scales from subsurface seismic images to micro-tomography images of rock samples. Deep learning approaches are being explored but additional research efforts will be required in the coming years to come up with operational solutions.

All the data analytics problems that we will face will certainly not require the same degree of computing power. If today High Performance Computing at Total is being for scientific for imaging or numerical simulation purposes, we foresee that specific data problems such as pattern recognition or cognitive computations will require heavy computing resources with probably different architectures. There is lot to be learned.

La présentation : Yves Le Stunff Forum 38

Bio

Yves Le Stunff is in charge of coordinating the Digital Transformation at Total Exploration-Production. He joined Total in 1996 as a geophysicist. Over the years he had various postings in Geosciences both in operations (Argentina, Libya) and R&D.
He has been also involved in field development engineering studies as a Petroleum Architect. From 2012 to 2015 he was in charge of Strategy and Prospective for Exploration-Production R&D. Yves is a graduate in Physics from Ecole Normale Supérieure (Paris), and holds a PhD in Geophysics from the University of California at Berkeley.

16:15- 16:45 Dynamique haute-fréquence des marchés financiers, Emmanuel Bacry, C.M.A.P (Centre de Mathématiques Appliquées)  Ecole Polytechnique

Résumé

Le carnet d’ordre est au coeur du processus des formations des prix sur les marchés financiers. Comprendre les dynamiques qu’il met en jeu est donc essentiel pour l’appréhension des risques qui en découlent.  Nous présenterons une étude révélant ses différentes dynamiques hautes fréquences.

La présentation : Emmanuel Bacry Forum 38

Bio

Emmanuel Bacry  est un ancien élève de l’Ecole Normale Supérieure  de la rue d’Ulm.  Il a obtenu une thèse de Doctorat en Mathématiques Appliquées en 1992 et a obtenu l’habilitation à diriger des recherches quatre ans plus tard. Il est actuellement Directeur de Recherche au CNRS et Professeur Associé au Centre de Mathématiques Appliquées (CMAP) de l’Ecole Polytechnique où il dirige, depuis deux ans, l’Initiative « Science des Données et Big Data ». Son activité de recherche porte sur la statistique des processus en interaction, la grande dimension et les données massives.   Il est actuellement responsable d’un partenariat de recherche entre l’Ecole Polytechnique et la Caisse Nationale d’Assurance Maladie (CNAMTS) portant sur l’application de techniques issues du BigData sur la base de données de la CNAMTS (une des plus grosses bases de données santé du monde, plus de 500 To). Tout au long de sa carrière, Emmanuel Bacry est intervenu de façon régulière comme consultant dans de nombreuses entreprises (Société Général, BNP-Paribas, Havas Média, …).

16:45- 17:05 BDEC – un effort international pour la convergence entre HPC et Big Data, Mark Asch, Université de Picardie

Résumé

BDEC (Big Data and Exascale Computing – www.exascale.org ) est un forum fondé par les Etas Unis, le Japon et l’Union Européenne. Ses objectifs sont d’organiser des workshops (tous les ans) et de rédiger des rapports/white papers afin de cartographier et de tracer des feuilles de route pour la convergence des Big Data et HPC, aux niveaux national et, surtout, international. Le projet EXDCI (FET-HPC 2015 – https://exdci.eu ) participe à BDEC et contribue à son animation. Dans ce talk, nous aborderons les derniers développements concernant la question de la convergence, récemment traités lors de 2 workshops tenus à Francfort en juin 2016.

La présentation : Mark Asch Forum 38

Bio

Mark Asch est professeur de mathématiques appliquées à l’Université de Picardie Jules Verne. Il détient un PhD du Courant Institute de New York University. Sa recherche concerne la propagation d’ondes en milieux aléatoires, la théorie de contrôle et l’application des méthodes de contrôle à la résolution des problèmes inverses. Son dernier livre, « Data Assimilation: Methods, Algorithm and Applications » est publié chez SIAM, USA. Il est WP leader dans le projet H2020 EXDCI et coordinateur d’une action internationale intitulée « Data Management and e-Infrastructures » pour le Belmont Forum.

Fin du forum 17h30