T8 - Programmer et déployer votre IA

Ou La programmation et le déploiement de l'IA.

Titre plus complet : Du Calcul à l'IA : Comment programmer, augmenter et déployer votre intelligence.

La Plénière de notre thématique est planifié le 8 Juillet 2020 (voir plus bas).

T8 - Porteurs/organisateurs :

  • Etienne Gondet : OBS-MIP/CNRS
  • Laurent Risser : IMT/CNRS & ANITI/3IA

Objectifs

L'Intelligence Artificielle (IA) est un paradigme qui a profondément modifié les sciences des données ces dernières années. Elle se base sur l'utilisation de jeux de données de référence pour apprendre des règles de décisions, ces règles permettant alors d'établir des prédictions ou de prendre des décisions sur des données similaires aux données d’apprentissage. Parmi la grande variété des applications de l'IA , on peut citer les systèmes de recommandation en ligne, l'aide à la conduite ou bien même la définition de modèles de substitution. Ces applications ont de fortes retombées dans l'industrie et la société. Elles ont de même suscité en France la création des 3IA (Instituts d'Intelligence Artificielle). Enfin, elles sont souvent transverses à plusieurs thématiques des JDEV. Dans ce contexte, le fil conducteur de la thématique T8 des JDEV2020 sera d’établir des liens entre les langages, les packages, et les usages de l'apprentissage automatique ainsi que des moyens matériels pour faire fonctionner efficacement les stratégies d'IA.

L'apprentissage automatique, ou machine learning, est en effet une des deux composantes fondamentales sur laquelle se base l’IA moderne et fourni une multitude de modèles et d’approches pour apprendre et prédire des relations complexes. Nous traiterons par exemple de la programmation d'outils d'apprentissage automatique tels que les forêts aléatoires, les machines à vecteurs de support (SVM) et surtout des réseaux de neurones profond. Ces derniers ont en effet permit de grandes avancées dans le traitement de données structurées en très grande dimension telles que les images ou le son. Elles sont de même aujourd'hui à la pointe pour le traitement de donnée moins bien structurées telles que le langage naturel. Leur apprentissage nécessite par contre la définition d’architectures de réseaux cohérentes avec les données traitées. Bien qu'une prédiction par réseau de neurone soit rapide, son apprentissage préalable peut nécessiter de très grosses ressources de calcul. Leur popularité est alors particulièrement liée à l’utilisation d’architectures de calcul adaptées comme les GPU par exemple.

Un autre verrou actuellement est le besoin d'apprendre des règles de décisions à partir de données extrêmement massives, comme par exemple en imagerie satellite. Ce verrou peut même être perçu comme critique du point de vue de la souveraineté nationale/européenne. Le second axe fort de la thématique T8 des JDEV sera alors de discuter des grosses infrastructures de calcul pour apprendre efficacement des règles d'IA sur des données massives.

Précédent résumé :

A l’heure où les données instrumentales et les données computationnelles explosent, l’IA fait actuellement une percée remarquable avec l’utilisation massive des données. La recherche par les données révolutionne la démarche scientifique. Les outils d’apprentissage automatique comme l’apprentissage profond ont comme verrou la puissance de calcul, la préparation et l’accès aux données. D’autre part, l’offre de calcul se diversifie en terme d’architectures et d’organisation des capacités de calcul et est en constante mutation. L’IA nécessite un changement complet de méthode, architectures (GPU), d’outils et de savoir-faire par rapport à l’HPCs. Par ailleurs, les centres de calcul classiques sont amenés à évoluer vers un cluster de data science (HPC, HPDA). Notre communauté doit s’adapter et participer à ce nouveau contexte.

Mots Clés

  • Langages (python, julia, R, …)
  • IA, intelligence artificielle , prédiction
  • Traitement et analyse des données.
  • Calcul (GPU, containers,…)
  • Algorithmes.
  • Apprentissage automatique et/ou profond …
  • Environnements/outils/frameworks (compute lab,Keras, google collab, notebook, pytorch, tensorflow, Réseaux de neurones, deep learning ) Cloud ( Saas, AWS, google collab, google earth engine, Pangeo…)
  • Notebooks.
  • Sciences des données.

Apprentissage automatique, apprentissage profond, apprentissage par Renforcement, cnn, compute lab, Deep learning, DL, flux, gan, Generative Adversarial Network, GPU, IA, Intelligence artificielle, 3IA, julia, keras, knet, Machine learning, notebook, passage à l'échelle, python, pytorch, RL, Reinforcement Learning, Réseaux de neurones, rnn, Sciences des données, Tensorflow.

Lexique

  • CNN : Convolutionnal Neural network.
  • COMET : COMmunautés d'ExperTs du CNES (ex CCT).
  • GAN : Generative Adversarial Network (Réseaux antagonistes génératifs).
  • RNN : 2 sens francais/anglais : Réseaux de NeuroNes/Recurrent Neural network.
  • DL : Deep learning = apprentissage profond.
  • ML : Machine learning = apprentissage automatique.
  • IA : Intelligence artificielle.
  • 3IA : Instituts Interdisciplinaires d'Intelligence artificielle: http://www.agence-nationale-recherche.fr/3IA-2018
  • RdA : Research Data Alliance. https://www.rd-alliance.org/
  • RL : Reinforcement Learning (Apprentissage par Renforcement).
  • REX : Retour d'EXpériences (ou plus souvent RETEX).
  • SDU : Sciences De l'Univers.
  • SIG : Systèmes d'Information Géographiques.
  • SIL : Système Informatiques et génie Logiciel. * TSI = Traitement du SIgnal.

Ouverture

  • Présentation

  • Keynote

  • Table onde

Programme de la Thématique 8 : T8

Statut :

  • AC : A Confirmer.
  • ER : En recherche de propositions.
  • OK : Confirmé.

Introduction de la T8 le 7 Juillet 2020

En {séance plénière générale le 7 Juillet 2020 :

Plénière de la T8 du 8 Juillet 2020

  • 09h30-09h45 : Introduction : E. Gondet (OBS-MIP/CNRS) et L. Risser (ANITI/3IA & IMT). Le support de cette introduction.
  • 09h45-10h15 : Apprentissage Automatique :
    • Un autre paradigme pour les sciences numériques. J.L Parouty (CNRS).
  • 10h15-10h45 : L'IA dans les grands organismes :
    • G. Eynard-Bontemps pour le CNES. Le support.
    • G. Larvor, L. Perez pour METEO-France : LabIA et Infrastructures.
  • 10h45-11h15 : Infrastructures nationales pour le déploiement de l'IA en France et en Europe. J-P Proux (GENCI).
  • 11h15-12h00 : Séances Questions. Modérateurs : E. Gondet (CNRS) et L. Risser (CNRS).
    • Réponses des intervenants aux “Tchat questions”.
  • Pause
  • 14h00-14h50 : Machine Learning et Deep Learning.
    • Comprendre les enjeux. - F. Camps (LAAS/CNRS). Le support.
  • 14h50-15h00 : Jeu de données METEONET pour l'IA. G. Larvor (METEO-FRANCE).
  • 15h00-15h30 : Séances Questions Réponses. Modérateurs : E. Gondet (CNRS) et L. Risser (CNRS).
  • 15h30-16h00 : Pause
  • 16h00-17h30 : Groupe de travail :
    • T8.GT05 : Discussions sur les thèmes de l'apprentissage machine, automatique & co.”
      • A. Boucaud (CNRS), P. Navaro (CNRS), J.L Parouty (CNRS) & L. Risser (CNRS), F Camps (LAAS/CNRS).
      • Partie 1 : Modèles d'apprentissage et architectures de réseaux de Neurones
      • Partie 2 : Langages, packages et usages
      • Partie 3 : Hardware et grandes infrastructures
      • Partie 4 : Julia et outils émergents
  • Projets en cours à Météo-France. G. Larvor (METEO-FRANCE).

Ateliers

Les ateliers auront lieu après la plénière de cette thématique prévue le 8 juillet.

Les modalités précises sont encore à l'étude. Ils seront regroupés thématiquement 2 par 2 sur une journée autour de pratiques en terme d'outils ou de langages.

T8.APX : Atelier préparatoires numéro X de la thématique 8 T8.AX : Atelier numéro X de la thématique 8.

Les journées prévues ou à l'étude sont les suivantes :

Journées Keras/Tensorflow

  • T8.AP04 : Introduction au Deep Learning, avec TensorFlow et Keras. Soraya Arias (INRIA) & E. Maldonado (INRAE) & J.L Parouty (CNRS). OK. Date à définir.
  • T8.A09 : Réseaux de neurones convolutifs (CNN) et Réseaux antagonistes génératifs (GAN)avec Keras/Tensorflow S. Arias (INRIA) & E. Maldonado (INRAE) & J.L Parouty (CNRS). OK. Date à définir.

Journée Introduction au DL et ML

  • T8.A10 : Deep learning F.Camps (LAAS). AC
  • T8.A11 : Machine learning F.Camps (LAAS). AC

Journée Julia Débutant

Journée prévu le 17 Juillet 2020 en distanciel avec TEAMS.

  • 09h00-12h00 : T8.AP02 : Atelier JULIA pour les débutants. F. Pont (Oncopôle/INSERM). En distanciel avec TEAMS. OK
  • 14h00-15h30 : T8.GT02 : JULIA. Un successeur de Matlab, Python, R? E. Gondet (OMP/CNRS), P. Navaro (IRMAR/CNRS) et F. Pont (ONCOPOLE/INSERM) OK.
    • Tour de table.
    • Retour sur l'atelier.
    • Les dataframes en julia.
    • Les packages pour l'IA avec Julia.

Journées ML avec Python

  • T8.A04 : Fondamentaux de l'apprentissage automatique (machine learning) avec Python / Scikit-learn. Laurent Risser (ANITI/3IA & IMT) et A. Boucaud (APC/IN2P3). OK. Date à définir.
  • T8.A05 : Python pour l'apprentissage automatique (machine learning) avec Pandas et Scikit learn. A. Boucaud (APC/IN2P3) et L. Risser (ANITI/3IA & IMT) . OK. Date à définir.

Journées Pytorch

  • T8.AP01 : Initiation au framework Pytorch pour le DL. L. Risser (ANITI/3IA & IMT) . OK. Date à définir.
  • T8.A01: Le Framework Pytorch pour le DL. ER.

Journée R, shiny

Autres ateliers à l'étude

  • T8.AP03 : Programmation distribué dans le Cloud avec Dask et l'écosystème pangeo”. G. Eynard-Bontemps (CNES). AC
  • A06 : Mise en œuvre et optimisation de DL sur GPU . ER.
  • A07 : Ateliers sur les moyens nationaux d'IA (T1/GENCI) . AC
  • A08 : R, R++ et datasciences. ER.
  • T8.AP05 : Dans les entrailles d'un réseau de neurones. (Constitution et fonctionnement d'un réseau de neurones) A. Boucaud (APC/IN2P3/CNRS). OK. Date à définir.
  • T8.A12 : Packaging et Deep Learning avec JULIA (Flux, Knet) P. Navaro (IRMAR/CNRS). OK. Date à définir.

Groupes de travail

2 GT ont été insérées à la journée de la plénière le 8 Juillet 2020. Les dates et modalités pour les autres sont encore à l'étude.

  • T8.GT01 Openstack pour la convergence données et HPC. G. Eynard Bontemps (CNES). OK.
    • Etude pour un cluster à base d’Open Stack pour déployer des nœuds HPC bare metal, des VMs, ou du Kubernetes indifféremment accolé au Datalake CNES en stockage objet pour tout ce qui est manipulation de données, mais en gardant un espace scratch haute performance. AC
  • T8.GT03 : Le langage GO. Exemple en génétique F. Pont (Oncopôle/INSERM). OK.
  • T8.GT04 : Préparation des Bases/jeux d'apprentissage (Biais, Etiquetage (semi)automatique …) . ER.
  • T8.GT05 : Discussions sur les thèmes de l'apprentissage machine, automatique & co.” Soraya Arias (INRIA) & E. Maldonado (INRA) & J.L Parouty (CNRS). OK
  • T8.GT06 : Apprentissage semi-supervisé, apprentissage actif. ER
  • T8.GT07 : Apprentissage non supervisée. ER.
  • T8.GT08 : Interprétabilité de l'IA L. Risser (ANITI/3IA & IMT) et A Boucaud (APC/IN2P3).
  • T8.GT09 : Machine Learning et incertitudes. A. Boucaud (APC/IN2P3) et L. Risser (ANITI/3IA & IMT) .
  • T8.GT10 Création d'extension R et l'utilisation de système d'intégration continue (github actions, travis, appveyor, etc.). M. Canouil (UMR 1283/8199 (INSERM/CNRS/Université de Lille/Institut Pasteur de Lille/CHU Lille) . AC.
 
jdev2020/t8.txt · Dernière modification: 2020/07/24 15:18 par etienne.gondet@get.obs-mip.fr
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki