APSEM2019 : éco-systèmes pour la science ouverte et recherche par les données

Accès libre avec inscription obligatoire dans la limite des places disponibles

L’apport croisé et les nouvelles perspectives des technologies du web des données et de la recherche par les données pour les éco-systèmes pour la science ouverte.

Le fil conducteur de cette action sera le support à l'utilisateur, l'accès aux ressources, le processus de traitement, d'analyse des données ou dans la mise en place de l'apprentissage automatique.

Nous nous intéresserons particulièrement à l'intégration des technologies du web des données dans les éco-systèmes pour la science ouverte.

Cette action fait suite à l'édition APSEM 2018

MOTS-CLEFS  :

  • Support à l'utilisateur
  • Eco-système pour l'analyse et l'apprentissage automatique profond
  • Recherche par les données
  • Science ouverte et reproductible
  • EVR
  • E-infrastructure

Contact

  • Lieu: - Toulouse à ENSEEIHT
  • Date: - du mardi 15 au vendredi 18 octobre (Semaine 42) - 4 jours
  • Nb personne: environ 40
  • Date limite d'inscription : –

Constat

De plus en plus de données sont disponibles et la recherche par les données connaît un intérêt croissant dans un objectif de valorisation ou de réutilisation des données dans de très nombreux domaines.

Lors de l'édition APSEM 2018, nous avons étudié l'apport croisé et l'intérêt de l'apprentissage automatique et du web des données pour conduire une analyse.

Conduire une analyse valide nécessite une grande expertise mathématique et informatique. Les experts en science des données sont rares en rapport aux besoins.

La mise en place d'un environnement opérationnel, facilement accessible et utilisable par le plus grand nombre est également un fort enjeu.

Objectifs scientifiques et techniques

Nous étudierons le support à l'utilisateur dans le processus de traitement, d'analyse des données ou dans le processus d'apprentissage automatique:

  • Système de gestion, d'aide et/ou de recommandation pour l'élaboration de processus d'analyse
  • La mise en oeuvre du système de support dans un processus de recherche et un éco-système technique.

Nous étudierons ce que le web des données peut apporter à la construction de ces éco-systèmes.

Il importe de pouvoir:

  • Faciliter l'accès et le partage des ressources entre utilisateurs (données, codes, calcul, expérimentations, services, configurations,…) (principes FAIR)
  • Faciliter l'activité des experts.
  • Rendre possible la conduite d'analyses de données valides par des acteurs moins expérimentés.
  • Offrir des capacités d'analyse des données au plus grand nombre.
  • Faciliter la formation des individus et des communautés.

Comité d'organisation

  • CNRS (MITI/DEVLOG)
  • INRAE (L'organisation se fait avec le soutien d'Ingenum)
  • ENSEEIHT

Comité de programme

  • Christophe Baehr - CNRS/CNRM
  • Romain David - INRAE
  • Pascal Dayre - CNRS/IRIT
  • Dominique Desbois - INRAE
  • Etienne Gondet - CNRS/OMP
  • Alban Gaignard - CNRS
  • Franck Michel - CNRS
  • Christophe Biernacki - INRIA

Description

Environnements de travail pour la convergence de l'apprentissage automatique et de l’ingénierie des connaissances. Constitution et utilisation d’éco-systèmes composés d’e-infrastructures et d’environnements de recherche virtuels.

  • panorama des écosystèmes technologiques pour la science des données
  • outils et méthodes de l'apprentissage ;
  • outils de structuration sémantique des données, le web sémantique et ingénierie des connaissances;
  • apports croisés
  • usages et communautés de recherche
  • architecture des services d’e-infrastructure et fonctionnalités des environnements virtuels de recherche pour les scénarios d’usages des laboratoires.
    • Cycle de vie de la donnée
    • Accès aux calculs et aux référentiels de ressources
    • Traçabilité des calculs et des ressources numériques dans une perspective de science ouverte
    • Intégration des technologies de l’intelligence artificielle, de la reconnaissance des formes et de l'ingénierie des connaissances

Programme

Attention ce programme est provisoire et susceptible d'évoluer.

J1: Le processus de traitement, d'analyse des données et le processus d'apprentissage automatique

  • Objectifs: expliciter le processus d'analyse des données et la validation des résultats. Nous nous intéresserons aux recommandations pour mener correctement une analyse, de la préparation des données à la validation voire à l'explicabilité des résultats.
  • Mots clé: cycle de vie de la données et de leur préparation pour l'analyse, l'apprentissage et l'IA, traçabilité (PROV-O). Formalisation du processus et base de données des traces d'apprentissage

Programme :

  • 09H15-10h00 - Accueil
  • 10H00-10h30 - Présentation de l'action et des participants
  • 10H30-11h30 - le Processus d'analyse et la validation des résultats - Sébastien Déjean / IMT
  • 11h30-12h30 - Présentation des concepts de l'Analyse des données symboliques et de ses développements récents Les fonctionnalités nécessaires à la gestion des données complexes (objets symboliques) dans les environnements de recherche en data science - Edwin Diday
  • 12h30-14h00 - Repas
  • 14h00-15h00 - Interprétabilité de modèles boites-noires en Apprentissage Machine - Laurent Risser / IMT / ANITI et Ronan Pons (doctorant ANITI)
    Cette présentation portera sur les problématiques et les solutions récentes liées à l'interprétation des décisions prises par des modèles boites-noires en Apprentissage Machine. Ces problématiques sont d'autant plus critiques en France que le RGPD a rendu obligatoire l'an dernier le fait de pouvoir expliquer ce type de décisions en cas de discrimination potentielle. Au delà des aspects techniques, les aspects sociétaux et légaux liés à cette problématique seront évoqués.
  • 15h00-15h40 - Formalisation du processus d'analyse et traces de provenance - Franck Michel et Pascal Dayre
  • 15h40-16h00 - retour d’expérience: La problématique de la provenance dans le domaine du phénotypage haut débit - Romain David - INRA
  • 16h00-16h30 Café
  • 16h30-17h00 Table de ronde sur la formalisation du processus d'analyse

J2: Usages et besoins en science des données ouverte - Supports aux chercheurs

  • Objectifs: nous nous intéresserons à tous les aspects pouvant aider l'utilisateur dans sa démarche de recherche par les données: le format des données pour leur exploitation par des algorithmes d'IA, la maîtrise de son environnement de travail, le suivi de ses travaux, la socialisation des expérimentations dans une communauté par le partage des traces et des bases d'apprentissage voire le parallèle avec les EIAH, le support à l'utilisateur, les systèmes de recommandation et d'aide à la décision, ergonomie.
  • Mots clés: framework, format de données, trace, base d'apprentissage, scénario, trace, support à l'utilisateur, systèmes de recommandation

Programme :

  • 09h00-09h15 - Introduction Données de la recherche, approche itérative de la recherche et socialisation - Pascal Dayre - CNRS/IRIT
  • 09h15-09h30 - poster DataNoos - Michelle Sibilla - IRIT
  • 09h30-09h45 - poster Identifying, naming and interoperating data in a Phenotyping platform network : the good, the bad and the ugly - Romain David - INRA
  • 09h45-10h00 - poster Atelier données Groupe inter-réseaux - Dominique Desbois
  • 10h00-10h15 - poster SO-DRIIHM - promoting open science within the labex - improving its research data infrastructure - Emilie Lerigoleur - CNRS/GEODE
  • 10h15-10h40 - Pause café
  • 10h40-11h00 - Comment gérer et publier des données en open access selon les principes FAIR ? Retour d'expérience et perspectives - Emilie Lerigoleur - CNRS/GEODE
  • 11h00-11h30 - Retour d'expérience sur les data paper du GBIF - Sophie Pamerlon - UMS Patrimoine Naturel
  • 11h30-12h15 - plateformes Big data - principes, usages et architectures - Sami Yangui - LAAS
  • 12h15-14h00 - Repas
  • 14h00-14h30 - Publier ses expériences d’apprentissage dans une base ouverte (chaînes de traitement, paramètres, données, résultats). cf. openML - Pascal Dayre - CNRS/IRIT
  • 14h30-15h15 - Les systèmes de recommandation / Aide à la décision, principes généraux - Julien Aligon / IRIT
  • 15h15-15h45 - Café
  • 15h45-16h15 - Application des systèmes de recommandation aux chaînes de traitement et à l'apprentissage - Gabriel Ferretini / IRIT
  • 16h15-16h30 - Présentation d'un VRE OSF Open Science Framework - Pascal Dayre - CNRS/IRIT
  • 16h30-17h00 - Atelier et discussions - Usages et besoins en science des données ouverte

J3: Les Environnement Virtuel de Recherche (EVR)

ou encore les ENT / ERV / VRE (Virtual Research Environment)

  • Objectifs: nous nous intéresserons ici aux couches d'intermédiation des utilisateurs, aux frameworks d'analyse et d'apprentissage automatique et à leur intégration dans les VRE (Environnement Virtuelle de Recherche).
  • Mots clés: framework, VRE (Environnement Virtuelle de Recherche), source de données, service de traitement dans le CLOUD, sémantisation

Programme:

  • 09h00-09h30 - Petit tour d'horizon et comparatif des VREs - Yvan Le Bras / MNHN
  • 09h30-10h00 - Retour d'expérience sur Google earth engine - Simon Gascoin - CESBIO
  • 10h00-10h45 - Pangeo : a community platform for Big Data (geo)science. Qu’est-ce que Pangeo et les cas d’utilisation scientifiques- Guillaume Eynard-Bontemps / CNES
  • 10h45-11h00Pause café
  • 11h00-11h45 - Les VRE pour la recherche participative - Yvan Le Bras / MNHN
  • 11h45-12h30 Les fonctionnalités nécessaires à la gestion des données complexes (objets symboliques) dans les environnements de recherche en data science - Edwin Diday
  • 12h30-14h00 - Repas
  • 14h00-14h30 - la plateforme web MASSICCC pour classifier des données complexes (mixtes, manquantes, fonctionnelles, haute dimension) - Pr. Christophe Biernacki, math.univ-lille1.fr/~biernack ; responsable scientifique de l'équipe MODAL (modal.lille.inria.fr)
  • 14h30-15h00 - L'IA avec .net core et F# - François-David Collin - Université de Montpellier
  • 15h00-15h25 - Café
  • 15h25-15h45 - Composition de service de traitement de données - Emmanuel Courcelle / Centre calcul Calmip)
  • 15h45-16h25 - Atelier et discussions - Les fonctionnalités attendues des VRE et constitution d'un groupe pour rédiger un livre blanc
  • 16h25-17h00 - Discussion Intégrations des ressources et middleware/intergiciel et frameworks dans les VRE

J4: Les éco-systèmes pour la science ouverte

Objectifs:

Les plateformes de big data se développent. Elles sont souvent synonymes de solutions centralisées. Nous nous intéresserons ici aux solutions ouvertes et distribuées. Nous nous intéresserons aux éco-systèmes pour la science ouverte intégrant des e-infrastructures de données et des services de traitement, des socles et des services de calcul, les couches d'intermédiations que sont les EVR (Environnement Virtuel de Recherche).

Nous voyons que nous sommes à la convergence du calcul-données, HPC-cloud.

Nous avons d'un côté des centres de calcul et de l'autre des e-infrastructure de données. allons-nous vers une architecture centralisée ou une architecture distribuée, une solution intégrée bornée genre plateforme ou une solution évolutive avec des standards ouverts, des e-infrastructures et des socles de calcul pour le backbone et le “back office” et des VRE pour le “front office” et la couche d'intérmédiation pour l'accès aux différents services de données, de traitement et d'analyse.

Nous nous poserons également comme question lors de ces journées la mise en place de ces éco-systèmes, de l'offre des GAFAM tel que Google Earth Engine à des environnements co-construits par des communautés utilisatrices comme celle des sciences de la terre avec Pangeo.

Nous nous intéresserons également à l'apport du web sémantique dans ces solutions.

Mots clés: éco-systèmes, communautés, e-infrastructures, services de données, services de calcul, communauté, big data, IA, CLOUD, EOSC.

Programme provisoire:

  • 08h30-08h45 - Introduction
  • 08h45-09h30 - Mise en place d'un service de calcul - REX du GT calcul Inria - Pr. Christophe Biernacki, math.univ-lille1.fr/~biernack ; Délégué scientifique du Centre Inria de Lille (inria.fr/en/centre/lille)
  • 09h30-10h15 - Mise en place de Pangeo au centre de calcul du CNES, architecture et intégration - Guillaume Eynard-Bontemps / CNES (https://pangeo.io/, A community platform for Big Data, CLOUD,geoscience)
  • 10h15-10h30 - Café
  • 10h30-11h15 - L'infrastructure de recherche Data Terra, ses produits et ses services distribués et sa feuille de route d'éco-système pour la science ouverte - Frédéric Huynh Directeur - Infrastructure de Recherche Data Terra - “Pôles de données et services pour le système Terre”. MESRI / CNES-CNRS-IFREMER-IGN-IRD-IRSTEA-METEO France. www.theia-land.fr ; www.odatis-ocean.fr ; www.aeris-data.fr ; www.poleterresolide.fr
  • 11h15-12h00 - Quelle offre de la part des infrastructures de calcul ? Quelles connexions avec la gestion des données ? Quelles évolutions de l'accès au calcul ? - Alain Franc - INRA - UMR Biodiversité, Gènes et Communautés
  • 12h00-12h45 - Le projet de l’université fédérale de Toulouse - Hervé Luga - VP numérique de l'université de Toulouse
  • 12h45-14h00 - Repas
  • 14h00-14h45 - Les VRE, les frameworks, l'accès aux ressources et l'interopérabilité dans le réseau de France Grille et EGI - Axel Bonnet - CREATIS
  • 14h45-15h10 - Retour sur le IG RDA - “Virtual Research Environments - Working towards building a common reference model and a catalogue of design patterns for VREs" Romain David INRA UMR MISTEA - Pascal Dayre CNRS/IRIT/ENSEEIHT
  • 15h10-15h30 - Retour d'expérience de l'utilisation de l'environnement virtuel conda et d'un container singularity pour le calcul HPC - Yves Auda - CNRS/OMP
  • 15h30-15h45 - Café
  • 15h45-16h45 - Discussion “Vers un standard ouvert pour un éco-système ouvert?”
 
apsem2019.txt · Dernière modification: 2019/10/18 11:43 par romain.david@imbe.fr
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki