ANF APSEM2018 : Apprentissage et sémantique

l’apport croisé et les nouvelles perspectives des technologies du web des données et de la recherche par les données.

  • Lieu: - Toulouse
  • Date: - du 12-15 novembre (Semaine 46) - 4 jours
  • Nb personne: 30-40
  • Date limite d'inscription : 12 octobre

Inscription et appel à contribution

  • Appel à retour d'expérience pour le jour 4
  • Appel à panélistes pour les tables rondes du jour 2 et du jour 3 (présentation de 10 minutes)
  • Appel à questions pour les tables rondes du jour 2 et du jour 3

====== Appel à contribution ======

L'organisation se fait en collaboration avec l'Inra avec le soutien financier d'Ingenum pour la prise en charge des frais d'inscription pour les agents Inra.

Objectifs et enjeux

Il y a plusieurs enjeux scientifiques et techniques:

  • Maîtriser de nouvelles méthodes et outils pour l'émergence de connaissance en sciences expérimentales.
  • Offrir des terrains expérimentaux pour des statisticiens et la recherche en informatique.
  • Expérimenter le web sémantique et des données liées pour structurer les océans de données (ontologies descriptives, méthodes itératives, …)
  • Identifier et développer les savoir-faire pour les ingénieurs en science des données

Description

L’apprentissage automatique et la statistique sont au coeur de la production des connaissance. En science expérimentale, avec l’afflux des données, les nouveaux moyens de calcul et les nouvelles techniques d’apprentissage, le paradigme de construction de la connaissance est inversé.

Préalablement, le scientifique partait d’une conceptualisation de son domaine puis collectait des données pour valider ou non son modèle (cf. méthode directe, méthode du modèle inverse).

L’ étape initiale de modélisation du phénomène est maintenant remplacée par une exploration des données qui aboutit à une émergence du modèle. Nous sommes à l’ère de la science par les données.

L'objectif est de faire se rencontrer la communauté des développeurs, des statisticiens, de l'apprentissage, du web sémantique et des expérimentateurs (producteurs de données) pour étudier l’apport de la structuration des données pour leur intégration, leur interopérabilité, leur sélection contextuelle pour améliorer la robustesse des apprentissages.

Nous nous intéresserons donc:

  • à la structuration de l'information à partir du web sémantique pour améliorer l'apprentissage et l'analyse des données.
  • à l'apprentissage et à l'analyse des données
  • à l'apprentissage pour aider à la structuration de l'information.
  • aux nouvelles approches basées analyse des graphes.
  • à des cas d'étude.
  • à des retours d'expérience.
  • aux outils, langages et environnements de travail
  • aux processus et méthodes de travail

Comité d'organisation

Comité de programme

Comité de programme

Pré-programme

Jour1

  • 09h30-10h00 : - Accueil
  • 10h00-10h20 : - Présentation et objectif de l'action - Quels apports croisés de l'apprentissage et du web sémantique? - Pascal Dayre / CNRS/IRIT
  • 10h20-10h45 : - Recherche par les données : de la données au représentation des connaissances exploration, préparation des données d'apprentissage pour éviter les biais (données manquantes, classes sureprésentées, bonne distribution, données erronnées), mise en forme et structuration des données - FC / INSEE ou SD / IMT (à confirmer)
  • 10h45-11h15 : - Pause
  • 11h15-12h15 : Synthèse de la science des données et de l'apprentissage automatique. Les points de vue maths/info de l'ingénieur - Laurent Risser / IMT
    • Exemple introductif qui pose le vocabulaire (observation/variable/label/apprentissage supervisé ou non).
    • Evolution des tendances en science des données (de la statistique classique à l'apprentissage machine).
    • Présentation illustrée d'algorithmes classiques (arbre de classification, random forest, K-means, SVM).
    • Présentation illustrée de méthodes basées sur le calcul GPU (Deep-learning, XGBoost).
    • Méthodes standard d'évaluation de l'efficacité d'un algorithme d'apprentissage (LOO, K-fold).
    • Problématique actuelle de la réduction de dimension.
    • Problématique montante d'explicabilité des choix d'un algorithme l'apprentissage. -
  • 12h15-13h30 : - Pause repas
  • 13h30-14h30 : - Synthèse de la science des données et de l'apprentissage automatique. Les points de vue maths/info de l'ingénieur - Laurent Risser / IMT (suite)
  • 14h30-15h15 : - Le deep learning sur les données structurée (apprentissage structuré) - Mathieu Serrurier / IRIT
  • 15h15-15h45 : - Pause café
  • 15h45-16h15 : - Apport des graphes pour structurer les données et pour l'apprentissage -
  • 16h15-17h00 : - Méthodes supervisée par les graphes. PB du tagage des données d'apprentissage - CL / CERFACS
  • 19h30-21h30 : - Evénement social dinatoîre

Jour2

Objectifs :

  • Accéder et fédérer des sources de données
    • principes et intérêts du Linked Data (5-stars…)
    • production de données RDF à partir de données hétérogènes légataires
    • production de données liées : liage d'instances, alignement d'ontologies
  • Structurer les données ⇒ indexation et recherche d'information (à préciser)
  • Vocabulaires
    • pour décrire un jeu de données (métadonnées) : producteur, formats, provenance, unités, outils utilisés, moyens d'accès etc.
    • pour annoter de données existantes (e.g. Web Annotation Vocabulary)
    • pour formaliser les activités d'analyse (préciser ce que cela recouvre) (Franck Cotton, INSEE)
    • de statistique
    • pour décrire un service de traitement/analyse/apprentissage, une chaîne de traitement (workflows, composition des services), et annoter les données produites (provenance)
  • Interopérabilité entre le web sémantique et les outils d'analyse (R, python composant web semantique ?)
  • Interrogation des entrepôts RDF.

Planning

  • 09h00-10h00 : Introduction à l'Ingénierie des Connaissances, ses usages, ses intérêts : web des données, données liées, ontologies, aperçu des standards du web sémantique (RDF/RDFS/OWL/SPARQL). Liage d'instances, alignement d'ontologies. Franck Michel.
  • 10h00-10h45 : Décrire ses données par l'utilisation/extension de vocabulaires génériques, créer des ontologies de domaine. Nathalie Hernandez.
    Les métadonnées servent à décrire/structurer/indexer les données et les contenus. Il importe de partager des vocabulaires communs de métadonnées entre les disciplines pour faciliter l'utilisation des données dans des contextes interdisciplinaires. Peut-on étendre le Dublin Core ? Comment s'y prend-on ? Quels sont les vocabulaires, les initiatives ? Comment agréger des vocabulaires autour du Dublin Core (pour décrire des images, des séries temporelles, des informations de localisation, …) ? Quelles recommandations suivre ? Comment faire du sens à partir de l'existant ? Un panel de l'existant sera présenté: schema.org (annotation massive des pages web) et ses extensions possibles comme Bioschemas.org, catalogue des vocabulaires (LOV, BioPortal, AgroPortal, ontobee), … Illustrations utilisant JSON-LD, RDFa, micro-data, micro-format.
  • 10h45-11h15 : Pause café
  • 11h15-11h35 : Les vocabulaires pour décrire les jeux de données et les catalogues (VOID, HCLS, DCAT, schema.org), les outils pour les publier (data.gouv.fr, portails CKAN…) . Franck Michel.
  • 11h35-12h00 : Comment annoter sémantiquement des données existantes. Nathalie Hernandez.
    Il s'agit ici de faire le point sur comment des méta-données peuvent être associées à des données publiées sur le web (données légataires hétérogènes) pour y ajouter de la sémantique. Par exemple les vocabulaires d'annotations seront étudiés tels que le “Web annotation vocabulary”, ou CSV-on-the-Web/JSON-LD qui permettent d'interpréter un document CSV/JSON comme un graphe RDF.
  • 12h00-12h30 : Vocabulaire liés aux statistiques, formaliser les activités d'analyse. Franck Cotton, INSEE.
  • 12h30-14h00 : Déjeuner
  • 14h00-14h45 : - Exploration et visualisation des données (définition du jeu de données/mise en oeuvre du web sémantique) - Franck Cotton / INSEE (ESAN - statistiques des entreprises européennes - cas avec des entreprises de l'agroalimentaire )
  • 14h45-15h30 : Description sémantique d'un service de traitement/analyse/apprentissage et comment composer les services ? (SOA sémantique).
    Traçabilité/provenance des données avec PROV-O, actions schema.org. Alban Gaignard.
  • 15h30-16h30 : Pause café
  • 16h30-17h00 : Les langages de description de workflow pour formaliser sa chaîne de traitement - La base des expériences passées, des worflows de traitement (open Workflow) / vers une proposition de sémantisation (Google group ML schema -Pays-Bas- (Comment et pourquoi?) - GF et WR / IRIT à confirmer ou APPEL à contribution
  • 17h00-17h30 : Table ronde “Comment spécifier et comment utiliser des infrastructures de recherche et les ENTC? Quel apport du web des données ?” ou comment les e-infrasructures se saisissent de la problématique de l'ouverture des données, de l'apprentissage, de l'IA (Invités IFB, huma-num, FLI, …).

Jour3

Convergence apprentissage et sémantique c'est à dire représentation des connaissances.

  • 09h00-10h30 : Construction de graphes valués à partir des données
    • Méthodes pour la construction de graphes valués: aperçu des méthodes et illustration par l'approche PLS-PM sur des données reliant agriculture et environnement - Dominique Desbois (INRA/Versailles)
    • Construction de graphes à partir des variables décrivant l'environnement et la biodiversité - Romain David / IMBE / IndexMED
  • 10h30-11h00 : Pause
  • 11h00-12h30 : Gestion et intégration de connaissance -Sémantique des Données génomiques des plantes et phénotypage-. Utilisation de graphes pour l'apprentissage “classique” - Pascal Neveu / UMR INSTA / INRA Montpellier
  • 12h30-14h00 : Déjeuner
  • 14h00-15h30 : Table ronde sur la convergence Apprentissage/Représentation des connaissances- Pascal Neveu +
    • 14h00-15h00 : Les panélistes : donnez votre point du vue sur la convergence en 2 slides et en 5 minutes (Donner une série de question sur la convergence: 10*5min)
    • 15h00-15h30 : Les questions (Demander les questions à l'inscription)
  • 15h30-16h00 : Pause café
  • 16h00-16h30 : * Quel apport de l'Approche bio-div pour l'apprentissage : mélanger des objets de différentes natures dans le même graphe. - Romain David / IMBE et GDR Madics (curation et fouille en fonction des différents contextes) Génération de graphes de décision. ou autre?
  • 16h30-18h - Atelier Graminé / pub vers Madics

Atelier de programmation GRAMINEES (GRAphe data Mining In Natural, Ecological and Environnemental Sciences, Responsables Romain David, IMBE, INEE, Luc Hogie, I3S, INS2i durée 1h30 à 2 h) http://www.madics.fr/actions/actions-en-cours/graminees/ https://www6.bordeaux-aquitaine.inra.fr/biogeco/Personnel/Annuaire/D-F/Franc-Alain

Atelier Graminé / GDR Madics

Atelier de programmation GRAMINEES (GRAphe data Mining In Natural, Ecological and Environnemental Sciences, Responsables Romain David, IMBE, INEE, Luc Hogie, I3S, INS2i durée 1h30 à 2 h) http://www.madics.fr/actions/actions-en-cours/graminees/

Cet atelier GRAMINEES, labellisé et soutenu par le GDR MaDICS, est proposé par le consortium IndexMEED. Organisé en marge de APSEM2018 ,il est néanmoins ouvert aux participants à l’ANF, et a pour objectif de préparer les étapes et la répartition des rôles nécessaires à l’élaboration d’un programme de recherche concernant la fouille de données environnementale hétérogènes et réparties basée sur la visualisation et la fouille de graphe. Les défis à relever sont le passage à l'échelle et l’utilisation simultanée de bases de données de disciplines différentes : des données thématiques (exemple : biodiversité) et des bases de données dites “de contexte” (exemple : altitude, température, pluviométrie) administrées par des organismes différents. A l’issu de ces échanges, l'élaboration d’une première version d’un arbre de décision pour les choix d'algorithmes de fouille dépendant de la typologie des données sera proposé. Cet arbre doit permettre de classer les différents graphes en fonction de leur contenu et de la manière dont ils sont construits.Il doit aussi mettre en évidence les différents axes de recherche sur ces données et leurs interdépendances, et faire émerger des questionnements scientifiques.

Jour4

Appel à contribution : * notamment interrogation/exploitation d'entrepôts RDF à partir des outils d'analyse (Python, R, ENTC, datalift-R, ….). * Framework

Le matin :3 REX : 45 min de présentation puis 15 minutes d'échange

  • 09h00-10h00 - Apprentissage automatique / web sémantique/ retours d'expérience. Présentation d'une méthodologie d'alignement automatique avec Geonames et de désambiguisation d'entités géographiques en utilisant une méthode par apprentissage automatique (words embeddings avec AdaGram en Julia). Dans le réservoir ISTEX des entité nommées on été extraites. Nous nous focalisons sur les entités géographiques (de type place name) que nous cherchons à aligner automatiquement avec Geonames. La désambiguisation des entités est alors une étape importante qui peut être résolue grace à des méthodes d'apprentissage automatique et de vectorisation de mots.Nous nous basons sur l'algorithme AdaGram développé en Julia. Nous présenterons la problématique, la méthodologie et illustrerons avec quelques exemples. - Pascal Cuxac / INIST / CNRS
  • 10h00-11h00 - REX2
  • 11h00-11h15 - Pause
  • 11h15-12h15 - REX3
  • 12h15-13h30 - Repas
  • 13h30-15h00 - Atelier par groupe autour de mots clé (apprentissage et représentation de données; représentation de données et apprentissage). Autour de 12 personnes par atelier
  • 15h00-15h30 - Restitution
  • 15h30-16h00 - Bilan des journées
 
apsem2018.txt · Dernière modification: 2018/09/05 14:52 par pascal.dayre@enseeiht.fr
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki