T5 - Infrastructures logicielles et science ouverte

Objectifs

Comprendre l'enjeu des infrastructures numériques scientifiques en émergence. Apprendre à les architecturer et à contribuer à leur développement. Comprendre et développer son projet avec les infrastructures numériques dans le contexte du big data et de l'open-access.

Comprendre pourquoi et comment développer une infrastructure logicielle. Comment organiser une communauté de développement pour co-construire une infrastructure. Comment m'appuyer sur une infrastructure de données et/ou de calcul pour développer des applications web pour mes utilisateurs.

Description

L'explosion du volume des données, leur répartition dans le nuage nécessitent de réfléchir aux infrastructures facilitant leur interopérabilité, leurs usages et leurs valorisations.

Dans un contexte de convergence des ressources de calcul et de données, du web des données, les infrastructures numériques permettent l'automatisation de la collecte et des traitements des données indispensable pour assimiler de grands volumes, certifier, fiabiliser les traitements en vue de rendre les expérimentations, les simulations numériques et la science reproductibles.

Nous nous intéresserons à comprendre l'enjeu des infrastructures numériques scientifiques en émergence, à apprendre à les utiliser pour mettre en place ses solutions et aussi à contribuer à leur essor en proposant des ressources de données et des ressources de calcul additionnelles.

En complément à leur développement, nous apprendrons à les architecturer (architectures orientées ressources, pilotage par processus, référentiels de contenu, référentiel de type, méta-données, indexation…). Nous parlerons de leur urbanisation avec en ligne de mire la convergence du HPC et du cloud (OpenStack, SaaS, PaaS…) et la bonne utilisation des infrastructures matérielles sous-jacentes.

Nous ferons un focus particulier sur les données liées et l'open-access, les humanités numériques et l'utilisation des ressources dans les systèmes d'information scientifique.

Mots clés

  • Infratructures numériques
  • Big data
  • Référencement, traitement et analyse des données
  • Architecture micro-service, SOA, ROA
  • Fondamentaux du Big Data (algorithmes pour le Big Data)
  • Ouverture des données de la recherche (open-access)
  • Ressources de données (BD , persistance)
  • Ressources de calcul
  • Open-access, open-data, open-édition
  • Humanités numériques
  • Sécurité,
  • Systèmes d'Information, patterns et urbanisation
  • SOA
  • ROA
  • Intergiciel, bus logiciel
  • Micro-service
  • Orchestration, chorégraphie
  • Infrastructures et IOT
  • RDA
  • LIMS Laboratory Information Management System
  • Web API
  • Openstack, IAAS, PAAS, SAAS, virtualisation

Public

  • Réseaux: Devlog, Calcul, RBDD
  • GDR GPL, MADICS

Planning

  • Mardi 4/07 Matin: A01, A04, GT03/GT11, GT13/GT14 (impérativement)
  • Mercredi 5/07 Matin: A03, A02, GT01/GT02, GT04/GT08
  • Mercredi 5/07 après-midi: A06, A08, GT06/GT07
  • Jeudi 6/07 Matin: A05, A07, A09, GT05/GT12, GT09/GT10
  • Jeudi 6/07 après-midi: T5.P plénière (présentation)

Presentations

  • 14h00-14h30: - Les infrastructures numériques, les services de calcul et de données, état de l'art et perspective - Alain Tchana (ENSEEIHT, Toulouse))
  • 14h30-14h55: Les concepts d'une infratructures logicielles- apis, scalabilité, résilience, couche métier, couche données,intéropérabilité - Olivier Sallou
  • 14h55-15h20: Illustration de la mise en oeuvre d'une infrastructure logicielle dans le monde des SHS - perspective et impact sur les pratiques de développement - Nicolas Larrousse
  • 15h20-15h40: - SOA, late-binding et agilité technique - Linagora
  • 15h40-16h00: - Pause
  • 16h00-16h35: - SOA/WOA/ROA tenants et aboutissants - Linagora
  • 16h35-17h00: - Portage d'une architecture SOA sous Docker, exemple du système d'information du réseau d'observation ReefTEMPS - Andry Andriatiana(Observatoire Midi-Pyrénées)
  • 17h00-17h30: - Logisland, Event Mining libre basée sur Spark & Kafka - Thomas Baillet

Ateliers préparatoires

Ateliers

  • T5.A01 : Usage des données et des API ISTEX - http://www.istex.fr/ (INIST - Nicolas Thouvenin & Stéphane Gully)
  • T5.A02 : Usage des API de HAL, des méta-données et des données. Indexation et RI (CCSD - Yannick Barborini).
  • T5.A03 : RI à partir de plusieurs référentiels - (Alexandre Delanoë - travaille sur le projet Gargantext à l'ISC / analyse du réseau et traitement automatique des langues)
  • T5.A04 : Déploiement avec Docker (Treeptik)
  • T5.A05 : Découverte d'elastic search : beats + elasticsearch + kibana (David Pilato)
  • T5.A06 : TP BD orientée graph - Fouille de données et jointure - (Neo4j Cédric Fauvet)
  • T5.A07 : Openstack : configurer un tenant/configurer un IAAS. Utilisation de Cloudwatt ou de la POC Philippe Saby OMP et Objectif Libre
  • T5.A08 : Roboconf, Orchestration de conteneurs pour l'intégration continue. Encapsulation de composants logiciels ou de machines virtuelles pour leur liaison avec le Cloud. Déploiement hybride -privé et public-(en lien avec la T8 atelier T8.A01) - Vincent Zurczack/Linagora
  •  T5.A09 : Atelier Flux d'évenement massif: mettre en place une chaîne de traitement, collecte, acquisition, configurer, création et exécution d'un algo de matching learning, plugin - (LogIsland & Thomas Bailet)

Groupes de travail

* Groupe 1

  • T5.GT01 : Openstack pour modéliser et tester son architecture SOA ou ROA - (Olivier Sallou et Philippe Saby)
  • T5.GT02 : Urbaniser/architecturer une infrastructure numérique, fédération de communauté de développement et fédérer une communauté d'utilisateur - (Yvan Le Bras)

* Groupe 2

  • T5.GT03 : Infrastructure numérique et communauté de développement - (Stéphane Ribas)
  • T5.GT11 : Intégrer ses développements au sein d'une infrastructure - (Yvan Le Bras)

* Groupe 3

  • T5.GT04 : Stratégie de publication pour l'OpenScience (publication, code et données) - (Marie Farge)
  • T5.GT08 : Comment protéger son jeu de données dans une infrastructure ouverte? (comité éthique, représentation des données interface, embargo, …) - (Yvan Le Bras)

* Groupe 4

  • T5.GT06 : Recherche textuelle - (Patrice Bellot)
  • T5.GT07 : Les API pour la recherche et la fouille de documents scientifiques et techniques - (Alexandre Delanoë- Gargentext)

* Groupe 5

  • T5.GT05 : La question de la pérennité des données de la recherche : les plateformes et les infrastructures - (Nicolas Larrousse)
  • T5.GT12 : Standardisation des métadonnées pour l’interopérabilité des infrastructures : illustration par l'infrastructure européenne EPOS et des observatoires virtuels - (Emmanuel Delage - OPGC)

* Groupe 6

  • T5.GT09 Quels usages pour la recherche du traitement temps réel de flux massifs d'événements (LogIsland - Thomas Bailet)
  • T5.GT10 : Mise en place d'une architecture robuste / Sécurité & scalabilité : Retour d’expérience sur la plate-forme Hypothèse - (Open Edition - CLEO)

* Groupe 7

  • T5.GT13 - les identifiants permanent, pourquoi, comment? La problématique de la citation des données (et des requêtes!) - RDA : Françoise Génova et/ou François-André (OMPs) ?
  • T5.GT14 - Intéropérabilité des référentiels de données pour lier les ensembles de données variés - (Raphael Ritz)

Descriptifs

Descriptif de l'atelier [Gargantext](http://gargantext.org).

# Niveau de Complexité : Débutants avec des connaissances de base des outils informatiques.

# Langue: La formation est délivrée en français par défaut; préciser si vous souhaitez une formation en anglais.

# Présentation de Gargantext:

Gargantext est conçu pour produire des cartes vivantes qui évoluent au fur et à mesure que vous travaillez avec elles.

Ses cartes thématiques de mots peuvent être utilisées pour construire un état de l'art, cartographier un ensemble de documents, mettre en place une représentation collective d'un problème, etc.

La carte n'est pas l'objectif final mais une étape intermédiaire qui se conçoit comme support pour créer une représentation adaptative d'une question ou d'un problème en permettant des aller/retours entre les différents niveaux de vos corpus (document, termes, cartes, etc.).

# Objectif :

1. Découvrir les étapes d'analyse de fouille textuelle 2. Constituer un corpus (ensemble de documents) à partir de bases de données 2. Réaliser un état de la littérature en cartographiant un corpus

# Contenu de l'atelier:

- Introduction large à la fouille textuelle - Présentation des bases de données - Manipulations basiques de l'interface - Usage avancé (en fonction du temps restant): Comment améliorer une carte

# Pré-requis matériel et logiciel :

Ordinateur avec navigateur web, [firefox](https://en.wikipedia.org/wiki/Firefox) et/ou [chromium](https://en.wikipedia.org/wiki/Chromium_%28web_browser%29) , aucun matériel n’est à disposition.

# Intervenant (du CNRS ISC-PIF): * [Alexandre Delanoë](http://alexandre.delanoe.org), Ingénieur de Recherche CNRS

# [Documentation pour aller plus loin](https://iscpif.fr/gargantext/your-first-map)

 
jdev2017/t5.txt · Dernière modification: 2017/05/22 19:03 par nicolas.larrousse@huma-num.fr
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki