T8.GT1 Publication de données sur le web des données: retour d'expériences

Ne plus utiliser l'Etherpad, tout est reversé ici merci de changer ou de s'adresser au coordinateur pour faire des changements

retour sur la Thématique 8
retour au programme


Thème : Publication de données : besoins et retour d'expérience

  • Date: Mercredi 4 Septembre 14h
  • Lieu: Amphi Painlevé

Motivation : Nos institutions sont productrices de données. Que ce soit de données résultant de l'activité scientifique (obtenues via l'expérimentation) ou des données de support (données bibliométriques par exemple). Il est de plus en plus utile de diffuser ces données pour des raisons de transparence et de reproductibilité en particulier. La diffusion de données devrait donc prendre une place importante dans les futures activités de support à la recherche. Au delà de la diffusion, la mise en valeur de ces données devrait déterminer le succès de l'approche. En effet, publier des données n'a de sens que si ces données sont exploitées. Cette exploitation peut avoir lieu à plus ou moins long terme. C'est pourquoi il est nécessaire de publier ses données sous une forme qui soit le plus exploitable possible.

L'animateur défendra sûrement l'approche nommée données liées ouvertes (linked open data) qui réutilise les technologies du web sémantique pour diffuser des données de manière plus facilement utilisables. Elle permet d'atteindre les objectifs cités ci-dessus car elle est ouverte, fondée sur des standards et supportée par des logiciels.

C'est pour cela que nous avons deux ateliers aux JDEV 2013 sur :

  • A3: Exploitation de données mises à disposition
  • A4: Publication de données scientifiques

Ces deux ateliers couvrent les deux faces producteur/consommateur de l'utilisation des données.

Le but du groupe de travail est d'envisager l'activité de publication de données au travers d'exemples, de besoins, de questions et si possible de retour d'expérience. Le format est assez ouvert et le groupe de travail sera fructueux si vous participez.


Programme (90mn)

L'organisation a été très interactiven'est pas figée. Nous sommes parti de la description type donnée par les organisateur des JDEV mais les avons adapté aux demandes de la salle très active. Le groupe de travail s'est déroulé ainsi:

  • Tour de table (présentation de chacun)
  • Présentation de la problématique de publication de données (y compris introduction à RDF) et promenade dans le site de la BNF (http://data.bnf.fr)
  • Nombreuses questions et réponses
  • Retour d'expérience / expression de besoins:
  • E. Piotelat (LIMSI) Concernant les données bibliométriques, je peux parler des publications et de leur gestion au LIMSI. J'ai contribué au développement d'une application php/mysql permettant de déposer des rapports de stage comme des articles publiés dans des revues internationales ()
  • Julien Cojan (INRIA) concernant la publication de fr.dbpedia.org
  • Nombreuses questions et réponses.

Participants

  • Jérôme Euzenat (INRIA et LIG) (Animateur)
  • Laurence Farhi (DSI, INRIA, HAL-INRIA) (Scribe)
  • Olivier Lobry (IR CNRS) : chargé du système d'information de l'OSU OREME (www.oreme.org ). Stockage, structuration, diffusion de données d'observation scientifiques.
  • Julien Cojan, Inria Sophia, responsable de http://fr.dbpedia.org
  • Jonathan Fontanel, analyste de la stratégie produit, société Qualiac (ERP) j.fontanel@qualiac.com
  • Juliette Fabre (IE) : système d'information de l'OSU OREME (www.oreme.org ). Stockage, structuration, diffusion de données d'observation scientifiques.
  • Vincent Férotin (IE CNRS): développement d'applications web au Centre Jean Pépin (UPR 76) - philosophie et philologie - vincent.ferotin@gmail.com
  • Marie-Claude Quidoz (IR CNRS) : systèmes d'information du CEFE
  • Raphaël Flores (IE INRA-URGI) : système d'information GnpIS (http://urgi.versailles.inra.fr/gnpis )
  • David Darras (IE Univ Lille 1) : responsable technique du CMS institutionnel (sites de services, labos, …)
  • Olivier Maury (INRA Environnement et Grandes Cultures)
  • Séverine Gedzelman (IE CNRS, labos en SHS - Triangle et LARHRA) : Importation, diffusion des données en histoire, analyses réseaux, analyses stat textuelles.
  • Caroline Bligny, (caroline.bligny@imag.fr) système d'information de Maimosine (www.maimosine.fr)
  • Elisabeth Piotelat (IE CNRS - LIMSI).
  • Jean-Michel Glorian (IE CNRS, IRAP) : reponsable technique du projet ov-gso pour l'archivage, la diffusion et le traitement de données en astrophysique/astronomie
  • Armand ROTEREAU (IE CNRS, ECCOREV) : Ingénieur BDD, concepteur & gestion de projet applications

Petit sondage sur les participants

  • 12 personnes publient des données
  • * dont 2 personnes publient en RDF
  • 2 ou plus sont simplement intéressées par le sujet

Le groupe avait un bon mélange de personnes travaillant dans des laboratoires de sciences “naturelles”, de sciences humaines et sociales et des “sciences de l'ingénieur”. Quelques personnels du domaine des bibliothèques aussi.


Compte Rendu

Points éventuellement utiles à discuter (liste établie au préalable)

  • données ouvertes / non ouvertes
  • droits et licences, CNIL
  • infrastructures de publication
  • problématique des mapping entre RBDD et RDF (benchmarking des différentes solutions triple store dans ce cadre)
  • liens avec d'autres ressources
  • lien entre le web et le web des données
  • thésaurus / ontologies existants pour le domaine scientifique (auteurs, institutions, équipes de recherche, domaines, classification, conférences, revues, …)
  • quel intérêt de publier en RDF si le vocabulaire / structure n'est pas standard/ pas d'autorité claire / plusieurs autorités (en dehors du fait que cela permet l'inférence)?

Intérêt du web des données

Deux types de données qui sont diffusées :

  • les publications
  • les données de la recherche

Il faut adopter les technologies du web sémantiques le plus tôt possible

Brève introduction à RDF (Jérôme Euzenat)

Présentation du RDF: modèle de de données de graphe qui permet de reproduire le modèle du web avec des pages et des liens entre pages de sites différents

  • Ontologies : vocabulaires
  • Langage de requête : sparql
  • les URI

Démo du site de la de la bnf : data.bnf.fr

Exemple : fiche de Baudelaire : http://data.bnf.fr/11890582/charles_baudelaire/ - - liens croisés vers d'autres données, par ex viaf (= liste d'autorité), idref, wikipedia. Pour viaf, lien entre http://data.bnf.fr/11890582/charles_baudelaire/ et http://viaf.org/viaf/17218730

On peut lire les URI via le protocole http pour avoir du html ou demander à avoir le code rdf (sous unix: curl -I -H “Accept: application/rdf+xml” http://viaf.org/viaf/17218730)

Utiliser le “sameAs” pour faire des relations entre les données Mais s'appuyer sur des autorités.

Si besoin, faire la liste d'autorité (par ex, construire la liste d'autorité des revues).puis “same as” pour relier avec les autres listes. Comment on se fait connaître quand on publie des données : il existe des annuaires comme http://datahub.io/. Sinon, c'est grâce au web qu'on peut se faire connaître.

Exemple de requête SPARQL : http://wimmics.inria.fr/projects/dbpedia/doc/index.php/Examples_SPARQL

Présentation d'une application de difusion de donnée bibliographique au LIMSI (Elisabeth Piotelat)

Le LIMSI a développé une application php/mysql permettant de déposer des rapports de stage comme des articles publiés dans des revues internationales.

On y a rencontré des problèmes avec structuration imposée par l'AERES: Dans un labo comme le LIMSI, les différentes communautées ont eu du mal à se mettre d'accord sur une classification commune. Proposer cet outil à d'autres laboratoire risque de se heurter au même écueil. L'un des avantages de l'utilisation de RDF est qu'il est toujours possible d'étendre les modèles ou d'en ignorer des parties, contrairement à ce qui se passe dans les SGBD où étendre le schéma n'est pas simple.

Présentation de fr.dbpedia.org (Julien Cojan)

dbpedia(http://dbpedia.org/About), version francaise : http://fr.dbpedia.org) est un “extrait” de WikiPédia, à partir du titre, des infobox, catégories, titre, lien, etc. basé sur le moteur Virtuoso (version opensource) pour l'édition française. WikiPédia est un silo de données plutôt bruité, qui nécessite un certain nettoyage. Ce nettoyage nécessite d'être uniformisé à travers les langues, et consiste surtout en un “alignement”: “birthday” dans un nouvel espace de nom, pour “date de naissance”, “naissance”, et autres occurrences possibles. Page de Baudelaire : http://fr.dbpedia.org/page/Charles_Baudelaire. Wikidata, nouveau projet où on part des données, avec les données qui sont sourcées

Questions/Réponses

Q: Comment faire pour obtenir d'autorités “naturelles” qu'elles mettent à disposition des vocabulaires?

Ne pas hésiter à contacter des autorités pour leur demander s'ils peuvent publier les données concernant les projets européens (ex: contacter la communauté européenne pour exposer via CORDIS les projets européens). On peut aussi exposer ses données et les relier plus tard à des données exposées par des autorités. Il ne faut pas attendre que toutes les données nécessaires soit exposées par des autorités avant d'exposer les siennes

Q: Quel est l'intérêt de publier ses données scientifiques peu structurées, si pas de listes d'autorités ou peu de liens?

C'est utile pour faire des croisements. On ne sait pas toujours à l'avance à quoi vont servir les données.

Q. que se passe t'il si on perd un noeud?

Rien … l'URI est un identifiant, même si on perd le lien (la référence n'est plus déréférencable), on garde l'identifiant, qui peut s'échanger avec autrui.

Ressources

Présentation de RDF

Transparents utilisés par Jérôme Euzenat: Introduction aux données liées

Le site sur lequel on a fait les démos est celui de la BNF: http://data.bnf.fr

Un autre exemple cité dans la plénière: http://bio2rdf.org

A propos de DBpedia

Annuaires d'ontologies et de sources de données

Bilan de la discussion

 
jdev2013/t8.gt1.txt · Dernière modification: 2013/09/07 19:31 par jerome.euzenat@inria.fr
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki