Ceci est une ancienne révision du document !


T7 – Science des données et apprentissage automatique

Objectifs

Les technologies et les outils, les méthodes et les techniques d'analyse pour faire parler les masses de données.

Les vidéos des présentations

  • 14h00-14h40: Historique, évolutions, tendances, ressources et outils de l'apprentissage. Synthèse des techniques en fonction des domaine et problème (ouverture sur le deep learning) - Liva Ralaivola (équipe QARMA@LIF, Marseille) et Hachem Kadri (équipe QARMA@LIF, Marseille). Diapos

  • 14h40-15h20 : Apprentissage statistique pour la recherche par les données - Sébastien Dejean, Laurent Risser (IMT, Toulouse). Diapos

  • 16h20-17h00 : Tutoriel sur le Deep Learning - Benoit Favre (équipe TALEP@LIF, Marseille) et Thierry Artières (équipe QARMA@LIF, Marseille). Diapos
    • Vidéo indisponible
  • 17h00-17h40 : La visualisation des données et python (dataviz, pandas)” - Romain Vuillemot (Ecole Centrale Lyon, laboratoire LIRIS). Principes de base en visualisation; panorama des bibliothèques existantes (matplotlib, seaborn, bokeh, plot.ly); utilisation de Notebooks.

Description

La science des données et l'apprentissage automatique sont au coeur de la recherche par les données. L'essor des données, l'évolution des technologies d'acquisition, de stockage, d'accès, de traitement et d'analyse ouvrent de nouveaux horizons.

Nous nous intéresserons aux compétences et savoir-faire nécessaires en informatique et en analyse pour concevoir, mettre en oeuvre les solutions pour faire émerger du sens aux données.

Aujourd'hui, le scientifique de la donnée se doit de maîtriser toute la chaîne, de l'acquisition (qualité, contrôle, intégration, …) à la prédiction ou à la prise de décision (restitution, visualisation, …) en passant par le traitement et l'analyse (modélisation statistique, machine learning, …).

Planning

Agenda à checker avec http://www.jdev2017.fr

  • Mardi Matin: AP01, AP02, AP04, AP05, GT05
  • Mercredi Matin: AP03, A04, GT01/GT02
  • Mercredi après-midi: T7.P présentations plénières et T7.GT06 à 17h35-18h45
  • jeudi Matin: A01, A02, A05,
  • jeudi après-midi: A06, A07, GT03/GT04, GT07/GT08

(A) Atelier , (GT) Groupe de Travail, (P) les présentations.

Agenda générale

Mots clés

  • IA (Intelligence Artificielle) (AI)
  • Big data
  • data scientist
  • Outils informatiques
  • Outils statistiques
  • Apprentissage supervisé et non-supervisé
  • Apprentissage automatique (Machine learning)
  • deep learning
  • Prédiction et prise de décision
  • Algorithmiques et implémentation
  • Architectures distribuées (Hadoop, Spark, Mapreduce)
  • Structure des données (arbres, forêt, pile, file d'attente,..)
  • Optimisation et complexité
  • Langages (python, julia, R, …)
  • ETL et alignement de données
  • Valorisation des données
  • Business Intelligence

Public

  • réseaux Devlog, calcul, rdbb, …
  • GDRs GPL, MADICS, …
  • data scientist, data engineer, software engineer

Présentations

  • 14h00-14h40: Historique, évolutions, tendances, ressources et outils de l'apprentissage. Synthèse des techniques en fonction des domaine et problème (ouverture sur le deep learning) - Liva Ralaivola (équipe QARMA@LIF, Marseille) et Hachem Kadri (équipe QARMA@LIF, Marseille). Diapos
  • 14h40-15h20 : Apprentissage statistique pour la recherche par les données - Sébastien Dejean, Laurent Risser (IMT, Toulouse). Diapos
  • 15h20-15h40 : Pause
  • 15h40-16h20 : Le centre de données scientifique de Paris-Saclay, l'éco-système pour la recherche par les données Science des données et recherche par les données - retour d'expérience du Paris-Saclay CDS (focus sur l'inférence de connaissance) - Balazs Kegl (IN2P3,Paris-Saclay). Diapos
  • 16h20-17h00 : Tutoriel sur le Deep Learning - Benoit Favre (équipe TALEP@LIF, Marseille) et Thierry Artières (équipe QARMA@LIF, Marseille). Diapos
  • 17h00-17h40 : La visualisation des données et python (dataviz, pandas)” - Romain Vuillemot (Ecole Centrale Lyon, laboratoire LIRIS). Principes de base en visualisation; panorama des bibliothèques existantes (matplotlib, seaborn, bokeh, plot.ly); utilisation de Notebooks.

Ateliers préparatoires

  • T7.AP01 : Initiation python - Laurent Risser (IMT)
  • T7.AP02: Manipulation de données pour débutants avec R - Sébastien Dejean (IMT, Toulouse)
  • T7.AP03 : Les bases du calcul scientifique avec Python. Python pour le calcul scientifique” (numpy, scipy, scikitlearn, networkx, sympy, etc. - Tristan Colombo (Éditions Diamond, GNU/Linux Magazine France)
  • T7.AP04 Manipulation de données pour débutants en Julia - Frederic Pont (CRCT/oncopole/Inserm)
  • T7.AP05 : Initiation au DeepLearning (DIGITS/Caffe) - Gunter Roth (NVIDIA)

Ateliers

  • T7.A01 : Python pour l'apprentissage - Laurent Risser (IMT)

Notebooks (1, 2) (Machine learning avec ScikitLearn?)

  • T7.A02 : R pour l'apprentissage - Sébastien Dejean(IMT Toulouse) (Comparaison d'algorithme de machines learning en R)
  • T7.A04 : Prototypage rapide de modèles prédictifs dans l'environnement collaboratif du centre de données scientifiques de Paris-Saclay (RAMP): RAMP (Rapid Analytics and Model Prototying) - reconnaissance d'image d'insecte (donc deep learning) - Balazs Kegl (IN2P3,Paris-Saclay)
  • T7.A05 : Prototypage rapide de modèles prédictifs dans l'environnement collaboratif du centre de données scientifiques de Paris-Saclay (RAMP): RAMP (Rapid Analytics and Model Prototyping) - séries temporelles (Sea ice, El Nino) - Balazs Kegl (IN2P3,Paris-Saclay)
  • T7.A06 : RAMP (Rapid Analytics and Model Prototyping) - RAMP cas complexe (drug spectra ou HEP anomaly) - Balazs Kegl (IN2P3,Paris-Saclay)
  • T7.A07 : Intro aux outils pour les DataScience avec Go - Sébastien Binet (CERN)

Groupes de travail

  • T7.GT01 : Préparation des données pour l'analyse statistique et le machine learning (mise en oeuvre avec R) - Sébastien Dejean (IMT, Toulouse)

Réference Tidy data (bien ranger les données) de Hadley Wickham

  • T7.GT02 : Retour d'experience sur l'utilisation de perl, R, Julia, GO, Python, OpenCL en sciences médicales. - Laurent Risser (IMT) et Frederic Pont (CRCT/oncopole/Inserm)
  • T7.GT03 : Préparation des données avec Pandas, Python Data Analysis Library. Laurent Risser (IMT) et Yves Auda (GET/OBS-MIP)
  • T7.GT04 : Un outil pour la transcription et la recommandation temps-réel durant une vidéo-conférence. Reconnaissance de la parole et machine learning : OpenPaaS solution de PaaS pour service collaboratif avec videoconf en mode rtc avec reconnaissance de la parole. LINAGORA en relation avec la T5. HUBL.IN - Tom Jorquera (LINAGORA)
  • T7.GT05 : architectures récentes de réseaux de neurones profonds, notion de saillance - Thomas Pellegrini (IRIT/UPS)
  • T7.GT06 : Services d’analyse et machine learning à portée de tous sur AWS. Quand les dashboards ne suffisent plus, la plate-forme AWS permet de déployer des solution simples et innovantes pour utiliser les méga-données au quotidien pour tout un chacun. Moshir Mikael/AWS. . Diapos

  • T7.GT07 : Rex sur Les librairies et toolbox de Deep Learning sur GPU: Digits, Caffee, Magma, Torch, … - Gunter Roth (NVIDIA)
  • T7.GT08 : ANNULE : Retours d'expérience par NVIDIA en deep learning : cas d'usage smartcity, telco, industry, robotic. REX de 5 à 10 minutes - Francois Courteille (NVIDIA).
 
jdev2017/t7.1501063063.txt.gz · Dernière modification: 2017/07/26 11:57 par rouet@in2p3.fr
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki