Big Data

  • UE Electif
  • Génie Civil

Semestre : 7

Responsable(s) du contenu pédagogique
  • Ahmed SAMET
  • Nicolas SERRES
Total coefficients : 1,5
Total heures : 18 (18 TD)

Prérequis

Électif SIBD
Ou/et
• Électif Statistique ou BDD


Objectif

Ce cours d’informatique pour les données et calculs massifs, présente des concepts issus de deux
grands domaines scientifiques et techniques : la Science des données et Le Big Data. L’objectif est
de cet électif est de sensibiliser les étudiants au problème de traitement de données massives.
Plusieurs outils sont étudiés comme Apache Hadoop et Apache Spark. Un mini projet orienté usine
de futur sera confié aux étudiants.


Programme

Le Big Data est un domaine pluridisciplinaire pour lequel on peut identifier deux outils qui sont
enseignées et qui sont :
• Une partie d’informatique distribué introductive au paradigme Map-Reduce. Il s’agit d’une
forme d’algorithmique distribuée récente (apparue en 2009), et visant d’une part à amener
les traitements sur les machines où sont stockées les données, et d’autre part à réaliser ces
traitements selon un schéma de calcul distribué. La plateforme Apache Hadoop est utilisé
pour apprendre le paradigme map-reduce.
• Une initiation à l’outil Apache Spark qui est un moteur de traitement de données rapide
dédié au Big Data. Il permet d’effectuer un traitement de larges volumes de données de
manière distribuée (cluster computing). Ses principaux avantages sont sa vitesse, sa
simplicité d’usage, et sa polyvalence. Découvrez tout ce que vous devez savoir sur Apache
Spark.
Des interventions ponctuelles de conférenciers autour du big data et cloud computing est prévues
dans le cadre de cet électif


Contraintes pédagogiques - Méthodes pédagogiques

Le Big Data est un domaine pluridisciplinaire pour lequel on peut identifier deux outils qui sont
enseignées et qui sont :
• Une partie d’informatique distribué introductive au paradigme Map-Reduce. Il s’agit d’une
forme d’algorithmique distribuée récente (apparue en 2009), et visant d’une part à amener
les traitements sur les machines où sont stockées les données, et d’autre part à réaliser ces
traitements selon un schéma de calcul distribué. La plateforme Apache Hadoop est utilisé
pour apprendre le paradigme map-reduce.
• Une initiation à l’outil Apache Spark qui est un moteur de traitement de données rapide
dédié au Big Data. Il permet d’effectuer un traitement de larges volumes de données de
manière distribuée (cluster computing). Ses principaux avantages sont sa vitesse, sa
simplicité d’usage, et sa polyvalence. Découvrez tout ce que vous devez savoir sur Apache
Spark.
Des interventions ponctuelles de conférenciers autour du big data et cloud computing est prévues
dans le cadre de cet électif


Mode d'évaluation

Une évaluation sur projet à 40%
Une évaluation par contrôle écrit à 60%


Bibliographie

1. Holden, Karau : Fastdata processing with spark, ISBN 978-1-78216-706-8, 2013
2. Shiva, Achari : Hadoop Essentials, ISBN 978-1-78439-668-8, 2015



Retour