Big Data
- UE Electif
- Génie Civil
Semestre : 7
Responsable(s) du contenu pédagogique
- Ahmed SAMET
- Nicolas SERRES
Total coefficients : 1,5 |
Total heures : 18 (18 TD) |
Prérequis
Électif SIBD
Ou/et
• Électif Statistique ou BDD
Objectif
Ce cours d’informatique pour les données et calculs massifs, présente des concepts issus de deux
grands domaines scientifiques et techniques : la Science des données et Le Big Data. L’objectif est
de cet électif est de sensibiliser les étudiants au problème de traitement de données massives.
Plusieurs outils sont étudiés comme Apache Hadoop et Apache Spark. Un mini projet orienté usine
de futur sera confié aux étudiants.
Programme
Le Big Data est un domaine pluridisciplinaire pour lequel on peut identifier deux outils qui sont
enseignées et qui sont :
• Une partie d’informatique distribué introductive au paradigme Map-Reduce. Il s’agit d’une
forme d’algorithmique distribuée récente (apparue en 2009), et visant d’une part à amener
les traitements sur les machines où sont stockées les données, et d’autre part à réaliser ces
traitements selon un schéma de calcul distribué. La plateforme Apache Hadoop est utilisé
pour apprendre le paradigme map-reduce.
• Une initiation à l’outil Apache Spark qui est un moteur de traitement de données rapide
dédié au Big Data. Il permet d’effectuer un traitement de larges volumes de données de
manière distribuée (cluster computing). Ses principaux avantages sont sa vitesse, sa
simplicité d’usage, et sa polyvalence. Découvrez tout ce que vous devez savoir sur Apache
Spark.
Des interventions ponctuelles de conférenciers autour du big data et cloud computing est prévues
dans le cadre de cet électif
Contraintes pédagogiques - Méthodes pédagogiques
Le Big Data est un domaine pluridisciplinaire pour lequel on peut identifier deux outils qui sont
enseignées et qui sont :
• Une partie d’informatique distribué introductive au paradigme Map-Reduce. Il s’agit d’une
forme d’algorithmique distribuée récente (apparue en 2009), et visant d’une part à amener
les traitements sur les machines où sont stockées les données, et d’autre part à réaliser ces
traitements selon un schéma de calcul distribué. La plateforme Apache Hadoop est utilisé
pour apprendre le paradigme map-reduce.
• Une initiation à l’outil Apache Spark qui est un moteur de traitement de données rapide
dédié au Big Data. Il permet d’effectuer un traitement de larges volumes de données de
manière distribuée (cluster computing). Ses principaux avantages sont sa vitesse, sa
simplicité d’usage, et sa polyvalence. Découvrez tout ce que vous devez savoir sur Apache
Spark.
Des interventions ponctuelles de conférenciers autour du big data et cloud computing est prévues
dans le cadre de cet électif
Mode d'évaluation
Une évaluation sur projet à 40%
Une évaluation par contrôle écrit à 60%
Bibliographie
1. Holden, Karau : Fastdata processing with spark, ISBN 978-1-78216-706-8, 2013
2. Shiva, Achari : Hadoop Essentials, ISBN 978-1-78439-668-8, 2015