STM-GE-12-Big data et machine learning
- ue-gec-stm-ge-12
- Génie Electrique
Semestre : 9
Responsable(s) du contenu pédagogique
- Ahmed SAMET
Total coefficients : 2 |
Total heures : 30 (12 cours, 18 projet) |
Objectif
Ce cours d’informatique pour les données et calculs massifs, présente des concepts issus de deux grands domaines scientifiques et techniques : la Science des données et Le Big Data. Le Big Data est un domaine pluridisciplinaire pour lequel on peut identifier 3 parties qui sont enseignées. Ces trois parties sont :
Une partie d’informatique distribué selon le paradigme Map-Reduce. Il s’agit d’une forme d’algorithmique distribuée récente (apparue en 2009), et visant d’une part à amener les traitements sur les machines où sont stockées les données, et d’autre part à réaliser ces traitements selon un schéma de calcul distribué. La plateforme Apache Hadoop est utilisé pour apprendre le paradigme map-reduce.
Une autre partie essentielle du Big Data réside dans la conception et l’exploitation de bases de données "not only SQL" (NoSQL). Elles permettent de stocker des données structurées complexes, ou au contraire de simples fichiers textes que l’on devra analyser en détail. L’outil Apache Cassandra est utilisé pour cette partie.
Une partie qualifiée de Math-Info comprend tout d’abord des mathématiques statistiques et probabilistes sur lesquelles sont fondés des algorithmes d’apprentissage automatique (ou machine learning), ainsi que des algorithmes de fouille de données et de graphes.
Programme
Cours 1: introduction au big data
Cours 2: Hadoop HDFS
Cours 3 : Hadoop MapReduce
Cours 4: Tutoriels
Cours 5: Introduction sur l'apprentissage automatique
Cours 6: Apprentissage non supervisé (K-means,DBscan,...)
Cours 7: Apprentissage supervisée (KNN, arbre de décision)
Cours 8: introduction aux réseaux de neurones
Contraintes pédagogiques - Méthodes pédagogiques
Cours 1: introduction au big data
Cours 2: Hadoop HDFS
Cours 3 : Hadoop MapReduce
Cours 4: Tutoriels
Cours 5: Introduction sur l'apprentissage automatique
Cours 6: Apprentissage non supervisé (K-means,DBscan,...)
Cours 7: Apprentissage supervisée (KNN, arbre de décision)
Cours 8: introduction aux réseaux de neurones
Mode d'évaluation
Evaluation sur projet sur la partie apprentissage avec possibilité de proposition commune avec le module système temps réels.