CHAPITRE1: INTRODUCTION
Dr. MALKI Abdelhamid @: [Link]@[Link]
Ecole Supérieure d’Informatique de Sidi Bel Abbes (ESI-SBA) 2022/2023
Module SIW/ISI: BIG DATA
OBJECTIFS
• Fournir les notions essentielles des bases de données standard et
présenter les bases de type NoSQL et les concepts associés.
• Fournir les outils informatiques pour la mise en œuvre d’une
architecture dédiée aux traitements des données massives (Big Data).
• Intégrer des composants appropriés de l’écosystème Hadoop/Spark
pour une solution de Big Data
CONTENU DU MODULE(1)
• 1. Introduction aux Systèmes NoSQL et Aspects méthodologiques
• Modèles d'agrégats
• Modèles de données spécifiques (relations, graphes, base de données sans schéma)
• Modèles distribués, Tables et fonctions de hachage, Consistance
• 2. Les différents types de bases de données NoSQL
• Orienté clé/valeur (Redis)
• Orienté document (MongoDB)
• Orienté colonne (Cassandra)
• Orienté graph (Neo4j)
CONTENU DU MODULE(2)
• 3. Traitement massivement parallèle
• Concepts & Modèle de programmation MapReduce
• 4. Ecosystème Hadoop
• Formalisme de stockage distribué (HDFS, Avro, Parquet, Hive)
• Design Pattern: Map-Reduce
• 5. Ecosystème SPARK
• SPARK vs HADOOP
• PySpark (transformation et action)
• Outils pour le traitement distribué SQL (Spark SQL)
• Traitement distribué Machine learning (Spark MLlib, Spark R )
• Traitement distribué Streaming (Spark Streaming, Apache Storm)
ORGANISATION ET ÉVALUATION
• Volume Horaire
• 10 semaines *2h : (cours + TP)
• Evaluation
• Examen1 : ?%
• Note de TP : ?%
• Crédits: 5
• Coefficient: 5
BIBLIOGRAPHIE
• Hadoop, Devenez opérationnel dans le monde du Big Data, Juvénal CHOKOGOUE,
eni, 2017
• Les bases de données NoSQL et le Big Data Comprendre et mettre en œuvre, Rudi
Bruchez, Eyrolles, 2015
INTRODUCTION
À BIG DATA
DONNÉES MASSIVES
• Les Données Massives ou Big Data sont des collections d’informations qui auraient
été considérées comme gigantesques, impossible à stocker et à traiter, il y a une
dizaine d’années.
• Internet :
• Google en 2015 : 10 Eo (10 milliards de Go),
• Facebook en 2014 : 300 Po de données (300 millions de Go), 4 Po de nouvelles données
par jour,
• Amazon : 1 Eo.
• BigScience : télescopes (1 Po/jour), CERN (500 To/jour, 140 Po de stockage),
génome, environnement. . .
• La raison est que tout est enregistré sans discernement, dans l’idée que ça pourra être
exploité.
BIG DATA: MOTIVATION
• Data Torrent
• Open data
• Social network
• IoT
• SmartPhone
BIG DATA
• Super-Computer
ERA
• Multi‐Core/Node
• RAM ~ 1 To
• GPU/TPU
• Disk ~ 24 To SSD
• Cloud Computing
BIG DATA: DÉFINITION
• Big Data ∈ Data Science
• ou bien
?
• Big Data ∋ Data Science
• « Data Science » : plutôt Math & Stats
• « Big Data » : plutôt Informatique
BIG DATA: DÉFINITION
• «Mathématique» :
• Stats & Probas, Machine Learning, Deep Learning, Analyse de Graphes…
• Informatique distribuée (et parallèle) :
• Paradigme de programmation Map‐Reduce
• « amener les codes de calcul sur les nœuds de données »
• « traitements large échelle » ou même « web‐scale »
• Sur cluster Hadoop, sur matériel standard
• Paradigmes du Calcul à Haute Performance (HPC)
• Pour accélérer les algorithmes de « data analytics » ou de « machine learning »
• Sur cluster de calcul intensif, sur GPU, sur SuperCalculateurs
BIG DATA: LES 5 V
• Extraction d’informations et décisions à partir de données, caractérisées par
les 5 V:
• Volume (Volume )
• Variété (Variety )
• Vitesse (Velocity )
• Véracité (Veracity)
• Valeur (Value)
BIG DATA: VOLUME
• Chaque jour, des trillions d’octets de données sont générées.
• 90% des données créées dans le monde l’ont été au cours des 6 dernières années.
• Comment déterminer les données qui méritent d’être stockées?
• Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?
• Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi.
• Problèmes:
• Comment stocker les données dans un endroit fiable, qui soit moins cher ?
• Comment parcourir ces données et en extraire des informations facilement et
rapidement ?
BIG DATA: VOLUME
• Volumes de données estimées
• Google: 15 000PB (=15 Exabytes)
• Facebook: 300PB
• Volumes de données par jour:
• Google: 100 PB (5 milliards de requêtes par jour)
• Facebook: 600 TB
• …
BIG DATA: VARIÉTÉ
• Traitement des données sous forme structurée
• bases de données structurée, feuilles de calcul, …
• Et semi-structurée voire non-structurée
• Textes, sons, images, vidéos, données de capteurs, fichiers journaux, medias
sociaux, signaux,…
• qui doivent faire l’objet d’une analyse collective.
VOLUME & VARIÉTÉ
BIG DATA: VITESSE (VELOCITY)
• Utilisation des données en temps réel (pour la détection de fraudes, analyse des
données, face recognition, …).
• DATA STREAMING:
Fait référence à la vitesse à laquelle de nouvelles données sont générées, capturées et
partagées
Et la vitesse à laquelle les données sont traitées et restituées de manière compréhensible
par le système pour être bien analysées.
BIG DATA: VÉRACITÉ
• Cela fait référence au désordre ou la fiabilité des données.
• Avec l’augmentation de la quantité, la qualité et la précision se perdent
• abréviations, typos, déformations, source peu fiable, redondance…
• Les solutions Big Data doivent remédier à cela en se référant au volume des données
existantes
• Nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le
recoupement, croisement, enrichissement des données
• Data Cleaning
• Data Wrangling
BIG DATA: VALEUR
• Le V le plus important
• Il faut transformer toutes les données en valeurs exploitables: les données sans valeur
sont inutiles
• Le succès d’un projet Big Data n'a d'intérêt aux utilisateurs que s'il apporte de la
valeur ajoutée et de nouvelles connaissances.
CAS D’UTILISATION:
HEALTHCARE
BIG DATA FOR CUSTOMER SENTIMENT
ANALYSIS: NESTLÉ
• Un portfolio de 2000 marques (nutrition, santé, bien-être)
• 2010 : crise liée à l’huile de palme utilisée dans les produits KitKat
(campagne virale de Greenpeace)
• Depuis, une équipe de 15 personnes (Digital Acceleration Team) surveille
24h/24 les échanges concernant les produits Nestlé sur les réseaux sociaux
avec le but d’engager le dialogue et de transformer les sentiments négatifs
CAS D’UTILISATION :
TRAFFIC CONTROL USING BIG DATA
• Batch/RealTime processing
• Traffic Crashes
• Red Light Camera Violations
• Speed Camera Violations
• etc
BIG DATA:
ACTEURS ET SOLUTIONS
• Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter, LinkedIn…
ont été les premiers à être confrontés à des volumétries de données extrêmement
importantes et ont été à l’origine des premières innovations en la matière portées
principalement sur deux types de technologies:
• Les plateformes de développement et de traitement des données: GFS, Hadoop,
HDFS, Spark,…
• Les bases de données NoSql
BIG DATA:
ACTEURS ET SOLUTIONS
BIG DATA: TECHNOLOGIES
• Processing
• Hadoop, Spark, Hive, Pig, mrjob, Caffeine
• NoSQL Databases
• Hbase, MongoDB, Vertica, Cassandra, Neo4j, etc.
• Servers
• EC2, Google App Engine, Elastic, Beanstalk, Heroku
• Analytics
• R, SAS, Python scikit-learn, SparkMLLib, Apache Mahout
• Search
• Solr/Lucene, ElasticSearch
BIG DATA: TECHNOLOGIES
BIG DATA: LANDSCAPE 2019
BIG DATA: LANDSCAPE 2021