0% ont trouvé ce document utile (0 vote)
304 vues31 pages

Chapitre1: Introduction: Big Data

Transféré par

MIMOUNI WAFAA
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
304 vues31 pages

Chapitre1: Introduction: Big Data

Transféré par

MIMOUNI WAFAA
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

CHAPITRE1: INTRODUCTION

Dr. MALKI Abdelhamid @: [Link]@[Link]

Ecole Supérieure d’Informatique de Sidi Bel Abbes (ESI-SBA) 2022/2023

Module SIW/ISI: BIG DATA


OBJECTIFS
• Fournir les notions essentielles des bases de données standard et
présenter les bases de type NoSQL et les concepts associés.

• Fournir les outils informatiques pour la mise en œuvre d’une


architecture dédiée aux traitements des données massives (Big Data).

• Intégrer des composants appropriés de l’écosystème Hadoop/Spark


pour une solution de Big Data
CONTENU DU MODULE(1)
• 1. Introduction aux Systèmes NoSQL et Aspects méthodologiques
• Modèles d'agrégats 

• Modèles de données spécifiques (relations, graphes, base de données sans schéma) 

• Modèles distribués, Tables et fonctions de hachage, Consistance 

• 2. Les différents types de bases de données NoSQL


• Orienté clé/valeur (Redis) 

• Orienté document (MongoDB) 

• Orienté colonne (Cassandra) 

• Orienté graph (Neo4j) 


CONTENU DU MODULE(2)
• 3. Traitement massivement parallèle
• Concepts & Modèle de programmation MapReduce

• 4. Ecosystème Hadoop
• Formalisme de stockage distribué (HDFS, Avro, Parquet, Hive)

• Design Pattern: Map-Reduce

• 5. Ecosystème SPARK
• SPARK vs HADOOP

• PySpark (transformation et action)

• Outils pour le traitement distribué SQL (Spark SQL)

• Traitement distribué Machine learning (Spark MLlib, Spark R )

• Traitement distribué Streaming (Spark Streaming, Apache Storm)


ORGANISATION ET ÉVALUATION

• Volume Horaire
• 10 semaines *2h : (cours + TP)

• Evaluation
• Examen1 : ?%
• Note de TP : ?%

• Crédits: 5
• Coefficient: 5
BIBLIOGRAPHIE
• Hadoop, Devenez opérationnel dans le monde du Big Data, Juvénal CHOKOGOUE,
eni, 2017

• Les bases de données NoSQL et le Big Data Comprendre et mettre en œuvre, Rudi
Bruchez, Eyrolles, 2015
INTRODUCTION
À BIG DATA
DONNÉES MASSIVES
• Les Données Massives ou Big Data sont des collections d’informations qui auraient
été considérées comme gigantesques, impossible à stocker et à traiter, il y a une
dizaine d’années.

• Internet :
• Google en 2015 : 10 Eo (10 milliards de Go),
• Facebook en 2014 : 300 Po de données (300 millions de Go), 4 Po de nouvelles données
par jour,
• Amazon : 1 Eo.

• BigScience : télescopes (1 Po/jour), CERN (500 To/jour, 140 Po de stockage),


génome, environnement. . .

• La raison est que tout est enregistré sans discernement, dans l’idée que ça pourra être
exploité.
BIG DATA: MOTIVATION
• Data Torrent
• Open data
• Social network
• IoT
• SmartPhone

BIG DATA
• Super-Computer
ERA
• Multi‐Core/Node
• RAM ~ 1 To
• GPU/TPU
• Disk ~ 24 To SSD

• Cloud Computing
BIG DATA: DÉFINITION

• Big Data ∈ Data Science

• ou bien
?
• Big Data ∋ Data Science

• « Data Science » : plutôt Math & Stats

• « Big Data » : plutôt Informatique


BIG DATA: DÉFINITION

• «Mathématique» :
• Stats & Probas, Machine Learning, Deep Learning, Analyse de Graphes…

• Informatique distribuée (et parallèle) :


• Paradigme de programmation Map‐Reduce
• « amener les codes de calcul sur les nœuds de données »

• « traitements large échelle » ou même « web‐scale »

• Sur cluster Hadoop, sur matériel standard

• Paradigmes du Calcul à Haute Performance (HPC)


• Pour accélérer les algorithmes de « data analytics » ou de « machine learning »

• Sur cluster de calcul intensif, sur GPU, sur SuperCalculateurs


BIG DATA: LES 5 V
• Extraction d’informations et décisions à partir de données, caractérisées par
les 5 V:

• Volume (Volume )
• Variété (Variety )
• Vitesse (Velocity )
• Véracité (Veracity)
• Valeur (Value)
BIG DATA: VOLUME

• Chaque jour, des trillions d’octets de données sont générées.

• 90% des données créées dans le monde l’ont été au cours des 6 dernières années.

• Comment déterminer les données qui méritent d’être stockées?

• Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?

• Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi.

• Problèmes:
• Comment stocker les données dans un endroit fiable, qui soit moins cher ?

• Comment parcourir ces données et en extraire des informations facilement et


rapidement ?
BIG DATA: VOLUME
• Volumes de données estimées
• Google: 15 000PB (=15 Exabytes)
• Facebook: 300PB
• Volumes de données par jour:
• Google: 100 PB (5 milliards de requêtes par jour)
• Facebook: 600 TB
• …
BIG DATA: VARIÉTÉ

• Traitement des données sous forme structurée


• bases de données structurée, feuilles de calcul, …

• Et semi-structurée voire non-structurée


• Textes, sons, images, vidéos, données de capteurs, fichiers journaux, medias
sociaux, signaux,…

• qui doivent faire l’objet d’une analyse collective.


VOLUME & VARIÉTÉ
BIG DATA: VITESSE (VELOCITY)
• Utilisation des données en temps réel (pour la détection de fraudes, analyse des
données, face recognition, …).

• DATA STREAMING:
 Fait référence à la vitesse à laquelle de nouvelles données sont générées, capturées et
partagées
 Et la vitesse à laquelle les données sont traitées et restituées de manière compréhensible
par le système pour être bien analysées.
BIG DATA: VÉRACITÉ

• Cela fait référence au désordre ou la fiabilité des données.

• Avec l’augmentation de la quantité, la qualité et la précision se perdent


• abréviations, typos, déformations, source peu fiable, redondance…

• Les solutions Big Data doivent remédier à cela en se référant au volume des données
existantes

• Nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le


recoupement, croisement, enrichissement des données

• Data Cleaning
• Data Wrangling
BIG DATA: VALEUR
• Le V le plus important
• Il faut transformer toutes les données en valeurs exploitables: les données sans valeur
sont inutiles
• Le succès d’un projet Big Data n'a d'intérêt aux utilisateurs que s'il apporte de la
valeur ajoutée et de nouvelles connaissances.
CAS D’UTILISATION:
HEALTHCARE
BIG DATA FOR CUSTOMER SENTIMENT
ANALYSIS: NESTLÉ

• Un portfolio de 2000 marques (nutrition, santé, bien-être)


• 2010 : crise liée à l’huile de palme utilisée dans les produits KitKat
(campagne virale de Greenpeace)
• Depuis, une équipe de 15 personnes (Digital Acceleration Team) surveille
24h/24 les échanges concernant les produits Nestlé sur les réseaux sociaux
avec le but d’engager le dialogue et de transformer les sentiments négatifs
CAS D’UTILISATION :
TRAFFIC CONTROL USING BIG DATA

• Batch/RealTime processing
• Traffic Crashes
• Red Light Camera Violations
• Speed Camera Violations
• etc
BIG DATA:
ACTEURS ET SOLUTIONS

• Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter, LinkedIn…
ont été les premiers à être confrontés à des volumétries de données extrêmement
importantes et ont été à l’origine des premières innovations en la matière portées
principalement sur deux types de technologies:

• Les plateformes de développement et de traitement des données: GFS, Hadoop,


HDFS, Spark,…

• Les bases de données NoSql


BIG DATA:
ACTEURS ET SOLUTIONS
BIG DATA: TECHNOLOGIES
• Processing
• Hadoop, Spark, Hive, Pig, mrjob, Caffeine

• NoSQL Databases
• Hbase, MongoDB, Vertica, Cassandra, Neo4j, etc.

• Servers
• EC2, Google App Engine, Elastic, Beanstalk, Heroku

• Analytics
• R, SAS, Python scikit-learn, SparkMLLib, Apache Mahout

• Search
• Solr/Lucene, ElasticSearch
BIG DATA: TECHNOLOGIES
BIG DATA: LANDSCAPE 2019
BIG DATA: LANDSCAPE 2021

Vous aimerez peut-être aussi