0% ont trouvé ce document utile (0 vote)

304 vues31 pages

Chapitre1: Introduction: Big Data

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

304 vues31 pages

Chapitre1: Introduction: Big Data

Transféré par

MIMOUNI WAFAA

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

CHAPITRE1: INTRODUCTION

Dr. MALKI Abdelhamid @: [Link]@[Link]

Ecole Supérieure d’Informatique de Sidi Bel Abbes (ESI-SBA) 2022/2023

Module SIW/ISI: BIG DATA

OBJECTIFS
• Fournir les notions essentielles des bases de données standard et
présenter les bases de type NoSQL et les concepts associés.

• Fournir les outils informatiques pour la mise en œuvre d’une

architecture dédiée aux traitements des données massives (Big Data).

• Intégrer des composants appropriés de l’écosystème Hadoop/Spark

pour une solution de Big Data
CONTENU DU MODULE(1)
• 1. Introduction aux Systèmes NoSQL et Aspects méthodologiques
• Modèles d'agrégats

• Modèles de données spécifiques (relations, graphes, base de données sans schéma)

• Modèles distribués, Tables et fonctions de hachage, Consistance

• 2. Les différents types de bases de données NoSQL

• Orienté clé/valeur (Redis)

• Orienté document (MongoDB)

• Orienté colonne (Cassandra)

• Orienté graph (Neo4j)

CONTENU DU MODULE(2)
• 3. Traitement massivement parallèle
• Concepts & Modèle de programmation MapReduce

• 4. Ecosystème Hadoop
• Formalisme de stockage distribué (HDFS, Avro, Parquet, Hive)

• Design Pattern: Map-Reduce

• 5. Ecosystème SPARK
• SPARK vs HADOOP

• PySpark (transformation et action)

• Outils pour le traitement distribué SQL (Spark SQL)

• Traitement distribué Machine learning (Spark MLlib, Spark R )

• Traitement distribué Streaming (Spark Streaming, Apache Storm)

ORGANISATION ET ÉVALUATION

• Volume Horaire
• 10 semaines *2h : (cours + TP)

• Evaluation
• Examen1 : ?%
• Note de TP : ?%

• Crédits: 5
• Coefficient: 5
BIBLIOGRAPHIE
• Hadoop, Devenez opérationnel dans le monde du Big Data, Juvénal CHOKOGOUE,
eni, 2017

• Les bases de données NoSQL et le Big Data Comprendre et mettre en œuvre, Rudi
Bruchez, Eyrolles, 2015
INTRODUCTION
À BIG DATA
DONNÉES MASSIVES
• Les Données Massives ou Big Data sont des collections d’informations qui auraient
été considérées comme gigantesques, impossible à stocker et à traiter, il y a une
dizaine d’années.

• Internet :
• Google en 2015 : 10 Eo (10 milliards de Go),
• Facebook en 2014 : 300 Po de données (300 millions de Go), 4 Po de nouvelles données
par jour,
• Amazon : 1 Eo.

• BigScience : télescopes (1 Po/jour), CERN (500 To/jour, 140 Po de stockage),

génome, environnement. . .

• La raison est que tout est enregistré sans discernement, dans l’idée que ça pourra être
exploité.
BIG DATA: MOTIVATION
• Data Torrent
• Open data
• Social network
• IoT
• SmartPhone

BIG DATA
• Super-Computer
ERA
• Multi‐Core/Node
• RAM ~ 1 To
• GPU/TPU
• Disk ~ 24 To SSD

• Cloud Computing
BIG DATA: DÉFINITION

• Big Data ∈ Data Science

• ou bien
?
• Big Data ∋ Data Science

• « Data Science » : plutôt Math & Stats

• « Big Data » : plutôt Informatique

BIG DATA: DÉFINITION

• «Mathématique» :
• Stats & Probas, Machine Learning, Deep Learning, Analyse de Graphes…

• Informatique distribuée (et parallèle) :

• Paradigme de programmation Map‐Reduce
• « amener les codes de calcul sur les nœuds de données »

• « traitements large échelle » ou même « web‐scale »

• Sur cluster Hadoop, sur matériel standard

• Paradigmes du Calcul à Haute Performance (HPC)

• Pour accélérer les algorithmes de « data analytics » ou de « machine learning »

• Sur cluster de calcul intensif, sur GPU, sur SuperCalculateurs

BIG DATA: LES 5 V
• Extraction d’informations et décisions à partir de données, caractérisées par
les 5 V:

• Volume (Volume )
• Variété (Variety )
• Vitesse (Velocity )
• Véracité (Veracity)
• Valeur (Value)
BIG DATA: VOLUME

• Chaque jour, des trillions d’octets de données sont générées.

• 90% des données créées dans le monde l’ont été au cours des 6 dernières années.

• Comment déterminer les données qui méritent d’être stockées?

• Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?

• Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi.

• Problèmes:
• Comment stocker les données dans un endroit fiable, qui soit moins cher ?

• Comment parcourir ces données et en extraire des informations facilement et

rapidement ?
BIG DATA: VOLUME
• Volumes de données estimées
• Google: 15 000PB (=15 Exabytes)
• Facebook: 300PB
• Volumes de données par jour:
• Google: 100 PB (5 milliards de requêtes par jour)
• Facebook: 600 TB
• …
BIG DATA: VARIÉTÉ

• Traitement des données sous forme structurée

• bases de données structurée, feuilles de calcul, …

• Et semi-structurée voire non-structurée

• Textes, sons, images, vidéos, données de capteurs, fichiers journaux, medias
sociaux, signaux,…

• qui doivent faire l’objet d’une analyse collective.

VOLUME & VARIÉTÉ
BIG DATA: VITESSE (VELOCITY)
• Utilisation des données en temps réel (pour la détection de fraudes, analyse des
données, face recognition, …).

• DATA STREAMING:
 Fait référence à la vitesse à laquelle de nouvelles données sont générées, capturées et
partagées
 Et la vitesse à laquelle les données sont traitées et restituées de manière compréhensible
par le système pour être bien analysées.
BIG DATA: VÉRACITÉ

• Cela fait référence au désordre ou la fiabilité des données.

• Avec l’augmentation de la quantité, la qualité et la précision se perdent

• abréviations, typos, déformations, source peu fiable, redondance…

• Les solutions Big Data doivent remédier à cela en se référant au volume des données
existantes

• Nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le

recoupement, croisement, enrichissement des données

• Data Cleaning
• Data Wrangling
BIG DATA: VALEUR
• Le V le plus important
• Il faut transformer toutes les données en valeurs exploitables: les données sans valeur
sont inutiles
• Le succès d’un projet Big Data n'a d'intérêt aux utilisateurs que s'il apporte de la
valeur ajoutée et de nouvelles connaissances.
CAS D’UTILISATION:
HEALTHCARE
BIG DATA FOR CUSTOMER SENTIMENT
ANALYSIS: NESTLÉ

• Un portfolio de 2000 marques (nutrition, santé, bien-être)

• 2010 : crise liée à l’huile de palme utilisée dans les produits KitKat
(campagne virale de Greenpeace)
• Depuis, une équipe de 15 personnes (Digital Acceleration Team) surveille
24h/24 les échanges concernant les produits Nestlé sur les réseaux sociaux
avec le but d’engager le dialogue et de transformer les sentiments négatifs
CAS D’UTILISATION :
TRAFFIC CONTROL USING BIG DATA

• Batch/RealTime processing
• Traffic Crashes
• Red Light Camera Violations
• Speed Camera Violations
• etc
BIG DATA:
ACTEURS ET SOLUTIONS

• Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter, LinkedIn…
ont été les premiers à être confrontés à des volumétries de données extrêmement
importantes et ont été à l’origine des premières innovations en la matière portées
principalement sur deux types de technologies:

• Les plateformes de développement et de traitement des données: GFS, Hadoop,

HDFS, Spark,…

• Les bases de données NoSql

BIG DATA:
ACTEURS ET SOLUTIONS
BIG DATA: TECHNOLOGIES
• Processing
• Hadoop, Spark, Hive, Pig, mrjob, Caffeine

• NoSQL Databases
• Hbase, MongoDB, Vertica, Cassandra, Neo4j, etc.

• Servers
• EC2, Google App Engine, Elastic, Beanstalk, Heroku

• Analytics
• R, SAS, Python scikit-learn, SparkMLLib, Apache Mahout

• Search
• Solr/Lucene, ElasticSearch
BIG DATA: TECHNOLOGIES
BIG DATA: LANDSCAPE 2019
BIG DATA: LANDSCAPE 2021

Vous aimerez peut-être aussi

HadoopMapReduce CD 2 1
Pas encore d'évaluation
HadoopMapReduce CD 2 1
72 pages
Introduction A Big Data
100% (1)
Introduction A Big Data
48 pages
Comprendre Les Différences Entre Data Science - IA Et Big Data - Concepts Clés
Pas encore d'évaluation
Comprendre Les Différences Entre Data Science - IA Et Big Data - Concepts Clés
17 pages
Chap3-Ingénierie Des Données2023
Pas encore d'évaluation
Chap3-Ingénierie Des Données2023
102 pages
Chapitre Iv Base Du Machine Learning Avec Python
Pas encore d'évaluation
Chapitre Iv Base Du Machine Learning Avec Python
9 pages
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022
Pas encore d'évaluation
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022
101 pages
Traitements d'images: Opérations de base
Pas encore d'évaluation
Traitements d'images: Opérations de base
142 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
Chap1-Introduction Au ML
Pas encore d'évaluation
Chap1-Introduction Au ML
41 pages
Mbds Big Data Hadoop 2019 2020 TP 1
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 TP 1
17 pages
Chap4 MapReduce
Pas encore d'évaluation
Chap4 MapReduce
17 pages
Introduction au NoSQL et ses types
Pas encore d'évaluation
Introduction au NoSQL et ses types
28 pages
Chap-1-Notions de Base de La SI-AG
Pas encore d'évaluation
Chap-1-Notions de Base de La SI-AG
102 pages
Projet 2
Pas encore d'évaluation
Projet 2
4 pages
TP4 Spark MLlib
Pas encore d'évaluation
TP4 Spark MLlib
7 pages
Architecture RMI en Java
Pas encore d'évaluation
Architecture RMI en Java
34 pages
Support Aggregate Et MapReduce
Pas encore d'évaluation
Support Aggregate Et MapReduce
24 pages
DESIGEO C1 Intro
Pas encore d'évaluation
DESIGEO C1 Intro
60 pages
TP2 Multithreading
Pas encore d'évaluation
TP2 Multithreading
4 pages
TP 2 Sparql
Pas encore d'évaluation
TP 2 Sparql
4 pages
Ch2 (Part 1)
Pas encore d'évaluation
Ch2 (Part 1)
27 pages
Architecture Cloud et Big Data
Pas encore d'évaluation
Architecture Cloud et Big Data
70 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
59 pages
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
100% (1)
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
9 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
45 pages
TD
Pas encore d'évaluation
TD
15 pages
Chapitre 4 Web Sémantique
Pas encore d'évaluation
Chapitre 4 Web Sémantique
127 pages
Introduction aux bases de données NoSQL
Pas encore d'évaluation
Introduction aux bases de données NoSQL
32 pages
CH 2 Hadoop
Pas encore d'évaluation
CH 2 Hadoop
56 pages
TP 01 - RDD
Pas encore d'évaluation
TP 01 - RDD
2 pages
Big Data et Système Hadoop: Guide Complet
Pas encore d'évaluation
Big Data et Système Hadoop: Guide Complet
42 pages
MapReduce : Programmation Distribuée et Tolérance aux Pannes
Pas encore d'évaluation
MapReduce : Programmation Distribuée et Tolérance aux Pannes
6 pages
Design Patterns Hadoop pour Big Data
100% (1)
Design Patterns Hadoop pour Big Data
6 pages
Hadoop Hdfs and Yarn Mapreduce
Pas encore d'évaluation
Hadoop Hdfs and Yarn Mapreduce
63 pages
TP1 MongoDB New
Pas encore d'évaluation
TP1 MongoDB New
2 pages
SGD TD2
Pas encore d'évaluation
SGD TD2
4 pages
TP Power BI 2
Pas encore d'évaluation
TP Power BI 2
4 pages
Chap 01a - MapReduce
Pas encore d'évaluation
Chap 01a - MapReduce
73 pages
C41-MapReduce Design Patterns
Pas encore d'évaluation
C41-MapReduce Design Patterns
23 pages
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
Pas encore d'évaluation
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
3 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
53 pages
Régression Linéaire: Algorithme et Optimisation
Pas encore d'évaluation
Régression Linéaire: Algorithme et Optimisation
34 pages
TP 1
100% (1)
TP 1
6 pages
Cours Big Data2024
Pas encore d'évaluation
Cours Big Data2024
99 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
Installation Cloudera HDFS
Pas encore d'évaluation
Installation Cloudera HDFS
5 pages
CHAPITRE3 Fondements Big Data MR YARN 2024
Pas encore d'évaluation
CHAPITRE3 Fondements Big Data MR YARN 2024
24 pages
TP MongoDB : Manipulation et Analyse de Données
Pas encore d'évaluation
TP MongoDB : Manipulation et Analyse de Données
1 page
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Apache Mahout : Machine Learning et Big Data
Pas encore d'évaluation
Apache Mahout : Machine Learning et Big Data
85 pages
EPI BigData Partie4 Hadoop Sagar Samya
Pas encore d'évaluation
EPI BigData Partie4 Hadoop Sagar Samya
48 pages
Module BDWEB: Révisions et Modélisation BD
Pas encore d'évaluation
Module BDWEB: Révisions et Modélisation BD
50 pages
Cours Hadoop
Pas encore d'évaluation
Cours Hadoop
56 pages
Cluster Hadoop - Docker Portainee
Pas encore d'évaluation
Cluster Hadoop - Docker Portainee
33 pages
Introduction au Big Data et ses technologies
Pas encore d'évaluation
Introduction au Big Data et ses technologies
80 pages
TP Sparks QL
Pas encore d'évaluation
TP Sparks QL
19 pages
Mod 1
Pas encore d'évaluation
Mod 1
43 pages
Chapitre 0 - Introduction
Pas encore d'évaluation
Chapitre 0 - Introduction
27 pages
Lecture 1 Bis
Pas encore d'évaluation
Lecture 1 Bis
53 pages
Culture Digitale: Big Data & Data Science
Pas encore d'évaluation
Culture Digitale: Big Data & Data Science
22 pages
TP3 - BD - 2024
Pas encore d'évaluation
TP3 - BD - 2024
5 pages
Bases de Données Multidimensionnelles Olap
Pas encore d'évaluation
Bases de Données Multidimensionnelles Olap
45 pages
Introduction aux Bases de Données Relationnelles
Pas encore d'évaluation
Introduction aux Bases de Données Relationnelles
28 pages
Commandes de Configuration Réseau Linux
Pas encore d'évaluation
Commandes de Configuration Réseau Linux
4 pages
Corrige Exam CC v4 2020 Exercice1
Pas encore d'évaluation
Corrige Exam CC v4 2020 Exercice1
2 pages
Introduction à SELinux et ses Modes
Pas encore d'évaluation
Introduction à SELinux et ses Modes
9 pages
Chap2 - Technologies BI - Panorama - Des - Outils - BI
Pas encore d'évaluation
Chap2 - Technologies BI - Panorama - Des - Outils - BI
20 pages
PDI. PENTAHO Data Integration
Pas encore d'évaluation
PDI. PENTAHO Data Integration
32 pages
Ma It Rise
Pas encore d'évaluation
Ma It Rise
214 pages
Gen 1
Pas encore d'évaluation
Gen 1
37 pages
CV Rania Soussi: Ingénieure Logiciel Polyvalente
Pas encore d'évaluation
CV Rania Soussi: Ingénieure Logiciel Polyvalente
2 pages
WebUIGuide KubernetesAdmin
Pas encore d'évaluation
WebUIGuide KubernetesAdmin
125 pages
Contrôleur Séance 5
Pas encore d'évaluation
Contrôleur Séance 5
32 pages
Autoformation WinDev Mobile 22 PDF
Pas encore d'évaluation
Autoformation WinDev Mobile 22 PDF
3 pages
SQL Loader
Pas encore d'évaluation
SQL Loader
11 pages
Lab Analyse Avec Nmap
Pas encore d'évaluation
Lab Analyse Avec Nmap
10 pages
Plan d'Études Licence Informatique 2022-2023
Pas encore d'évaluation
Plan d'Études Licence Informatique 2022-2023
7 pages
Menaces Et Attaques Réseau
Pas encore d'évaluation
Menaces Et Attaques Réseau
1 page
Chapitre 5
Pas encore d'évaluation
Chapitre 5
39 pages
TD 2
Pas encore d'évaluation
TD 2
3 pages
CRUD avec Node.js et MongoDB
Pas encore d'évaluation
CRUD avec Node.js et MongoDB
3 pages
1-TP N°1 - Devpt - Web - Coté - Serveur
Pas encore d'évaluation
1-TP N°1 - Devpt - Web - Coté - Serveur
4 pages
TP SQL : Maîtrise des Jointures en PostgreSQL
Pas encore d'évaluation
TP SQL : Maîtrise des Jointures en PostgreSQL
2 pages
Synchronisation Des Processus - 2021
Pas encore d'évaluation
Synchronisation Des Processus - 2021
38 pages
Archivage et Destruction des Données à Genève
Pas encore d'évaluation
Archivage et Destruction des Données à Genève
7 pages
Mettre en Oeuvre Le vSAN
Pas encore d'évaluation
Mettre en Oeuvre Le vSAN
13 pages
Devoir Administration Des BD 2020test2
Pas encore d'évaluation
Devoir Administration Des BD 2020test2
3 pages
Optimiser le Réajustement des Cumuls Sage 100
Pas encore d'évaluation
Optimiser le Réajustement des Cumuls Sage 100
1 page
Support de Cours Neo4j Et Langage Cypher
Pas encore d'évaluation
Support de Cours Neo4j Et Langage Cypher
50 pages
Introduction à la Science des Données
Pas encore d'évaluation
Introduction à la Science des Données
26 pages