0% ont trouvé ce document utile (0 vote)

86 vues43 pages

Outils et Concepts du Big Data

Chapitre 1

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPSX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

86 vues43 pages

Outils et Concepts du Big Data

Chapitre 1

Transféré par

Aminatou Issoufou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPSX, PDF, TXT ou lisez en ligne sur Scribd

Outils pour le Big Data

Elaboré par Dr. Souheyl

MALLAT
[Link]@[Link]

2023-2024

NB: Ce document doit être complété par les notes du cours

Plan
• Chapitre 1 : Introduction au Big Data
• Chapitre 2: BD Nosql: MongoDB-Réplication et
Sharding, Redis
• Chapitre 3 : Hadoop, MapReduce et le Big Data
• Chapitre 4 : Traitement de données et requêtage:
Pig, Hive, spark, Kafka, Elasticsearch, Kibana, Nifi,
Zeppelin
Projet Big Data
Architecture d’ingestion de données

[Link]

HDFS
NiFi path=/user/<prenom>/projet

[Link]

Python
[Link] Kafka NiFi
script Elasticsearch
index=<prenom>_pane-data
index=<prenom>_airports
index=<prenom>_carriers
Topic = <prenom>_projet
[Link]
[Link]/[Link]

[Link]
[Link]/[Link]

[Link]
[Link]/[Link]
Les donneés “flights”
Stockées sur HDFS :
/big_data_project/flights
Apache Spark (pyspark shell)
Développer les jobs spark permettant de répondre à ces questions :
● Quel aéroport a enregistré le plus de départs en 2005
+----+------+--------------------+--------------------+
|year|origin| airport|number_of_departures|
+----+------+--------------------+--------------------+
|2005| ATL|William B Hartsfi...| 419841|
+----+------+--------------------+--------------------+
● Nombre total de vols par transporteur en 2008

● Quel transporteur avait globalement les pires performances de ponctualité en 2007

+-------------+--------------------+-----------+
|UniqueCarrier| Description|total_delay|
+-------------+--------------------+-----------+
| EV|Atlantic Southeas...| 2832238.0|
Apache Spark / Apache Zeppelin
Développer le code spark dans un notebook Zeppelin afin de répondre à ces questions :

● l'état (US state) qui a eu le plus de vols d'arrivée en 2005

● Nombre de vols par jour de la semaine (lundi,mardi,mercredi,jeudi,vendredi,samedi,dimanche) en 2005

Apache Hive
Créer les tables Hive et développer les requêtes
HiveQL permettant de répondre à ces questions :
● Quel aéroport a enregistré le plus de vols
d’arrivée en 2003
● Top 5 des transporteurs avec le plus grand
nombre d'annulations en 2003
Elasticsearch / Kibana
Créer un dashboard Kibana contenant les
visualisations
● Metric
suivantes (en 2007):
● pie chart

○ nombre total de ○ nombre de vols

vols par transporteur
● Metric
(top5)
○ nombre de vols ● vertical bar chart

annulés ○ les causes des

● map :
○ nombre de vols par Etat (départ) annulations par an
● vertical bar chart

○ nombre de vols par mois ● search (tableau)

○ affichant le détail
Elasticsearch / Kibana

HDFS Spark
path=/user/<prenom>/ load (data write Elasticsearch
index=<prenom>_flights_insights
path=/big_data_project/flights processing)

Kibana
dashboard=<prenom>_flights_insights
Introduction Big Data
BIG DATA: Caractéristiques

3 Problématiques majeures pour les données massives

Volume 
Vélocité 
Variété
BIG DATA: Caractéristiques

Volume stockage
Vélocité -Traitement
Variétécollecte
Le volume
Le volume
Les 5 V de Big Data
Le volume
 Le prix de stockage des données a beaucoup
diminué ces 30 dernières années: De $100,000 / Volume
Go (1980) à $0.10 / Go (2013)
 Les lieux de stockage fiables (comme des SAN: - Téraoctets
Storage Area Network) ou réseaux de stockage
peuvent être très coûteux !
- Enreg. /
Choisir de ne stocker que certaines données, Archives
jugées sensibles
- Transactions
Perte de données, pouvant être très
utiles. - Tables, fichiers
Question: Comment déterminer les données qui méritent
d’être stockées? :
 Les données de Transactions? Logs? Métier? Utilisateur?
Capteurs? Médicales? Sociales?

Problèmes:
▪ Comment stocker les données dans un endroit fiable, qui soit moins cher?
▪ Comment parcourir ces données et en extraire des informations
20
Le volume
 Des volumes qui relèvent du Big Data à

partir du moment où ces données ne

peuvent plus être traitées en un temps

"raisonnables " ou "utiles« par des

systèmes constitués d’un seul nœud.

21
Les 5 V de Big Data
La variété
(Variety)
 Pour un stockage dans des bases Volu Varié
de données ou dans des entrepôts me
- Téraoctets té
- Structurées
- Enreg. / - Non
de données, les données doivent Archives structurées
- Transactions - Probabilistes
respecter un format prédéfini! - Tables,
Mais fichiers
!

 La plupart des données existantes sont non-structurées ou semi

structurées,
 Les données sont sous plusieurs formats et types (fichiers xml,
json, txt, base de données relationnelle, etc),

23
La variété
(Variety)
La variété
(Variety)
Données structurées versus Données non structurées
C’est quoi le Big Data ?
Les 5 V de Big Data

La vélocité Volume Variété

/vitesse (Velocity) - Téraoctets
- Enreg. / Archives
- Structurées
- Non structurées
« Au cœur du Time to - Transactions - Probabilistes
Market
La fréquence
» d’arrivée des - Tables, fichiers

données,
Vélocité
 La
Lesvitesse
donnéesdedoivent êtredes
traitement - Batch
- Temps réel
stockées à l’arrivée, parfois
données, - Processus
- Flot de données
même des Teraoctets par
jour!
Sinon, risque de les perdre!

 Les entreprises se trouvent de plus en plus au milieu

d’un flux continuel de données
30
Vitesse (Velocity)
La vélocité /vitesse
(Velocity)
« Au cœur du Time to Market »
Exemple 1: sur Twitter il y a des twittes toutes les
milli-secondes! On doit alors avoir des données
sans arrêt!2:
Exemple
▪ Il ne suffit pas de savoir quel article un client a
acheté ou réservé!
 Si on sait que vous avez passé plus de 5mn à
consulter un article dans une boutique d’achat en
ligne, il est possible de vous envoyer un email dès 32
Big Data
BIG DATA = V3 = VOLUME, VELOCITE, VARIETE – source Gartner

Volume : Dans les systèmes d’information en place dans les entreprises, les volumes de données traités se
mesurent en téraoctets. Le challenge immédiat de l’IT traditionnel est d’être en capacité de traiter des Pétaoctets
et bientôt des Exaoctets puis des Zettaoctets.

Vélocité : L’importance de l’immédiateté et de l’instantanéité pour recevoir ou émettre des informations par
chacun d’entre nous et pour toutes les activités, professionnelles ou personnelles, du quotidien contraigne les
organisations à améliorer leurs vitesses de réaction et d’anticipation. L’information n’est plus statique, mais elle
devient un facteur de changement dynamique

Variété : Texte, images, vidéos, quel que soit le format de l’information, les données, structurées ou non
structurées, requièrent un nouveau savoir-faire pour être assimilées puis analysées. L’exploitation et le traitement
de l’information aussi variée, tant par la forme que par le contenu, sont difficilement réalisables en dehors du
support initial.
Au-delà du relationnel ...
Le « big bang » data – commencé au début des années 2000 – a
nécessité des solutions différentes, comme des appliances des
éditeurs (Oracle/Teradata …) mais aussi des solutions NoSQL qui
privilégient la haute disponibilité et la simplicité au détriment de
la cohérence

Nous allons maintenant parler du NoSQL, puis d’Hadoop qui essaye

– grâce à un écosystème de solutions sans cesse amélioré et grossi
– de se positionner sur toutes les facettes du Big Data et de
devenir un « Data OS » open-source.
Bases de données NOSQL
● Le terme NOSQL (Not Only SQL) a été popularisé début 2009 par Johan Oskarsson
(commiter Apache, software engineer chez Slack aujourd’hui)
● Les BD NoSQL ne respectent pas forcément les propriétés ACID (Atomicité,
Cohérence, Isolation, Durabilité) des BD relationnelles
● Les BD NoSQL n’ont donc pas vocation à remplacer les BD relationnelles
● Afin d’éviter les jointures, elles poussent la dénormalisation
● Caractéristiques des Bases de Données distribuées
○ Extensibilité (Scalability)
○ Sharding
○ Théorème du CAP
Extensibilité verticale (scale up)
Extensibilité horizontale (scale out)
Sharding (partitionnement de
données)
Sharding Vertical : Les serveurs stockent Sharding Horizontal : Chaque serveur stocke un sous
différentes tables d’une base de données ensemble des données (identifié par un intervalle de
clés) d’une même table
Le théorème du CAP
Théorème de Eric Brewer (VP Infrastructure @Google) évoqué lorsque l’on parle de données
massivement distribuées :
● La cohérence (Consistency
● La disponibilité (Availability)
● La tolérance au partitionnement (Partition Tolerance

⇒ seulement deux de ces postulats peuvent être appliqués en même temps en

environnement distribué

Dans le cas du NOSQL : privilégier la haute disponibilité grâce à de puissantes capacités de

partitionnement, au détriment de la cohérence des données
Classification des BD NOSQL
● Clé/valeur
○ Ex: Redis, Memcached

● Orientées colonne:
○ Ex: BigTable, HBase, Cassandra, HyperTable
Classification des BD NOSQL
● Orientées document:
○ Ex: CouchDB, MongoDB, Elasticsearch

● Orientées graphe: fondées sur la théorie des graphes et basées sur des concepts de
noeuds, relations et propriétés.
○ Ex: Neo4J, FlockDB (de Twitter), OrientDB

Vous aimerez peut-être aussi

Chapitre 0 - Introduction
Pas encore d'évaluation
Chapitre 0 - Introduction
27 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Chapitre1: Introduction: Big Data
Pas encore d'évaluation
Chapitre1: Introduction: Big Data
31 pages
Big Data Ds
Pas encore d'évaluation
Big Data Ds
36 pages
Binder 1
Pas encore d'évaluation
Binder 1
173 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
25 pages
Chap 1
Pas encore d'évaluation
Chap 1
23 pages
Chap01-Introduction Au Big Data
Pas encore d'évaluation
Chap01-Introduction Au Big Data
25 pages
Big Data
Pas encore d'évaluation
Big Data
48 pages
Big Data
Pas encore d'évaluation
Big Data
21 pages
BigData AllPdfs
Pas encore d'évaluation
BigData AllPdfs
144 pages
Cours Big D
Pas encore d'évaluation
Cours Big D
81 pages
Gestion et Analyse des Big Data
Pas encore d'évaluation
Gestion et Analyse des Big Data
26 pages
HadoopMapReduce CD 2 1
Pas encore d'évaluation
HadoopMapReduce CD 2 1
72 pages
Cours
Pas encore d'évaluation
Cours
54 pages
ESCT - 2023 - 2024 - 3LMKG - Big - Data en Assurance Avec Python 17 02 2024
Pas encore d'évaluation
ESCT - 2023 - 2024 - 3LMKG - Big - Data en Assurance Avec Python 17 02 2024
39 pages
Big Data Chap 1 - Introduction
Pas encore d'évaluation
Big Data Chap 1 - Introduction
33 pages
Introduction au Big Data et OLAP/OLTP
Pas encore d'évaluation
Introduction au Big Data et OLAP/OLTP
58 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
104 pages
Lecture 1 Bis
Pas encore d'évaluation
Lecture 1 Bis
53 pages
Coursbigdata Chap1 - Introduction À Big Data
Pas encore d'évaluation
Coursbigdata Chap1 - Introduction À Big Data
53 pages
Big Data - Generalite
Pas encore d'évaluation
Big Data - Generalite
28 pages
Support de Cours BIG DATA
Pas encore d'évaluation
Support de Cours BIG DATA
31 pages
Intro Big Data
Pas encore d'évaluation
Intro Big Data
24 pages
Chapitre 3 BDA - 2023
Pas encore d'évaluation
Chapitre 3 BDA - 2023
28 pages
Introduction Au BigData
Pas encore d'évaluation
Introduction Au BigData
27 pages
Introduction Big Data-1
Pas encore d'évaluation
Introduction Big Data-1
55 pages
Chapitre1 Mapreduce
Pas encore d'évaluation
Chapitre1 Mapreduce
20 pages
Chap1 Introduction
Pas encore d'évaluation
Chap1 Introduction
44 pages
I. Big Data - Introduction
Pas encore d'évaluation
I. Big Data - Introduction
29 pages
Introduction A Big Data
100% (1)
Introduction A Big Data
48 pages
BigData Part1 Introduction
Pas encore d'évaluation
BigData Part1 Introduction
17 pages
Big Data
Pas encore d'évaluation
Big Data
31 pages
Les Bases de Données Nosql: Pr. Soussi Nassima
Pas encore d'évaluation
Les Bases de Données Nosql: Pr. Soussi Nassima
112 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
148 pages
Bigdata 1
Pas encore d'évaluation
Bigdata 1
25 pages
TE Chapitre 3
Pas encore d'évaluation
TE Chapitre 3
67 pages
Culture Digitale: Big Data & Data Science
Pas encore d'évaluation
Culture Digitale: Big Data & Data Science
22 pages
Notes BigData
Pas encore d'évaluation
Notes BigData
4 pages
Introduction au Big Data et ses Enjeux
100% (1)
Introduction au Big Data et ses Enjeux
16 pages
Introduction AuBigData
Pas encore d'évaluation
Introduction AuBigData
25 pages
NoSQL Part1
Pas encore d'évaluation
NoSQL Part1
23 pages
Introduction au Big Data
Pas encore d'évaluation
Introduction au Big Data
15 pages
BD 1
Pas encore d'évaluation
BD 1
17 pages
Miniprojet BigData
Pas encore d'évaluation
Miniprojet BigData
9 pages
C1 Big Data Intro 2022
Pas encore d'évaluation
C1 Big Data Intro 2022
56 pages
Introduction au Big Data
100% (1)
Introduction au Big Data
15 pages
Introduction Aux Big Data
Pas encore d'évaluation
Introduction Aux Big Data
26 pages
Qui Suis-Je ?: Pr. Y Khourdifi, D I
Pas encore d'évaluation
Qui Suis-Je ?: Pr. Y Khourdifi, D I
20 pages
BIG DATA Chapitre 1-4
Pas encore d'évaluation
BIG DATA Chapitre 1-4
73 pages
Introduction au Big Data
Pas encore d'évaluation
Introduction au Big Data
43 pages
Big Data et Bases de Données NoSQL
Pas encore d'évaluation
Big Data et Bases de Données NoSQL
23 pages
Bases de Données NoSQL et Big Data
Pas encore d'évaluation
Bases de Données NoSQL et Big Data
112 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
20 pages
Cours Big Data Azure
100% (1)
Cours Big Data Azure
206 pages
Préparation à la certification Big Data
Pas encore d'évaluation
Préparation à la certification Big Data
42 pages
2 - Big Data
Pas encore d'évaluation
2 - Big Data
60 pages
Project AGENT AI - Immobilier
Pas encore d'évaluation
Project AGENT AI - Immobilier
13 pages
Introduction Générale Sur L'innovation Dans L'agriculture
Pas encore d'évaluation
Introduction Générale Sur L'innovation Dans L'agriculture
13 pages
Formation sur le logiciel Diamino-Lectra
0% (1)
Formation sur le logiciel Diamino-Lectra
25 pages
Voir Instagram Privé
Pas encore d'évaluation
Voir Instagram Privé
7 pages
Évaluer la notoriété de la marque AHUA
Pas encore d'évaluation
Évaluer la notoriété de la marque AHUA
3 pages
Analyse numérique : Interpolation et approximation
Pas encore d'évaluation
Analyse numérique : Interpolation et approximation
4 pages
Exercices sur le Comportement des Diodes
Pas encore d'évaluation
Exercices sur le Comportement des Diodes
9 pages
Division euclidienne en JavaScript
Pas encore d'évaluation
Division euclidienne en JavaScript
1 page
Cirad Manuel Pagdp Volume III
Pas encore d'évaluation
Cirad Manuel Pagdp Volume III
82 pages
MS Project
Pas encore d'évaluation
MS Project
44 pages
Montana - Garmin Fiche Technique 700i
Pas encore d'évaluation
Montana - Garmin Fiche Technique 700i
4 pages
Guide Happy Summer 2.7
Pas encore d'évaluation
Guide Happy Summer 2.7
3 pages
Prix PC 07102021
Pas encore d'évaluation
Prix PC 07102021
2 pages
Étapes Détaillées Sur Kali Linux
Pas encore d'évaluation
Étapes Détaillées Sur Kali Linux
3 pages
Définition et enjeux de la traçabilité
Pas encore d'évaluation
Définition et enjeux de la traçabilité
14 pages
Tutoriel Revit 2015 v8
100% (1)
Tutoriel Revit 2015 v8
108 pages
Leçon6-Arbre de Decision
100% (2)
Leçon6-Arbre de Decision
25 pages
Curriculum Professionnel 2023
Pas encore d'évaluation
Curriculum Professionnel 2023
1 page
Tableau Comparatif Hypernova CHU Annaba
Pas encore d'évaluation
Tableau Comparatif Hypernova CHU Annaba
2 pages
PFE La Digitalisation Des Banques Rania SABRI
78% (9)
PFE La Digitalisation Des Banques Rania SABRI
32 pages
Cours de Programmation
Pas encore d'évaluation
Cours de Programmation
14 pages
Manuel P03/3-Modbus(-GPS)
Pas encore d'évaluation
Manuel P03/3-Modbus(-GPS)
10 pages
ROS, Robot Operating System, Créer Des Applications Robotiques
Pas encore d'évaluation
ROS, Robot Operating System, Créer Des Applications Robotiques
2 pages
Nouveau Document Microsoft Word
Pas encore d'évaluation
Nouveau Document Microsoft Word
12 pages
TP Application Mobile - 023610
Pas encore d'évaluation
TP Application Mobile - 023610
4 pages
Formation Design Thinking : Jour 1 & 2
100% (1)
Formation Design Thinking : Jour 1 & 2
107 pages
Réseaux P2P : Avantages et Applications
Pas encore d'évaluation
Réseaux P2P : Avantages et Applications
5 pages
Medusa Usermanual
Pas encore d'évaluation
Medusa Usermanual
2 pages
Informatique de Base L1
Pas encore d'évaluation
Informatique de Base L1
65 pages