0% ont trouvé ce document utile (0 vote)
86 vues43 pages

Outils et Concepts du Big Data

Chapitre 1

Transféré par

Aminatou Issoufou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPSX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
86 vues43 pages

Outils et Concepts du Big Data

Chapitre 1

Transféré par

Aminatou Issoufou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPSX, PDF, TXT ou lisez en ligne sur Scribd

Outils pour le Big Data

Elaboré par Dr. Souheyl


MALLAT
[Link]@[Link]

2023-2024

NB: Ce document doit être complété par les notes du cours


Plan
• Chapitre 1 : Introduction au Big Data
• Chapitre 2: BD Nosql: MongoDB-Réplication et
Sharding, Redis
• Chapitre 3 : Hadoop, MapReduce et le Big Data
• Chapitre 4 : Traitement de données et requêtage:
Pig, Hive, spark, Kafka, Elasticsearch, Kibana, Nifi,
Zeppelin
Projet Big Data
Architecture d’ingestion de données

[Link]

HDFS
NiFi path=/user/<prenom>/projet

[Link]

Python
[Link] Kafka NiFi
script Elasticsearch
index=<prenom>_pane-data
index=<prenom>_airports
index=<prenom>_carriers
Topic = <prenom>_projet
[Link]
[Link]/[Link]

[Link]
[Link]/[Link]

[Link]
[Link]/[Link]
Les donneés “flights”
Stockées sur HDFS :
/big_data_project/flights
Apache Spark (pyspark shell)
Développer les jobs spark permettant de répondre à ces questions :
● Quel aéroport a enregistré le plus de départs en 2005
+----+------+--------------------+--------------------+
|year|origin| airport|number_of_departures|
+----+------+--------------------+--------------------+
|2005| ATL|William B Hartsfi...| 419841|
+----+------+--------------------+--------------------+
● Nombre total de vols par transporteur en 2008

● Quel transporteur avait globalement les pires performances de ponctualité en 2007


+-------------+--------------------+-----------+
|UniqueCarrier| Description|total_delay|
+-------------+--------------------+-----------+
| EV|Atlantic Southeas...| 2832238.0|
Apache Spark / Apache Zeppelin
Développer le code spark dans un notebook Zeppelin afin de répondre à ces questions :

● l'état (US state) qui a eu le plus de vols d'arrivée en 2005

● Nombre de vols par jour de la semaine (lundi,mardi,mercredi,jeudi,vendredi,samedi,dimanche) en 2005


Apache Hive
Créer les tables Hive et développer les requêtes
HiveQL permettant de répondre à ces questions :
● Quel aéroport a enregistré le plus de vols
d’arrivée en 2003
● Top 5 des transporteurs avec le plus grand
nombre d'annulations en 2003
Elasticsearch / Kibana
Créer un dashboard Kibana contenant les
visualisations
● Metric
suivantes (en 2007):
● pie chart

○ nombre total de ○ nombre de vols


vols par transporteur
● Metric
(top5)
○ nombre de vols ● vertical bar chart

annulés ○ les causes des


● map :
○ nombre de vols par Etat (départ) annulations par an
● vertical bar chart

○ nombre de vols par mois ● search (tableau)

○ affichant le détail
Elasticsearch / Kibana

HDFS Spark
path=/user/<prenom>/ load (data write Elasticsearch
index=<prenom>_flights_insights
path=/big_data_project/flights processing)

Kibana
dashboard=<prenom>_flights_insights
Introduction Big Data
BIG DATA: Caractéristiques

3 Problématiques majeures pour les données massives


Volume 
Vélocité 
Variété
BIG DATA: Caractéristiques

Volume stockage
Vélocité -Traitement
Variétécollecte
Le volume
Le volume
Les 5 V de Big Data
Le volume
 Le prix de stockage des données a beaucoup
diminué ces 30 dernières années: De $100,000 / Volume
Go (1980) à $0.10 / Go (2013)
 Les lieux de stockage fiables (comme des SAN: - Téraoctets
Storage Area Network) ou réseaux de stockage
peuvent être très coûteux !
- Enreg. /
Choisir de ne stocker que certaines données, Archives
jugées sensibles
- Transactions
Perte de données, pouvant être très
utiles. - Tables, fichiers
Question: Comment déterminer les données qui méritent
d’être stockées? :
 Les données de Transactions? Logs? Métier? Utilisateur?
Capteurs? Médicales? Sociales?

Problèmes:
▪ Comment stocker les données dans un endroit fiable, qui soit moins cher?
▪ Comment parcourir ces données et en extraire des informations
20
Le volume
 Des volumes qui relèvent du Big Data à

partir du moment où ces données ne

peuvent plus être traitées en un temps

"raisonnables " ou "utiles« par des

systèmes constitués d’un seul nœud.

21
Les 5 V de Big Data
La variété
(Variety)
 Pour un stockage dans des bases Volu Varié
de données ou dans des entrepôts me
- Téraoctets té
- Structurées
- Enreg. / - Non
de données, les données doivent Archives structurées
- Transactions - Probabilistes
respecter un format prédéfini! - Tables,
Mais fichiers
!

 La plupart des données existantes sont non-structurées ou semi


structurées,
 Les données sont sous plusieurs formats et types (fichiers xml,
json, txt, base de données relationnelle, etc),

23
La variété
(Variety)
La variété
(Variety)
Données structurées versus Données non structurées
C’est quoi le Big Data ?
Les 5 V de Big Data

La vélocité Volume Variété


/vitesse (Velocity) - Téraoctets
- Enreg. / Archives
- Structurées
- Non structurées
« Au cœur du Time to - Transactions - Probabilistes
Market
La fréquence
» d’arrivée des - Tables, fichiers

données,
Vélocité
 La
Lesvitesse
donnéesdedoivent êtredes
traitement - Batch
- Temps réel
stockées à l’arrivée, parfois
données, - Processus
- Flot de données
même des Teraoctets par
jour!
Sinon, risque de les perdre!

 Les entreprises se trouvent de plus en plus au milieu


d’un flux continuel de données
30
Vitesse (Velocity)
La vélocité /vitesse
(Velocity)
« Au cœur du Time to Market »
Exemple 1: sur Twitter il y a des twittes toutes les
milli-secondes! On doit alors avoir des données
sans arrêt!2:
Exemple
▪ Il ne suffit pas de savoir quel article un client a
acheté ou réservé!
 Si on sait que vous avez passé plus de 5mn à
consulter un article dans une boutique d’achat en
ligne, il est possible de vous envoyer un email dès 32
Big Data
BIG DATA = V3 = VOLUME, VELOCITE, VARIETE – source Gartner

Volume : Dans les systèmes d’information en place dans les entreprises, les volumes de données traités se
mesurent en téraoctets. Le challenge immédiat de l’IT traditionnel est d’être en capacité de traiter des Pétaoctets
et bientôt des Exaoctets puis des Zettaoctets.

Vélocité : L’importance de l’immédiateté et de l’instantanéité pour recevoir ou émettre des informations par
chacun d’entre nous et pour toutes les activités, professionnelles ou personnelles, du quotidien contraigne les
organisations à améliorer leurs vitesses de réaction et d’anticipation. L’information n’est plus statique, mais elle
devient un facteur de changement dynamique

Variété : Texte, images, vidéos, quel que soit le format de l’information, les données, structurées ou non
structurées, requièrent un nouveau savoir-faire pour être assimilées puis analysées. L’exploitation et le traitement
de l’information aussi variée, tant par la forme que par le contenu, sont difficilement réalisables en dehors du
support initial.
Au-delà du relationnel ...
Le « big bang » data – commencé au début des années 2000 – a
nécessité des solutions différentes, comme des appliances des
éditeurs (Oracle/Teradata …) mais aussi des solutions NoSQL qui
privilégient la haute disponibilité et la simplicité au détriment de
la cohérence

Nous allons maintenant parler du NoSQL, puis d’Hadoop qui essaye


– grâce à un écosystème de solutions sans cesse amélioré et grossi
– de se positionner sur toutes les facettes du Big Data et de
devenir un « Data OS » open-­source.
Bases de données NOSQL
● Le terme NOSQL (Not Only SQL) a été popularisé début 2009 par Johan Oskarsson
(commiter Apache, software engineer chez Slack aujourd’hui)
● Les BD NoSQL ne respectent pas forcément les propriétés ACID (Atomicité,
Cohérence, Isolation, Durabilité) des BD relationnelles
● Les BD NoSQL n’ont donc pas vocation à remplacer les BD relationnelles
● Afin d’éviter les jointures, elles poussent la dénormalisation
● Caractéristiques des Bases de Données distribuées
○ Extensibilité (Scalability)
○ Sharding
○ Théorème du CAP
Extensibilité verticale (scale up)
Extensibilité horizontale (scale out)
Sharding (partitionnement de
données)
Sharding Vertical : Les serveurs stockent Sharding Horizontal : Chaque serveur stocke un sous
différentes tables d’une base de données ensemble des données (identifié par un intervalle de
clés) d’une même table
Le théorème du CAP
Théorème de Eric Brewer (VP Infrastructure @Google) évoqué lorsque l’on parle de données
massivement distribuées :
● La cohérence (Consistency
● La disponibilité (Availability)
● La tolérance au partitionnement (Partition Tolerance

⇒ seulement deux de ces postulats peuvent être appliqués en même temps en


environnement distribué

Dans le cas du NOSQL : privilégier la haute disponibilité grâce à de puissantes capacités de


partitionnement, au détriment de la cohérence des données
Classification des BD NOSQL
● Clé/valeur
○ Ex: Redis, Memcached

● Orientées colonne:
○ Ex: BigTable, HBase, Cassandra, HyperTable
Classification des BD NOSQL
● Orientées document:
○ Ex: CouchDB, MongoDB, Elasticsearch

● Orientées graphe: fondées sur la théorie des graphes et basées sur des concepts de
noeuds, relations et propriétés.
○ Ex: Neo4J, FlockDB (de Twitter), OrientDB

Vous aimerez peut-être aussi