Introduction au Big Data
Dr. Nawres Abdelwahed
1
BigData
2
Le BigData
Le concept de « Big Data » désigne des ensembles de données
caractérisés par leur taille et leur complexité, qui surpassent les
capacités des systèmes de gestion de données traditionnels.
Cette complexité ne se résume pas uniquement à la quantité, mais
englobe également la diversité des types de données (structurées,
non structurées, semi-structurées) et la rapidité avec laquelle de
nouvelles données sont générées et collectées, ce qu'on appelle la
vélocité.
3
Le Big Data désigne à la fois de grosses bases de données dont la gestion nécessite des approches différentes des systèmes
classiques, et les technologies et stratégies utilisées pour traiter ces volumes importants de données. Ainsi, il implique une
Le BigData
évolution qualitative dans les méthodes de gestion des données.
Big Data est utilisé pour désigner deux ensembles de choses :
•Les grosses bases de données.« Big Data » signifie d’abord« big
volume of data ». Dans le Big Data, il y a l’idée qu’on ne gère pas de la
même manière des bases de données classiques et des énormes volumes
de données. A partir d’un certain seuil, la différence quantitative,
volumétrique, se transforme en différence qualitative. Les process et
traitements changent de nature. A partir d’un certain seuil, les données
ne peuvent plus être gérées de manière classique, dans des bases et des
outils classiques. Ce qui nous amène immédiatement au second point.
•Les dispositifs informatiques et plus largement les technologies
utilisés pour gérer de gros volumes de données. Le Big Data ne
renvoie pas qu’aux données en tant que telles, mais aussi aux
technologies, aux stratégies, aux techniques utilisées pour gérer de gros
volumes de données. 4
Big Data
• On parle du BigData quand le traitement devient trop long et trop
lourd pour un seul serveur
5
Big Data
• Les principaux acteurs du web tels que Google, Yahoo, Facebook,
Twitter, LinkedIn, etc ont été les premiers à traiter des volumes de
données extrêmement importants et ont été à l'origine des premières
innovations dans ce domaine, principalement centrées sur deux types de
technologies:
Les plateformes de développement et de traitement des données (Hadoop,
Spark,…)
Les bases de données (NoSql)
6
Exemples d’utilisation de BigData
7
Exemples d’utilisation de BigData
8
Exemples d’utilisation de BigData
Moteurs de recommandation
9
Exemples d’utilisation de BigData
La croissance des consommateurs pour guider la
croissance des produits
10
Caractéristiques du Big Data
Volume Vélocité
grandes quantités doivent être analysés
de données rapidement
Variété Valeur
grandes quantités faible densité de
de données valeur
11
Caractéristiques du Big Data:
Volume
Volume == taille Chaque minute
204 Million emails
200,000 photos
1.8 Million
1.3 Million video views
72 hours of video uploads
12
Caractéristiques du Big Data:
Volume
1 TB ~= 300 heures de vidéo de bonne qualité
13
Caractéristiques du Big Data:
Variété
Variété == hétérogénéité &
complexité
Avant: Les données ont été Aujourd’hui: Aujourd'hui, les
limitées uniquement aux tableaux données sont plus hétérogènes
14
Caractéristiques du Big Data:
Variété
Variété au sein d'un type
Penser à une collection de email
Pièce semblable à une table
Expéditeur, destinataire, date… Bien
structuré
Texte non structuré
15
Caractéristiques du Big Data:
Variété
Variété au sein d'un type
Penser à une collection de email
Expéditeur, destinataire, Bien structuré
date…
Corps de l'e-mail Texte
Media
Qui envoie à qui
Network
Temps réel? Disponibilité 16
Caractéristiques du Big Data:
Variété
Impact de la variété des données
Plus difficile à ingérer
Difficile de créer un stockage commun
Difficile de comparer et de faire correspondre les données d'une
variété
Défis de gestion
17
Caractéristiques du Big Data: Vélocité
Vélocité ==
Vitesse
Rapidité de création des données
Rapidité de stockage des données
Rapidité d'analyse des données
Big Data Real-time action
18
Traitement BigData VS.
Traitement des données
tradionnelles
Traitement BigData Traitement des données
tradionnelles
Echelle de données Large ( GB, TB, PB) Petit (MB)
Type de données Plusieurs type de données Un seul type de données
(structuré, semi-structuré, (structuré)
non structuré)
Objet à traiter poisson dans l'océan poisson dans l'étang
outil de traitement aucune taille ne convient à taille unique
tous
19
Principaux modes de calcul de
• Batch Computing (par lot)
BigData
permet de traiter une grande quantité de données par lots: MapReduce et Spark
• Stream Computing
Vous permet de calculer et de traiter les données de flux en temps réel: Spark, Storm,
Flink, Flume et Dstream
20
Principaux modes de calcul de
BigData
• Informatique graphique
permet de traiter de gros volumes de données de structure graphique: GraphX, Gelly,
Giraph,et PowerGraph, Neo4J
• Requête et calcul analytique
permet de gérer, d'interroger et d'analyser une grande quantité de données stockées:
Hive,Impala, et Cassandra
21
BIG DATA:
•
Géneralités
La plupart des outils et des frameworks de BigData sont construits en
gardant à l'esprit les caractéristiques suivantes:
La distribution des données: Les données sont distribuées sous forme de bloc
(chunks) sur plusieurs noeuds pour un traitement en parallèle.
=> Système de Fichiers Distribués - DFS (DistributedFileSystem).
1 Nœud A Nœud B Nœud C Nœud D
2 1 3 4 1
3 3 4 2 2
4 6 5 6 5
5
6
22
BIG DATA:
Géneralités
La tolérance aux pannes: En général, on fait la réplique d'un seul bloc (ou chunk) de
données plusieurs fois sur es serveurs distants. Même si l'un des serveurs tombe en
panne, on peut récuperer les données à partir d'une autre serveur ou d’un autre
«datacenter».
L’inconvénient ici que la réplication de données pourrait coûter beaucoup d'espace.
Le traitement en parallèle: Puisque les données sont distribuées sur plusieurs
serveurs. Alors ces serveurs travaillent en parallèle pour l'analyse et le traitement
. les données sont combinées pour obtenir le résultat final souhaité.. (Fameux
exemple : Map Reduce de Google).
23
BIG DATA: Plateforme
– Technologies
Société Technologie développée Type de technologie
Google -Outils
Map Reduce Patron de traitement distribué et en paralléle
Big Table Système de base de données distribuée NoSQL
propriétaire reposant sur GFS (Google File
System). Technologie non Open Source, mais
qui a inspiré Hbase qui est Open Source.
Facebook Cassandra Basede données de type NoSQLet distribuée.
Hive Outil d’analyse de données utilisant Hadoop.
Yahoo Hadoop Plateforme Java destinée aux applications
distribuées et à la gestion intensive des données.
Issue à l’origine de GFS et MapReduce.
S4 Outil de développement dédié aux applications de
traitement continu de flux de données.
24
BIG DATA: Plateforme
– Technologies
-Outils
25