0% ont trouvé ce document utile (0 vote)
78 vues25 pages

Bigdata 1

Transféré par

Nidhal Larbi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
78 vues25 pages

Bigdata 1

Transféré par

Nidhal Larbi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction au Big Data

Dr. Nawres Abdelwahed

1
BigData

2
Le BigData

Le concept de « Big Data » désigne des ensembles de données


caractérisés par leur taille et leur complexité, qui surpassent les
capacités des systèmes de gestion de données traditionnels.

Cette complexité ne se résume pas uniquement à la quantité, mais


englobe également la diversité des types de données (structurées,
non structurées, semi-structurées) et la rapidité avec laquelle de
nouvelles données sont générées et collectées, ce qu'on appelle la
vélocité.

3
Le Big Data désigne à la fois de grosses bases de données dont la gestion nécessite des approches différentes des systèmes
classiques, et les technologies et stratégies utilisées pour traiter ces volumes importants de données. Ainsi, il implique une

Le BigData
évolution qualitative dans les méthodes de gestion des données.

Big Data est utilisé pour désigner deux ensembles de choses :

•Les grosses bases de données.« Big Data » signifie d’abord« big


volume of data ». Dans le Big Data, il y a l’idée qu’on ne gère pas de la
même manière des bases de données classiques et des énormes volumes
de données. A partir d’un certain seuil, la différence quantitative,
volumétrique, se transforme en différence qualitative. Les process et
traitements changent de nature. A partir d’un certain seuil, les données
ne peuvent plus être gérées de manière classique, dans des bases et des
outils classiques. Ce qui nous amène immédiatement au second point.

•Les dispositifs informatiques et plus largement les technologies


utilisés pour gérer de gros volumes de données. Le Big Data ne
renvoie pas qu’aux données en tant que telles, mais aussi aux
technologies, aux stratégies, aux techniques utilisées pour gérer de gros
volumes de données. 4
Big Data
• On parle du BigData quand le traitement devient trop long et trop
lourd pour un seul serveur

5
Big Data

• Les principaux acteurs du web tels que Google, Yahoo, Facebook,


Twitter, LinkedIn, etc ont été les premiers à traiter des volumes de
données extrêmement importants et ont été à l'origine des premières
innovations dans ce domaine, principalement centrées sur deux types de
technologies:
Les plateformes de développement et de traitement des données (Hadoop,
Spark,…)
Les bases de données (NoSql)

6
Exemples d’utilisation de BigData

7
Exemples d’utilisation de BigData

8
Exemples d’utilisation de BigData
Moteurs de recommandation

9
Exemples d’utilisation de BigData
La croissance des consommateurs pour guider la
croissance des produits

10
Caractéristiques du Big Data

Volume Vélocité
grandes quantités doivent être analysés
de données rapidement

Variété Valeur
grandes quantités faible densité de
de données valeur

11
Caractéristiques du Big Data:
Volume
Volume == taille Chaque minute

204 Million emails

200,000 photos
1.8 Million

1.3 Million video views


72 hours of video uploads

12
Caractéristiques du Big Data:
Volume
1 TB ~= 300 heures de vidéo de bonne qualité

13
Caractéristiques du Big Data:
Variété
Variété == hétérogénéité &
complexité
Avant: Les données ont été Aujourd’hui: Aujourd'hui, les
limitées uniquement aux tableaux données sont plus hétérogènes

14
Caractéristiques du Big Data:
Variété
Variété au sein d'un type
Penser à une collection de email

Pièce semblable à une table

Expéditeur, destinataire, date… Bien


structuré
Texte non structuré
15
Caractéristiques du Big Data:
Variété
Variété au sein d'un type
Penser à une collection de email
Expéditeur, destinataire, Bien structuré
date…
Corps de l'e-mail Texte
Media

Qui envoie à qui


Network
Temps réel? Disponibilité 16
Caractéristiques du Big Data:
Variété
Impact de la variété des données

Plus difficile à ingérer


Difficile de créer un stockage commun
Difficile de comparer et de faire correspondre les données d'une
variété
Défis de gestion

17
Caractéristiques du Big Data: Vélocité
Vélocité ==
Vitesse
Rapidité de création des données

Rapidité de stockage des données

Rapidité d'analyse des données

Big Data Real-time action

18
Traitement BigData VS.
Traitement des données
tradionnelles
Traitement BigData Traitement des données
tradionnelles
Echelle de données Large ( GB, TB, PB) Petit (MB)
Type de données Plusieurs type de données Un seul type de données
(structuré, semi-structuré, (structuré)
non structuré)
Objet à traiter poisson dans l'océan poisson dans l'étang
outil de traitement aucune taille ne convient à taille unique
tous

19
Principaux modes de calcul de
• Batch Computing (par lot)
BigData
permet de traiter une grande quantité de données par lots: MapReduce et Spark

• Stream Computing
Vous permet de calculer et de traiter les données de flux en temps réel: Spark, Storm,
Flink, Flume et Dstream

20
Principaux modes de calcul de
BigData
• Informatique graphique
permet de traiter de gros volumes de données de structure graphique: GraphX, Gelly,
Giraph,et PowerGraph, Neo4J

• Requête et calcul analytique


permet de gérer, d'interroger et d'analyser une grande quantité de données stockées:
Hive,Impala, et Cassandra

21
BIG DATA:

Géneralités
La plupart des outils et des frameworks de BigData sont construits en
gardant à l'esprit les caractéristiques suivantes:

La distribution des données: Les données sont distribuées sous forme de bloc
(chunks) sur plusieurs noeuds pour un traitement en parallèle.
=> Système de Fichiers Distribués - DFS (DistributedFileSystem).

1 Nœud A Nœud B Nœud C Nœud D


2 1 3 4 1
3 3 4 2 2
4 6 5 6 5
5
6
22
BIG DATA:
Géneralités
La tolérance aux pannes: En général, on fait la réplique d'un seul bloc (ou chunk) de
données plusieurs fois sur es serveurs distants. Même si l'un des serveurs tombe en
panne, on peut récuperer les données à partir d'une autre serveur ou d’un autre
«datacenter».
L’inconvénient ici que la réplication de données pourrait coûter beaucoup d'espace.

Le traitement en parallèle: Puisque les données sont distribuées sur plusieurs


serveurs. Alors ces serveurs travaillent en parallèle pour l'analyse et le traitement
. les données sont combinées pour obtenir le résultat final souhaité.. (Fameux
exemple : Map Reduce de Google).

23
BIG DATA: Plateforme
– Technologies
Société Technologie développée Type de technologie
Google -Outils
Map Reduce Patron de traitement distribué et en paralléle
Big Table Système de base de données distribuée NoSQL
propriétaire reposant sur GFS (Google File
System). Technologie non Open Source, mais
qui a inspiré Hbase qui est Open Source.
Facebook Cassandra Basede données de type NoSQLet distribuée.

Hive Outil d’analyse de données utilisant Hadoop.

Yahoo Hadoop Plateforme Java destinée aux applications


distribuées et à la gestion intensive des données.
Issue à l’origine de GFS et MapReduce.
S4 Outil de développement dédié aux applications de
traitement continu de flux de données.

24
BIG DATA: Plateforme
– Technologies
-Outils

25

Vous aimerez peut-être aussi