0% ont trouvé ce document utile (0 vote)

661 vues117 pages

Cours Big Data - LISI3

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

661 vues117 pages

Cours Big Data - LISI3

Transféré par

Karim Ammani

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Institut Supérieur des Sciences Appliquées et Technologie à Gafsa

Cours : Big Data

Enseignante : Safa Brahmia

Niveau : 3ème LISI

Objectifs de cours

• Présenter aux étudiants les concepts fondamentaux de Big Data

• Initier les étudiants aux architectures Big Data
• Se familiariser aux nouvelles notions et les principales technologies de
stockage et de traitement de données

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 2

Plan du cours

I. Généralités sur le Big Data

II.Stockage des Big Data : Les bases de données NoSQL
III.Traitement de Big Data
IV.Références bibliographiques

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 3

I. Généralités sur le Big Data

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 4

I. Généralités sur le Big Data

1. Définition de Big Data

2. Les Vs de Big Data
3. Les problèmes de Big Data
4. Les caractéristiques auxquelles doivent obéir les nouvelles
technologies de Big Data
5. Technologies liées au Big Data

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 5

Définition de Big Data
• Terme relativement nouveau
• Apparu avec l’émergence des nouvelles sociétés offrant des services
liés à l’internet, comme Google, Facebook, Amazon et YouTube
• Tout ensemble de données qui ne peut pas être traité par les outils et
les SGBD traditionnels
• Référence à de grands volumes de données en croissance, comprenant
des formats hétérogènes : données structurées, données non structurées
et données semi-structurées

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 6

Les Vs de Big Data

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 7

Les Vs de Big Data

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 8

Les Vs de Big Data

Khan et al., 2019 : 51 V de Big Data

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 9

Les Vs de Big Data
• La définition originale de big data spécifie trois dimensions : Volume,
Vélocité et Variété

Volume Vélocité Variété

grandes quantités la rapidité avec la diversité des

de données laquelle les données types de données
générées et sont générées et générées et
traitées traitées traitées
V V V

Les 3V du Big
Data
Safa BRAHMIA - Cours Big Data LISI3 ISSATG 10
Les Vs de Big Data
Volume
• Croissance sans cesse de données à gérer de tout type, souvent en
téraoctets voir en pétaoctets

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 11

Les Vs de Big Data
Variété
• Traitement de données sous forme structurée (BD structurée, etc.) et
non structurée (textes, sons, images, vidéos, données de capteurs,
fichiers journaux, médias sociaux ,…) qui doivent faire l’objet d’une
analyse collective,
• Diversité de données

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 12

Les Vs de Big Data
Vélocité
• Utilisation des données en temps réels (détection des fraudes,
analyse des données etc.)
• La technologie nous permet d’analyser les données pendant
qu’elles sont générées, sans jamais mettre en BD
• Streaming data : des centaines par seconde
• 100 capteurs dans chaque voiture moderne, pour la surveillance

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 13

Problèmes de Big Data
Problèmes
• fausses corrélations
• difficultés à évaluer les modèles
• estimation et tests
• pas de contrôle sur la production des données
• temps d'analyse long (qualité des données)
• outils classiques ne savent pas traiter les grands Volumes (modèles de
traitement et de stockage, SGBDs, RAMs, processeurs, etc.)
• récence, représentativité des données
Les méthodes de traitement de ces données (capture, stockage, recherche,
partage, analyse et visualisation) doivent être redéfinies car l’ensemble de
ces données deviennent difficilement manipulables par les outils classiques

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 14

Caractéristiques auxquelles doivent obéir les
nouvelles technologies de big data
• Distribution de données : le grand ensemble de données est divisé en
morceaux et en petits blocs et réparti sur un nombre N de machines ou
de nœuds  (Distributed File System (DFS))
• Traitement en parallèle : les données distribuées sont traitées en
parallèles. À la fin les données sont fusionnées pour obtenir le résultat
final  Map Reducede google
• Tolérance aux pannes : grâce à la technique de réplication de
données, si l’un des nœuds tombe en panne on peut obtenir la donnée à
partir d’un autre nœud
• Utilisation de matériel standard (coûts faibles)
• Flexibilité, évolutivité et scalabilité

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 15

Technologies liées au big data

• Pour stocker son index grandissant quelle solution pour Google?

1. Utilisation d’un SGBDR?
• Problème de distribution de données
• Problème du nombre d’utilisateurs
• Problème de vitesse du moteur de recherche

2. Invention d’un nouveau système propriétaire : GFS (Google File

System) en 2003

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 16

Technologies liées au big data

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 17

Technologies liées au big data

Google possède aujourd’hui y’a plus de

dix millions de serveurs interconnectés
dans le monde

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 18

Technologies liées au big data

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 19

II. Stockage des Big Data :
Les BD NoSQL

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 20

II. Stockage des Big Data : Les BD NoSQL

1. Limites des BD relationnelles

2. Les BD NoSQL
3. Cas du BD NoSQL : MongoDB

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 21

Limites des BD relationnelles
Les bases de données relationnelles
• Les BD relationnelles
• Relation : table 2D qui a les caractéristiques suivantes :
 Nom de la table
 Attributs
 Lignes

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 22

Limites des BD relationnelles
Les bases de données relationnelles
• Modèle entité/relation
 Modèle de données constitué d’un ensemble de tables
 Chaque ligne d’une table est composée de colonnes
 Une colonne héberge une et une seule valeur
 Les relations sont permises par le fait qu’une colonne peut
référencer une ligne de la même table ou d’une autre table

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 23

Limites des BD relationnelles
Les bases de données relationnelles
• Un SGBD relationnel est généralement transactionnel : gestion des
transactions en respectant les propriétés ACID :
 Atomicité : tout ou rien
 Cohérence : Toute modification apportée à la base de données
doit préserver la cohérence des données existantes ; les contraintes
d’intégrité sont respectées par la transaction
 Isolation : Chaque transaction est isolée des autres. Si une
transaction est en cours et entraîne une modification des données,
une autre transaction lancée à ce moment n'a aucune visibilité sur
les modifications tant que la première transaction n'a pas validé ses
modifications
 Durabilité : Après validation de la transaction, les modifications
doivent perdurer, même en cas de défaillance du système.
Safa BRAHMIA - Cours Big Data LISI3 ISSATG 24
Limites des BD relationnelles
Les bases de données relationnelles

Langage déclaratif SQL

• Structured Query Language
• Proposé initialement par IBM en 1976
• Exploiter les BD relationnelles
• LDD : langage de description/définition de données
• LMD : langage de manipulation de données

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

25
Limites des BD relationnelles
Limites du relationnel pour le stockage des big data

• L’utilisation de la relation comme le seul concept pour la

modélisation de n’importe quelle donnée
• la scalabilité verticale : procède à l’augmentation des
performances et des capacités des ressources matérielles (CPU,
RAM, etc.) afin de faire face aux besoins d’augmentation de
volume (big data).
 très coûteuse et inefficace lorsqu’elle est adoptée pour la
gestion des big data, contrairement à la scalabilité horizontale
• difficulté de gérer des données ayant des structures
hétérogènes : « schéma avant, données après »

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

26
Limites des BD relationnelles
Limites du relationnel pour le stockage des big data

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

27
Les BD NoSQL
Historique

• 1998 : introduit pour la première fois, par Carlo Strozzi, pour désigner
son SGBD relationnel open source n’utilisant pas le langage SQL.
• Passer par la suite d’une simple appellation de BD à une désignation de
toute une catégorie de BD qui partagent les mêmes caractéristiques : être
non relationnelles et ne pas utiliser le langage SQL.
• 2009 : le terme a été réintroduit par l’ingénieur Johan Oskarsson dans
une conférence, intitulée « Open-source, distributed, non-relational
databases », pour caractériser la nouvelle génération des BD non-
relationnelles émergentes

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

28
Les BD NoSQL
Définition

• Acronyme : Not Only SQL

• Définition : Toutes les BD non relationnelles, distribuées, scalables
horizontalement, ne stockant pas les données sous forme de tables et
n’utilisant pas uniquement SQL pour leur définition et manipulation.
• Nouvelle approche de stockage des données (big data)
• Utilisation par les grands acteurs sur le Web comme Facebook, Twitter,
Amazon, et Google
• Remède aux limites des BD relationnelles
• >255 systèmes de bases de données NoSQL
• Quatre modèles de BD NoSQL : Orienté-« clé-valeur », orienté-
document, orienté-colonne, orienté-graphe
Safa BRAHMIA - Cours Big Data LISI3 ISSATG
29
Les BD NoSQL
Définition

• Nouvelle approche de stockage/gestion des données

• Augmente l’échelle de système : grâce à la distribution
• Gestion de métadonnées complexes : sans schéma
La cible de NoSQL :
• Très gros volume de données (PetaBytes)
• Temps de réponse très court
• La cohérence n'est pas obligatoire

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

30
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté- « clé-valeur »

Idée principale : table de hachage
Modèle NoSQL le plus simple
Notion de couple « clé et valeur »
La valeur de la clé peut changer d’un enregistrement à
l’autre
Exemples : DynamoDB, Voldemort

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

31
Les BD NoSQL
Les catégories/modèles NoSQL
Modèle NoSQL orienté- « clé-valeur »

Principe du modèle NoSQL orienté- « clé-valeur »

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 32

Les BD NoSQL
Les catégories/modèles NoSQL
Modèle NoSQL orienté- « clé-valeur »
Qui utilise le stockage clé/valeur

Solution clé-valeur Utilisée par

Redis (VMWare) Vodafone, Nokia, Samsung
Memcached (Danga) Wikipédia, Flickr, Wordpress
Azure Cosmos DB (Microsoft) Orange tribes, MSN, LG, Schneider Electric
SimpleDB (Amazon)

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 33

Les BD NoSQL
Les catégories/modèles NoSQL
Modèle NoSQL orienté- « clé-valeur »
Cas d’utilisation
• détection de fraude en temps réel,
• chat
• IoT
• e-commerce
• gestion de caches de sites web
• transactions rapides
• fichiers de logs de sites web
• Gestion des états de capteurs
Safa BRAHMIA - Cours Big Data LISI3 ISSATG 34
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-document

Extension du paradigme clé-valeur
La valeur est présentée sous forme d’un document
Données semi-structurées : XML et JSON
approches structurées des valeurs
Requêtes riches : manipulation de contenus de documents
 requêtes complexes sur chaque élément de document

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

35
Les BD NoSQL

Les catégories/modèles NoSQL

Modèle NoSQL orienté-document

Principe du modèle NoSQL orienté- « clé-valeur »

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 36

Les BD NoSQL
Les catégories/modèles NoSQL
Modèle NoSQL orienté-document
Cas d’utilisation
 Systèmes de gestion de contenu
• Bibliothèques en ligne
• Gestion des produits
• Dépôts de logiciels
• Métadonnées sur les collections multimédia
 Stockage des e-mails
 Gestion des historiques dans les réseaux sociaux

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 37

Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-document

Qui utilise le stockage orienté-document?

Solution orientée Utilisée par

document
MongoDB (MongoDB) ADP, Adobe, Bosch, Cisco, eBay, Electronic Arts,
Expedia, Foursquare

CouchBase (Apache, AOL, AT&T, Comcast, Disney, PayPal, Ryanair

Hadoop)
DynamoDB (Amazon) BMW, Dropcam, Duolingo, Supercell, Zynga

Safa BRAHMIA - Cours Big Data LISI3 ISSATG 38

Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-colonne

• Proche du modèle relationnel sauf que les données sont
organisées verticalement en colonnes et non pas en lignes
• Insertion facile d’une nouvelle colonne : schéma dynamique
• Requêtes orientées colonne : focalisation des requêtes sur une
ou plusieurs colonnes au lieu de traiter des informations inutiles
(les autres colonnes).

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

39
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-colonne

• Solution efficace pour effectuer des traitements des agrégats
(comptage, moyennes,...)
• Plus adaptée à de gros calculs analytiques
• Moins appropriée pour la lecture de données spécifiques
(comme pour les clés/valeurs)

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

40
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-colonne

SGBDR

NoSQL
orienté-
colonne
Safa BRAHMIA - Cours Big Data LISI3 ISSATG
41
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-colonne

Cas d’utilisation
 Statistiques sur les votes en ligne
 Recherches de produits d’une catégorie donnée (exemple
dans Ebay)
 Journalisation

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

42
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-colonne

Qui utilise le stockage orienté-colonne?
• BigTable (Google)
• HBase (Apache, Hadoop)
• Elasticsearch (Elastic)

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

43
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-colonne

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

44
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-graphe

Basé sur la théorie des graphes
Exprimer les relations entre les données d’un univers de discours
Gestion et stockage des données suivantes : les nœuds, les
relations (liens) et les propriétés liées aux nœuds et aux propriétés

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

45
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-graphe

Cas d’utilisation
 La reconnaissance de formes
• Recommandations
• Détection de fraude
 Calculs graphiques
• Chemin raccourci
• Classement
• Connectivité
 Données liées
Safa BRAHMIA - Cours Big Data LISI3 ISSATG
46
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-graphe

Exemples
Solution Utilisée par
Neo4j eBay, Cisco, UBS, HP, TomTom, The
National Geographic Society
OrientDB (Apache) Comcast, Warner Music Group, Cisco, Sky,
United Nations, VErisign
FlockDB (Twitter) Twitter

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

47
Les BD NoSQL
Les catégories/modèles NoSQL

Modèle NoSQL orienté-graphe

Safa BRAHMIA - Cours Big Data LISI3 ISSATG

48
Les BD NoSQL
Caractéristiques

Non-relationnelle Réplication de données

Distribution automatique
Sans-schéma