0% ont trouvé ce document utile (0 vote)

78 vues25 pages

Bigdata 1

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

78 vues25 pages

Bigdata 1

Transféré par

Nidhal Larbi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction au Big Data

Dr. Nawres Abdelwahed

1
BigData

2
Le BigData

Le concept de « Big Data » désigne des ensembles de données

caractérisés par leur taille et leur complexité, qui surpassent les
capacités des systèmes de gestion de données traditionnels.

Cette complexité ne se résume pas uniquement à la quantité, mais

englobe également la diversité des types de données (structurées,
non structurées, semi-structurées) et la rapidité avec laquelle de
nouvelles données sont générées et collectées, ce qu'on appelle la
vélocité.

3
Le Big Data désigne à la fois de grosses bases de données dont la gestion nécessite des approches différentes des systèmes
classiques, et les technologies et stratégies utilisées pour traiter ces volumes importants de données. Ainsi, il implique une

Le BigData
évolution qualitative dans les méthodes de gestion des données.

Big Data est utilisé pour désigner deux ensembles de choses :

•Les grosses bases de données.« Big Data » signifie d’abord« big

volume of data ». Dans le Big Data, il y a l’idée qu’on ne gère pas de la
même manière des bases de données classiques et des énormes volumes
de données. A partir d’un certain seuil, la différence quantitative,
volumétrique, se transforme en différence qualitative. Les process et
traitements changent de nature. A partir d’un certain seuil, les données
ne peuvent plus être gérées de manière classique, dans des bases et des
outils classiques. Ce qui nous amène immédiatement au second point.

•Les dispositifs informatiques et plus largement les technologies

utilisés pour gérer de gros volumes de données. Le Big Data ne
renvoie pas qu’aux données en tant que telles, mais aussi aux
technologies, aux stratégies, aux techniques utilisées pour gérer de gros
volumes de données. 4
Big Data
• On parle du BigData quand le traitement devient trop long et trop
lourd pour un seul serveur

5
Big Data

• Les principaux acteurs du web tels que Google, Yahoo, Facebook,

Twitter, LinkedIn, etc ont été les premiers à traiter des volumes de
données extrêmement importants et ont été à l'origine des premières
innovations dans ce domaine, principalement centrées sur deux types de
technologies:
Les plateformes de développement et de traitement des données (Hadoop,
Spark,…)
Les bases de données (NoSql)

6
Exemples d’utilisation de BigData

7
Exemples d’utilisation de BigData

8
Exemples d’utilisation de BigData
Moteurs de recommandation

9
Exemples d’utilisation de BigData
La croissance des consommateurs pour guider la
croissance des produits

10
Caractéristiques du Big Data

Volume Vélocité
grandes quantités doivent être analysés
de données rapidement

Variété Valeur
grandes quantités faible densité de
de données valeur

11
Caractéristiques du Big Data:
Volume
Volume == taille Chaque minute

204 Million emails

200,000 photos
1.8 Million

1.3 Million video views

72 hours of video uploads

12
Caractéristiques du Big Data:
Volume
1 TB ~= 300 heures de vidéo de bonne qualité

13
Caractéristiques du Big Data:
Variété
Variété == hétérogénéité &
complexité
Avant: Les données ont été Aujourd’hui: Aujourd'hui, les
limitées uniquement aux tableaux données sont plus hétérogènes

14
Caractéristiques du Big Data:
Variété
Variété au sein d'un type
Penser à une collection de email

Pièce semblable à une table

Expéditeur, destinataire, date… Bien

structuré
Texte non structuré
15
Caractéristiques du Big Data:
Variété
Variété au sein d'un type
Penser à une collection de email
Expéditeur, destinataire, Bien structuré
date…
Corps de l'e-mail Texte
Media

Qui envoie à qui

Network
Temps réel? Disponibilité 16
Caractéristiques du Big Data:
Variété
Impact de la variété des données

Plus difficile à ingérer

Difficile de créer un stockage commun
Difficile de comparer et de faire correspondre les données d'une
variété
Défis de gestion

17
Caractéristiques du Big Data: Vélocité
Vélocité ==
Vitesse
Rapidité de création des données

Rapidité de stockage des données

Rapidité d'analyse des données

Big Data Real-time action

18
Traitement BigData VS.
Traitement des données
tradionnelles
Traitement BigData Traitement des données
tradionnelles
Echelle de données Large ( GB, TB, PB) Petit (MB)
Type de données Plusieurs type de données Un seul type de données
(structuré, semi-structuré, (structuré)
non structuré)
Objet à traiter poisson dans l'océan poisson dans l'étang
outil de traitement aucune taille ne convient à taille unique
tous

19
Principaux modes de calcul de
• Batch Computing (par lot)
BigData
permet de traiter une grande quantité de données par lots: MapReduce et Spark

• Stream Computing
Vous permet de calculer et de traiter les données de flux en temps réel: Spark, Storm,
Flink, Flume et Dstream

20
Principaux modes de calcul de
BigData
• Informatique graphique
permet de traiter de gros volumes de données de structure graphique: GraphX, Gelly,
Giraph,et PowerGraph, Neo4J

• Requête et calcul analytique

permet de gérer, d'interroger et d'analyser une grande quantité de données stockées:
Hive,Impala, et Cassandra

21
BIG DATA:
•
Géneralités
La plupart des outils et des frameworks de BigData sont construits en
gardant à l'esprit les caractéristiques suivantes:

La distribution des données: Les données sont distribuées sous forme de bloc
(chunks) sur plusieurs noeuds pour un traitement en parallèle.
=> Système de Fichiers Distribués - DFS (DistributedFileSystem).

1 Nœud A Nœud B Nœud C Nœud D

2 1 3 4 1
3 3 4 2 2
4 6 5 6 5
5
6
22
BIG DATA:
Géneralités
La tolérance aux pannes: En général, on fait la réplique d'un seul bloc (ou chunk) de
données plusieurs fois sur es serveurs distants. Même si l'un des serveurs tombe en
panne, on peut récuperer les données à partir d'une autre serveur ou d’un autre
«datacenter».
L’inconvénient ici que la réplication de données pourrait coûter beaucoup d'espace.

Le traitement en parallèle: Puisque les données sont distribuées sur plusieurs

serveurs. Alors ces serveurs travaillent en parallèle pour l'analyse et le traitement
. les données sont combinées pour obtenir le résultat final souhaité.. (Fameux
exemple : Map Reduce de Google).

23
BIG DATA: Plateforme
– Technologies
Société Technologie développée Type de technologie
Google -Outils
Map Reduce Patron de traitement distribué et en paralléle
Big Table Système de base de données distribuée NoSQL
propriétaire reposant sur GFS (Google File
System). Technologie non Open Source, mais
qui a inspiré Hbase qui est Open Source.
Facebook Cassandra Basede données de type NoSQLet distribuée.

Hive Outil d’analyse de données utilisant Hadoop.

Yahoo Hadoop Plateforme Java destinée aux applications

distribuées et à la gestion intensive des données.
Issue à l’origine de GFS et MapReduce.
S4 Outil de développement dédié aux applications de
traitement continu de flux de données.

24
BIG DATA: Plateforme
– Technologies
-Outils

Vous aimerez peut-être aussi

Introduction AuBigData
Pas encore d'évaluation
Introduction AuBigData
25 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
148 pages
Big DATA MASTER 2 G - Nie Logiciel - R - Seau v1.0 R
Pas encore d'évaluation
Big DATA MASTER 2 G - Nie Logiciel - R - Seau v1.0 R
58 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
104 pages
Introduction A Big Data
100% (1)
Introduction A Big Data
48 pages
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
Pas encore d'évaluation
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
10 pages
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
Pas encore d'évaluation
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
10 pages
Introduction Aux Big Data
Pas encore d'évaluation
Introduction Aux Big Data
26 pages
Coursbigdata Chap1 - Introduction À Big Data
Pas encore d'évaluation
Coursbigdata Chap1 - Introduction À Big Data
53 pages
Chapitre I Big Data Et Ses Technologies
Pas encore d'évaluation
Chapitre I Big Data Et Ses Technologies
43 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
43 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Big Data
Pas encore d'évaluation
Big Data
48 pages
Gestion et Analyse des Big Data
Pas encore d'évaluation
Gestion et Analyse des Big Data
26 pages
2 - Big Data
Pas encore d'évaluation
2 - Big Data
60 pages
Big Data
Pas encore d'évaluation
Big Data
21 pages
Big Data Chap 1 - Introduction
Pas encore d'évaluation
Big Data Chap 1 - Introduction
33 pages
Chapitre Big Data (GLO 642)
Pas encore d'évaluation
Chapitre Big Data (GLO 642)
57 pages
Cours
Pas encore d'évaluation
Cours
54 pages
Chapitre 0 - Introduction
Pas encore d'évaluation
Chapitre 0 - Introduction
27 pages
Chapitre 1 Big Data
Pas encore d'évaluation
Chapitre 1 Big Data
22 pages
Introduction Au Big Data
Pas encore d'évaluation
Introduction Au Big Data
9 pages
Big Data
Pas encore d'évaluation
Big Data
13 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
25 pages
Big Data Et Data Mining
Pas encore d'évaluation
Big Data Et Data Mining
14 pages
Lecture 1 Bis
Pas encore d'évaluation
Lecture 1 Bis
53 pages
Chap1 Introduction
Pas encore d'évaluation
Chap1 Introduction
44 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Big Data : Révolution des Données
Pas encore d'évaluation
Big Data : Révolution des Données
43 pages
Chapitre1: Introduction: Big Data
Pas encore d'évaluation
Chapitre1: Introduction: Big Data
31 pages
Panorama Du Big Data
Pas encore d'évaluation
Panorama Du Big Data
80 pages
Cours Framework Big DATA - DR SEBRI
Pas encore d'évaluation
Cours Framework Big DATA - DR SEBRI
15 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
37 pages
Introduction Big Data-1
Pas encore d'évaluation
Introduction Big Data-1
55 pages
Introduction au Big Data et NoSQL
Pas encore d'évaluation
Introduction au Big Data et NoSQL
38 pages
C1 Big Data Intro 2022
Pas encore d'évaluation
C1 Big Data Intro 2022
56 pages
Introduction au Big Data et OLAP/OLTP
Pas encore d'évaluation
Introduction au Big Data et OLAP/OLTP
58 pages
Intro Big Data
Pas encore d'évaluation
Intro Big Data
24 pages
Support de Cours BIG DATA
Pas encore d'évaluation
Support de Cours BIG DATA
31 pages
BigData AllPdfs
Pas encore d'évaluation
BigData AllPdfs
144 pages
Définition Du Big Data
Pas encore d'évaluation
Définition Du Big Data
4 pages
Chap 1 BD
Pas encore d'évaluation
Chap 1 BD
17 pages
Big Data 2
Pas encore d'évaluation
Big Data 2
89 pages
Cours Framework Big DATA - DR SEBRI (3153)
Pas encore d'évaluation
Cours Framework Big DATA - DR SEBRI (3153)
14 pages
Syllabus Cour Architecture Big Data 1
Pas encore d'évaluation
Syllabus Cour Architecture Big Data 1
47 pages
Outils et Concepts du Big Data
Pas encore d'évaluation
Outils et Concepts du Big Data
43 pages
Les Entreprises N
Pas encore d'évaluation
Les Entreprises N
13 pages
Big Data : Définition, Avantages et Défis
Pas encore d'évaluation
Big Data : Définition, Avantages et Défis
12 pages
Big Data Ds
Pas encore d'évaluation
Big Data Ds
36 pages
BIG DATA Chapitre 1-4
Pas encore d'évaluation
BIG DATA Chapitre 1-4
73 pages
ESCT - 2023 - 2024 - 3LMKG - Big - Data en Assurance Avec Python 17 02 2024
Pas encore d'évaluation
ESCT - 2023 - 2024 - 3LMKG - Big - Data en Assurance Avec Python 17 02 2024
39 pages
Big Data et Écosystème Hadoop
Pas encore d'évaluation
Big Data et Écosystème Hadoop
37 pages
Cours Modelisation de Grand Volume de Donnees Big Data (M1-SIGL-2025)
Pas encore d'évaluation
Cours Modelisation de Grand Volume de Donnees Big Data (M1-SIGL-2025)
378 pages
Chapitre1 Mapreduce
Pas encore d'évaluation
Chapitre1 Mapreduce
20 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
Big Data en Entreprise
Pas encore d'évaluation
Big Data en Entreprise
67 pages
Chapitre N°4 Apache Spark
Pas encore d'évaluation
Chapitre N°4 Apache Spark
43 pages
Introduction Au BigData
Pas encore d'évaluation
Introduction Au BigData
27 pages
Évolution et Impact du Big Data
Pas encore d'évaluation
Évolution et Impact du Big Data
7 pages
CV Data Scientist Mohamed Ali Jaballah
Pas encore d'évaluation
CV Data Scientist Mohamed Ali Jaballah
1 page
Architecture de Spark en Détail
100% (1)
Architecture de Spark en Détail
31 pages
NOSQL Data
Pas encore d'évaluation
NOSQL Data
50 pages
Big Data, Bi, Nosql, SGBD, Data, État de L'Art Et Méthodes: Cycles Certifiants
Pas encore d'évaluation
Big Data, Bi, Nosql, SGBD, Data, État de L'Art Et Méthodes: Cycles Certifiants
52 pages
QCM Inf 356
100% (3)
QCM Inf 356
13 pages
Quelques Notions Sur HADOOP
Pas encore d'évaluation
Quelques Notions Sur HADOOP
22 pages
CHO2 - Cours Sécurité BIG DATA Et CLOUD
Pas encore d'évaluation
CHO2 - Cours Sécurité BIG DATA Et CLOUD
31 pages
tp06 2
Pas encore d'évaluation
tp06 2
3 pages
TP2 Spark
Pas encore d'évaluation
TP2 Spark
3 pages
Chap 2
Pas encore d'évaluation
Chap 2
84 pages
Correction Examen Big Data 2020 2021 Session Normale
90% (10)
Correction Examen Big Data 2020 2021 Session Normale
4 pages
Chapitre 2 - Hadoop HDFS Et MapReduce - Big Data
Pas encore d'évaluation
Chapitre 2 - Hadoop HDFS Et MapReduce - Big Data
60 pages
Atelier HDFS
Pas encore d'évaluation
Atelier HDFS
5 pages
Initier Hadoop pour Big Data
Pas encore d'évaluation
Initier Hadoop pour Big Data
7 pages
Rapport sur le Big Data: Concepts et Usages
Pas encore d'évaluation
Rapport sur le Big Data: Concepts et Usages
13 pages
Cours-4 - Interrogation Big Data-Hive
Pas encore d'évaluation
Cours-4 - Interrogation Big Data-Hive
8 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Guide d'Installation Hadoop
Pas encore d'évaluation
Guide d'Installation Hadoop
13 pages
Commandes HDFS pour la gestion des données
Pas encore d'évaluation
Commandes HDFS pour la gestion des données
9 pages
Exam Bd1718 SR
Pas encore d'évaluation
Exam Bd1718 SR
5 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
2 pages
Qui Suis-Je ?: Pr. Y Khourdifi, D I
Pas encore d'évaluation
Qui Suis-Je ?: Pr. Y Khourdifi, D I
20 pages
Installation de Bitnami Hadoop sur VM
Pas encore d'évaluation
Installation de Bitnami Hadoop sur VM
14 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
5 pages
Big Data: Hadoop, OpenStack et Mahout
Pas encore d'évaluation
Big Data: Hadoop, OpenStack et Mahout
21 pages
TP PIG Hadoop
Pas encore d'évaluation
TP PIG Hadoop
3 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Exams
Pas encore d'évaluation
Exams
6 pages
TP4-5 Spark
Pas encore d'évaluation
TP4-5 Spark
21 pages
TP 8
Pas encore d'évaluation
TP 8
4 pages