Big Data: General
Overview
Classe:Made1
Enseignant. Mahrez Hosni
ECOLE NATIONALE DES SCIENCES ET TECHNOLOGIES AVANCÉES
DE BORJ CÉDRIA
May 14, 2025
General Overview
OLAP, OLTP, QUELLES DIFFÉRENCES ?
Aujourd’hui, les systèmes informatiques peuvent se subdiviser
en deux. On retrouve le système transactionnel OLTP et
le système analytique OLAP.
OLAP et OLTP sont des systèmes d’information qui sont voués à
regrouper les données de l’entreprise, de deux manières
différentes pourtant.
Les systèmes OLTP servent, en général, de source de données
pour les systèmes OLAP qui sont quant à eux, source d’analyse
des données qui vont permettre d’aboutir à la décision.
Plus précisément, le système OLAP est aussi appelé « système
décisionnel ». Il est utilisé dans le pilotage de l’entreprise. Grâce à ce
système, le chef d’entreprise dispose d’une vision transversale de son
entreprise. Le système OLTP ou plus connu sous l’appellation de «
système opérationnel ». Il permet d’assister les collaborateurs et
décisionnaires d’une entreprise dans la gestion des tâches
quotidiennes.
L’OLAP
C’est un outil de reporting dont la couche d’analyse permet de
générer les indicateurs de résultats en fonction du contenu d’un
entrepôt de données. OLAP (pour OnLine Analytical Processing)
est avant tout une méthode d’analyse représentée par un cube,
qui est apparu pour la première fois à la demande d’Arbor
Software, en 1993, dans le livre blanc de E.F. Codd qui n’est autre
que l’un des concepteurs des bases de données relationnelles.
Big data: Introduction
« Le Big Data désigne un très grand volume de données souvent
hétérogènes qui ont plusieurs formes et formats (texte, données
de capteurs, son, vidéo, données sur le parcours, fichiers
journaux, etc.), et comprenant des formats hétérogènes :
données structurées, non structurées et semi-structurées.
Big data: Introduction
Le Big Data a une nature complexe qui nécessite des technologies
puissantes et des algorithmes avancés pour son traitement et
stockage. Ainsi, il ne peut être traité en utilisant des outils tels
que les SGBD traditionnels. La plupart des scientifiques et experts
des données définissent le Big Data avec le concept des 3V
comme suit» :
Big data: Introduction
Vélocité :
Les données sont générées rapidement et doivent être traitées
rapidement pour extraire des informations utiles et des informations
pertinentes. Par exemple, Wallmart (une chaîne internationale de
détaillants à prix réduits) génère plus de 2,5 petabyte(PB) de données
toutes les heures à partir des transactions de ses clients. YouTube est
un autre bon exemple qui illustre la vitesse rapide du Big Data.
Big data: Introduction
Variété :
Les données volumineuses sont générées à partir de diverses
sources distribuées dans plusieurs formats (vidéos, documents,
commentaires, journaux, par exemple). Les grands ensembles de
données comprennent des données structurées et non
structurées, publiques ou privées, locales ou distantes, partagées
ou confidentielles, complètes ou incomplètes, etc
Big data: Introduction
Volume :
il représente la quantité de données générées, stockées et
exploitées. Le volume des données stockées aujourd’hui est en
pleine explosion il est presque de 800.000 Péta-octets, Twitter
générer plus de 7 téraoctets chaque jour de données, Facebook
générer plus de 10 téraoctets et le volume de données dans 2020
peut atteindre 40 zêta-octets
Par la suite, les trois dimensions initiales sont élargies par deux
autres dimensions des données Big Data (on parle aussi des « 5 V du
Big Data»)
Véracité :
La véracité (ou validité) des données correspond à la fiabilité et
l’exactitude des données, et la confiance que ces Big Data inspirent
aux décideurs. Si les utilisateurs de ces données doutent de leur
qualité ou de leur pertinence, il devient difficile d’y investir
davantage
Valeur :
Ce dernier V joue un rôle primordial dans les Big Data, la
démarche Big Data n’a de sens que pour atteindre des objectifs
stratégiques de création de va- leur pour les clients et pour les
entreprises dans tous les domaines.
La scalabilité
Scale up
Un système
centralisé
Scale out distributed system: c’est système
distribué les données distribué vers les autres machines
chaque machine faire sa propre traitement ce système assure
plus de disponibilité
Ancient système de stokage
Ce système ne supporte pas la
velocité du Big data car il est long
Nouveau système pour le stokage
Big Data Analytics
Big data analytics definition
L'analyse des mégadonnées aide les entreprises et les
organisations à prendre de meilleures décisions en révélant
des informations qui autrement auraient été cachées.
Il peut être difficile d’extraire des informations significatives
sur les tendances, les corrélations et les modèles qui existent au
sein du Big Data sans une grande puissance de calcul.
Big Data Analytics
Mais les techniques et technologies utilisées dans l’analyse du
Big Data permettent d’en apprendre davantage à partir de
grands ensembles de données.
Cela inclut les données de n’importe quelle source, taille et
structure.
Big Data Analytics
Les modèles prédictifs et les algorithmes statistiques de
visualisation de données avec le Big Data sont plus
avancés que les requêtes de base de business
intelligence.
Les réponses sont presque instantanées par rapport aux
méthodes traditionnelles de business intelligence.
Different Types of Big Data Analytics
Voici les quatre types d’analyses Big Data :
1. Descriptive Analytics
Celui-ci résume les données passées sous une forme que les
gens peuvent facilement lire. Cela aide à créer des
rapports, comme les revenus, les bénéfices, les ventes
d’une entreprise, etc. En outre, cela aide à la compilation
des mesures des médias sociaux.
Different Types of Big Data Analytics
2. Diagnostic Analytics
Ceci est fait pour comprendre ce qui a causé un problème en
premier lieu. Des techniques telles que l’exploration, l’exploration
de données et la récupération de données en sont autant
d’exemples. Les organisations utilisent l'analyse de diagnostic car
elles fournissent un aperçu approfondi d'un problème particulier.
Different Types of Big Data Analytics
3. Predictive Analytics
Ce type d'analyse examine les données historiques et
présentes pour faire des prédictions sur l'avenir. L'analyse
prédictive utilise l'exploration de données, l'IA et
l'apprentissage automatique pour analyser les données
actuelles et faire des prédictions sur l'avenir. Il fonctionne
pour prédire les tendances des clients, les tendances du
marché, etc.
Different Types of Big Data Analytics
4. Prescriptive Analytics
Ce type d'analyse prescrit la solution à un problème particulier.
L'analyse perspective fonctionne à la fois avec l'analyse
descriptive et prédictive. La plupart du temps, elle s’appuie sur
l’IA et l’apprentissage automatique.
Big Data Analytics Tools
L'analyse du Big Data nécessite un cadre logiciel pour le stockage
et le traitement distribués du Big Data. Les outils suivants sont
considérés comme des solutions logicielles d’analyse de Big
Data :
HEAVY.AI
Plateforme d'analyse visuelle interactive capable de traiter
d'énormes ensembles de données multi-sources en quelques
millisecondes.
Apache Kafka:
Système de messagerie évolutif qui permet aux utilisateurs de
publier et de consommer un grand nombre de messages en temps
réel par abonnement.
HBase
Magasin de données clé/valeur orienté colonne qui s'exécute sur le
système de fichiers distribué Hadoop.
Hive
Open source data warehouse system for analyzing data sets in
Hadoop files.
MapReduce
Software framework for processing massive amounts of
unstructured data in parallel across a distributed cluster.
Pig
Open source technology for parallel programming of MapReduce
jobs on Hadoop clusters.
Spark
Open source and parallel processing framework for running large-
scale data analytics applications across clustered systems.
YARN
Cluster management technology in second-generation Hadoop.
Zookeeper – Coordination des applications distribuées
Zookeeper
est un service qui coordonne les applications distribuées. Dans le
framework Hadoop, il agit comme un outil d'administration avec un
registre centralisé qui contient des informations sur le cluster de serveurs
distribués dont il assure la gestion. :
ChapitreII Hadoop
Introduction
Pour bien comprendre tout ce qui précède, il faut d'abord connaître les
produits de base des big data : il s'agit généralement de Hadoop,
MapReduce et Spark (trois produits développés dans le cadre des
Apache Software Projects).
Hadoop
est une solution logicielle open source conçue spécifiquement
pour l'exploitation des big data. Les outils de Hadoop
permettent de répartir la charge de traitement requise pour le
traitement de datasets énormes sur quelques nœuds ou
quelques centaines de milliers de nœuds de traitement
distincts.
Au lieu de déplacer un péta-octet de données vers un
minuscule site de traitement, Hadoop fait l'inverse, ce qui a
pour effet d'accélérer considérablement la vitesse de
traitement des datasets.
YARN – Gestion et planification (c’est une couche de gestion des ressources )
YARN est l'abréviation de « Yet Another Resource Negotiator » (plus simplement, un
négociateur de ressources). Cet élément assure la gestion et planification des ressources
(clusters) Hadoop et décide de ce qui doit se passer dans chaque nœud de données.
Hadoop est considérer parmi les meilleures systemes de stockage de type Data
Lake ( data lake propose un endroi ou on peut stocket notre données sans avoir le
type ou le structure )
Sqoop – Importation de données dans les bases relationnelles
Sqoop est également (comme Flume décrit précédemment) un outil pour
l'importation des données. Alors que Flume travaille sur des données non
structurées ou semi-structurées, Sqoop est utilisé pour exporter et
importer des données à partir de bases de données relationnelles externe
Et l’enregistrer dans HDFS
Master ou name node contient tous les information de tous le
cluster
Le seul qui reçoit les requêtes provenant des des clients et les
centraliser
Si je veut lancer une tâches il va me orienter vers la bonne
machine
Si j’ai un ficher stocker dans la master et je veut le charger
dans HDFS il va le diviser en block de data de 128 Mo (ancien
taille est de 64 Mo )
MapReduce, définition
MapReduce est le modèle de programmation du framework
Hadoop. Il permet d'analyser les immenses volumes de données
Big Data grâce au traitement parallèle.
Hadoop est capable d’exécuter des programmes MapReduce
écrits dans divers langages : Java, Ruby, Python, C++…
Ces morceaux de données sont traités en parallèle, sur les
serveurs Hadoop. Après le traitement, les données en
provenance des multiples serveurs sont agrégées pour renvoyer
un résultat consolidé à l’application.
L’accès et le stockage des données sont basés sur disque. Les
» input » (entrées) sont stockées sous forme de fichiers
contenant des données structurées, semi-structurées ou non
structurées. Le » output » (sortie) est aussi stockée sous forme
de fichiers.