0% ont trouvé ce document utile (0 vote)
177 vues31 pages

Big Data

Ce document décrit les concepts et enjeux du Big Data. Il définit le Big Data comme un ensemble massif de données provenant de diverses sources comme les réseaux sociaux et les transactions en ligne. Le document présente ensuite la croissance exponentielle des données et l'intérêt croissant des entreprises pour le Big Data et l'analyse de données afin d'améliorer leurs performances commerciales.

Transféré par

Énomis Douyou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
177 vues31 pages

Big Data

Ce document décrit les concepts et enjeux du Big Data. Il définit le Big Data comme un ensemble massif de données provenant de diverses sources comme les réseaux sociaux et les transactions en ligne. Le document présente ensuite la croissance exponentielle des données et l'intérêt croissant des entreprises pour le Big Data et l'analyse de données afin d'améliorer leurs performances commerciales.

Transféré par

Énomis Douyou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ÉCOLE SUPÉRIEURE DE GESTION

ET D’ADMINISTRATION DES ENTREPRISES


Agrément définitif par Arrêté n°4677/MES/CAB du 05 Juillet 2017
Accréditée par le Conseil Africain et Malgache pour l’Enseignement Supérieur (CAMES)
BP : 2339 – Brazzaville – CONGO
E-mail : esgae@[Link] Site web : [Link]

Département Licence

BIG DATA

Parcours
Licence 3 – Administration Bases de Données

Enseignants
Equipe pédagogique
BIG DATA
BIG DATA

Table des matières


CHAPITRE 1 : COMPRENDE LES CONCEPTS ET LES ENJEUX DU BIG DATA .............................................2
Section 1 : Origine et définition du Big Data ....................................................................................2
Section 2 : Les chiffres clés du marché dans le monde .....................................................................2
Section 3 : Les enjeux du Big Data ...................................................................................................3
Section 4 : Approches d’analyse de données ...................................................................................4
Section 5 : Processus de collecte de données ..................................................................................5
Section 6 : Cartographie de la donnée .............................................................................................7
Section 7 : L’ère de la Data ..............................................................................................................8
Section 8 : Un exemple d’architecture Big Data ...............................................................................8
CHAPITRE 2 : LES TECHNOLOGIES DU BIG DATA ................................................................................ 11
Section 1 : Architecture et composants de la plateforme Hadoop. ................................................ 11
Section 2 : Les modes de stockages (NoSQL, HDFS) ....................................................................... 12
Section 3 : Principe de fonctionnement de MapReduce, Spark, Storm… ........................................ 13
Section 4 : Principales distribution du marché ............................................................................... 14
Section 5 : Installer une plateforme Hadoop ................................................................................. 14
Section 6 : Les technologies du datascientist ................................................................................. 15
Section 7 : Présentation des technologies spécifiques pour les Big Data ........................................ 15
CHAPITRE 3 : GERER LES DONNEES STRUCTUREES ET NON STRUCTUREES ......................................... 17
Section 1 : Principe de fonctionnement de Hadoop Distributed File System (HDFS) ....................... 17
Section 2 : Importer les données externes vers HDFS .................................................................... 17
Section 3 : Réaliser les requetés SQL avec HIVE ............................................................................. 17
Section 4 : Utiliser PIG pour traiter la donnée ................................................................................ 19
Section 5 : Le principe des ETL (Talend…) ...................................................................................... 19
Section 6 : Gestion de streaming de données massives (NIFI, Kafka, Spark, Storm….) .................... 21
CHAPITRE 4 : TECHNIQUES ET METHODES BIG DATA ANALYTICS ....................................................... 23
Section 1 : Machine learning, une composante de l’intelligence artificielle .................................... 23
Section 2 : Découvrir les trois familles : Régression, Classification et Clustering ............................. 23
Section 3 : La préparation des données ......................................................................................... 24
CHAPITRE 5 : DATA VISUALISATION ET CAS D’USAGE CONCRETS ....................................................... 25
Section 1 : Définir le besoin de la data visualisation....................................................................... 25
Section 2 : Analyse et Visualisation des données ........................................................................... 26
Section 3 : peut concerner tous les types de données dans la Dataviz ? ......................................... 27

1|P a ge
BIG DATA

CHAPITRE 1 : COMPRENDE LES CONCEPTS ET LES ENJEUX DU BIG DATA


Section 1 : Origine et définition du Big Data
 Origine : L’explosion quantitative des données numériques a obligé les chercheurs à trouver
de nouvelles manières de voir et d’analyser le monde. Il s’agit de découvrir de nouveaux
ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et
la présentation des données. Ainsi est né le « Big Data ». Il s’agit d’un concept permettant de
stocker un nombre indicible d’informations sur une base numérique. Selon les archives de la
bibliothèque numérique de l’Association for Computing Machinery (ou ACM) dans des articles
scientifiques concernant les défis technologiques à relever pour visualiser les « grands
ensembles de données », cette appellation est apparue en octobre 1997.

 Définition : Littéralement, ces termes signifient mégadonnées, grosses données ou


encore données massives. Ils désignent un ensemble très volumineux de données qu’aucun
outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment
travailler. En effet, nous procréons environ 2,5 trillions d’octets de données tous les jours. Ce
sont les informations provenant de partout : messages que nous nous envoyons, vidéos que
nous publions, informations climatiques, signaux GPS, enregistrements transactionnels
d’achats en ligne et bien d’autres encore. Ces données sont baptisées Big Data ou volumes
massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi
Facebook et Google), ont été les tous premiers à déployer ce type de technologie.

Littéralement, nous pourrions le traduire par “mégadonnées”. Ce terme un peu vague désigne ainsi
une quantité massive de données, provenant de moult endroits : des SMS que nous envoyons, aux
signaux GPS, en passant par notre activité sur les réseaux sociaux et les transactions que nous
effectuons sur le net. La liste n’est pas exhaustive et c’est d’ailleurs pourquoi ces informations ont été
regroupées sous l’appellation de “Big Data”. En vérité, il est impossible de donner une définition
précise de ce concept, tant celui-ci s’avère complexe, polymorphe et sujet à diverses interprétations,
en fonction du secteur qui y fait référence.

En tout état de cause, les données sont utiles pour quantité de business, et ce, à de multiples échelles
: afin de les présenter à vos collaborateurs et à vos clients, afin d’élaborer de nouveaux produits et
services, ou encore afin de prendre des décisions d’ordre commercial.

De surcroît, le stockage d’informations est de plus en plus abordable. Le phénomène du big data a vu
le jour dans les années 1960, avec la création des tous premiers “data warehouses”. Dès lors, les choses
n’ont cessé d’aller crescendo, conformément au flux de données qui n’a cessé, lui aussi, de croître.
Aujourd’hui, les acteurs de l’économie savent que ces données peuvent être recueillies, grâce à de
nombreux outils (plateformes et applications, par exemple). Outils logiquement devenus
indispensables.

Section 2 : Les chiffres clés du marché dans le monde


L’ère du numérique et l’essor du digital ont logiquement induit une croissance continue et
exponentielle du Big Data. À titre illustratif, selon une étude IBM réalisée en 2020, deux-tiers des
entreprises françaises disent explorer, voire déjà user de l’intelligence artificielle.

Comme nous l’avons vu précédemment, cet intérêt s’explique logiquement, en raison des multiples
bénéfices que l’analyse de données est en mesure d’apporter aux acteurs de l’économie (gain de
temps et optimisation des performances marketing et commerciales, notamment). Là où

2|P a ge
BIG DATA

l’amélioration de l’expérience utilisateur (et sa satisfaction) est un avantage de taille, pour se


démarquer de la concurrence.

Toutefois, il est également intéressant de noter que les principaux obstacles à l’adoption de tels
systèmes résident dans le manque de connaissances et d’outils. De fait, selon Gartner, 40% des tâches
de data science sont menées par des individus n’ayant justement pas de compétences spécifiques en
la matière. Comme souvent, dans le milieu de la technologie, le changement s’amorce cependant
rapidement. Aussi voit-on peu à peu poindre de nouvelles professions à l’image du data scientist ou
du data engineer. Ces data scientists, experts de cette science nouvelle qu’est la data analytics, ont
ainsi vocation à s’approprier enfin cette masse complexe, afin d’en optimiser l’usage. Des perles rares,
qui font d’ores et déjà la convoitise de nombreuses organisations.

Vous avez besoin d’intégrer, de gérer et/ou d’analyser des données en masse propres à votre activité.
Notre solution Datanalyz vous permet d’optimiser vos méthodes de travail et de reprendre le contrôle
de votre entreprise. N’hésitez plus et contactez Elipce pour vous informer et découvrir la puissance de
notre solution.

Section 3 : Les enjeux du Big Data


Le Big Data semble aujourd’hui incontournable compte tenu de la place prépondérante du numérique
dans le quotidien du consommateur lambda. Cependant, il convient de maîtriser ses enjeux afin de
l’apprivoiser et d’en tirer profit.

1. Garantir la qualité des informations


Si la connaissance des clients passe avant tout par l’analyse des informations les concernant, encore
faut-il que les données réunies soient de qualité. En effet, la qualité des données doit être une priorité
pour ne pas fausser les stratégies découlant de leur traitement. Un système d’audit de la qualité des
données doit donc être mis en place afin de corriger les éventuelles erreurs humaines survenues. Des
outils de correction automatique permettent de s’assurer de la pertinence des informations collectées
et analysées.

2. Optimiser le traitement des données


Pour de nombreux experts, le traitement des données est l’un des enjeux les plus importants du Big
Data. En effet, les informations arrivent en masse et se présentent sous divers formats. L’entreprise
doit donc investir dans des outils de gestion et de traitement permettant de transformer les données
recueillies en informations intelligibles. Ces solutions de gestion doivent permettre d’analyser les data
en temps réel. L’entreprise doit aussi intégrer à son équipe des experts en traitement de données
comme le Chief data officer.

3. Mettre en relation tous les métiers


Le Big Data implique de faire travailler ensemble différents professionnels dans le but d’atteindre des
objectifs précis. Ainsi, le spécialiste du marketing devrait collaborer étroitement avec un statisticien
pour avoir une idée précise des actions à mener en fonction des particularités de la population cible.
Le Big Data touche en effet tous les métiers recensés au sein de l’entreprise et les données analysées
devraient profiter à tous. Il est de ce fait opportun de structurer les données en suivant une
modélisation des processus métiers.

3|P a ge
BIG DATA

4. Assurer la sécurité
Les informations utiles aux entreprises pour définir leurs stratégies relèvent pour la plupart du
domaine privé. Elles proviennent en majorité des comptes utilisateurs et touchent de ce fait à la
relation de confiance liant l’entreprise à ses clients. De ce fait, leur sécurité a une importance
particulière, car elle engage la responsabilité et la réputation de l’enseigne. Le Règlement européen
sur la protection des données en Europe précise d’ailleurs que l’entreprise doit mettre en œuvre les
mesures de sécurité nécessaires pour éviter le traitement illégal ou la perte accidentelle des données
personnelles qui lui sont confiées.

5. Humaniser les données


L’entreprise ne doit pas oublier l’humain derrière les données recueillies. De toute façon, l’intérêt du
Big Data est de placer les clients au centre du processus décisionnel. Mieux informés, les
consommateurs réclament de meilleurs services et des offres personnalisées correspondant à leurs
besoins réels.

Section 4 : Approches d’analyse de données


Grâce aux technologies du numérique, les entreprises ont désormais accès à de vastes volumes de
données . Comprendre et analyser ces informations est un précieux atout.

La Data Analysis, ou analyse de données en français, est un processus consistant à nettoyer,


transformer, et modéliser des données. Extraire des informations exploitables pour prendre de
meilleures décisions au sein d’une entreprise.

Il s’agit en réalité de se baser sur le passé et le présent afin de prendre les bonnes décisions pour le
futur. Ceci peut se révéler très utile pour la croissance d’une entreprise, pour développer de nouveaux
produits ou pour trouver des solutions aux problèmes.

L’analyse de données est utilisée par les entreprises pour prendre de meilleures décisions grâce à la
Business Intelligence. Elle peut être exploitée dans le cadre d’une étude de marché, d’un
développement de produit, d’un positionnement sur le marché, ou encore pour passer en revue les
avis et sentiments de la clientèle.

Il existe principalement deux type de données :

 Les données qualitatives sont constituées d'informations non statistiques et ont tendance à
être peu structurées. Il est catégorisé en fonction de divers identificateurs, plutôt que d'être
utilise pour générer des nombres durs pour la sortie. Les données qualitatives répondent
généralement aux questions de base et peuvent donner lieu à des questions plus spécifiques.

 Les données quantitatives sont des données dures. Plus rigidement défini, il est statistique et
est généralement représente à l'aide de nombres et d'autres valeurs, ce qui en fait un candidat
plus prêt pour l'analyse des données.

Il existe de nombreux outils d’analyse de données permettant aux utilisateurs de traiter et de


manipuler les données plus facilement. Ces outils permettent aussi d’analyser les relations et les
corrélations entre des ensembles de données, ou encore à trouver des tendances et des motifs
récurrents.

4|P a ge
BIG DATA

On dénombre une large variété d’outils ” Big Data “. En guise d’exemple, on peut citer les langages de
programmation Python et R, les logiciels Talend et Apache Spark, ElasticSearch ou encore Microsoft
HDInsight.

Il existe différents types d’analyse de données. Voici les méthodes et techniques les plus couramment
utilisées :

 L’analyse de texte permet de découvrir des tendances dans de larges ensembles de données
textuelles. On utilise des outils de Data Mining, permettant de transformer les données brutes
en informations stratégiques.
 L’analyse statistique consiste à utiliser les données du passé pour comprendre le présent, sous
forme de tableaux de bord. Cette pratique regroupe la collecte, l’analyse, la présentation et la
modélisation des données.
 On distingue l’analyse descriptive de l’analyse inférentielle. L’analyse descriptive consiste à
analyser des données numériques. L’analyse inférentielle consiste à analyser des échantillons
de données pour en tirer différentes conclusions.
 L’analyse diagnostique, ou diagnostic analysis, consiste quant à elle à comprendre les causes
d’un événement découvert grâce à l’analyse statistique. Elle permet notamment d’identifier
des motifs de comportement dans les données afin de résoudre des problèmes similaires.
 L’analyse prédictive permet quant à elle de déterminer les événements probables, de prédire
le futur grâce aux données du passé ou du présent. Ces données sont utilisées pour prédire les
probabilités futures. La fiabilité de ces prédictions dépend de la quantité d’informations à
disposition, de leur exactitude et de l’ampleur de leur exploration.
 L’analyse prescriptive consiste quant à elle à combiner toutes les informations obtenues à
partir des précédentes analyses pour déterminer quelles mesures prendre pour résoudre un
problème ou prendre une décision.

De nombreuses entreprises ” data-driven ” utilisent l’analyse prescriptive, car l’analyse prédictive ou


descriptive n’est pas suffisamment performante. Il s’agit d’analyser les données en se basant sur la
situation présente.

Section 5 : Processus de collecte de données


La collecte de données sur le terrain vise à recueillir des informations permettant d’évaluer l’état d’une
situation sur le terrain.

Un processus de collecte de données approprié est très utile pour identifier les problèmes sur le terrain
et mettre en œuvre les bonnes solutions pour les résoudre.

Avant de parler des méthodes de collecte de données, nous devons examiner deux types de données:

 Données qualitatives
 Données quantitatives

Avant de commencer à collecter des données, vous devez d’abord déterminer si vous avez besoin de
collecter des données qualitatives, quantitatives ou mixtes.

La collecte de données quantitatives vise à collecter des données numériques (quantités et types, etc.).

La recherche qualitative, en revanche, est généralement utilisée pour obtenir des opinions sur certains
sujets ou pour apporter des éclaircissements supplémentaires au moyen de questions ouvertes.

5|P a ge
BIG DATA

DONNÉES QUANTITATIVES

La première étape du processus de recherche quantitative consiste à déterminer votre méthode et


plan d’échantillonnage.

Les données quantitatives doivent représenter des événements bien définis tels qu’un comptage (Ex:
combien d’éléments sont brisés ou combien d’animaux d’une certaine espèce ont été aperçus), des
questions avec des choix de réponses et des questions oui / non, etc.

DONNÉES QUALITATIVES

Les données qualitatives sont souvent utilisées dans la recherche exploratoire pour comprendre les
raisons, les opinions et les motivations dans des situations données. Les données qualitatives
fournissent des informations plus détaillées sur certains problèmes spécifiques. Les méthodes de
collecte de données qualitatives examinent les raisons sous-jacentes à la prise de décision.

Méthodes de recherche qualitative

 Entretiens approfondis

Grâce à des entretiens approfondis, vous pouvez récupérer autant d’informations que possible en
demandant aux gens de répondre à des questions ouvertes.

Les entretiens en face à face peuvent être longs et coûteux, mais ils ont un taux de réponse très élevé.

Avec ce type d’entretiens, vous pouvez établir un rapport avec les répondants et avoir la possibilité de
clarifier leurs réponses.

 Observations avancées

Les experts peuvent effectuer des observations avancées et fournir des commentaires au moyen
desquels ils peuvent partager leur expertise. Cela peut être utile pour mieux analyser les informations
recueillies.

Par exemple, lorsqu’il fait des observations sur l’état d’un équipement, un expert pourra donner plus
de détails sur les causes d’un bris ou d’une détérioration.

Méthodes de recherche quantitative

 Enquêtes avec questions fermées

Les questionnaires doivent être structurés et normalisés afin de permettre aux gens d’y répondre
facilement et de minimiser les risques de données inexactes ou inutiles.

 Tests ou expériences

Une autre façon de collecter des données quantitatives consiste à mesurer le nombre de personnes
qui ont réussi un test ou qui ont répondu correctement à une question (ou à un ensemble de
questions).

Lorsque vous effectuez des tests ou des expériences, il est important de vous assurer que vous notez
toutes les informations, telles que l’âge, la catégorie d’emploi, le niveau d’éducation, etc., des
participants.

6|P a ge
BIG DATA

 Sondages

La réalisation de sondages en ligne est une autre méthode efficace lors de la collecte de données. Les
sondages peuvent être menés en ligne, par téléphone ou en personne. Les sondages téléphoniques
sont rentables et prennent moins de temps que les entretiens en face à face. Cependant, le taux de
réponse aux sondages téléphoniques est plus faible.

Les sondages en ligne sont peu coûteux et peuvent être envoyés à un grand nombre de personnes.

 Observer, compter et enregistrer des événements bien définis

Observer, compter et enregistrer est une méthode simple qui est utilisée pour déterminer le nombre
de certains événements ou éléments.

Par exemple, cette méthode est utilisée pour compter le nombre de véhicules sur une route.

Outils de collecte de données

Les données de terrain sont collectées de différentes manières.

 Formulaires papier

Le formulaire papier est un outil traditionnel de collecte de données.

Cette méthode est encore utilisée mais elle disparaît rapidement. Elle est remplacée par les
applications puissantes, telles que Coral Collect, qui sont de plus en plus accessibles aux entreprises.

Le taux de réponse du questionnaire papier et l’exactitude des données collectées, sont bien inférieurs
à ceux des applications qui comportent généralement des champs de réponse obligatoires.

 Questionnaires en ligne

Les questionnaires Internet / enquêtes en ligne sont des outils de collecte de données moins coûteux
et plus rapides.

Cependant, seules les personnes ayant accès à des ordinateurs et à Internet pourront utilisées cette
méthode. Néanmoins, les sondages en ligne sont un excellent moyen d’atteindre et d’interagir avec
votre public cible car le taux de réponse est élevé. Avec les questionnaires en ligne, vous pouvez
générer des résultats en temps réel pour une analyse rapide et facile.

 Collecte de données sur les applications mobiles

Les applications mobiles sont de plus en plus populaires car elles offrent des moyens innovants de
collecter et gérer des données. Vous passerez moins de temps à collecter des données avec une
application mobile de collecte de données. De plus, les erreurs seront considérablement réduites et
vous pourrez collecter des types de données enrichies tels que des photos, des vidéos, des
coordonnées GPS, etc.

Les enquêtes mobiles sont également faciles à administrer et plus polyvalentes que les enquêtes en
ligne, car elles permettent aux répondants d’envoyer des photos, d’enregistrer leur voix ou de prendre
des notes à l’aide de leur smartphone.

Section 6 : Cartographie de la donnée


La mise en place d’une cartographie des données est un processus qui permet de recenser, puis de
visualiser, les points d’entrée et de traitement de la data. Cette forme de topographie est commune

7|P a ge
BIG DATA

aux différents systèmes d’information de l’entreprise, ce qui donne l’opportunité à tous les
collaborateurs de s’en saisir et de parler le même langage « data ».

La mise en œuvre de cette carte concerne donc aussi bien les Data Scientists que les responsables
informatiques au sein des services métiers, moins experts en la matière.

Elle est dessinée à l’aide de trois grands « ustensiles » :

 L’outil sémantique consiste à recenser les métadonnées des données et des objets métier
propres à l’entreprise dans un glossaire métier, afin d’optimiser la compréhension et le
contexte de la data pour tous.
 Les modèles de données apportent des précisions sur la façon dont les données sont
modélisées et stockées dans les différents systèmes (structurées, semi structurées ou non
structurées). Un autre outil lui est consubstantiel : le dictionnaire des données techniques.
 L’outil de design des traitements des flux de données vient, quant à lui, fournir des
informations importantes sur les méthodes de transformation, de manipulation et de
traitement des données à travers les différents SI de l’entreprise.

Section 7 : L’ère de la Data


Un quart de siècle de transformation numérique a permis l’avènement de l’ère des données. De
l’introduction du courrier électronique à l’analyse big data, en passant par le haut-débit, le Wi-Fi, le
stockage cloud et le SaaS, toutes les pièces du puzzle se sont mises en place. Et aujourd’hui, en 2020,
nous sommes à l’aube d’une ère nouvelle.

Pour réussir dans cette nouvelle ère, toutes les entreprises ont besoin d’avoir une vision complète de
leurs données et des informations en temps réel pour pouvoir passer à l’action sans délai.

Section 8 : Un exemple d’architecture Big Data


La plupart des architectures de données volumineuses incluent tout ou partie des éléments suivants :

 Source de données (data mart, data warehouse, cloud, base de données hybride)
 Stockage (magasin de données, data lake)
 Batch processing (traitement par lots)
 Stream processing (traitement de flux de data)
 Préparation de données
 Data catalog
 Modélisation de données
 Technologie d’orchestration

En fonction du type d’architecture choisi et adopté, certaines de ces composantes seront absentes,
mutualisées ou combinées dans la structure.

Il existe 2 principaux types d’architecture Big Data : Lambda et Kappa. Chacune de ces architectures
permet de répondre à un besoin spécifique. Le choix du modèle architectural le plus adapté à votre
stratégie dépend de vos besoins, de vos infrastructures existantes, de vos objectifs et de votre contexte
métier.

8|P a ge
BIG DATA

Dans tous les cas, lorsque l’on souhaite mener des projets data-driven (gouverné par la donnée), il faut
avoir en tête que c’est une architecture distribuée qui doit être implémentée pour considérer les
problèmes de scalabilité, de performance et de synchronisation des différentes couches.

La plupart des architectures Big Data incluent tout ou partie des composants suivants :

 Sources de données. Toutes les solutions Big Data commencent par une ou plusieurs sources
de données. Les exemples comprennent :

Les magasins de données d'application, tels que les bases de données relationnelles.

Fichiers statiques produits par les applications, tels que les fichiers journaux du serveur Web.

Sources de données en temps réel, telles que les appareils IoT.

 Stockage de données. Les données pour les opérations de traitement par lots sont
généralement stockées dans un magasin de fichiers distribué qui peut contenir des volumes
élevés de fichiers volumineux dans divers formats. Ce type de magasin est souvent appelé
un lac de données. Les options d'implémentation de ce stockage incluent Azure Data Lake
Store ou des conteneurs d'objets blob dans Azure Storage.
 Traitement par lots. Étant donné que les ensembles de données sont si volumineux, une
solution Big Data doit souvent traiter des fichiers de données à l'aide de tâches par lots de
longue durée pour filtrer, agréger et préparer les données pour l'analyse. Ces tâches
impliquent généralement la lecture des fichiers source, leur traitement et l'écriture de la sortie
dans de nouveaux fichiers. Les options incluent l'exécution de tâches U-SQL dans Azure Data
Lake Analytics, l'utilisation de tâches Hive, Pig ou Map/Reduce personnalisées dans un cluster
HDInsight Hadoop, ou l'utilisation de programmes Java, Scala ou Python dans un cluster
HDInsight Spark.
 Ingestion de messages en temps réel. Si la solution comprend des sources en temps réel,
l'architecture doit inclure un moyen de capturer et de stocker les messages en temps réel pour
le traitement des flux. Il peut s'agir d'un simple magasin de données, où les messages entrants
sont déposés dans un dossier pour traitement. Cependant, de nombreuses solutions ont
besoin d'un magasin d'ingestion de messages pour servir de tampon pour les messages et pour
prendre en charge le traitement évolutif, la livraison fiable et d'autres sémantiques de mise en

9|P a ge
BIG DATA

file d'attente de messages. Cette partie d'une architecture de streaming est souvent appelée
mise en mémoire tampon de flux. Les options incluent Azure Event Hubs, Azure IoT Hub et
Kafka.
 Traitement de flux. Après avoir capturé les messages en temps réel, la solution doit les traiter
en filtrant, en agrégeant et en préparant les données pour l'analyse. Les données de flux
traitées sont ensuite écrites dans un récepteur de sortie. Azure Stream Analytics fournit un
service de traitement de flux géré basé sur des requêtes SQL en cours d'exécution perpétuelles
qui fonctionnent sur des flux illimités. Vous pouvez également utiliser des technologies de
streaming Apache open source telles que Storm et Spark Streaming dans un cluster HDInsight.
 Magasin de données analytiques. De nombreuses solutions Big Data préparent les données
pour l'analyse, puis servent les données traitées dans un format structuré qui peut être
interrogé à l'aide d'outils analytiques. Le magasin de données analytiques utilisé pour
répondre à ces requêtes peut être un entrepôt de données relationnelles de style Kimball,
comme on le voit dans la plupart des solutions de business intelligence (BI)
traditionnelles. Alternativement, les données peuvent être présentées via une technologie
NoSQL à faible latence telle que HBase, ou une base de données Hive interactive qui fournit
une abstraction de métadonnées sur les fichiers de données dans le magasin de données
distribué. Azure Synapse Analytics fournit un service managé pour l'entreposage de données
à grande échelle dans le cloud. HDInsight prend en charge Interactive Hive, HBase et Spark
SQL, qui peuvent également être utilisés pour fournir des données à des fins d'analyse.
 Analyse et rapport. L'objectif de la plupart des solutions Big Data est de fournir des
informations sur les données par le biais d'analyses et de rapports. Pour permettre aux
utilisateurs d'analyser les données, l'architecture peut inclure une couche de modélisation des
données, telle qu'un cube OLAP multidimensionnel ou un modèle de données tabulaire dans
Azure Analysis Services. Il peut également prendre en charge la BI en libre-service, en utilisant
les technologies de modélisation et de visualisation de Microsoft Power BI ou Microsoft
Excel. L'analyse et le reporting peuvent également prendre la forme d'une exploration
interactive des données par des data scientists ou des analystes de données. Pour ces
scénarios, de nombreux services Azure prennent en charge les blocs-notes analytiques, tels
que Jupyter, permettant à ces utilisateurs de tirer parti de leurs compétences existantes avec
Python ou R. Pour l'exploration de données à grande échelle, vous pouvez utiliser Microsoft R
Server, de manière autonome ou avec Spark.
 Orchestration. La plupart des solutions Big Data consistent en des opérations de traitement
de données répétées, encapsulées dans des workflows, qui transforment les données source,
déplacent les données entre plusieurs sources et récepteurs, chargent les données traitées
dans un magasin de données analytiques ou envoient les résultats directement dans un
rapport ou un tableau de bord. Pour automatiser ces workflows, vous pouvez utiliser une
technologie d'orchestration telle qu'Azure Data Factory ou Apache Oozie et Sqoop.

10 | P a g e
BIG DATA

CHAPITRE 2 : LES TECHNOLOGIES DU BIG DATA


Section 1 : Architecture et composants de la plateforme Hadoop.
Hadoop est un framework logiciel open source permettant de stocker des données, et de lancer des
applications sur des grappes de machines standards. Cette solution offre un espace de stockage massif
pour tous les types de données, une immense puissance de traitement et la possibilité de prendre
en charge une quantité de tâches virtuellement illimitée. Basé sur Java, ce framework fait partie du
projet Apache, sponsorisé par Apache Software Foundation.

Les avantages apportés aux entreprises par Hadoop sont nombreux. Grâce à ce framework logiciel, il
est possible de stocker et de traiter de vastes quantités de données rapidement. Face à
l’augmentation en hausse du volume de données et à leur diversification, principalement liée aux
réseaux sociaux et à l’internet des objets, il s’agit d’un avantage non négligeable.

De même, le modèle de calcul distribué d’Hadoop permet de traiter rapidement le Big Data. Plus le
nombre de nœuds de calcul utilisés est important, plus la puissance de traitement est élevée. Les
données et les applications traitées sont protégées contre les échecs hardware. Si un nœud tombe
en panne, les tâches sont directement redirigées vers d’autres nœuds pour s’assurer que le calcul
distribué n’échoue pas. De multiples copies de toutes les données sont stockées automatiquement.

Contrairement aux bases de données relationnelles traditionnelles, il est inutile de traiter les
données au préalable avant de les stocker. Il est possible de stocker autant de données que vous le
souhaitez et décider plus tard de la manière de les utiliser. Ceci regroupe les données non structurées
comme le texte, les images et les vidéos.

Le framework open source est donc gratuit et repose sur des machines standards pour stocker de
larges quantités de données. Enfin, il est possible d’adapter le système pour prendre en charge plus
de données en ajoutant simplement des nœuds. L’administration requise est minimale.

Le noyau d'Hadoop est constitué d'une partie de stockage : HDFS (Hadoop Distributed File System),
et d'une partie de traitement appelée MapReduce. Hadoop fractionne les fichiers en gros blocs et les
distribue à travers les nœuds du cluster. Pour traiter les données, il transfère le code à chaque nœud
et chaque nœud traite les données dont il dispose. Cela permet de traiter l'ensemble des données plus
rapidement et plus efficacement que dans une architecture supercalculateur plus classique qui repose
sur un système de fichiers parallèle où les calculs et les données sont distribués via les réseaux à grande
vitesse.

Le framework Hadoop de base se compose des modules suivants :

 Hadoop Common ;
 Hadoop Distributed File System (HDFS), système de fichiers ;
 Hadoop YARN ;
 Hadoop MapReduce ;

Le HDFS est un système de fichiers distribué, extensible et portable développé par Hadoop à partir
du GoogleFS. Écrit en Java, il a été conçu pour stocker de très gros volumes de données sur un grand
nombre de machines équipées de disques durs banalisés. Il permet l'abstraction de l'architecture
physique de stockage, afin de manipuler un système de fichiers distribué comme s'il s'agissait d'un
disque dur unique.

Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants
majeurs :

11 | P a g e
BIG DATA

 NameNode

nœud de noms, ce composant gère l'espace de noms, l'arborescence du système de fichiers et


les métadonnées des fichiers et des répertoires. Il centralise la localisation des blocs de données
répartis dans le cluster. Il est unique mais dispose d'une instance secondaire qui gère l'historique des
modifications dans le système de fichiers (rôle de backup). Ce NameNode secondaire permet la
continuité du fonctionnement du cluster Hadoop en cas de panne du NameNode d'origine.

 DataNode

nœud de données, ce composant stocke et restitue les blocs de données. Lors du processus de lecture
d'un fichier, le NameNode est interrogé pour localiser l'ensemble des blocs de données. Pour chacun
d'entre eux, le NameNode renvoie l'adresse du DataNode le plus accessible, c'est-à-dire
le DataNode qui dispose de la plus grande bande passante. Les DataNodes communiquent de manière
périodique au NameNode la liste des blocs de données qu'ils hébergent. Si certains de ces blocs ne
sont pas assez répliqués dans le cluster, l'écriture de ces blocs s'effectue en cascade par copie sur
d'autres.

Section 2 : Les modes de stockages (NoSQL, HDFS)


À l’inverse des bases de données SQL relationnelles, les bases de données NoSQL n’utilisent pas de
tableaux traditionnels (lignes et colonnes) pour le stockage des données. Elles organisent les gros
volumes de données au moyen de techniques flexibles, tels que des documents, graphiques, paires
de valeurs et colonnes. En ce sens, les systèmes NoSQL sont parfaitement adaptés aux applications
exigeant le traitement de larges volumes de données sur la base de structures flexibles. Dans la
mesure où les systèmes NoSQL exploitent un cluster matériel et un serveur Cloud, les capacités sont
réparties de manière uniforme et la base de données fonctionne avec fluidité, même en cas de
volumes de données élevés. Contrairement aux bases de données relationnelles qui perdent
rapidement de la puissance à mesure que le volume de données augmente, les bases de données
NoSQL s’imposent comme une solution performante, flexible et évolutive pour le stockage de grosses
quantités de données. L’une des particularités des systèmes NoSQL est, en outre, leur capacité

12 | P a g e
BIG DATA

de dimensionnement horizontal. Les bases de données SQL relationnelles sont dimensionnées


verticalement.

Section 3 : Principe de fonctionnement de MapReduce, Spark, Storm…


MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster
de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant
d'importants centres de traitement de données telles [Link] ou Facebook. Il commence aussi à
être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter
le MapReduce. Le plus connu est Hadoop qui a été développé par Apache Software Foundation. Mais
ce framework possède des inconvénients qui réduisent considérablement ses performances
notamment en milieu hétérogène.

MapReduce implémente les fonctionnalités suivantes.

 Parallélisation automatique des programmes Hadoop.


 Gestion transparente du mode distribué.
 Tolérance aux pannes.

Plus généralement, MapReduce simplifie grandement la vie du développeur Hadoop, en lui masquant
une bonne partie du fonctionnement interne de Hadoop.

Spark est un outil permettant de faire du traitement de larges volumes de données, et ce, de manière
distribuée (cluster computing). Le framework offre un modèle de programmation plus simple que celui
d’Hadoop et permet des temps d’exécution jusqu’à 100 fois plus courts.

Apache Storm est un framework de calcul de traitement de flux distribué, écrit principalement dans le
langage de programmation Clojure. Créé à l'origine par Nathan Marz et l'équipe de BackType le projet
est rendu open source après avoir été acquis par Twitter. Il utilise des "spouts" et des "bolts" créés sur
mesure pour définir les sources d'informations et les manipulations permettant un traitement par lots
et distribué des données en continu. La première publication a eu lieu le 17 septembre 2011.

Pour traiter en continu un ou plusieurs flux de données, Storm repose sur la définition d’une topologie.
Une topologie prend la forme d’un graphe orienté acyclique dans lequel :

 Les Streams, symbolisés par les arcs, sont des séquences illimitées de Tuples. Un tuple est une
liste de valeurs nommées qui représente le modèle de données utilisé par Storm.
 Les Spouts, nœuds racine du graphe, désignent les sources de streams. Il peut s’agir par
exemple d’une séquence de tweets émis via l’API Twitter, d’un flux de logs ou encore de
données lues directement depuis une base de données.

13 | P a g e
BIG DATA

 Et enfin, les Bolts sont les nœuds qui consomment ces séquences de tuples émis par un ou
plusieurs nœuds. Ils ont pour rôle de réaliser différentes opérations (filtres, agrégations,
jointures, lecture/écriture vers et depuis une base de données, etc.) et si besoin d’émettre à
leur tour une nouvelle séquence de tuples.

Section 4 : Principales distribution du marché


L’écosystème Hadoop regroupe une large variété d’outils Big Data open source. Ces divers outils
complémentent Hadoop et améliorent sa capacité de traitement Big Data.

Parmi les plus populaires, Apache Hive est une Data Warehouse dédiée au traitement de larges
ensembles de données stockés dans le HDFS. L’outil Zookeeper automatise les basculements et réduit
l’impact d’une panne de NameNode.

De son côté, HBase est une base de données non relationnelle pour Hadoop. Le service distribué
Apache Flume permet le streaming de données de larges quantités de données de log.

Citons aussi Apache Sqoop, un outil de ligne de commande permettant la migration de données entre
Hadoop et les bases de données relationnelles. La plateforme de développement Apache Pig permet
le développement de jobs à exécuter sur Hadoop.

Le système de planification Apache Oozie facilite la gestion des jobs Hadoop. Enfin, HCatalog est un
outil de gestion de tableau pour trier les données en provenance de divers systèmes de traitement.

Section 5 : Installer une plateforme Hadoop


Pour installer Hadoop vous devrez suivre les étapes suivantes :

1. Vérifiez que Java est correctement installé


2. Configurez l'environnement Java.
3. Ajoutez d'abord un utilisateur Hadoop avec un accès administrateur.
4. Téléchargez apache hadoop
5. Créez des répertoires Hadoop temp pour Namenode et Datanode.
6. Mettez à jour de la variable JAVA_HOME,
7. Collez ces lignes dans la balise <configuration>
8. Ainsi collez ces lignes dans la balise <configuration>

14 | P a g e
BIG DATA

Section 6 : Les technologies du datascientist


Les data engineers doivent utiliser des technos concernant l’infrastructure et l’écosystème global, ils
doivent avoir des connaissances approfondies concernant les bases de données SQL, ils doivent être
capables de configurer les clusters de Spark… Ils utilisent notamment Linux et Git pour le
développement, Hadoop et Spark au niveau de l’environnement Big Data, éventuellement Map
Reduce en tant que modèle de calcul ainsi que HDFS, MongoDB et Cassandra pour le NoSQL.

En ce qui concerne les data scientists, il s’agira plutôt d’outils plus focalisés sur le développement
d’applications de machine learning, avec Python, R, Jupiter, TensorFlow, Pandas, etc. Évidemment la
frontière n’est pas totalement nette entre les deux profils et il peut donc être difficile de savoir ce qui
différencie le Data Engineer du Data Scientist.

Section 7 : Présentation des technologies spécifiques pour les Big Data


Talend : Talend est une société spécialisée dans l’édition d’outils de gestion des données. L’outil le plus
connu de cet éditeur est nommé Talend Big Data Integration. Cet outil répond à la mise en place de
flux de données classiques (en volumétrie et en temps de chargement).

Talend Big Data Integration est un outil dédié aux projets comportant des problématiques liées au Big
Data :

 Volumes de données conséquents


 Flux de données en temps réel
 Connexion à des systèmes Big Data (Hadoop...)

L'outil Talend Big Data se présente sous la forme de deux modules :

 Le Studio, utilisé pour la construction des flux de données


 La plateforme, centralisant les projets, les autorisations et la supervision des exécutions

En version gratuite, seul le studio est disponible. La version payante de l'outil vous offre les éléments
suivants :

 Travail collaboratif
 Gestion de version des ressources
 Déploiement, planification et supervision des flux des données industralisée
 Connecteurs complémentaires dans le studio (Spark, Machine Learning notemment)

La mise en place de flux Big Data est réalisée par l'utilisation de composants paramétrables connectés
entre eux.

Chaque composant portera la responsabilité d'une partie du flux : connexion à un serveur, extraction,
transformation et écriture des données.

L'outil studio est une application lourde permettant la définition des flux de données. Cet outil est
découpé en zones de travail ayant un rôle précis.

QlikView : Dans l’approche de QlikView en matière de Business Discovery collaborative, le partage et


la collaboration sont au centre du processus décisionnel. En effet, très souvent dans une société, les
décisions sont le réultat d’un processus impliquant plusieurs personnes. Ces décisions dépendent de
points de vue développés lors de discussions en temps réel, de dialogues et de perspectives partagées.

15 | P a g e
BIG DATA

QlikView est une plateforme permettant d’analyser des données Big Data pour les transformer en
informations exploitables. Grâce à sa technologie Associative Différence, cette plateforme permet aux
entreprises de gagner un temps précieux. Découvrez tout ce que vous devez savoir à son sujet.

Tableau : Tableau est une solution Business Intelligence (BI) de reporting éditée par la société Tableau
Software, récemment rachetée par Salesforce permettant d’obtenir des visualisations détaillées et
significatives.

Tableau permet de créer des dashboards de façon intuitive et visuelle mais également d’effectuer
des analyses efficaces en les publiant de façon dynamique.

Tableau est un outil de restitution qui simplifie l'analyse pour les utilisateurs et restitue
efficacement l’information.

La solution possède 5 modules : Tableau Desktop, Tableau Reader, Tableau Server, Tableau Online et
Tableau Public.

Tableau Desktop permet de se connecter à un éventail de sources de données et de concevoir des


dashboards aisément.

Tableau Reader permet de visualiser les dashboards en local, tandis que Tableau Online interagit avec
les tableaux de bord en mode web, diffusés et partagés grâce à Tableau Server.

Les tableaux de bords peuvent être visualisés en ligne via un navigateur web ou mobile (portable ou
tablette tactile).

Enfin, Tableau Public permet de se connecter à n’importe quelle source de données et de créer des
visualisations de données interactives pour votre site web.

Tableau possède de nombreuses fonctionnalités, notamment :

 Connexion à de multiples sources de données :


 Fichiers (Texte, CSV, Excel, Access, données Tableau…).
 Bases de données relationnelles (MySQL, Oracle, IBM DB2, Microsoft SQL Server,
Server Tableau…)
 Bases de données multidimensionnelles (Microsoft SSAS, Oracle Essbase, Teradata
OLAP…)
 Données en ligne (Google Analytics, Salesforce…)
 Big Data (Google BigQuery, Cloudera Hadoop, HP Vertica, MapR Hadoop Hive…)
 Autres (Connecteur ODBC)
 Formats de restitutions riches et variés :
 TCD (Tableaux Croisés Dynamiques) et tables surlignées
 Diagrammes / Histogrammes / Secteurs
 Cartes chaudes, stratégiques, bulles groupées et arborescences
 Nuages de points
 Cartes géographiques : cartes de symboles et cartes colorées
 Pages web
 Et plus encore…
 Etc.

16 | P a g e
BIG DATA

CHAPITRE 3 : GERER LES DONNEES STRUCTUREES ET NON


STRUCTUREES
Section 1 : Principe de fonctionnement de Hadoop Distributed File System (HDFS)
Par défaut, les données chargées dans HDFS (système de fichiers d’Hadoop) sont stockées en trois
exemplaires, sur des nœuds différents. Cette réplication répond à deux objectifs :

 Disponibilité des données en cas de panne.


 Profiter de la localité des données lors de l’exécution d’une tâche d’un job MapReduce.

En effet, le principe de fonctionnement de Hadoop est assez simple, il consiste à répartir l’exécution
d’un traitement sur plusieurs nœuds.

Les traitements de données peuvent se faire si elles sont stockées dans un système de fichiers (non
structuré) ou dans une base de données (structurée). MapReduce peut profiter de la localité des
données, en la traitant près de l’endroit où elle est stockée afin de réduire la distance sur laquelle elle
doit être transmise.

Section 2 : Importer les données externes vers HDFS

Section 3 : Réaliser les requetés SQL avec HIVE


Originalement développé par Facebook pour la gestion de son réseau social, Hive est une
infrastructure informatique similaire au Data Warehouse qui fournit des services de requêtes et
d'agrégation de très gros volumes de données stockées sur un système de fichier distribué de type
HDFS. Hive fournit un langage de requête basé sur le SQL (norme ANSI-92) appelé HiveQL (Hive Query
Language), qui est utilisé pour adresser des requêtes aux données stockées sur le HDFS.

Considérons le fichier suivant :

1. La première étape dans l'écriture de la requête consiste à définir la base de données dans
laquelle sera stockée la table de référence dans le catalogue, HCatalog. HCatalog possède une
base « default » qui est utilisée par défaut pour le stockage des métadonnées. L'instruction
suivante définit la base de données de catalogue : USE default ;
2. La deuxième étape consiste à créer une table intermédiaire dans la base de catalogue. Cette
table va pointer vers les données de tous les fichiers sources que vous voulez traiter. Pour ce
faire, vous utiliserez une instruction CREATE TABLE.

17 | P a g e
BIG DATA

Dans le cas de notre exemple, cette instruction crée une table log_clients contenant toutes les
colonnes du fichier source. L'instruction ROW FORMAT DELIMITED FIELDS TERMINATED BY permet de
préciser le code ANSI du séparateur de colonnes (la tabulation dans notre cas) dans le fichier source,
et l'instruction STORED AS permet de spécifier le format sur lequel le fichier est sérialisé dans le HDFS
(ici c'est un fichier plat classique).

3. La troisième étape consiste à charger les données du HDFS dans la table intermédiaire. Le
chargement de données du HDFS se fait à l'aide de l'instruction LOAD DATA.

Le chemin '/user/projetdemo/clients' spécifie le chemin d'accès sur le HDFS du dossier contenant le


ou les fichiers dont les données seront analysées. Le mot clé OVERWRITE permet d'écraser les données
éventuelles qui pourraient être déjà présentes dans la table lors du stockage des nouvelles données.

4. La quatrième étape consiste à construire la table dont vous avez besoin pour vos analyses.
Cette fois, vous devez spécifier à partir de la table intermédiaire les calculs nécessaires pour
obtenir les colonnes dont vous avez besoin. Supposons dans notre exemple que nous voulons
les colonnes suivantes :
 La colonne « Noms du client », obtenue par concaténation des colonnes « nom_client » et
« prenom_client » ;
 La colonne « Sexe », obtenue par l'extraction de la première lettre de la colonne
« genre » ;
 La colonne « age_client », obtenue par différentiel de date entre la colonne
« date_naissance » et la date d'aujourd'hui ;
 La colonne « vente », obtenue par multiplication des colonnes « prix » et « quantité » ;

18 | P a g e
BIG DATA

5. La dernière étape enfin, consiste à effectuer vos analyses sur la table que vous venez de créer.
Pour ce faire, vous utiliserez une instruction SELECT classique. Supposons que dans notre
exemple, nous souhaitons obtenir la somme des ventes par genre des clients qui ont entre 25
et 30 ans. Nous obtiendrons la requête suivante :

Section 4 : Utiliser PIG pour traiter la donnée


Apache Pig est le langage de programmation permettant d’utiliser Hadoop et MapReduce.

L’architecture Apache Pig repose sur deux composants principaux : le langage Pig Latin et
l’environnement runtime permettant l’exécution des programmes PigLatin.

Le langage Pig Latin permet d’écrire des programmes d’analyse de données. Il délivre divers
opérateurs que les programmeurs peuvent utiliser pour développer leurs propres fonctions pour lire,
écrire ou traiter des données.

Un programme Pig Latin est composé d’une série de transformations ou d’opérations, appliquées aux
données ” input ” (entrée) pour produire un ” output “. Ces opérations décrivent un flux de données
traduit en une représentation exécutable par l’environnement d’exécution Hadoop Pig.

Pour analyser des données en utilisant Apache Pig, les programmeurs doivent impérativement écrire
des scripts avec le langage Pig Latin. Tous ces scripts sont convertis en tâches Map et Reduce de façon
interne. Le composant Pig Engine se charge de convertir les scripts en jobs MapReduce.

Toutefois, le programmeur n’a même pas connaissance de ces jobs. C’est ainsi que Pig permet aux
programmeurs de se concentrer sur les données plutôt que sur la nature de l’exécution.

Section 5 : Le principe des ETL (Talend…)


Extraction, transformation, chargement (ETL), un processus automatisé qui prend les données brutes,
extrait l'information nécessaire à l'analyse, la transforme en un format qui peut répondre aux besoins
opérationnels et la charge dans un Data Warehouse. L'ETL résume généralement les données afin de
réduire leur taille et d'améliorer leur performance pour des types d'analyse spécifiques.

Dans la plupart des entreprises, les données potentiellement utiles sont inaccessibles ; une étude a
même révélé que les deux tiers des entreprises retiraient « peu d’avantages concrets » de leurs

19 | P a g e
BIG DATA

données, parfois même « aucun avantage ». Les données ont tendance à être enfermées dans des silos
cloisonnés, des systèmes legacy ou des applications rarement utilisées. ETL est le processus qui
consiste à rendre ces données disponibles en les collectant auprès de sources multiples (cf. schéma ci-
dessus) et en les soumettant à des opérations de nettoyage, de transformation et, au final,
d’analytique métier.

Comme le suggère leur sigle E-T-L, les opérations ETL suivent généralement une séquence en trois
étapes : Extraction-Transformation-Chargement (L pour le terme anglais « Load »). Il est de plus en
plus fréquent que les données soient extraites (E) de leurs emplacements sources, puis chargées (L)
dans un data warehouse cible, ou que les données soient transformées (T) après le chargement (L).

Les paragraphes qui suivent décrivent les trois étapes du processus ETL standard :

Étape 1 : Extraction

L’objectif d’ETL est de produire des données propres, faciles d’accès et qui peuvent être exploitées
efficacement par l’analytique, la Business Intelligence ou/et les opérations commerciales. Les données
brutes peuvent être extraites de différentes sources, en particulier :

 Bases de données existantes


 Logs d’activité (trafic réseau, rapports d’erreurs, etc.)
 Comportement, performances et anomalies des applications
 Événements de sécurité
 Autres opérations qui doivent être décrites aux fins de conformité

Les données extraites sont parfois stockées dans un emplacement tel qu’un data lake ou un data
warehouse.

Étape 2 : Transformation

L’étape de transformation du processus ETL est celle des opérations les plus essentielles. L’opération
la plus importante de l’étape de transformation consiste à appliquer aux données brutes les règles
internes de l’entreprise de manière à répondre aux exigences en matière de reporting : les données
brutes sont nettoyées et converties aux formats de rapport qui conviennent (si les données ne sont
pas nettoyées, il devient plus difficile d’appliquer les règles internes de reporting).

La transformation applique les règles définies en interne. Les normes qui garantissent la qualité des
données et leur accessibilité doivent tenir compte des pratiques suivantes :

 Standardisation – Définir les données à traiter, leur format et leur mode de stockage ainsi que
d’autres considérations de base qui définiront les étapes qui suivent.
 Déduplication – Transmettre un rapport sur les doublons aux personnes en charge de la
gouvernance des données ; exclure et/ou supprimer les données redondantes.
 Vérification – Effectuer des vérifications automatisées pour comparer des données similaires
telles que durée de transaction ou suivi des accès. Les tâches de vérification permettent
d’éliminer les données inutilisables et de signaler les anomalies des systèmes, des applications
ou des données.
 Tri – Maximiser l’efficacité des data warehouses en regroupant et stockant les objets par
catégorie (données brutes, données audio, mails, etc.). Vos règles de transformation ETL
conditionnent la catégorisation de chaque objet et sa prochaine destination. Le processus ETL
est parfois utilisé pour générer des tables d’agrégation qui sont ensuite proposées dans des
rapports de base ; dans ce cas, vous devez trier puis agréger les données.

20 | P a g e
BIG DATA

 Autres tâches – Tâches dont vous avez besoin et que vous définissez et paramétrez de telle
sorte qu’elles s’exécutent en mode automatique.

Ces opérations transforment des volumes considérables de données inutilisables en données


nettoyées que vous pouvez présenter à la dernière étape du processus ETL, la phase de chargement.

Étape 3 : Chargement

La dernière étape du processus ETL standard consiste à charger les données extraites et transformées
dans leur nouvel emplacement. En général, les data warehouses supportent deux modes pour le
chargement des données : chargement complet et chargement incrémentiel.

Le traitement ETL (cycle ponctuel ou programme de cycles) peut être lancé en ligne de commande ou
via une interface graphique. Mais il y a certains points à surveiller. La gestion des exceptions, par
exemple, peut être un processus très lourd. Dans bien des cas, la génération des extraits de données
peut échouer si un ou plusieurs systèmes sont en panne. Si un système contient des données
incorrectes, celles-ci peuvent avoir un impact sur les données extraites d’un autre système ; autrement
dit, la supervision et le traitement des erreurs sont des activités essentielles.

Section 6 : Gestion de streaming de données massives (NIFI, Kafka, Spark, Storm….)


De plus en plus de cas d’usage et de modèles économiques s’appuient sur des données générées en
streaming. Il peut s’agir de la publicité en ligne avec la facturation par clic, l’analyse du parcours client,
la recommandation en temps réel, la détection de fraude, la cyber-sécurité (spécialement avec
l’utilisation des SIEM), le tracking des achats, ou encore l’analyse omnicanal. Ces cas d’usage ont atteint
leur paroxysme avec les objets connectés, l’intégration des capteurs dans les objets de la vie courante
(voiture, réfrigérateur, télévision, etc.). Ainsi, le Streaming est l’une des problématiques sérieuses du
Big Data.

L’approche classique utilisée jusqu’à présent pour stocker les données consiste à les
considérer comme des faits et à les historiser dans une base de données centrale qui est elle-même
gérée par un SGBDR. Cette approche est appelée Data Warehouse ou Data Warehousing (entrepôt de
données). Au niveau du traitement, l’approche classique consiste à appliquer des calculs batch sur les
données hébergées dans la base de données centrale ou dans le Data Warehouse. La collecte
traditionnelle est faite à l’aide d’un ETL, Extract Transform & Load, qui extrait les données des sources
opérationnelles, les transforme de sorte qu’elles soient conformes aux règles d’homogénéisation
définies par le métier et les charge dans le Data Warehouse.

Malheureusement, dans le cadre des cas d’usage des données générées en streaming (ou au fil de
l’eau), cette approche « collecte ETL + Stockage Data Warehouse + Traitement Batch sur des données
historisées » n’est pas appropriée, car au-delà de leur débit et de la vitesse avec laquelle elles sont
produites, les données streaming se caractérisent principalement par un délai de péremption très
rapide : elles perdent 60 % de leur valeur métier dans les instants qui suivent leur création. En
d’autres termes, les données streaming perdent leur valeur métier quelques instants seulement après
avoir été générées. Pensez-y un moment : lorsque les capteurs implantés dans un véhicule connecté
génèrent des données concernant les conditions du trafic environnant un véhicule par exemple, ces
données ne sont valables que dans le contexte des conditions de ce trafic. En d’autres termes, ces
informations ne sont actionnables que dans les instants où le trafic est dans les conditions capturées
par les données. A cause de leur rapide péremption, les données streaming doivent donc être
exploitées à l’immédiat (ou en temps réel) dans les secondes qui suivent leur création, sinon elles
perdent leur valeur métier et n’ont plus aucun intérêt à être historiées.

21 | P a g e
BIG DATA

Le problème que pose le Data Warehouse en Streaming est celui-ci : l’ère dans laquelle nous
fonctionnons actuellement se caractérise par la croissance des différents types de données stockées.
Les données stockées ne sont plus juste des données structurées d’ERP, ou des fichiers csv d’Excel,
mais ce sont des données aussi diverses que les logs d’activité des serveurs Web, les logs d’un centre
appel, les données des réseaux sociaux qui combinent contenus textuels, images, audio et vidéos, les
vidéos de centre de surveillance, les données de capteurs etc… Pour résoudre les challenges liés au
stockage et à l’exploitation de cette grande variété d’actifs de données, l’approche appropriée ne
consiste plus à centraliser leur stockage dans une base de données, mais à distribuer le stockage des
données et à paralléliser leurs traitements dans un cluster Hadoop. Les technologies utilisées pour
implémenter le Data Warehouse ne permettent ni le stockage distribué, ni le parallélisme des requêtes
des utilisateurs. Par conséquent, le Data Warehouse ne peut pas être utilisé pour les cas d’usage de
streaming.

22 | P a g e
BIG DATA

CHAPITRE 4 : TECHNIQUES ET METHODES BIG DATA ANALYTICS


Section 1 : Machine learning, une composante de l’intelligence artificielle
L'apprentissage automatique1,2 (en anglais : machine learning, litt. « apprentissage
machine1,2 »), apprentissage artificiel1 ou apprentissage statistique est un champ d'étude de
l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner
aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs
performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus
largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation
de telles méthodes.

L'apprentissage automatique comporte généralement deux phases. La première consiste à estimer un


modèle à partir de données, appelées observations, qui sont disponibles et en nombre fini, lors de la
phase de conception du système. L'estimation du modèle consiste à résoudre une tâche pratique, telle
que traduire un discours, estimer une densité de probabilité, reconnaître la présence d'un chat dans
une photographie ou participer à la conduite d'un véhicule autonome. Cette phase dite
« d'apprentissage » ou « d'entraînement » est généralement réalisée préalablement à l'utilisation
pratique du modèle. La seconde phase correspond à la mise en production : le modèle étant
déterminé, de nouvelles données peuvent alors être soumises afin d'obtenir le résultat correspondant
à la tâche souhaitée. En pratique, certains systèmes peuvent poursuivre leur apprentissage une fois en
production, pour peu qu'ils aient un moyen d'obtenir un retour sur la qualité des résultats produits.

Section 2 : Découvrir les trois familles : Régression, Classification et Clustering


Les algorithmes d'apprentissage automatique sont généralement classés en fonction du type de
variable de sortie et du type de problème à résoudre. Ces algorithmes sont généralement divisés en
trois types, à savoir la régression, le regroupement et la classification. La régression et la classification
sont des types d'algorithmes d'apprentissage supervisé, tandis que le clustering est un type
d'algorithme non supervisé.

Régression :

La régression dans l'apprentissage automatique consiste en des méthodes mathématiques qui


permettent aux scientifiques des données de prédire un résultat continu (y) basé sur la valeur d'une
ou plusieurs variables prédictives (x). La régression linéaire est probablement la forme la plus populaire
d'analyse de régression en raison de sa facilité d'utilisation pour la prédiction et la prévision.

L'analyse de régression est un concept fondamental dans le domaine de l'apprentissage


automatique . Il relève de l'apprentissage supervisé dans lequel l'algorithme est entraîné à la fois avec
des caractéristiques d'entrée et des étiquettes de sortie. Il aide à établir une relation entre les variables
en estimant comment une variable affecte l'autre.

Classification :

La classification est un type d'algorithme d'apprentissage automatique supervisé. Pour toute entrée
donnée, les algorithmes de classification aident à prédire la classe de la variable de sortie. Il peut y
avoir plusieurs types de classifications comme la classification binaire, la classification multi-classes,
etc. Cela dépend du nombre de classes dans la variable de sortie.

On peut citer les algorithmes de classification :

23 | P a g e
BIG DATA

 K-Nearest Neighbors (kNN)


 Arbres de décision
 Random Forest
 Naïve Bayes
 Support Vector Machine

Applications

 Détection de courrier indésirable.


 La reconnaissance faciale.
 Identifier si le client sera désabonné ou non.
 Approbation de prêt bancaire.

Clustering :

Le clustering est un type d'algorithme d'apprentissage automatique non supervisé. Il est utilisé pour
regrouper des points de données ayant des caractéristiques similaires à celles des clusters. Idéalement,
les points de données du même cluster devraient présenter des propriétés similaires et les points des
différents clusters devraient être aussi dissemblables que possible.

Le clustering est divisé en deux groupes : le clustering dur et le clustering souple. Dans le clustering
dur, le point de données est affecté à l'un des clusters uniquement, tandis que dans le clustering
souple, il fournit une probabilité qu'un point de données soit dans chacun des clusters.

Types d'algorithmes de clustering :

 K-Means Clustering
 Clustering Hiérarchique Aggloméré (Approche Bottom-UpRegroupement hiérarchique
divisionnaire (approche descendante) DBSCAN (Density-based Spatial Clustering of
Applications with Noise
 OPTICS (Ordering Points to Identifier Clustering StructureBIRCH (Balanced Iterative Reducing
and Clustering using Hierarchies)

Applications

 Segmentation de la base de consommateurs sur le marché.


 Analyse du réseau social.
 Segmentation d'images.
 Systèmes de recommandation.

Section 3 : La préparation des données


La préparation de données est un processus qui précède celui de l'analyse de données. Il est constitué
de plusieurs tâches comme la collecte de données, le nettoyage de données, l'enrichissement de
données ou encore la fusion de données.

Au cours de la préparation des données, les données dites “brutes” sont soumises à différents
traitements afin de les rendre exploitables pour l'étape d'Exploration de données, au cours de laquelle
le but sera d'extraire des connaissances à partir des données via la construction de modèles.

La préparation des données une étape clé car la fiabilité de l'analyse des données dépend en très
grande partie de la qualité des données.

24 | P a g e
BIG DATA

CHAPITRE 5 : DATA VISUALISATION ET CAS D’USAGE CONCRETS


Section 1 : Définir le besoin de la data visualisation
La Data Visualisation (« visualisation des données » en français, ou dataviz pour les initiés) est la
discipline qui s’attache à représenter sous forme graphique des données brutes. Il s’agit de la pratique
qui consiste à représenter des données sous forme graphique pour en faciliter la
compréhension. J’insiste sur la dimension « faciliter la compréhension » car c’est là l’intérêt d’une
bonne visualisation par rapport à un tableau plein de chiffres. La masse de données dont les
entreprises disposent augmente de manière exponentielle, renforçant par-là l’importance de la
visualisation des données.

Prenons la thématique de flux migratoire vers l’Union Européenne comme exemple pour mieux
comprendre le concept de data visualisation. Nous allons nous appuyer les cinq niveaux de la data
visualisation pour expliquer cette thématique.

Niveau 0 : données brutes

Le Niveau 0 de la dataviz ce n’est bien entendu pas de dataviz du tout. Dans l’exemple qui nous occupe
vous vous retrouverez dès lors avec un fichier de quelques milliers de lignes. Les données sont très
granulaires et une ligne est donc créée pour chaque segment de migrants. De plus, la base de données
comporte également beaucoup de valeurs nulles pour les segments vides. A titre d’exemple, l’Estonie
n’a pas accueilli de migrants de plus de 18 ans en provenance d’Afghanistan.

Niveau 1 : visualisation agrégée sous Excel

Le niveau 1 de la data visualisation c’est ce que vous pouvez réaliser avec un outil comme Excel. Un
histogramme, un camembert, une courbe, ce sont déjà des formes (simples) de visualisation des
données et cela peut déjà suffire. Il n’est donc pas étonnant que beaucoup de sociétés y aient recours
et s’en contentent. Pour poursuivre sur l’exemple précédent on se retrouve donc avec une visualisation
de l’évolution du nombre de migrants par année. A ce stade le lecteur est donc face à une visualisation
statique qui présente un niveau de granularité assez faible. Explorer les données plus en profondeur
requérerait de multiplier les graphiques de ce type pour comparer par exemple les évolutions par pays,
par classe d’âge, par sexe, etc … Ces informations étant de natures différentes et les pays de de
provenance et de destination étant nombreux, il serait malaisé de représenter tout cela sur un seul
graphique.

25 | P a g e
BIG DATA

Niveau 2 : données de différentes natures sur un seul et même graphique

Faire abstraction des représentations graphiques simples (histogrammes, diagrammes circulaires,


courbes, …) permet de rentrer de plain-pied dans ce qui constitue l’essence de la data visualisation.
Passer du niveau 1 au niveau 2 requiert une certaine dose de créativité et d’expérience pour créer
des représentations visuelles qui donnent accès à de vrais insights. Ce qui différencie d’après moi le
spécialiste de la dataviz de l’utilisateur d’Excel c’est précisément cela : la capacité à créer une
représentation visuelle qui permette d’aller au-delà des conclusions les plus évidentes. C’est cette
même frontière qui sépare le monde de la BI de celui de la data science. Dans le cas qui nous occupe
on peut donc imaginer qu’une visualisation de niveau 2 mêlerait des données de provenance, de genre
et de volumes. C’est ce que j’ai rapidement essayé de faire ci-dessous.

Niveau 3 : visualisation interactive des données

Les outils les plus puissants du marché permettent de créer des visualisations interactives. L’utilisateur
devient l’acteur de ses découvertes basées sur la data. Il a l’opportunité, en activant des filtres et des
options, de faire varier la visualisation en fonction de ses besoins. On passe donc d’une représentation
visuelle statique à une représentation dynamique. L’exemple ci-dessous, que j’ai mis en ligne sur
Tableau Public, permet à l’utilisateur de passer d’un pays à l’autre, d’observer les variations années
après année, pour chaque sexe. Des insights supplémentaires sont mis à disposition sous la forme de
classements mis à jour automatiquement.

Niveau 4 : le data Art ou le niveau ultime de la visualisation des données

Le dernier niveau de la data visualisation ajoute une dimension esthétique à l’ensemble. L’exploration
des données et la mise au jour d’insights ne sont plus suffisantes. Il faut encore que le résultat soit
beau, digne de figurer sur le mur de votre living. Dans cette catégorie, les outils utilisés relèvent plus
de la palette du graphiste que de celle de l’analyste.

Section 2 : Analyse et Visualisation des données


La visualisation des données (ou data visualization ou dataviz en anglais) désigne le fait de représenter
visuellement ses data pour pouvoir déceler et comprendre des informations, les données brutes étant
difficilement interprétables et exploitables. Ce processus se fait par des outils analytiques spécifiques

26 | P a g e
BIG DATA

et se matérialise par des tableaux (type Excel), des graphiques, des cartes visuelles ou même des
infographies regroupées dans des dashboards (tableaux de bord).

En classant, segmentant et scénarisant les données visuellement, une entreprise peut déceler des
informations auparavant inaccessibles en un simple coup d’œil. La visualisation des données permet
donc à toute organisation de piloter son activité plus efficacement en adoptant une stratégie data-
driven et agile.

Lorsqu’on aborde le vaste sujet de la visualisation de la data, la première image qui vient à l’esprit est
le basique graphique à courbe ou à barre ou le classique diagramme à secteurs. Certes, ces
représentations sont très utiles et utilisées, mais ce ne sont pas forcément les plus adaptées pour tous
les types de données.

Voici un petit tour d’horizon des représentations visuelles que vous pouvez choisir en fonction de vos
besoins.

Les visualisations les plus populaires

 Diagrammes en secteur
 Tableau (avec textes ou nombres)
 Courbe
 Histogramme (graphique à barres)
 Cartographie
 Infographie
 Frise chronologique

Les visualisations spécifiques

 Graphique par aires


 Boîte à moustaches
 Compartimentages
 Nuage de points, de mots ou de bulles
 Vue circulaire
 Arborescence classique ou radiale
 Diagramme de Gantt
 Carte de chaleur
 Matrice
 Cascade
 Entonnoir
 Réseau
 Graphique polaire

Section 3 : peut concerner tous les types de données dans la Dataviz ?


La data visualization est la représentation graphique des données. Il s'agit de produire des images qui
communiquent des informations abstraites pour les utilisateurs. Cette communication est réalisée par
l'utilisation d'une cartographie.

Pour communiquer l'information de façon claire et efficace, la data visualisation utilise des graphiques
statistiques, des diagrammes, des infographies et d'autres outils. Les données numériques peuvent
être codées à l'aide de points, de lignes ou de barres pour communiquer visuellement un message
quantitatif.

27 | P a g e
BIG DATA

Une visualisation efficace aide les utilisateurs à analyser et à raisonner au sujet des données et des
probabilités. Il rend les données complexes plus accessibles, compréhensibles et utilisables. Les
utilisateurs peuvent avoir des tâches analytiques particulières, comme faire des comparaisons ou
comprendre la causalité. Les tableaux sont généralement utilisés lorsque les utilisateurs recherchent
une mesure ou une valeur spécifique, tandis que des graphiques de divers types sont utilisés pour
montrer les tendances ou les relations entre les données pour une ou plusieurs variables.

La data visualization permet de repérer des modèles, des tendances et des corrélations qui, autrement,
passeraient inaperçus dans les rapports, tableaux ou feuilles de calcul traditionnels.

Les outils de data visualization d'aujourd'hui vont au-delà des tableaux et graphiques standard utilisés
dans les feuilles de calcul Microsoft Excel, en affichant les données de façon plus sophistiquée comme
les infographies, les courbes et les échelles, les cartes géographiques, les sparklines, les cartes de
chaleur et les histogrammes, les camemberts, etc. Les images peuvent être interactives, ce qui permet
aux utilisateurs de les manipuler ou d'explorer les données pour les interroger et les analyser.

L'augmentation de la quantité de données créées par l'activité d’Internet et l'augmentation du nombre


de capteurs dans l'environnement sont appelées Big Data ou IoT. Le traitement, l'analyse et la
communication de ces données présentent des défis éthiques et analytiques pour la visualisation des
données. Le domaine de la science des données et les praticiens appelés Data Scientists aident à
relever ce défi.

28 | P a g e
BIG DATA

29 | P a g e

Vous aimerez peut-être aussi