Chapitre1 – Introduction au
Big Data
Mme Ines Slimene
[Link]@[Link]
Plan module
• Introduction
• Écosystème Hadoop
• HDFS
• MapReduce
• Langages de requête Hadoop :Pig, Hive
• SGBDNR
• Différences entre une BDNR et une BD relationnelle
• Typologies des BD non relationnelles
• Etude d’un SGBDNR : HBase
23/09/2020 Introduction au big data 2
Plan
• Introduction
• Les caractéristiques du big data
• Le processus Big data
• Les data scientists
• Domaines d’application du Big data
• Challenges
23/09/2020 Introduction au big data 3
Introduction
• Vieux paradigme
• Déploiement de technologie pour améliorer la
productivité
• Des données sont créées
• Nouveau paradigme
• Les données sont les matières premières du monde des
affaires
• Les valeurs des données et l’analyse de celles-ci ne sont
plus remises en question.
23/09/2020 Introduction au big data 4
Introduction
• Les données sont de plus en plus précieuses.
Les entreprises cherchent à libérer toute la valeur
potentielle de leurs données afin d’en tirer des
avantages concurrentiels.
« que pouvons-nous faire avec ces données ? »
• Le traitement en temps réel contribue à l’analyse
prédictive. L’analyse prédictive permet aux
entreprises d’avoir une idée beaucoup plus claire
de l’avenir et peut ouvrir d’excellentes opportunités
de génération de valeur à partir des données.
23/09/2020 Introduction au big data 5
Les sources du big data
23/09/2020 Introduction au big data 6
Expansion volume de données
• Plus de données créées dans les trois dernières années
que dans les 100 années qui les ont précédé
• Le total des données existantes a quadruplé dans les trois
dernières années
• 90% des données dans le monde ont été créées au cours
des deux dernières années.
23/09/2020 Introduction au big data 7
Expansion volume de données
• Source:
• Capteurs
• Messages sur les réseaux sociaux
• Images numériques et vidéos publiées en ligne
• Enregistrements transactionnels d’achat en ligne
• Signaux GPS de téléphones mobiles
• Cliques web
• Requêtes serveur
23/09/2020 Introduction au big data 8
Sources des données : RFID tags
• Agriculture
• Sport
• Informations climatiques
• Traffic routier [Link]
23/09/2020 Introduction au big data 9
Source de données : Réseaux
sociaux
23/09/2020 Introduction au big data 10
Les réseaux de données
• La plupart des données sont structurées sous
format graph
• Réseaux sociaux
• Réseaux de télécommunication
• Réseaux informatiques
• Réseaux du traffic
• …
23/09/2020 Introduction au big data 11
Modèles de données
Structurée Semi-structurées Non-structurées
(schéma défini
(schéma prédéfini) ultérieurement)
(sans schéma)
BDR xml texte
media
23/09/2020 Introduction au big data 12
Données structurées : Relation
• Modèle relationnel de données
• Une relation est une table avec des lignes et des colonnes
• Chaque relation a un schéma définissant les types de ses colonnes
• Le schéma prédéfini est statique
23/09/2020 Introduction au big data 13
Données semi-structurées :
Fichier log
23/09/2020 Introduction au big data 14
Données semi-structurées : Documents PDF
23/09/2020 Introduction au big data 15
Données non-structurées
• Une seule colonne de type binaire ou chaine de
caractère
• Exemples:
• Post Facebook
• image Instagram
• vidéo
• Blog
• Article journal
• …
23/09/2020 Introduction au big data 16
Définition
• Le Big Data est devenu un centre d’intérêt majeur pour le
monde IT.
• En général, ce terme renvoie à des types de données
relativement nouveaux (vidéo, images, son, etc.) qui
génèrent des fichiers volumineux.
• Il désigne aussi de grands ensembles de petits volumes de
données (commentaires sur les sites Web des réseaux
sociaux, photos du fonds marin, images des caméras de
surveillance du trafic) qui prennent leur sens lorsqu’ils sont
combinés.
• Le plus souvent, ces Big Data connaissent une croissance
rapide et certains ensembles de données modestes seront
amenés à se développer pour devenir des Big Data.
23/09/2020 Introduction au big data 17
Caractéristiques
23/09/2020 Introduction au big data 18
Caractéristiques
23/09/2020 Introduction au big data 19
Processus Big data
23/09/2020 Introduction au big data 20
La science de données
Science de données :extraction intelligentes et efficace des connaissances à
partir des big data
La Science de données englobe les activités, outils et méthodes qui
permettent d’exploiter les données dans tous les domaines (science,
médecine, marketing …)
Data Scientist :
un nouveau métier caractéristique du Big Data,
On le retrouve en tête du classement des « jobs les plus sexy du 21e siècle »,
publié par la Harvard Business Review.
23/09/2020 Introduction au big data 21
Un nouveau métier : le Data
Scientist
• On associe trois compétences fortes chez un data
scientist :
• les méthodes mathématiques et statistiques,
• la programmation
• la compréhension des enjeux métier.
On distingue deux catégories de data
scientists :
Les data architects : définir la plateforme
technique et les solutions logicielles
adaptées.
Les data analysts : prendront la suite en
appliquant des algorithmes prédictifs
23/09/2020 Introduction au big data 22
Domaines d’application
23/09/2020 Introduction au big data 23
Big Data & Marketing prédictif
• Marketing : Prédiction basée sur l'intuition et l'irrationnel
• sélection arbitraire de quelques facteurs, qui doivent, permettre
de créer des segments ou des scoring pertinents : l'âge, le sexe…
Marketing prédictif : des prévisions
basées sur des données et des
probabilités.
traitement en temps réel d’un grand
volume de données : connaissance et
définition des besoins et des attentes des
clients
23/09/2020 Introduction au big data 24
CE QUE LES ENTREPRISES Y GAGNENT
AMÉLIORATION DE
L'EXPÉRIENCE
CONSOMMATEUR
MEILLEURE CAPACITÉ
OPÉRATIONNELLE
MONÉTISATION DES DONNÉES
CE QUE LES CONSOMMATEURS APPRÉCIENT
OFFRES TRANSACTIONNELLES
(cadeaux, bons de réduction..)
OFFRE PERSONNALISÉE
(sélection de produits sur mesure,
Choix moyen de comm)
SERVICES INNOVANTS
(applications smart phones…)
23/09/2020 Introduction au big data 26
Big Data & Marketing prédictif
23/09/2020 Introduction au big data 27
Comment ?
Lier avec Suivre les Analyser
d’autres les
comporte-
objets profils
connectés ments
d’achats réseaux
Analyser sociaux
Analyser les les
tweets photos
en ligne
23/09/2020 Introduction au big data 28
Exemple : shoes bar
• Avant la visite
• Interpeller la clientèle Cibler et recruter de nouveaux clients
• Inciter à la visite avec des actualités et des incentives (couponing,
jeux)
• Pendant le shopping
• Guider le visiteur dans la boutique
• Offrir des informations supplémentaires
• Permettre l’achat ou la commande sans contact
• Proposer des expériences d’achat interactives et inédites via des
écrans digitaux
• Aprés la visite
• Prolonger l’expérience d’achat
• Retargeter en vue d’une visite future
• Proposer des contenus additionnels pour favoriser la préférence de
marque
23/09/2020 Introduction au big data 29
MEILLEURE CONNAISSANCE
CLIENT
23/09/2020 Introduction au big data 30
Big Data & politique :
Election présidentielle
Big Data Sondage
Octobre 2012
23/09/2020 Introduction au big data 31
Big Data & politique : Autres
exemples
• Élection présidentielle française de 2012 : François
Hollande
• La Tunisie : élection présidentielle 2014
[Link]
•…
23/09/2020 Introduction au big data 32
Big data et administration
publique
• Dans l’administration publique, des quantités
extraordinaires de données sont accumulées au cours de
l'exécution des services publics :
• La gestion des prestations d'aide sociale et de la santé
publique,
• La délivrance des passeports et permis de conduire.
• La gestion des taxes et recettes …
23/09/2020 Introduction au big data 33
Big data et sport
• le Big Data: arme secrète de l'Allemagne au Mondial de football
[Link]
douzieme-homme-de-lequipe-allemande-de-foot/
23/09/2020 Introduction au big data 34
Big Data et crime
• Blue C.R.U.S.H. (Crime Reduction Utilizing Statistical
History) est un logiciel qui prélève et rassemble avec
l’aide de caméras et des forces de police un maximum
de données sur les délits qui surviennent dans un
territoire.
• Il s’agit d’envoyer les policiers dans les « hot spots »; là
où la probabilité qu’un crime survienne est la plus
élevée, et ainsi arrêter un délit avant qu’il ne se
produise.
• Depuis son lancement il y a 7 ans,
• le nombre de meurtres et de cambriolages a diminué de 36%
à Memphis.
• Le vol de véhicules motorisés a chuté de 55% !
23/09/2020 Introduction au big data 35
Détection des fraudes
23/09/2020 Introduction au big data 36
Autres exemples :
• Department de la santé et services de l’humanité.
• Institut national de santé: améliorer l'utilisation de
l'imagerie dans les recherche sur le cancer
• Département d’énergie : permettre d'obtenir des
observations précises des phénomènes
atmosphériques.
23/09/2020 Introduction au big data 37
Challenges : Entreprise
• La croissance des données entraîne en particulier
une hausse des coûts du matériel, du logiciel, de la
maintenance associée, de l’administration et des
services.
• Le Big Data exige un nouvel ensemble de
compétences au sein de l’entreprise.
• Les projets d’analyse Big Data nécessitent des
équipes multidisciplinaires, et une collaboration
active doit être engagée entre le service
informatique et les data scientists.
23/09/2020 Introduction au big data 38
Challenges : Sécurité
23/09/2020 Introduction au big data 39
Challenges : Sécurité
• Il y a des sites qui nous suivent discrètement
lorsqu'on navigue sur le web.
23/09/2020 Introduction au big data 40
Challenges : Sécurité
• L’Open Data Santé : rendre publiques les données
de la sécurité sociale
• Détection localisation et recherche web
• Détection transaction bancaire
Respect de la liberté civile.
23/09/2020 Introduction au big data 41