Institut Supérieur des Etudes Technologiques
de Kébili
Département Technologies de l’Informatique
Introduction aux Données
Massives
BENABID Fadwa
AU 2023/2024
Plan
• Le Big Data ?
• Big Data : caractéristiques
• Cas d’utilisation
2
Le Big Data ?
Explosion du volume des données
• Chaque jour, nous générons 2,5 trillions d’octets
de données
• 90% des données dans le monde ont été créées
au cours des deux dernières années
• 80% des données sont non structurées
• 20 % uniquement des données valables peuvent
être analysées par les systèmes traditionnels
4
Explosion du volume des données
• Sources multiples:
– Capteurs utilisés pour collecter les informations
climatiques
– Messages sur les médias sociaux
– Images numériques et vidéos publiées en ligne
– Enregistrements transactionnels d’achat en ligne
– Signaux GPS de téléphones mobiles
–…
5
Un monde de plus en plus interconnecté
et instrumenté
Source: IBM Corporation January 19, 2014 The Big Deal About Big Data 6
Big Data
• Données appelées Big Data ou
Données Massives
• Le Big Data, c'est donc une nouvelle
manière de traiter cette explosion du
volume de données en proposant une
alternative aux solutions traditionnelles.
7
Big Data
• Il s’agit donc d’un ensemble de technologies,
d’architecture, d’outils et de procédures
permettant à une organisation de très
rapidement capter, traiter et analyser de
larges
quantités et contenus hétérogènes et
changeants, et d’en extraire les informations
pertinentes à un coût accessible.
8
La maturité du Big Data conséquence de
plusieurs disciplines
• GRID Computing
– Calcul parallèle et distribué, HPC, capacité de calcul haute performance
• Cloud Computing
– Capacité de stockage infini, réparti et sécurisé,fragmentation/réplication
• Internet of Things (IoT)
– Multitudes de devices connectés (plages IPV6 suffisantes)
– Ubiquitous Computing (Informatique Ambiante)
• Web 3.0 (Social, Sémantique)
– SNA (Social Network Analysis)
• Data Management
– SQL, NoSQL, DWH (DataWarehousing), BI (Business Intelligence)
• NLP (Natural Language Processing)
9
Big Data: Intérêts
• 1 / 2 : Chefs d’entreprise disent qu’ils n’ont pas
accès aux informations dont ils ont besoin pour faire
leur travail.
• 83 % : Des DSI (Directeurs des SI) citent : «
L’informatique décisionnelle et analytique » comme
faisant partie de leurs plans pour améliorer leur
compétitivité.
• 1 / 3 : Chefs d’entreprise prennent fréquemment
des décisions basées sur des informations en
lesquelles ils n’ont pas confiance, ou qu’ils n’ont pas
10
Big data: Sources et Objectifs
• Sources multiples: sites, bases de données, téléphones,
serveurs:
• Objectifs multiples
– Détecter les sentiments et réactions des clients;
– Détecter les conditions critiques ou potentiellement mortelles dans les hôpitaux ,
et à temps pour intervenir
– Prédire des modèles météorologiques pour planifier l’usage optimal des éoliennes
– Prendre des décisions risquées basées sur des données transactionnelles en temps
réel
– Identifier les criminels et les menaces à partir de vidéos, sons et flux de données
– Étudier les réactions des étudiants pendant un cour, prédire ceux qui vont réussir,
d’après les
– statistiques et modèles réunis au long des années (domaine Big Data in Education)
11
Big Data :
caractéristiques
Une minute sur Internet ! (en 2020)
13
Big Data : caractéristiques
• Gartner (2001) – 3Vs : Volume, Variété et Vélocité
• IBM (2012) – 4Vs : Volume, Variété, Vélocité et
véracité
14
Big Data : caractéristiques
• 2015 : encore plus de V : Valeur
• 2016 : 7V ? : Variabilité , Visualisation
• 2017 : 10V ? : Validité, Vulnérabilité, Volatilité.
Ces aspects (Les Vs) de la problématique du big
data posent des problèmes difficiles à appréhender
simultanément.
15
Big Data : caractéristiques: Volume
• Volume
Le volume décrit la quantité de données générées par
des entreprises ou des personnes. Les entreprises,
tous secteurs d’activité confondus, devront trouver
des moyens pour gérer le volume de données en
constante augmentation qui est créé quotidiennement.
16
Big Data : caractéristiques: Volume
• 1 Mégaoctet (Mo) = 220 octets
• 1 Gigaoctet (Go) = 230 octets
• 1 Téraoctet (To) = 240 octets
• 1 Pétaoctet (Po) = 250 octets
• 1 Exaoctet (Eo) = 260 octets
• 1 Zettaoctet (Zo) = 270 octets
• 1 Yotta-octet (Yo) = 280 octets
17
Big Data : caractéristiques: Volume
• Volume
– Aucune donnée n’est inutile. Certaines n’ont juste
pas encore servi.
– Problèmes:
• Comment stocker les données dans un endroit fiable, qui
soit moins cher
• Comment parcourir ces données et en extraire des
informations facilement et rapidement?
18
Big Data : caractéristiques: Variété
• Variété
• Traitement des données sous plusieurs formats
et types (Texte, images, photos, vidéos, table,… )
qui doivent faire l’objet d’une analyse collective.
– Données structurées (bases de données structurée,
feuilles de calcul venant de tableur, …)
– Données semi-structurées ( XML, XHTML, …)
– Données non-structurées (textes, sons, images,
vidéos, fichiers journaux,…)
19
Big Data : caractéristiques: Vélocité
• Vélocité.
• « La vélocité représente à la fois la fréquence à
laquelle les données sont générées, capturées et
partagées et mises à jour » (Source: Wikipedia).
– Rapidité d’arrivée des données
– Vitesse de traitement
• Les données doivent être stockées à l’arrivée,
parfois même des Teraoctets par jour
20
Big Data : caractéristiques: Véracité
• Véracité
• Fait référence à la qualité de la fiabilité et la confiance
des données.
• Défis : Les données sont utilisés par des systèmes
sensibles comme les banques ou encore les
gouvernements et ne peuvent donc pas contenir des
erreurs (exemple :Données bruités, erronées ,
imprécises, prédictives, ….).
21
[Link] 22
[Link] 23
Big Data : caractéristiques: Valeur
• Valeur
• Le V le plus important
• La démarche Big Data n’a de sens que pour atteindre des
objectifs stratégiques de création de valeur pour les
clients et pour l’entreprise; dans tous les domaines
d’activité : commerce, industrie, services …
• Le succès d’un projet Big Data n'a d'intérêt
aux utilisateurs que s'il apporte de la valeur
ajoutée et de nouvelles connaissances.
24
Types de Big Data
• Les données en mouvement – streams
– Commentaires Twitter / Facebook
– Les données boursières
– Capteurs: Les signes vitaux d'un nouveau-né
• Les données au repos – océans
– Collection des données qu’étaient en mouvement
– Journaux Web, courriels, médias sociaux, ..
– Documents non structurés: les réclamations, ..
– Des données structurées provenant de systèmes
disparates
25
Approche Traditionnelle
• Les besoins métier guident la conception de la solution
26
Approche Traditionnelle
• Appropriée pour:
– Des données structurées
– Opérations et processus répétitifs
– Sources relativement stables
– Besoins bien compris et bien cadrés
27
Approche Big Data
• Les sources d’information guident la découverte créative
28
Approche Big Data vs Approche
Traditionnelle
• La question n’est pas :
– Dois-je choisir entre l’approche classique et l’approche Big Data?
• Mais plutôt:
– Comment les faire
fonctionner ensemble?
29
Approche Traditionnelle vs approche
Big Data
30
Big data – niveaux de compétences
• Infrastructure Matérielle et Réseau et Baie de stockage
– GRID (HPC) et CLOUD (Stockage Fragmenté)
• Système d’Exploitation Distribué et Infrastructure de Stockage
Distribués (DFS) : HADOOP/HDFS
• Paradigmes de Traitement parallèle : HADOOP/MAPREUCE
• Entreposage de Données
– Datawarehousing SQL & NoSQL (Not Only SQL)
– ETL SQL & NoSQL
• Analyse & Reporting: Manipulation front-end des données,
Visualisation
• Système Analytique
– Statistique, Machine Learning
31
Big Data: Défis
• Les défis des compétences
• Les défis de l’infrastructure
• Les défis des sources de données
• Les défis de la gouvernance des données
• Les défis économiques
32
Cas d’utilisation
Big Data : pour qui, pour quoi ?
• Les perspectives d’utilisation de ces données sont
énormes, notamment pour l’analyse d’opinions
politiques, de tendance industrielles, la génomique, la
lutte contre la criminalité et la fraude, les méthodes de
marketing publicitaire et de vente etc …
34
Big Data : pour qui, pour quoi ?
35
Cas d’utilisation du Big Data - Exemples
• Cas d’utilisation : Santé
– Analyse des données globales des patients et des résultats pour
comparer l'efficacité des différentes interventions.
– Analyse des résultats de santé d’une population pour prévoir les
maladies et les épidémies, savoir les causes environnementales et
prendre les préventions nécessaires dans les stages primaires.
– Déploiement de systèmes d'aide à la décision clinique pour améliorer
l'efficacité et la qualité des opérations.
– Télésurveillance des patients. La collecte de données pour les patients
souffrants de maladies chroniques et l'analyse des données résultant
pour surveiller la conformité et pour améliorer les futures options de
médicaments et de traitement.
36
Cas d’utilisation du Big Data - Exemples
• Cas d’utilisation : Marketing (1/3)
– Le Marketing est naturellement un client pour le Big Data
que ce soit pour de l’analyse prédictive ou de l’analyse de
sentiment, que l’on peut définir rapidement par
l’interprétation automatisée de l’opinion exprimée d’un
individu.
– Plus d’intelligence pour plus de ventes.
– Analyse prédictive : En analysant l’historique des achats
du client ou les fichiers Logs qui contiennent les pages
visitées, l’entreprise peut prévoir ce que le client cherche et
les mettre dans les zones des offres et publicités afin
d’augmenter les achats.
37
Cas d’utilisation du Big Data - Exemples
• Cas d’utilisation : Marketing (2/3)
• Analyse des sentiments : De Nombreuses sociétés utilisent
les échanges sur les réseaux sociaux comme le reflet de
l’opinion publique. Celle-ci devient une nouvelle source
d’informations en temps réel directement fournie par le
consommateur. Les questions d’e-réputation « à quoi est
associée mon image ?
» ou « comment est accueilli le nouveau produit que je viens de
lancer ? » peuvent être analysées avec ces données. Le Big Data
permet de prendre le pouls quasiment en direct, mesurer
l’impact de sa marque, savoir comment est perçue la société
par le public et anticiper les mauvaises critiques.
38
Cas d’utilisation du Big Data - Exemples
• Cas d’utilisation : Marketing (2/3)
– Analyse des comportements : L’analyse du
comportement des clients en magasin permet d’améliorer
l’aménagement du magasin, le mix produit et la disposition
des produits dans les rayons et sur les étagères. Les
dernières innovations ont également permis de suivre les
habitudes d’achat (compter le nombre de pas effectués et
le temps passé dans chaque rayon du magasin),
géolocaliser en temps réel les clients,.... Les données issues
des tickets de caisse, captées depuis longtemps, peuvent
maintenant être analysées et révèlent les habitudes d’achat
des clients.
39
Cas d’utilisation du Big Data - Exemples
• Cas d’utilisation : Politique (1/3)
– L’analyse de Big Data a joué un rôle important dans la campagne
de ré-élection de Barack Obama, notamment pour analyser
les opinions politiques de la population.
40
Cas d’utilisation du Big Data - Exemples
• Cas d’utilisation : Politique (2/3)
– Ré-élection de Barack Obama (Suite)
– Les moyens :
• Maillage géographique très précis des électeurs
• Utilisation de données sociologiques et des réseaux sociaux
• Données récoltées en amont par le porte à porte et croisées avec des données
internet
– Actions sur la Campagne :
• Les bénévoles de la campagne Obama savent quels arguments mettre en avant vis-
à-vis des femmes célibataires, ou des jeunes, ou des hispaniques
• Ciblage précis des pubs, coups de fils et appels à donations
– Actions le jour du scrutin :
• Suivi en temps réel et à un niveau de détail important du niveau de participation
• Mobilisation des bénévoles sur les quartiers qui votent le moins
41
Cas d’utilisation du Big Data - Exemples
• Cas d’utilisation : Politique (3/3)
– Depuis l'année 2012, le Département de la défense américain
investit annuellement sur les projets de Big Data plus de 250
millions de dollars.
– Le gouvernement américain possède six des dix plus
puissants supercalculateurs de la planète.
– En 2014, SIGMA conseil a utilisé le Big Data pour donner
l’estimation du résultat de vote préliminaire en Tunisie.
42
Cas d’utilisation du Big Data - Exemples
• Cas d’utilisation : Sécurité publique
– Aujourd’hui, avec le Big Data, la vidéosurveillance va beaucoup plus loin : elle
permet d’analyser automatiquement les images et les situations, de croiser les
informations, et d’envoyer des alertes.
– Cette analyse de vidéo avancée est utilisée en particulier pour :
• la sécurité du trafic (routier, ferroviaire, maritime et aérien)
• la protection des espaces et des bâtiments publics
• la sécurité personnelle.
– Il est aujourd’hui possible à travers l’analyse des images vidéo de faire de :
• la reconnaissance d’objets et de mouvements
• la lecture de plaques minéralogiques
• la détection de véhicule non autorisé
• la reconnaissance faciale
• l’auto-surveillance avec possibilité de déclenchement d’alertes ou autres actions
automatisées.
43
Références
• DUMBILL E., CROLL A., STEELE J., LOUKIDES M. K.,
Planning for big data. Beijing : O'Reilly Media, 2012 .
• WARDEN P., Big data glossary. Sebastopol, CA : O'Reilly,
2011.
• Big Data Fundamentals, IBM, Big Data University.
• Big Data Analytics, IBM, Big Data University.
• Big Data Track, Karim Baina, Université Mohammed V de
Rabat, Maroc.
44