30/04/2024
Business Intelligence
&
Big Data
Plan
• Partie I : Informatique décisionnelle
• . Les outils d’extraction, transformation et changement : ETL.
• . Entreposage de données (Entrepôt de donnée ou data warehouse).
• . Traitement analytique (OLAP, ROLAP, ...).
• . Visualisation et rapports (tableaux de bord et repporting).
• . Prise de décision : Data Mining.
• Partie II : BIG DATA
• . Caractérisation des mégadonnées
• . Stockage et gestion des mégadonnées
• . Analyse et exploitation des mégadonnées
• . Big data dans le cloud computing
1
30/04/2024
Partie II : Big data
1. Caractérisation des mégadonnées
2. Stockage et gestion des mégadonnées
3. Analyse et exploitation des mégadonnées
4. Big data dans le cloud computing
Introduction
• Toute entreprise, grande ou petite, gère une quantité considérable de
données générées par ses différents points de données et processus
d'affaires.
• Parfois, les entreprises sont en mesure de traiter ces données à l'aide de
feuilles Excel, de bases de données Access ou d'autres outils similaires.
• Nous utilisons de plus en plus d’appareils électroniques et les
processus de production utilisent de plus en plus d’innovations
numérique.
• Cela signifie qu’une grande quantité de données numériques sont
générées chaque jour dans l’économie et par nos activités sociales ou
personnelles.
2
30/04/2024
Introduction
• L'augmentation de la quantité de données disponibles présente à la
fois une opportunité et un défi.
• D'une manière générale, disposer de plus de données sur les clients (et les
clients potentiels) devrait permettre aux entreprises de mieux adapter les
produits et les efforts de marketing pour créer les plus hauts niveaux de
satisfaction et de fidélité.
• Les entreprises qui collectent de grandes quantités de données ont la
possibilité de mener des analyses plus approfondies et plus riches au
profit de toutes les parties prenantes
Data and storage
predictions for the
year 2025
International Data Corporation(IDC): Expect
175 zettabytes of data worldwide by 2025
By 2025, IDC says worldwide data will grow
61% to 175 zettabytes, with as much of the
data residing in the cloud as in data centers.
A zettabyte is a trillion gigabytes. Now
multiply that 175 times.
3
30/04/2024
Data and storage predictions for the year 2025
• There are other remarkable stats for the year 2025:
• The storage industry will ship 42ZB of capacity over the next seven years.
• 90ZB of data will be created on IoT devices by 2025.
• By 2025, 49 percent of data will be stored in public cloud environments.
• Nearly 30 percent of the data generated will be consumed in real-time by
2025.
• The explosion in cloud-based data will be matched by an increase in
data stored in the core, or data centers.
• IDC says businesses are looking to centralize data management and
delivery, as well as to leverage data to control their businesses and
the user experience.
Introduction
• Cet accroissement des données touche tous les secteurs, tant
scientifiques qu’économiques, ainsi que le développement des
applications Web et les réseaux sociaux.
• Cependant, lorsque les données ne peuvent pas s'insérer dans les
outils traditionnels et que les cas d'erreur humaine augmentent au-
delà des limites acceptables en raison d'un traitement manuel
intensif, il est temps de penser au Big Data et à l'analytique.
4
30/04/2024
Big Data
• L’origine de ce terme anglo-saxon, littéralement « grosses données »,
est controversée, et sa traduction française officielle recommandée
est mégadonnées, même si parfois on parle de données massives.
• Ces mégadonnées sont maintenant au centre des préoccupations des
acteurs de tous les domaines d’activité.
• De nombreuses entreprises utilisent le big data pour générer des revenus
publicitaires en plaçant des annonces ciblées aux utilisateurs des médias
sociaux et à ceux qui surfent sur le web.
• By 2029, the value of the big data analytics market is expected to
reach over 655 billion U.S. dollars, up from around 241 billion in 2021.
Mégadonnées ?
• Le Big Data est une collection de données dont le volume est énorme
et qui croît de manière exponentielle avec le temps.
• Il s'agit de données dont la taille et la complexité sont telles qu'aucun des
outils traditionnels de gestion des données ne peut les stocker ou les traiter
efficacement.
• Les mégadonnées ou Big Data sont des collections d’informations qui
auraient été considérées comme gigantesques, impossible à stocker
et à traiter.
5
30/04/2024
Mégadonnées ?
• Les mégadonnées sont des ensembles de données collectées si gigantesques et
complexes qu’ils :
• dépassent les capacités des outils classiques de traitement des données.
• nécessitent de nouvelles technologies, telles que l’intelligence artificielle, pour être traités.
• Ces ensembles de données peuvent provenir :
• d’une source unique (les données GPS de millions de téléphones portables utilisées pour réduire
les embouteillages)
• ou de sources combinées (par exemple, les dossiers médicaux et l'utilisation d'applications
mobiles par les patients).
• La technologie permet à ces données d’être collectées très rapidement, quasiment en
temps réel, afin d’être analysées et d’obtenir de nouvelles informations.
→Le Big Data est également une donnée mais de taille énorme.
→L'analyse des big data est le processus d'examen de grandes quantités de données.
Mégadonnées ?
• En effet, le principe de base du big data est de
collecter des données provenant de multiples
sources, de les analyser et d'en extraire des
informations : ces dernières vont aider à la décision
ou apporter des solutions via des tableaux de bord
ou des analyses prédictives.
6
30/04/2024
Big Data - Pourquoi?
• La révolution du Big Data est directement liée aux énormes
progrès des capacités de calcul et de stockage de
l'information, avec une courbe d'accélération sans cesse
croissante.
• ○ Explosion de la disponibilité des données
• ○ Augmentation de la capacité de stockage
• ○ Augmentation de la capacité d’analyse
Big Data - Pourquoi?
• ● Augmentation exponentielle de la quantité de données non structurées
• ○ Email, chat, blog, web, musique, photo, vidéo, etc.
• ● Augmentation de la capacité de stockage et d’analyse
• ○ L’utilisation de plusieurs machines en parallèle devient accessible
• ● Les technologies existantes ne sont pas conçues pour ingérer ces
données
• ○ Base de données relationnelles (tabulaires), mainframes, tableurs (Excel), etc.
• ● De “nouvelles” technologies et techniques d’analyse sont nécessaires
• ○ “Google File System” - Google 2003
• ○ “MapReduce: Simplified Data Processing on Large Clusters” - Google, 2004
• ○ “ Hadoop “ : circa 2006
• ● D’où le“Big Data”: pas strictement plus de data..
7
30/04/2024
Données structurées vs non structurées
Caractérisation des mégadonnées
• “Le Big Data (ou mégadonnées) représente les collections de données
caractérisées par un volume, une vélocité et une variété si grands que leur
transformation en valeur utilisable requiert l’utilisation de technologies et
de méthodes analytiques spécifiques."
• La caractérisation de ces mégadonnées ou Big Data est généralement faite
selon 3 « V », les V de Volume, de Variété et de Vélocité, auxquels
s’ajoutent d’autres « V » complémentaires, comme ceux de Valeur et de
Véracité/Validité.
• ● Volume - pas d'échantillonnage, on observe et mesure tout
• ● Variété - puise dans les données textuelles, les photos, audio / vidéo et complète
généralement les pièces manquantes en fusionnant plusieurs sources
• ● Vélocité - les données et les résultats sont souvent disponibles en temps réel
8
30/04/2024
Modèle des 3V
Propriétés des mégadonnées
sont essentielles pour
comprendre comment nous
pouvons mesurer le big data
et à quel point le big data est
différent des données
traditionnelles.
Modèle des 3V _ Le Volume
• Le caractère « volume » est certainement celui qui est le mieux décrit
par le terme « Big » de l’expression.
• Volume fait référence à la quantité d’informations, trop volumineuse
pour être acquise, stockée, traitée, analysée et diffusée par des outils
standards.
• Ce caractère peut s’interpréter comme le traitement d’objets informationnels de grande taille
ou de grandes collection
9
30/04/2024
Modèle des 3V _ Le Volume
• Le Big Data, c’est des volumes énormes et en constante
augmentation de données à stocker et traiter.
• Le développement de l’IoT et la généralisation de la géolocalisation ou de l’Analytics ont
engendré une explosion du volume de données collectées.
• Dans le domaine des médias sociaux par exemple, le volume fait référence à la quantité de
données générées par les sites Web, portails et applications en ligne.
• Surtout pour les entreprises B2C, le volume comprend les données disponibles dont la
pertinence doit être évaluée.
• Considérant ce qui suit : Facebook compte 2,912 milliards d'utilisateurs, Youtube compte 2,2
milliard d'utilisateurs, Twitter compte 330 millions d'utilisateurs et Instagram compte 1,393
milliard d'utilisateurs.
• Chaque jour, ces utilisateurs contribuent à des milliards d'images, de publications, de vidéos, de
tweets, etc.
• Pouvez-vous imaginer les quantités massives de données générées chaque minute et chaque
heure?
Modèle des 3V _ La Variété
• Le caractère « variété » fait référence à l’hétérogénéité des formats, de types, et de qualité des
informations.
• Il est lié au fait que ces données peuvent présenter des formes complexes du fait qu’elles trouvent leurs
origines dans :
• des capteurs divers et variés (température, vitesse du vent, hygrométrie, tours/mn, luminosité...),
• des messages échangés (e-mails, médias sociaux, échanges d’images, de vidéos, musique),
• des textes, des publications en ligne (bibliothèques numériques, sites web, blogs...),
• des enregistrements de transactions d’achats, des plans numérisés, des annuaires, des informations issues des
téléphones mobiles, etc
• Dans le domaine des mégadonnées, la diversité fait référence à toutes les données structurées et non
structurées susceptibles d'être générées par des humains ou des machines.
• Les données les plus couramment ajoutées sont structurées : texte, tweets, images et vidéos. Cependant, les données non
structurées telles que les e-mails, les messages vocaux, les textes manuscrits, les lectures ECG, les enregistrements audio, etc.
• La diversité est la capacité à classer les données entrantes dans différentes catégories.
• Géolocalisation, vidéos, historique de navigation internet, échanges vocaux, posts sur les réseaux sociaux… les données ont
des formats très hétérogènes.
• Les technologies permettent d’analyser et de recouper les données non structurées (mails, photos,
conversations…) qui représentent au moins 80 % des informations collectées.
10
30/04/2024
Modèle des 3V _La Vélocité
• Le caractère « vélocité » fait référence à l’aspect dynamique et/ ou temporel des
données, à leur délai d’actualisation et d’analyse.
• La vélocité fait référence à la vitesse à laquelle les données sont générées.
• Les données ne sont plus traitées, analysées, en différé, mais en temps réel ou
quasi réel.
• Elles sont produites en flots continus, sur lesquels des décisions en temps réel
peuvent être prises.
• Ce sont les données notamment issues de capteurs, nécessitant un traitement rapide pour une réaction
en temps réel.
• Dans le cas de telles données de grande vélocité engendrant des volumes très importants, il n’est plus
possible de les stocker en l’état, mais seulement de les analyser en flux (streaming), voire de les
résumer.
• Dans les médias sociaux, chaque jour, 990 millions de photos sont téléchargées sur Facebook, 504
millions de tweets sont publiés sur Twitter, 0,6 million d'heures de vidéo sont téléchargées sur YouTube
et 7 milliards de recherches sont effectuées sur Google.
Modèle des 3V étendu aux 5V
Modèle des 3V Modèle des 5V
11
30/04/2024
Modèle des 3V étendu aux 5V _ La Valeur
• Le caractère complémentaire « valeur » fait référence à la potentialité des données, en particulier
en termes économiques.
• Il est ainsi associé à l’usage qui peut être fait de ces mégadonnées, de leur analyse, notamment
d’un point de vue économique.
• L’analyse de ces mégadonnées demande une certaine expertise tant liée à des méthodes et
techniques en statistique, en analyse de données, que de domaine pour l’interprétation de ces
analyses.
• Ainsi le McKinsey Global Institute avance que, dans les seuls États-Unis, il manquerait environ 150 000 personnes
avec une expertise en analyse de big data.
• Cet organisme estime que le système de santé américain pourrait créer 300 milliards de dollars de valeur par an dont
les deux tiers résulteraient en des réductions de coût d’environ 8 %.
• Le "V" le plus important du point de vue de l'entreprise, la valeur du big data provient
généralement de la découverte d'idées et de la reconnaissance de modèles qui conduisent à des
opérations plus efficaces, à des relations plus solides avec les clients et à d'autres avantages
commerciaux clairs et quantifiables.
Modèle des 3V étendu aux 5V _ La Véracité
• Enfin, le caractère complémentaire « véracité ou validité » fait référence à la qualité des données
et/ou aux problèmes éthiques liés à leur utilisation.
• Il concerne la fiabilité de l’information
• Il comprend les problèmes de valeurs aberrantes ou manquantes (ces problèmes pouvant être résolus
par le volume de données), mais aussi à la confiance que l’on peut avoir dans les données.
• S’il existe des critères permettant de qualifier la qualité des données, dans le cas de big data,
cette vérification de la qualité est rendue difficile voire impossible du fait du volume, de la variété
et de la vélocité spécifiques au Big Data.
• La vérité ou l'exactitude des données et des informations, qui déterminent souvent la confiance
des dirigeants, c’est l’un des enjeux majeurs de l’exploitation des Big Data.
• Faux profils sur les réseaux sociaux, fautes d’orthographe, fraudes …Il est nécessaire de multiplier
les précautions (recoupement et enrichissement des données) pour minimiser les biais liés
au manque de fiabilité du Big Data.
12
30/04/2024
Exemples d’applications Big Data
• Les Mégadonnées ou Big Data sont dès à présent utilisées dans tous les
secteurs d’activités, tant scientifiques, techniques que socio-économiques…
• Premièrement l’analyse de fichiers de traces pour en déduire des
comportements passés et futurs : traces de transactions commerciales,
traces d’activités de personnes mobiles, traces d’accès à des serveurs web.
. ., et déductions de comportements de consommateurs, de voyageurs,
d’utilisation d’Internet. . .
• Cette analyse aboutit généralement à un système de recommandation pour mieux
cibler des clients potentiels ou pour augmenter les performances de l’entreprise.
• Ce type d’analyse se faisait initialement off line sur de très gros volumes de données,
mais on observe une demande croissante de traitement on line de flux continus de
données.
Exemples d’applications Big Data
• Deuxièmement, l’analyse de signaux de sorties d’une foule de
capteurs sur une installation industrielle, couplée à l’accès à des bases
de données de situations passées et de spécifications techniques, afin
d’identifier les prémisses d’une défaillance future.
• Cette analyse doit en général se faire en temps réel à partir des signaux
captés sur l’installation en cours d’utilisation.
• Troisièmement, l’analyse de réseaux sociaux, c’est-à-dire de l’analyse
de graphes, afin d’en déduire par exemple des relations/influences
entre individus ou populations d’individus.
• L’analyse de graphes de grandes tailles constitue une partie spécifique du Big
Data souvent citée comme exemple, et qui intéresse particulièrement
quelques géants du web.
13
30/04/2024
Disciplines participant au Big Data
• Le Big Data est un domaine pluridisciplinaire pour lequel on peut
identifier 5 parties, parfois elles-mêmes basées sur plusieurs
disciplines. On peut tout d’abord énumérer quatre parties clés :
• – Une partie qualifiée parfois de Math-Info comprend tout d’abord des
mathématiques statistiques et probabilistes sur lesquelles sont fondés des
algorithmes d’apprentissage numérique (ou machine learning), ainsi que des
algorithmes de fouille de données et de graphes.
• Cette partie du Big Data est celle qui est souvent identifiée comme le Data Science. C’est
en tous cas le cœur mathématique du Big Data.
Disciplines participant au Big Data
• – Une partie d’informatique distribué pour l’analyse de données
large échelle. Il s’agit d’une forme d’algorithmique distribuée
récente (apparue en 2009), visant à amener les traitements sur les
machines où sont stockées les données. Cette approche permet
des traitements de données à large échelle (sur des données très
volumineuses), voire à l’échelle du web (web-scale).
• Une première mise en œuvre de cette approche utilisait le schéma Map-
Reduce : un schéma de calcul distribué à première vue très contraint mais
en fait assez générique.
14
30/04/2024
Disciplines participant au Big Data
• – Une partie d’informatique parallèle à haute
performance pour le data analytics et le machine learning
visant à accélérer les calculs sur des machines parallèles.
• Par exemple, en utilisant un cluster de PC multi-cœurs
(ensemble de PC dédiés aux calculs et reliés par un réseau local
rapide) ou un cluster de GPU (réseau de cartes graphiques
détournées pour du calcul scientifique), pour entraîner des
réseaux de neurones profonds (deep learning).
Disciplines participant au Big Data
• – Une autre partie essentielle du Big Data réside dans la
conception et l’exploitation de bases de données "not only SQL"
(NoSQL). Elles permettent de stocker des données structurées
complexes, ou au contraire de simples fichiers textes que l’on
devra analyser en détail. Certaines BdD NoSQL ont été conçues
pour un stockage distribué à très large échelle, d’autres pour
favoriser la vitesse d’interrogation sur des données plus
restreintes.
• Le domaine des BdD NoSQL est encore en pleine évolution.
15
30/04/2024
Disciplines participant au Big Data
• Deux autres parties complètent l’aspect pluridisciplinaire du Big Data :
le domaine applicatif considéré, et la visualisation et présentation des
données et résultats.
• – Une connaissance du domaine d’activité de l’entreprise est nécessaire pour
que le data scientist puisse donner du sens aux données, guider son analyse
et interpréter les résultats de ses algorithmes.
• – Enfin, le data scientist doit aussi posséder une expertise en visualisation de
gros volumes de données et en présentation synthétique/simplifiée des
résultats. Cette facette de ces compétences et activités est essentielle pour
aboutir à une prise de décision dans un contexte industriel.
Mégadonnées et informatique
décisionnelle ???
16
30/04/2024
Merci
17