Business Intelligence (BI)
Informatique décisionnelle
La Business Intelligence désigne un
ensemble :
d'outils informatiques
Business
de ressources : humaines, temps,
Intelligence budgets
ou de méthodes alliant outils et
Informatique ressources humaines
Décisionnelle L’objectif est de piloter une
entreprise et aider à la prise de
décision : tableaux de bord,
rapports analytiques et prospectifs
La BI est basée sur :
la collecte des données
la modélisation des données
Business
la restitution de données déstructurées et hétérogènes
Intelligence générées par l’entreprise : archives papier, bases de données
ou classiques, documents de bureautique (textes et feuilles de
calcul), données collectées via des services en ligne, via les
Informatique réseaux sociaux, etc.
Décisionnelle Ces données sont traitées par des outils d'extraction, de
transfert et de consolidation (en anglais ExtractTransform Load,
ETL) mis en place pour normaliser toutes les sources
d’informations et établir une cohérence entre elles
On prépare les données pour les rendre présentables
L'utilisateur a donc recours à des outils de reporting
permettant :
Business de sélectionner les données selon divers critères : période,
Intelligence type de clientèle, régions, produits …
ou de trier les données en appliquant des filtres
Informatique de présenter les données sous divers modes de visualisation :
Décisionnelle rapports, tableaux de bord
de rendre les données plus facilement exploitables par les
décideurs et acteurs de l’entreprise pour leur permettre de
prendre des décisions plus avisées
Volume
Big Data les bases de données
enregistrent des masses de
données qu’il faut être en
Le capacité de collecter et de
modèle stocker
des 5v ces volumes sont
exceptionnels
Variété
on collecte des données de
formats hétérogènes qu’il faut
Big Data pouvoir corréler
exemples : un message texte,
Le une image, une vidéo, un like,
un tweet … sont des données
modèle de différentes formes difficiles
des 5v à relier entre elles
plus la variété est importante,
plus le traitement des données
est complexe
Vitesse
Ce critère caractérise à la fois :
Big Data la capacité du système à
collecter rapidement
Le beaucoup de données et on
parle de collecte en temps réel
modèle la capacité du système à
des 5v traiter les données collectées
le plus vite possible et on parle
de traitement en temps réel
Véracité
Big Data pour assurer la fiabilité des
données, la qualification de la
donnée devient un critère
Le essentiel car peu d’entreprises
sont certaines de l’exactitude des
modèle données qu’elles collectent
des 5v la question est : les données
sont-elles réelles ? pertinentes ?
Valeur
Big Data la finalité de l’analyse des
données est de les valoriser au
travers de croisements inédits
Le et les faire parler pour obtenir
modèle de nouveaux indicateurs
des 5v la question est : quelle est la
valeur ajoutée d’une donnée ?
la Data Science, littéralement science des données, est une
discipline qui étudie les informations et leurs sources, ainsi que
les méthodes permettant de les transformer en ressources
Data utiles pour la création de stratégies d’entreprise
Science l'extraction d'importants volumes de données permet aux
organisations d'identifier des modèles qui les aident à
maîtriser leurs coûts, à améliorer leur efficacité, à identifier de
Définition nouveaux débouchés commerciaux et à améliorer leur
avantage concurrentiel
ce processus, mené par des Data Scientists, est qualifié
d'exploration des données, c’est le Data Mining
le Data Scientist crée des modèles de visualisation des
données
il présente des informations décisionnelles exploitables,
notamment aux décideurs, et en explique clairement la
Data signification
Science il facilite et améliore la prise de décisions dans les entreprises
il exploite des données issues de sources multiples et doit donc
disposer de nombreuses compétences
Data sources multiples : informations numériques venant
Scientist d’ordinateurs, de smartphones, de l’Internet des objets (IoT),
des réseaux sociaux, d’enquêtes, d’achats, de recherches et
comportements sur Internet ...
compétences : la Data Science fait appel aux mathématiques,
aux statistiques, à l'informatique et au Data Mining notamment
la Data Science se développe assez lentement dans
l'entreprise car l'identification et l'analyse d'un volume
colossal de données non structurées est complexe, onéreuse
et chronophage
Data cette discipline manque de compétences : la formation de
spécialistes est récente et encore incertaine quant aux
Science résultats et compétences réellement acquises
l’avenir réside donc :
Développement dans la formation qualitative de nouveaux data
scientists
dans l’amélioration des outils, notamment
l’apprentissage statistique qui relève de l’intelligence
artificielle afin d'automatiser le traitement des données
ces algorithmes évolués font leur propre apprentissage et
peuvent traiter de très grandes quantités de données en
peu de temps, comparativement à ce que l’homme peut
Data faire
Science les applications d'apprentissage automatique utilisées dans
le champ de la Data Science intègrent par exemple la
reconnaissance d'images et la reconnaissance vocale
Et demain ? exemple : des algorithmes d'apprentissage automatique
sont embarqués dans les véhicules autonomes afin de
parfaire leurs comportements
Data Mining
Prévoir
et anticiper l'avenir
le Data Mining (exploration de
données) est un processus
informatique qui analyse de grandes
quantités d'informations
Data ce processus est la source des (Big)
Data Analytics, c’est-à-dire :
Mining des analyses prédictives
de l’exploitation des données
collectées
Définition
autres termes utilisés :
forage de données
exploration de données
fouilles de données
Objectifs ?
comprendre les données acquises
extraire les informations les plus
Data utiles
Mining les transformer en connaissances
Comment ?
Définition
en établissant des relations entre les
données
en repérant des patterns (modèles)
une chaîne de grands magasins
remarque que les achats de
Une première produits pour bébés, tard le soir,
sont corrélés à l'augmentation des
illustration achats de bières
coïncidence ? non … l’analyse
Des approfondie des profils des
acheteurs révèle que les clients
produits sont principalement des jeunes
pour pères âgés de 25 à 35 ans
bébés … l’analyse montre également que
ces ventes corrélées sont plus
importantes les jeudis et samedis
l’enseigne commercialise alors
ses produits pour bébés et les
bières dans des linéaires très
proches
les ventes combinées des deux
gammes de produits montent
… et en flèche
des bières ! l’enseigne ne solde jamais ces
deux produits les jeudis et les
samedis
l’exploration des relations entre
des données et des événements
à priori sans rapport améliore la
prise de décision commerciale
1 - collecte, extraction, transformation, chargement des données
dans un dépôt (voir Data Warehouse)
2 - stockage organisé ou non dans une base de données,
relationnelle ou non
3 - accès aux données pour les :
Data informaticiens (concepteurs / développeurs)
Mining data analysts qui expriment les besoins et exploitent les
informations préparées par les informaticiens
en 5 phases 4 - analyse des données et recherche des patterns (modèles) :
logiciels
data analysts
5 - présentation et partage des données sous un format exploitable
et compréhensible : rapports, graphiques, tableaux …
1 – classes
l’analyse de certaines données stockées permet de localiser
d’autres données en groupes prédéterminés
exemple de minage par classes de données : une entreprise de
Analyse livraison de repas à domicile mine les commandes passées par
grâce à ses clients pour déterminer :
les dates et créneaux horaires des commandes
4 types
le contenu des commandes
de relations
cela leur permet d’optimiser :
leurs stocks de produits
la disponibilité de leurs livreurs
leurs tournées de livraison …
2 – clusters
les données sont découpées en clusters par rapport à des
relations logiques (cohérentes)
exemple de minage par cluster : le Web
Analyse il contient des milliards de pages
les résultats fournis par un moteur de recherche peuvent
grâce à donner des millions de réponses
4 types le clustering est utilisé pour regrouper ces résultats en
de relations quelques clusters, chacun reprenant un élément spécifique
de la requête
par exemple, une requête sur le cinéma donne des pages
Web regroupées dans des clusters de catégories : films,
critiques, bandes-annonces, actrices et acteurs, cinémas …
ceci facilite l’exploitation ultérieure des données
3 - associations (corrélations)
les données sont minées pour identifier des associations (ou
corrélations)
exemple de minage associatif : les couches pour bébés et les
Analyse bières achetées par les papas âgés de 25 à 35 ans spécialement
les jeudis et samedis
grâce à 4 - patterns (modèles) séquentiels
4 types les données sont minées pour prévoir des modèles
de relations comportementaux et des tendances
on parle aussi d’anticipation
exemple : un vendeur d’équipements extérieurs peut prévoir
les ventes de sacs à dos en se basant sur l’analyse des ventes
des sacs de couchage et de chaussures de randonnée
Le prix des infrastructures est très
variable : de quelques milliers à plusieurs
millions de dollars selon la nature des
applications et le volume des données
stockées
Data
Les critères :
Mining le volume des données à stocker et à
traiter
Infrastructures la complexité des requêtes à développer
et coûts liés la complexité des requêtes à exécuter :
plus une requête est complexe plus elle
demande de puissance machine
l’usage de produits Open Source ou sous
licences
le type de base de données :
base relationnelle :
efficacité communément
Data admise jusqu’à 50 gigabytes
de données
Mining base non relationnelle :
(NoSQL par exemple) pour
traiter des volumes
Infrastructures supérieurs. Ce type de base
est couplé à des
et coûts liés architectures matérielles
plus évoluées (MPP :
Massively Parallel
MPP : Massively Parallel Processing
Processing)
Data
Mining
La méthode
CRISP
Cross-Industry Standard Process (for Data Mining)
[Link]
Méthode en 6 étapes créée par IBM au cœur des années 60
Data 1 - compréhension du métier connaître :
Mining les éléments métiers
les problématiques à résoudre et les objectifs visés
La méthode 2 - compréhension des données déterminer :
CRISP quelles sont les données à analyser
la qualité des données existantes (intégrité, véracité)
Les 6 la quantité de données nécessaires à une analyse pertinente
étapes les liens à identifier entre les données avec l’aide de l’entreprise
car la connaissance « métier » est indispensable
Data
3 - construction de la base de données (Data Hub)
Mining
préparation des données (harmonisation des formats)
classement des données selon critères fournis par l’entreprise
La méthode
nettoyage des données
CRISP
rendre les données compatibles avec les algorithmes qui
seront utilisés
Les 6 création d’une base de données structurée ou non
étapes
Data
4 – modélisation générer de la connaissance
Mining choix, paramétrage et tests de différents algorithmes pour
créer un modèle
La méthode 1er objectif : être explicatif, justifier le passé et le présent en
CRISP fonction des données que l’on a collectées
2ème objectif : être prédictif, expliquer l’avenir
Les 6 3ème objectif : être prescriptif, anticiper les futures situations
en proposant déjà des optimisations possibles
étapes
Data 5 - évaluation
Mining vérifier si le modèle et les connaissances acquises répondent
aux objectifs de l’entreprise
corriger / améliorer le modèle
La méthode 6 - déploiement
CRISP mise en production du modèle
diffuser de manière intelligible la connaissance obtenue
Les 6 exemples : communication web, communication interne
étapes (rapports, tableaux …)
Quelques outils Open Source :
Knime [Link]
Orange Data Mining [Link]
Data RapidMiner [Link]
Mining Weka (Université de Waikato - NZ)
[Link]
Quelques Quelques produits à licences :
logiciels SPSS (IBM) [Link]
SAS [Link]
Azure Analysis Services (Microsoft)
[Link]
les coûts sont difficilement maitrisables à ce jour :
technologies de pointe en constante évolution
compétences humaines rares
Data
les entreprises sont tributaires :
Mining du coût des infrastructures
du coût des développements et améliorations des logiciels
Inconvénients car ce sont des technologies évoluées, développées et
entretenues par des spécialistes
pour les du coût de recrutement des spécialistes du domaine
entreprises des rémunérations des spécialistes : informaticiens, data
analysts
elles n’ont aucune garantie du retour sur investissement
Data la collecte massive sans
Mining consentement : réseaux
sociaux, sondages …
l’utilisateur / client reste
Inconvénients le premier responsable de
pour les ses propres informations
clients et la sécurité des données
utilisateurs que le profilage et la nécessité
de l’encadrer (voir RGPD)
nous sommes
Universités
Ecoles informatiques avec
spécialisation Big Data / Data Mining /
Machine Learning
Ecoles non spécialisées proposant des
Data modules dédiés
Mining MOOC
[Link]
[Link]/fr/cours/sinitier-la-data-
Formations science-et-ses-enjeux/
[Link]
Attention : la qualité de tous ces
enseignements reste encore à
démontrer sur le long terme (domaine
trop récent)
la demande en Data Scientists au niveau mondial augmente
chaque année
ce secteur n’est pas encore saturé : les grands acteurs du
Data numérique prévoient que la demande pour ces spécialistes
Mining augmentera de 15 à 20% par an au moins jusqu’en 2025
les prévisions ne peuvent pas aller au-delà, car nous sommes
dépendants :
Un métier de l’évolution des technologies actuelles
d’avenir ? de notre capacité à former ces spécialistes
du nombre de nouvelles entreprises qui feront appel à
l’analyse des données
de l’augmentation du volume mondial des données
La possession des données
des patients telles que :
Data
les dossiers médicaux
Mining
les examens physiques
la fréquence des
Illustrations consultations
la nature des interventions
La médecine permet de prescrire des
traitements plus efficaces
Cela permet une gestion plus
efficiente et rentable des
ressources de santé :
Data en identifiant les risques
Mining en prédisant les maladies dans
certains segments de la
Illustrations population, régions ou pays
en prévoyant une durée
d'hospitalisation
La médecine Cela peut renforcer les liens avec
les patients avec une meilleure
connaissance de leurs besoins
Les médias utilisent l'exploration
Data de données en temps réel pour
Mining mesurer leurs audiences, télévision
et radio
Ces systèmes collectent et
Illustrations analysent des informations parfois
anonymes provenant des
émissions ainsi que des
Les médias rediffusions (replay, podcasts …)
Ils peuvent ainsi :
Data connaître les centres d’intérêts
des téléspectateurs et auditeurs
Mining faire des recommandations
personnalisées
Illustrations Les médias fournissent également
ces éléments à leurs annonceurs
Les médias Ces annonceurs vont les utiliser
pour cibler plus précisément leurs
clients potentiels
Pour répondre au
mécontentement de leurs clients
quant à leur qualité de services, les
banques ont fait appel au Data
Mining
Banques :
Les données analysées concernent
les sites web et les applications
du mobiles des banques :
mécontentement leur usage
… leur fréquentation
les temps passés sur ces sites et
applications
les commentaires des clients
Elles constatent :
l’importance des services mobiles
la nécessité de les rendre plus
accessibles
la nécessité de les personnaliser
… à la la nécessité de les sécuriser
fidélisation et la très grande part qu’ils jouent
dans l’appréciation de la qualité des
services et de la banque
Afin de rétablir la confiance et
construire une relation client durable,
ces services sont alors améliorés et
deviennent même des arguments
commerciaux
le Big Data et le Data Mining
contribuent à notre sécurité
pendant un vol
grâce à des algorithmes capables
de prévoir la date à laquelle les
Aéronautique pièces seront déficientes, prenant
en compte des facteurs tels que le
temps, les contraintes exercées ou
Maintenance la fréquence d’utilisation, une
maintenance préventive est mise
prédictive et en place
sécurité de potentiels accidents sont évités
l’industrie aéronautique est
gagnante en investissant dans des
processus de maintenance
efficaces
les compagnies aériennes
ajustent les prix des billets en
Compagnies fonction des tendances, des
aériennes profils, des destinations et des
habitudes de voyages des clients
le principe est le suivant : la
Le compagnie identifie la personne
Dynamic qui cherche un vol, puis exploite
ses données grâce à son compte
Pricing client et à son historique pour
faire varier le prix du billet
le taux de conversion (visite
d’un site ou usage d’une
application mobile qui se
transforme en commande
Compagnies ferme) augmente en
proposant :
aériennes des tarifs plus abordables
aux nouveaux clients
des billets plus chers aux
Le voyageurs business qui
Dynamic sont moins susceptibles
d’être rebutés par des prix
Pricing plus élevés
2 places similaires dans le
même avion ne sont donc pas
vendues au même prix
une entreprise internationale de
cosmétiques demande une étude
du profil de ses clients
Crème solaire l'agence qui en est chargée est
très expérimentée dans ce
Des clients domaine car elle exploite les
traces laissées par les internautes
inattendus depuis le tout début d'internet
et pourtant … l’agence commente
son étude comme ceci :
"On s'attendait à trouver des femmes dont
l'âge variait en fonction des lignes de
produits.
En fait on trouve des hommes en masse sur
Crème solaire une catégorie de produits : les crèmes
solaires.
En croisant les données on se rend compte
Des clients que ces messieurs aiment aussi le golf.
inattendus : Ils se rendent sur les greens quand il fait
beau, donc ils ont besoin de crème solaire."
l’entreprise revoit son marketing :
les golfeurs ! plutôt que de mettre seulement
une mère et ses enfants dans ses
publicités pour les crèmes …
… elle ajoute le papa !
Citymapper est une application
mobile qui agrège les informations
utiles pour se déplacer en bus, métro,
vélo, taxi, VTC ou à pied
Transports depuis sa création en 2013, elle
compile les données des itinéraires de
ses usagers
Analyse et à sa création elle identifie des lacunes
développement notamment dans le réseau de
du réseau transports de Londres
elle identifie les zones géographiques
où il manque des liaisons, les heures
de la journée où l'offre de transport
est insuffisante
en 2017, elle lance ses propres bus
qui ont un grand succès
Transports
la régie des transports de la capitale
anglaise réagit en développant son
Analyse et offre aux mêmes endroits et mêmes
horaires
développement
Citymapper étudie alors les mêmes
du réseau opportunités dans les plus grandes
cités du monde