0% ont trouvé ce document utile (0 vote)
100 vues47 pages

Introduction à la Business Intelligence et Data Science

La Business Intelligence (BI) regroupe des outils et méthodes permettant de collecter, modéliser et restituer des données pour aider à la prise de décision dans les entreprises. Le Data Mining, quant à lui, est un processus d'analyse de grandes quantités de données visant à extraire des informations utiles et à identifier des modèles. La Data Science, qui utilise des méthodes avancées comme l'apprentissage automatique, se développe lentement en raison de la complexité des données et du manque de spécialistes qualifiés.

Transféré par

safi nouuu
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
100 vues47 pages

Introduction à la Business Intelligence et Data Science

La Business Intelligence (BI) regroupe des outils et méthodes permettant de collecter, modéliser et restituer des données pour aider à la prise de décision dans les entreprises. Le Data Mining, quant à lui, est un processus d'analyse de grandes quantités de données visant à extraire des informations utiles et à identifier des modèles. La Data Science, qui utilise des méthodes avancées comme l'apprentissage automatique, se développe lentement en raison de la complexité des données et du manque de spécialistes qualifiés.

Transféré par

safi nouuu
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Business Intelligence (BI)

Informatique décisionnelle
La Business Intelligence désigne un
ensemble :
 d'outils informatiques
Business
 de ressources : humaines, temps,
Intelligence budgets
ou  de méthodes alliant outils et
Informatique ressources humaines
Décisionnelle L’objectif est de piloter une
entreprise et aider à la prise de
décision : tableaux de bord,
rapports analytiques et prospectifs
La BI est basée sur :
 la collecte des données
 la modélisation des données
Business
 la restitution de données déstructurées et hétérogènes
Intelligence générées par l’entreprise : archives papier, bases de données
ou classiques, documents de bureautique (textes et feuilles de
calcul), données collectées via des services en ligne, via les
Informatique réseaux sociaux, etc.
Décisionnelle Ces données sont traitées par des outils d'extraction, de
transfert et de consolidation (en anglais ExtractTransform Load,
ETL) mis en place pour normaliser toutes les sources
d’informations et établir une cohérence entre elles
On prépare les données pour les rendre présentables
L'utilisateur a donc recours à des outils de reporting
permettant :
Business  de sélectionner les données selon divers critères : période,
Intelligence type de clientèle, régions, produits …
ou  de trier les données en appliquant des filtres
Informatique  de présenter les données sous divers modes de visualisation :
Décisionnelle rapports, tableaux de bord
 de rendre les données plus facilement exploitables par les
décideurs et acteurs de l’entreprise pour leur permettre de
prendre des décisions plus avisées
Volume
Big Data  les bases de données
enregistrent des masses de
données qu’il faut être en
Le capacité de collecter et de
modèle stocker
des 5v  ces volumes sont
exceptionnels
Variété
 on collecte des données de
formats hétérogènes qu’il faut
Big Data pouvoir corréler
 exemples : un message texte,
Le une image, une vidéo, un like,
un tweet … sont des données
modèle de différentes formes difficiles
des 5v à relier entre elles
 plus la variété est importante,
plus le traitement des données
est complexe
Vitesse
Ce critère caractérise à la fois :
Big Data  la capacité du système à
collecter rapidement
Le beaucoup de données et on
parle de collecte en temps réel
modèle  la capacité du système à
des 5v traiter les données collectées
le plus vite possible et on parle
de traitement en temps réel
Véracité
Big Data  pour assurer la fiabilité des
données, la qualification de la
donnée devient un critère
Le essentiel car peu d’entreprises
sont certaines de l’exactitude des
modèle données qu’elles collectent
des 5v  la question est : les données
sont-elles réelles ? pertinentes ?
Valeur
Big Data  la finalité de l’analyse des
données est de les valoriser au
travers de croisements inédits
Le et les faire parler pour obtenir
modèle de nouveaux indicateurs
des 5v  la question est : quelle est la
valeur ajoutée d’une donnée ?
 la Data Science, littéralement science des données, est une
discipline qui étudie les informations et leurs sources, ainsi que
les méthodes permettant de les transformer en ressources
Data utiles pour la création de stratégies d’entreprise

Science  l'extraction d'importants volumes de données permet aux


organisations d'identifier des modèles qui les aident à
maîtriser leurs coûts, à améliorer leur efficacité, à identifier de
Définition nouveaux débouchés commerciaux et à améliorer leur
avantage concurrentiel
 ce processus, mené par des Data Scientists, est qualifié
d'exploration des données, c’est le Data Mining
 le Data Scientist crée des modèles de visualisation des
données
 il présente des informations décisionnelles exploitables,
notamment aux décideurs, et en explique clairement la
Data signification
Science  il facilite et améliore la prise de décisions dans les entreprises
 il exploite des données issues de sources multiples et doit donc
disposer de nombreuses compétences
Data  sources multiples : informations numériques venant
Scientist d’ordinateurs, de smartphones, de l’Internet des objets (IoT),
des réseaux sociaux, d’enquêtes, d’achats, de recherches et
comportements sur Internet ...
 compétences : la Data Science fait appel aux mathématiques,
aux statistiques, à l'informatique et au Data Mining notamment
 la Data Science se développe assez lentement dans
l'entreprise car l'identification et l'analyse d'un volume
colossal de données non structurées est complexe, onéreuse
et chronophage
Data  cette discipline manque de compétences : la formation de
spécialistes est récente et encore incertaine quant aux
Science résultats et compétences réellement acquises
 l’avenir réside donc :
Développement  dans la formation qualitative de nouveaux data
scientists
 dans l’amélioration des outils, notamment
l’apprentissage statistique qui relève de l’intelligence
artificielle afin d'automatiser le traitement des données
 ces algorithmes évolués font leur propre apprentissage et
peuvent traiter de très grandes quantités de données en
peu de temps, comparativement à ce que l’homme peut
Data faire
Science  les applications d'apprentissage automatique utilisées dans
le champ de la Data Science intègrent par exemple la
reconnaissance d'images et la reconnaissance vocale
Et demain ?  exemple : des algorithmes d'apprentissage automatique
sont embarqués dans les véhicules autonomes afin de
parfaire leurs comportements
Data Mining
Prévoir
et anticiper l'avenir
 le Data Mining (exploration de
données) est un processus
informatique qui analyse de grandes
quantités d'informations

Data  ce processus est la source des (Big)


Data Analytics, c’est-à-dire :
Mining  des analyses prédictives
 de l’exploitation des données
collectées
Définition
 autres termes utilisés :
 forage de données
 exploration de données
 fouilles de données
Objectifs ?
 comprendre les données acquises
 extraire les informations les plus
Data utiles
Mining  les transformer en connaissances

Comment ?
Définition
 en établissant des relations entre les
données
 en repérant des patterns (modèles)
 une chaîne de grands magasins
remarque que les achats de
Une première produits pour bébés, tard le soir,
sont corrélés à l'augmentation des
illustration achats de bières
 coïncidence ? non … l’analyse
Des approfondie des profils des
acheteurs révèle que les clients
produits sont principalement des jeunes
pour pères âgés de 25 à 35 ans
bébés …  l’analyse montre également que
ces ventes corrélées sont plus
importantes les jeudis et samedis
 l’enseigne commercialise alors
ses produits pour bébés et les
bières dans des linéaires très
proches
 les ventes combinées des deux
gammes de produits montent
… et en flèche
des bières !  l’enseigne ne solde jamais ces
deux produits les jeudis et les
samedis
 l’exploration des relations entre
des données et des événements
à priori sans rapport améliore la
prise de décision commerciale
 1 - collecte, extraction, transformation, chargement des données
dans un dépôt (voir Data Warehouse)
 2 - stockage organisé ou non dans une base de données,
relationnelle ou non
 3 - accès aux données pour les :
Data  informaticiens (concepteurs / développeurs)
Mining  data analysts qui expriment les besoins et exploitent les
informations préparées par les informaticiens
en 5 phases  4 - analyse des données et recherche des patterns (modèles) :
 logiciels
 data analysts
 5 - présentation et partage des données sous un format exploitable
et compréhensible : rapports, graphiques, tableaux …
1 – classes
 l’analyse de certaines données stockées permet de localiser
d’autres données en groupes prédéterminés
 exemple de minage par classes de données : une entreprise de
Analyse livraison de repas à domicile mine les commandes passées par
grâce à ses clients pour déterminer :
 les dates et créneaux horaires des commandes
4 types
 le contenu des commandes
de relations
 cela leur permet d’optimiser :
 leurs stocks de produits
 la disponibilité de leurs livreurs
 leurs tournées de livraison …
2 – clusters
 les données sont découpées en clusters par rapport à des
relations logiques (cohérentes)
 exemple de minage par cluster : le Web
Analyse  il contient des milliards de pages
 les résultats fournis par un moteur de recherche peuvent
grâce à donner des millions de réponses
4 types  le clustering est utilisé pour regrouper ces résultats en
de relations quelques clusters, chacun reprenant un élément spécifique
de la requête
 par exemple, une requête sur le cinéma donne des pages
Web regroupées dans des clusters de catégories : films,
critiques, bandes-annonces, actrices et acteurs, cinémas …
 ceci facilite l’exploitation ultérieure des données
3 - associations (corrélations)
 les données sont minées pour identifier des associations (ou
corrélations)
 exemple de minage associatif : les couches pour bébés et les
Analyse bières achetées par les papas âgés de 25 à 35 ans spécialement
les jeudis et samedis
grâce à 4 - patterns (modèles) séquentiels
4 types  les données sont minées pour prévoir des modèles
de relations comportementaux et des tendances
 on parle aussi d’anticipation
 exemple : un vendeur d’équipements extérieurs peut prévoir
les ventes de sacs à dos en se basant sur l’analyse des ventes
des sacs de couchage et de chaussures de randonnée
Le prix des infrastructures est très
variable : de quelques milliers à plusieurs
millions de dollars selon la nature des
applications et le volume des données
stockées
Data
Les critères :
Mining  le volume des données à stocker et à
traiter
Infrastructures  la complexité des requêtes à développer
et coûts liés  la complexité des requêtes à exécuter :
plus une requête est complexe plus elle
demande de puissance machine
 l’usage de produits Open Source ou sous
licences
 le type de base de données :
 base relationnelle :
efficacité communément
Data admise jusqu’à 50 gigabytes
de données
Mining  base non relationnelle :
(NoSQL par exemple) pour
traiter des volumes
Infrastructures supérieurs. Ce type de base
est couplé à des
et coûts liés architectures matérielles
plus évoluées (MPP :
Massively Parallel
MPP : Massively Parallel Processing
Processing)
Data
Mining

La méthode
CRISP
Cross-Industry Standard Process (for Data Mining)
[Link]
Méthode en 6 étapes créée par IBM au cœur des années 60
Data 1 - compréhension du métier  connaître :
Mining  les éléments métiers
 les problématiques à résoudre et les objectifs visés
La méthode 2 - compréhension des données  déterminer :
CRISP  quelles sont les données à analyser
 la qualité des données existantes (intégrité, véracité)
Les 6  la quantité de données nécessaires à une analyse pertinente
étapes  les liens à identifier entre les données avec l’aide de l’entreprise
car la connaissance « métier » est indispensable
Data
3 - construction de la base de données (Data Hub)
Mining
 préparation des données (harmonisation des formats)
 classement des données selon critères fournis par l’entreprise
La méthode
 nettoyage des données
CRISP
 rendre les données compatibles avec les algorithmes qui
seront utilisés
Les 6  création d’une base de données structurée ou non
étapes
Data
4 – modélisation  générer de la connaissance
Mining  choix, paramétrage et tests de différents algorithmes pour
créer un modèle
La méthode  1er objectif : être explicatif, justifier le passé et le présent en
CRISP fonction des données que l’on a collectées
 2ème objectif : être prédictif, expliquer l’avenir

Les 6  3ème objectif : être prescriptif, anticiper les futures situations


en proposant déjà des optimisations possibles
étapes
Data 5 - évaluation
Mining  vérifier si le modèle et les connaissances acquises répondent
aux objectifs de l’entreprise
 corriger / améliorer le modèle
La méthode 6 - déploiement
CRISP  mise en production du modèle
 diffuser de manière intelligible la connaissance obtenue
Les 6  exemples : communication web, communication interne
étapes (rapports, tableaux …)
Quelques outils Open Source :
 Knime [Link]
 Orange Data Mining [Link]
Data  RapidMiner [Link]
Mining  Weka (Université de Waikato - NZ)
[Link]

Quelques Quelques produits à licences :

logiciels  SPSS (IBM) [Link]


 SAS [Link]
 Azure Analysis Services (Microsoft)
[Link]
 les coûts sont difficilement maitrisables à ce jour :
 technologies de pointe en constante évolution
 compétences humaines rares
Data
 les entreprises sont tributaires :
Mining  du coût des infrastructures
 du coût des développements et améliorations des logiciels
Inconvénients car ce sont des technologies évoluées, développées et
entretenues par des spécialistes
pour les  du coût de recrutement des spécialistes du domaine
entreprises  des rémunérations des spécialistes : informaticiens, data
analysts
 elles n’ont aucune garantie du retour sur investissement
Data  la collecte massive sans
Mining consentement : réseaux
sociaux, sondages …
 l’utilisateur / client reste
Inconvénients le premier responsable de
pour les ses propres informations
clients et  la sécurité des données
utilisateurs que  le profilage et la nécessité
de l’encadrer (voir RGPD)
nous sommes
 Universités
 Ecoles informatiques avec
spécialisation Big Data / Data Mining /
Machine Learning
 Ecoles non spécialisées proposant des
Data modules dédiés
Mining  MOOC
 [Link]
[Link]/fr/cours/sinitier-la-data-
Formations science-et-ses-enjeux/
 [Link]
 Attention : la qualité de tous ces
enseignements reste encore à
démontrer sur le long terme (domaine
trop récent)
 la demande en Data Scientists au niveau mondial augmente
chaque année
 ce secteur n’est pas encore saturé : les grands acteurs du
Data numérique prévoient que la demande pour ces spécialistes
Mining augmentera de 15 à 20% par an au moins jusqu’en 2025
 les prévisions ne peuvent pas aller au-delà, car nous sommes
dépendants :
Un métier  de l’évolution des technologies actuelles
d’avenir ?  de notre capacité à former ces spécialistes
 du nombre de nouvelles entreprises qui feront appel à
l’analyse des données
 de l’augmentation du volume mondial des données
La possession des données
des patients telles que :
Data
 les dossiers médicaux
Mining
 les examens physiques
 la fréquence des
Illustrations consultations
 la nature des interventions
La médecine permet de prescrire des
traitements plus efficaces
Cela permet une gestion plus
efficiente et rentable des
ressources de santé :
Data  en identifiant les risques
Mining  en prédisant les maladies dans
certains segments de la
Illustrations population, régions ou pays
 en prévoyant une durée
d'hospitalisation
La médecine Cela peut renforcer les liens avec
les patients avec une meilleure
connaissance de leurs besoins
Les médias utilisent l'exploration
Data de données en temps réel pour
Mining mesurer leurs audiences, télévision
et radio
Ces systèmes collectent et
Illustrations analysent des informations parfois
anonymes provenant des
émissions ainsi que des
Les médias rediffusions (replay, podcasts …)
Ils peuvent ainsi :
Data  connaître les centres d’intérêts
des téléspectateurs et auditeurs
Mining  faire des recommandations
personnalisées
Illustrations Les médias fournissent également
ces éléments à leurs annonceurs

Les médias Ces annonceurs vont les utiliser


pour cibler plus précisément leurs
clients potentiels
Pour répondre au
mécontentement de leurs clients
quant à leur qualité de services, les
banques ont fait appel au Data
Mining
Banques :
Les données analysées concernent
les sites web et les applications
du mobiles des banques :
mécontentement  leur usage
…  leur fréquentation
 les temps passés sur ces sites et
applications
 les commentaires des clients
Elles constatent :
 l’importance des services mobiles
 la nécessité de les rendre plus
accessibles
 la nécessité de les personnaliser
… à la  la nécessité de les sécuriser

fidélisation  et la très grande part qu’ils jouent


dans l’appréciation de la qualité des
services et de la banque
Afin de rétablir la confiance et
construire une relation client durable,
ces services sont alors améliorés et
deviennent même des arguments
commerciaux
 le Big Data et le Data Mining
contribuent à notre sécurité
pendant un vol
 grâce à des algorithmes capables
de prévoir la date à laquelle les
Aéronautique pièces seront déficientes, prenant
en compte des facteurs tels que le
temps, les contraintes exercées ou
Maintenance la fréquence d’utilisation, une
maintenance préventive est mise
prédictive et en place
sécurité  de potentiels accidents sont évités
 l’industrie aéronautique est
gagnante en investissant dans des
processus de maintenance
efficaces
 les compagnies aériennes
ajustent les prix des billets en
Compagnies fonction des tendances, des
aériennes profils, des destinations et des
habitudes de voyages des clients
 le principe est le suivant : la
Le compagnie identifie la personne
Dynamic qui cherche un vol, puis exploite
ses données grâce à son compte
Pricing client et à son historique pour
faire varier le prix du billet
 le taux de conversion (visite
d’un site ou usage d’une
application mobile qui se
transforme en commande
Compagnies ferme) augmente en
proposant :
aériennes  des tarifs plus abordables
aux nouveaux clients
 des billets plus chers aux
Le voyageurs business qui
Dynamic sont moins susceptibles
d’être rebutés par des prix
Pricing plus élevés
 2 places similaires dans le
même avion ne sont donc pas
vendues au même prix
 une entreprise internationale de
cosmétiques demande une étude
du profil de ses clients
Crème solaire  l'agence qui en est chargée est
très expérimentée dans ce
Des clients domaine car elle exploite les
traces laissées par les internautes
inattendus depuis le tout début d'internet
 et pourtant … l’agence commente
son étude comme ceci :
"On s'attendait à trouver des femmes dont
l'âge variait en fonction des lignes de
produits.
En fait on trouve des hommes en masse sur
Crème solaire une catégorie de produits : les crèmes
solaires.
En croisant les données on se rend compte
Des clients que ces messieurs aiment aussi le golf.

inattendus : Ils se rendent sur les greens quand il fait


beau, donc ils ont besoin de crème solaire."
 l’entreprise revoit son marketing :
les golfeurs ! plutôt que de mettre seulement
une mère et ses enfants dans ses
publicités pour les crèmes …
 … elle ajoute le papa !
 Citymapper est une application
mobile qui agrège les informations
utiles pour se déplacer en bus, métro,
vélo, taxi, VTC ou à pied
Transports  depuis sa création en 2013, elle
compile les données des itinéraires de
ses usagers
Analyse et  à sa création elle identifie des lacunes
développement notamment dans le réseau de
du réseau transports de Londres
 elle identifie les zones géographiques
où il manque des liaisons, les heures
de la journée où l'offre de transport
est insuffisante
 en 2017, elle lance ses propres bus
qui ont un grand succès
Transports
 la régie des transports de la capitale
anglaise réagit en développant son
Analyse et offre aux mêmes endroits et mêmes
horaires
développement
 Citymapper étudie alors les mêmes
du réseau opportunités dans les plus grandes
cités du monde

Vous aimerez peut-être aussi