0% ont trouvé ce document utile (0 vote)
18 vues13 pages

Sid Partie2

Le chapitre 4 aborde la restitution des informations dans les systèmes d'information décisionnels, en mettant l'accent sur le reporting ad hoc et de masse, ainsi que sur le data mining comme méthode d'extraction de connaissances. Il décrit les étapes méthodologiques pour la découverte des connaissances et les tâches associées au data mining, telles que la classification et la recherche d'associations. Enfin, le chapitre 5 présente la gestion de projet pour l'implémentation d'entrepôts de données et les outils BI disponibles sur le marché.

Transféré par

jiresnana
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
18 vues13 pages

Sid Partie2

Le chapitre 4 aborde la restitution des informations dans les systèmes d'information décisionnels, en mettant l'accent sur le reporting ad hoc et de masse, ainsi que sur le data mining comme méthode d'extraction de connaissances. Il décrit les étapes méthodologiques pour la découverte des connaissances et les tâches associées au data mining, telles que la classification et la recherche d'associations. Enfin, le chapitre 5 présente la gestion de projet pour l'implémentation d'entrepôts de données et les outils BI disponibles sur le marché.

Transféré par

jiresnana
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Batna 2

Faculté de Mathématiques et Informatique


Département de Mathématique
Année universitaire 2019-2020

Cours systèmes
d’information décisionnels
Master 1 SAD

Dr Saadna yassmina
Chapitre 4: Restitution des informations

Introduction
Le processus de la BI assure quatre fonctions que sont la collecte, la consolidation, la
distribution et la restitution des données.

Phase de restitution
Cette dernière étape, également appelée reporting, se charge de présenter les informations à
valeur ajoutée de telle sorte qu’elles apparaissent de la façon la plus lisible possible dans le
cadre de l’aide à la décision. Les données sont principalement modélisées par des
représentations à base de requêtes afin de constituer des tableaux de bord ou des rapports via
des outils d’analyse décisionnelle.

Les outils de reporting permettent de restituer les données sous forme de rapport. Il existe
deux grand domaines dans le reporting : le reporting ad hoc et le reporting de masse.

 Le reporting ad hoc offre la possibilité à l’utilisateur de créer lui-même le rapport qui


l’intéresse avec les données qu’il souhaite. L’utilisateur aura accès à des vues métiers
spécialement conçu en fonction de ses besoins qui lui permettront de choisir
facilement l’information qu’il souhaite. Aucune connaissance en base de donnée n’est
nécessaire, les vues font la passerelle entre les données stockés et les besoins de
l’utilisateur.
 Le reporting de masse quant à lui va permettre de créer à l’avance des modèles de
rapport qui seront susceptible d’être souvent demandé par les utilisateurs. Le reporting
de masse permet de répondre rapidement à un besoin régulier de beaucoup
d’utilisateurs.
Les services offerts par le portail de restitution sont les services d'accès aux données, les
applications de modélisation et data mining.

Data mining (fouille de données)


Le fait de stocker simplement des informations dans un entrepôt de données n'apporte par les
bénéfices qu'une organisation recherche. Pour concrétiser la valeur ajoutée d'un entrepôt de
données, il est nécessaire d'extraire la connaissance enfouie au sein de celui-ci. Le data
mining constitue l'une des meilleures méthodes d'extraction de tendances et de profils
significatifs, à partir d'une vaste quantité de données.

Data mining est un processus d’analyse statistique. Les analystes utilisent des outils
techniques pour interroger et trier des téraoctets de données à la recherche de modèles.
Habituellement, l’analyste développera une hypothèse, comme les clients qui achètent le
produit X achètent généralement le produit Y dans les six mois. Lancer une requête sur les
données pertinentes pour prouver ou réfuter cette théorie est appelé « exploration de
données ». Les entreprises utilisent ensuite cette information pour prendre de meilleures
décisions en fonction de la façon dont elles comprennent les comportements de leurs clients et
de leurs fournisseurs.

La différence clé entre Data mining et Data warehousing est donc les données qui sont
correctement stockées sont plus faciles à extraire. Si une requête d’exploration de données
doit exécuter des téraoctets de données réparties sur plusieurs bases de données, qui reposent
sur des réseaux physiques différents, cette requête n’est pas efficace et l’obtention de résultats
prend beaucoup de temps. Toutefois, si l’expert en data warehouse conçoit un système de
stockage de données qui connecte étroitement les données pertinentes dans différentes bases
de données, le data miner peut désormais exécuter des requêtes beaucoup plus significatives
et efficaces pour améliorer l’activité.

Pourquoi Data mining?


 Explosion des données
 Masse importante de données (millions de milliards d’instances) : elle double tous
les 20 mois.
–BD très larges - Very Large Databases (VLDB)
 Données multi-dimensionnelles (milliers d’attributs)
–BD denses
 Inexploitables par les méthodes d’analyse classiques


Collecte de masses importantes de données (Gbytes/heure)
–Données satellitaires, génomiques (micro-arrays, …), simulations
scientifiques, etc.
 Besoin de traitement en temps réel de ces données
 Améliorer la productivité
 Forte pression due à la concurrence du marché
 Brièveté du cycle de vie des produits
 Besoin de prendre des décisions stratégiques efficaces
–Exploiter le vécu (données historiques) pour prédire le futur et anticiper le
marché
–individualisation des consommateurs (dé-massification).

 Croissance en puissance/coût des machines capables


 De supporter de gros volumes de données
 D’exécuter le processus intensif d’exploration
 Hétérogénéité des supports de stockage

Le processus de découverte des connaissances


Data mining : coeur de KDD (Knowledge Data Discovery).

Modèle : résumé global de l’ensemble des données.


Motif (pattern) : résumé local d’une région de l’espace des données (ex : règle a→b)

La démarche méthodologique pour la découverte des connaissances est comme suit :


1. Comprendre l’application
• Connaissances a priori, objectifs, etc.
2. Sélectionner un échantillon de données
• Choisir une méthode d’échantillonnage
3. Nettoyage et transformation des données
• Supprimer le «bruit» : données superflues, marginales, données
manquantes, etc.
• Effectuer une sélection d’attributs, réduire la dimension du problème,
discrétisation des variables continues, etc.
4. Appliquer les techniques de fouille de données (DM)
• le coeur du KDD
• Choisir le bon modèle et le bon algorithme

5. Visualiser, évaluer et interpréter les modèles découverts


• Analyser la connaissance (intérêt, critères d’évaluation)
• Compréhensibilité souvent capitale
• Vérifier sa validité (sur le reste de la base de données)
• Réitérer le processus si nécessaire
6. Gérer/déployer la connaissance découverte
• La mettre à la disposition des décideurs
• L’échanger avec d’autres applications (système expert, …)

Data mining # Statistiques

Data mining : Exploratoire, Data-driven modeling – Découverte de nouvelles connaissances


Statistiques : Confirmatoire, User-driven modeling – Vérification d’hypothèses - Distribution
d’une seule variable : moyenne, médiane, variance, écart-type, …

Data mining # apprentissage automatique


Apprentissage automatique : Données pas forcément prêtes, pas forcément massives.
Data mining : suppose la pré-existence de très grands volumes de données.

Data mining # Entrepôts de données

Entrepôt de données : base de données résumant diverses BD transactionnelles pour servir de


support à la prise de décision
Data mining : effectué sur des entrepôts de données aussi bien que sur des BD
transactionnelles.

Data mining # OLAP (online analytical processing)

OLAP : interactif, piloté par l’utilisateur (data mining manuel)


Data mining : largement automatisé

Tâches du Data Mining

 Classification
 Banques-Assurances : évaluer les demandes de crédit
 Marketing : cibler les clients qui répondront à un mailing
 Finances : Détecter les tendances boursières
 Grande distribution : classement des clients. Etc
 Régression
 prédire le salaire qu’une personne peut espérer,
 prédire la durée d’hospitalisation d’un patient,
 estimer le retour sur investissement d’une campagne publicitaire

 Recherche d’associations (règles d’association)


 Articles figurant dans le même ticket de caisse
 Ex : achat de couches bébé + lait ==> achat de lingette pour bébé
 Ex : achats couscous et viande ( Week-end)
 Recherche de séquences
 Liaisons entre événements sur une période de temps
 Prise en compte du temps (série temporelle)
 Ex : achat d’une imprimante ==> achat des cartouches d’ici 3 mois.

Le data data mining utilise la Notion d’induction [Peirce 1903] , l’induction est la
généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.
Utilisée en Data mining (tirer une conclusion à partir d’une série de faits, pas sûre à 100%).
Exp : La clio a 4 roues, La Peugeot 106 a 4 roues, La BMW M3 a 4 roues, La Mercedes 190 a
4 roues ==> Toutes les voitures ont 4 roues.
Chapitre 5: La gestion de projet data
warehouse
L’approche globale de l’implémentation d’entrepôts de données par le cycle de vie est
illustrée dans la figure suivante

Définition de Installation
l'architecture et sélection
technique des produits

Conception et
Conception Déploiement Maintenance
Planification Modélisation développement
Définition du modèle et
du projet dimensionnelle physique des éléments de croissance
des besoins la zone de
de préparation des
l'entreprise données

Spécification de Développement
l'application de l'application
utilisateur utilisateur

Gestion du projet

La gestion de projet garantit que les activités du cycle de vie dimensionnel restent sur la
bonne voie et sont bien synchronisées. Comme le montre la figure, les activités de gestion
de projet sont étalées tout au long du cycle de vie. Elles concernent le contrôle de l’état
d’avancement du projet, la détection et la résolution des problèmes et le contrôle des
changements, afin de rester dans la limite des objectifs et du périmètre. Enfin, la gestion de
projet inclut le développement d’un plan de communication détaillé, qui aborde à la fois
les services informatiques et utilisateurs. Une communication suivie est absolument
décisive pour gérer les attentes, et une bonne gestion des attentes est elle-même
absolument décisive pour que votre entrepôt atteigne ses objectifs.
Concrètement, un projet BI réussi va permettre d’augmenter les revenus de l’entreprise
ou du client, de prendre de l’avance sur la concurrence à différents niveaux, d’optimiser
les métiers et processus en interne, mais aussi de faciliter la prise de décision et les choix
de gestion tout au long de l’année.
4 étapes importantes pour mener à bien son projet décisionnel

1) Définir ses besoins, objectifs et le périmètre du projet BI

La réussite du projet BI va notamment reposer sur une stratégie clairement définie de


l’entreprise. Cela implique d’avoir une vision précise de l’avenir et de pouvoir travailler sur la
base d’objectifs réalistes, clairs à court, moyen et long termes, sans oublier la phase d’étude
de l’existant.

Cette maîtrise stratégique va permettre d’anticiper et de bien encadrer les délais. Le business
intelligence doit s’adapter au rythme et aux projections de l’activité, et non l’inverse.

Il est également important à ce stade de bien identifier de quels types d’informations les
décideurs, chefs de projet et autres rôles clés vont avoir besoin pour améliorer leur pilotage
par la data.

Des indicateurs précis doivent être déterminés en gardant bien en tête le cadre stratégique du
projet la pertinence de ces KPI est fondamentale pour éviter de se lancer à l’aveugle
en se basant sur des indicateurs de performance “globaux” ou propres à une industrie.

2) Choisir sa méthodologie, avec la possibilité d’opter pour une approche agile

Agile ou cycle en V? Le choix d’une méthodologie adaptée à la société est indispensable pour
la réussite du projet. Il faut notamment prendre en compte la vitesse d’évolution des besoins
et des priorités.

Trop souvent, les projets BI sont développés “à part” de la vie de la société, sans en
engager toutes les strates impliquées aux différents moments de réflexion et
d’implémentation, ce qui fait qu’un décalage aussi chronophage que contre-productif survient.
Opter pour une approche agile va alors permettre de gagner en réactivité, d’opter pour des
livraisons fréquentes et de limiter les itérations, là où une approche classique va impliquer
d’arrêter dès le départ tous les détails du projet.

Pour d’autres acteurs économiques, le projet BI reposera sur une approche plus traditionnelle
comme celle du cycle en V.

Quelle que soit la méthodologie adoptée, un processus de gouvernance de la qualité des


données doit absolument être mis en place, pour s’assurer notamment que la data est fiable,
bien triée et à jour. Une dimension d’autant plus importante que les écarts entre les données
peuvent être fréquentes.

3) Choisir ses outils de business intelligence et partager son plan d’action

Bien mener son projet décisionnel nécessite des outils BI adaptés, mais aussi des échanges et
une formation conséquente des équipes de travail qui vont être impliquées, pour une
adoption optimale au sein de l’entreprise : utilisateurs des outils en question, détail des
actions à venir, identification des ressources et des infrastructures nécessaires.

Là encore, le chef de projet va jouer un rôle important. Il va notamment contribuer à guider


le choix des solutions BI en fonction de la stratégie et des attentes précises de l’entreprise…
et non pas l’inverse !

Le plan d’action doit aussi préciser la hiérarchie et les tâches de chacun en matière de suivi et
d’implémentation du projet BI.

4) Organiser le reporting et (bien) transmettre l’information

Pour que les personnes en charge des décisions puissent réellement décider, justement, avoir
accès à des informations clairement organisées et présentées. Ce n’est pas un caprice
esthétique : des tableaux de bord clairs, des diagrammes, des chiffres lisibles et autres formats
de reporting vont permettre de s’y retrouver et d’éviter que le projet BI n’aboutisse à un amas
de données peu ou mal consultées.

Cela implique plusieurs choses : une perspective à garder en tête lors du choix de l’outil, une
formation technique adéquate des personnes amenées à l’utiliser et le consulter, ainsi qu’un
design clair qui donne du sens au contenu des rapports.

Par exemple, construire un tableau de bord fonctionnel est une question d’équilibre. Du plus
simple au plus complexe (qui va par exemple agréger les données issues d’une multitude de
sources, CRM, Google Analytics, ERP, etc.), il doit être suffisamment fourni pour donner
accès aux chiffres et informations nécessaires à la prise de décision, sans tomber dans le trop
plein de complexité. Pour décider de manière éclairée et passer à l’action, ce type de rapport
peut aussi inclure des commentaires, des recommandations pour l’action et une estimation de
l’impact de cette dernière.

Au final, cette étape de l’accès à des données pertinentes et organisées est donc cruciale,
faute de quoi le projet BI ne pourra déboucher que sur des décisions peu ou mal informées,
sur l’absence d’action ou sur des mésinterprétations qui peuvent directement menacer les
objectifs recherchés, et avec eux les performances.
Chapitre 5: Les outils BI
Les outils data warehouse

Le tableau suivant donne un aperçu des produits de data warehousing payants des principaux
fournisseurs et éditeurs (par ordre alphabétique).

Editeurs de Produits d’entreposage de données


logiciels
propriétaires

Amazon Web Amazon Redshift


Services
Cloudera Cloudera Enterprise
Hewlett Packard HP Vertica, HP ArcSight Data-Platform, HP Haven OnDemand, HP
Enterprise IDOL, HP Key View
IBM IBM Netezza, IBM PureData System, IBM InfoSphere DataStage
Microsoft SQL Server, Microsoft Analytics Platform System, Azure HDInsight
for Hadoop
Oracle Oracle Business Intelligence, Oracle Database, Oracle Exadata
Database Machine, Oracle NoSQL Database,Oracle TimesTen In-
Memory Database, Oracle Big Data Appliance
Pivotal Software Pivotal Greenplum, Pivotal Big Data Suite, Pivotal HDB (powered by
Apache HAWQ), Pivotal HDP (OEM Hortonsworks Data Platform)
SAP SAP NetWeaver Business Intelligence, SAP IQ, SAP HANA
Enterprise Cloud
SAS SAS Data Management, SAS Access Interface to Hadoop, SAS
Federation Server, SAS Data Loader for Hadoop, SAS Event Stream
Processing
Snowflake Snowflake
Computing
Teradata Teradata Active Enterprise Data Warehouse, Teradata Data Warehouse
Appliance, Teradata Appliance for Hadoop, Teradata Integrated Big
Data Platform, Teradata Aster Big Analytics Appliance
Le tableau suivant donne un aperçu des produits open source

Logiciels Extractio Tranformati Chargemen OLA Data Tablea Rappor


de BI n de on de t de P minin u de ts
données données données g bord
brutes brutes transformé
es
Pentaho ✔ ✔ ✔ - - - -
DI
Talend OS ✔ ✔ ✔ - - - -
Jasper ✔ ✔ ✔ - - - -
ETL
Pentaho ✔ - - ✔ - - ✔
Mondrian
Jedox ✔ - - ✔ - ✔ ✔
BIRT ✔ - - - - ✔ ✔
SQL ✔ - - ✔ - ✔ ✔
Power
Wabit
KNIME ✔ ✔ ✔ ✔ - ✔ ✔
RapidMin ✔ ✔ ✔ ✔ ✔ ✔ ✔
er
Weka ✔ ✔ - ✔ - ✔
JasperSoft ✔ ✔ ✔ ✔ ✔ ✔
Pentaho ✔ ✔ ✔ ✔ ✔ ✔ ✔
SpagoBI ✔ ✔ ✔ ✔ ✔ ✔ ✔
Les outils de data mining

Le tableau suivant donne un aperçu de toutes les caractéristiques importantes des outils de
data mining :

Caractéristiques Langage de Système Coûts/Licence


programmation d‘exploitation
RapidMiner Puissant et Java Windows, Freeware,
polyvalent avec un macOS, différentes versions
avantage Linux payantes
particulièrement
dans l'analyse
prédictive
WEKA Nombreuses Java Windows, Software libre
méthodes de macOS, (GPL)
classification Linux
Orange Crée des Logiciel core : Windows, Software libre
visualisations de C++, extensions macOS, (GPL)
données et langage Linux
particulièrement d'accès : Python
attrayantes et
intéressantes sans
connaissances
préalables
approfondies
KNIME Le principal outil Java Windows, Software libre
de data mining macOS, (GPL) (à partir de la
ouvert que l’analyse Linux version 2.1)
prédictive a rendu
accessible au grand
public
SAS Logiciel SAS Language Windows, Freeware limité
d’exploration de macOS, disponible dans les
données puissant et Linux établissements
coûteux pour les d'enseignement,
grandes entreprises prix sur demande
seulement,
différents modèles
extensifs possibles
Références
Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.

Berson, A., & Smith, S. J. (1997). Data warehousing, data mining, and OLAP. McGraw-Hill, Inc.

Bhatia, P. (2019). Data Mining and Data Warehousing: Principles and Practical Techniques.
Cambridge University Press.

Vous aimerez peut-être aussi