2-Datawarehouse - English
2-Datawarehouse - English
Motivations et architecture
Conception de la BD support
Alimentation du DW
Exploitation OLAP
Conclusion
1. OLTP et OLAP
Reports
&
Appli.
Appli.
Appli.
OLAP Analysis
ETL
OLTP DW
DM Aides à
la décision
Introduction DW
Explosion de l ’OLAP
12
10
8
6
4
2
0
1994 1995 1996 1997 1998 1999 2000 2001
Années
Introduction DW
Motivations des entreprises
Introduction DW
Datawarehouse : définition
Entrepôt de données
Ensemble de données historisées variant dans le temps,
organisé par sujets, consolidé dans une base de données
unique, géré dans un environnement de stockage
particulier, aidant à la prise de décision dans l’entreprise.
Trois fonctions essentielles :
collecte de données de bases existantes et chargement
gestion des données dans l’entrepôt
analyse de données pour la prise de décision
Introduction DW
Architecture type
Introduction DW
Datamart (Magasin de données)
Bases de
production
Data Marts
SGBD
relationnel
Outils
Bases
d’alimentation
Introduction DW Bases externes relationnelles
2. Concevoir le DW
Avantages
Évite les redondances
Conduit aux constellations (plusieurs tables de faits à dimensions
partagées)
Conception DW
Conception du schéma intégré
Conception DW
Bilan conception
Le datawarehouse regroupe,
historise, résume les données
de l'entreprise
Le concepteur définit schéma
exportés et intégrés
des choix fondamentaux !
Ciblage essentiel !
Le datamart c’est plus ciblé et
plus petit.
Questions ?
Peut-on ajouter des données au
niveau de l ’entrepôt ?
Conception DW
3. Alimenter le DW
ETL = Extracteur+Intégrateur
Extract + Transform + Load
Extraction
Depuis les bases sources ou les journaux
Différentes techniques
Push = règles (triggers)
Pull = requêtes (queries)
Périodique et répétée
Dater ou marquer les données envoyées
Difficulté
Ne pas perturber les applications OLTP
L'alimentation
Transformation
Accès unifiés aux données
Unification des modèles
Traduction de fichiers, BD réseaux, annuaires en tables
Evolution vers XML (modèle d'échange) plus riche
Unification des accès
Rowset, SQL limité, SQL complet, …
Mapping plus ou moins sophistiqué
Unification des noms
Appeler pareil les mêmes choses et différemment les choses différentes
Application des "business rules"
Elimination des doubles
Jointure, projection, agrégation (SUM, AVG)
Cleaning des données
L'alimentation
Data Cleaning
Valeurs manquantes (nulles)
Ignorer le tuple
Remplacer par une valeur fixe ou par la moyenne
Valeurs erronées ou inconsistantes
Générées en présence de bruits
Détecter par une analyse de voisinage
Écart par rapport à la moyenne
Factorisation en groupes (outliers)
Remplacer par une valeur fixe ou par la moyenne
Inspection manuelle de certaines données possible
L'alimentation
Chargement
Base relationnelle
Support de larges volumes (qq 100 gigas à qq téras)
Historisation des données (fenêtres)
Importance des agrégats et chargements en blocs
Base spécialisée
Base multidimensionnelle
Combinaison des deux
Machine support parallèle
Multiprocesseurs
Mémoire partagée, cluster, bus partagé, etc.
Le multidimensionnel
Principaux systèmes (Jdnet)
Entrepôt de données
Hyperion EssBase est l'entrepôt
de données multi-
Ce n'est pas à la base de
données de se connecter multi-dimensionnel avec
Essbase Les solutions qui accèdent
dimensionnel de aux applications mais aux des extensions de divers
référence sur le marché applications de se à Teradata sont a priori un
types dont des formules
de la business connecter à la base de NCR de data mining. Réputé
peu moins nombreuses
intelligence. Possibilité données. Les accès vers Teradata Database que pour Hyperion
de compléter avec Essbase sont nombreux.
notamment pour ses
Essbase, Microsoft, IBM
l'offre analytique Se reporter aux autres capacités de montée en
DB2, Oracle et Sybase.
d'Hyperion ou des catégories pour savoir charge sous Unix et
solutions tierces. qui accède à quelles Windows 2000.
sources.
Dernière version de la
base de données
relationnelle de l'éditeur,
IBM DB2/Universal DataBase
est la base de données
Même remarque que
pour Hyperion, en Oracle 9i est retaillée
DB2/UDB, Même remarque que pour
relationnelle d'IBM. En particulier pour DB2 qui dans une optique qui
Informix XPS et Red rachetant Informix et est relativement O racle approfondit les fonctions
Hyperion et Microsoft, car
Brick son activité bases de répandue. Se renseigner Oracle 9i Oracle 8i est encore très
dédiées à la business
données, Big Blue a sur les solutions qui répandue.
intelligence. Peut
récupéré ses entrepôts peuvent accéder
de données multi- nativement aux différents également fonctionner
dimensionnels: SGBD OLAP propriétaires comme entrepôt de
XPS d'Informix. données OLAP.
(datawarehouse), et
Red Brick (datamart).
IQ est la version
déclinée de la base de
données relationnelle de
Même remarque que pour
Sybase Sybase, pour des
Hyperion, IBM DB2,
besoins en rapport avec
Microsoft La version la plus
récente de la SGBDR
Même remarque que
pour Hyperion. SQL
Adaptive Server IQ
la business intelligence,
Oracle et Microsoft
SQL Server 2000 (base de données Server est très répandue, donc aussi le CRM
relationnelle) de mais souvent encore en
analytique.
Microsoft. A enrichi ses version 7.0 qui peut aussi
fonctions OLAP avec être attaquée par la
Analysis Services. plupart des solutions du
Parmi celles-ci: l'accès commerce qui
direct aux cubes via le fonctionnent sous Windows
web, et une extension
data mining.
http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml
Le multidimensionnel
Dimensions: Indicateurs:
Temps Nombre d’unités
Géographie vendues
Produits CA
Clients Coût
Canaux de ventes..... Marge.....
Le multidimensionnel
Cube de données
0
10
Date
NumFou 2002 350 600 300
0
15
2001 300 500 400
0
12
NumPro 2000 250 200 F2
F1
P1 P2 P3
Le multidimensionnel
Le data cube et les dimensions
Variables analysées:
Nb unités, CA, marge...
Le multidimensionnel
Exemple
Magasin Jour
Mois
Le multidimensionnel
La navigation multidimensionnelle
Projection en 2 dimensions Coupe d ’un cube
Produits Produits
pour une région donnée
CA CA
Région
Temps en semaines
Réduction selon 1 dimension
Produits Zoom selon une dimension
France
Roll up :
Agréger selon une dimension
Semaine Mois
Drill down :
Détailler selon une dimension
Mois Semaine
Slice et Dice:
Sélection et projection selon 1 axe
Mois = 04-2003 ; Projeter(Région, Produit)
Pivot :
Tourne le cube pour visualiser une face
(Région,Produit)(Région, Mois)
Le multidimensionnel
Les vues d'un cube
Le multidimensionnel
Bilan Gestion
La modélisation
multidimensionnelle est adaptée à
l ’analyse de données
Le datacube est au centre du
processus décisionnel
transformation et visualisation 3D
une algèbre du cube
De multiples techniques d'optimisation
Questions ?
Combien de datacubes à partir de N
variables ?
Le multidimensionnel
5. Implémentation
Implémentation
Evolution des SGBD
Implémentation
Vues Concrètes
Table:
Emp(#emp, job, salary)
Définition de la vue:
CREATE MATERIALIZEDVIEW
job_avg_sal
AS select job, avg(sal) avg_sal
FROM emp
GROUP BY job;
Interrogation de la vue:
SELECT job FROM job_avg_sal
WHERE avg_sal > 10000
Implémentation
Extension de SQL
ROLLUP: CUBE:
SELECT <column list> SELECT <column list>
FROM <table…> FROM <table…>
GROUP BY GROUP BY
ROLLUP(column_list);
CUBE(column_list);
Crée des agrégats à
n+1 niveaux, n étant le Crée 2n combinaisons
nombre de colonne de d'agrégats, n étant le
groupage nombre de colonne de
n, n-1, n-2,…0 colonnes groupage
Implémentation
Exemple CUBE
Implémentation
Exemple ROLLUP
ObjectModel
(Core, Behavioral, Relationships, Instance)
Oracle Cognos
OLAP API = Datacube Impromptu = Reporting
Express = Analyse Powerplay = Datacube
Report = Reporting Query = Requêtage
Business Object Hyperion
BusinessQuery = Requêtage ESS Base = Base MOLAP
BusinessObject = ESS Analysis= Analyse +
Requêtage + Analyse + Datacube
Reporting
WebIntelligence = Datacube
Implémentation
6. Le marché du BI
BI= Business Intelligence
Datawarehouse
entrepôt des données historisées de l'entreprise
Datamart
magasin de données ciblé sur un ou plusieurs sujets
Datamining
exploration des données afin de découvrir des connaissances
Datacube
cube de présentation d'unités selon 3 dimensions
Datawebhouse
entrepôt des données collectées sur le web
Conclusion