0% ont trouvé ce document utile (0 vote)
25 vues42 pages

2-Datawarehouse - English

Le document traite des entrepôts de données (data warehouses) en abordant leur architecture, conception, alimentation et exploitation OLAP. Il souligne l'importance de l'accès aux données pour les entreprises et décrit les processus d'extraction, transformation et chargement (ETL). Enfin, il mentionne les systèmes de gestion de bases de données et les outils utilisés pour la gestion des entrepôts de données.

Transféré par

mirado1303
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
25 vues42 pages

2-Datawarehouse - English

Le document traite des entrepôts de données (data warehouses) en abordant leur architecture, conception, alimentation et exploitation OLAP. Il souligne l'importance de l'accès aux données pour les entreprises et décrit les processus d'extraction, transformation et chargement (ETL). Enfin, il mentionne les systèmes de gestion de bases de données et les outils utilisés pour la gestion des entrepôts de données.

Transféré par

mirado1303
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data warehouse

 Motivations et architecture
 Conception de la BD support
 Alimentation du DW
 Exploitation OLAP
 Conclusion
1. OLTP et OLAP
Reports
&
Appli.
Appli.
Appli.
OLAP Analysis

ETL
OLTP DW

DM Aides à
la décision
Introduction DW
Explosion de l ’OLAP

 Facteurs économiques & technologiques


18
16
14
CA en Milliards de $

12
10
8
6
4
2
0
1994 1995 1996 1997 1998 1999 2000 2001
Années

Introduction DW
Motivations des entreprises

 Besoin des entreprises


 accéder à toutes les données de l’entreprise
 regrouper les informations disséminées
 analyser et prendre des décisions rapidement (OLAP)
 Exemples d'applications concernées
 Grande distribution : marketing, maintenance, ...
 produits à succès, modes, habitudes d’achat
 préférences par secteurs géographiques
 Bancaire : suivi des clients, gestion de portefeuilles
 mailing ciblés pour le marketing
 Télécommunications : pannes, fraudes, mobiles, ...
 classification des clients, détection fraudes, fuites de clients

Introduction DW
Datawarehouse : définition

 Entrepôt de données
 Ensemble de données historisées variant dans le temps,
organisé par sujets, consolidé dans une base de données
unique, géré dans un environnement de stockage
particulier, aidant à la prise de décision dans l’entreprise.
 Trois fonctions essentielles :
 collecte de données de bases existantes et chargement
 gestion des données dans l’entrepôt
 analyse de données pour la prise de décision

Introduction DW
Architecture type

Introduction DW
Datamart (Magasin de données)

 sous-ensemble de données [extrait du DW] et ciblé


sur un sujet unique
Bases
Data Warehouse multidimensionnelles

Bases de
production

Data Marts
SGBD
relationnel

Outils
Bases
d’alimentation
Introduction DW Bases externes relationnelles
2. Concevoir le DW

 Export de données des sources


 Hétérogènes et variées
 Fichiers, BD patrimoniales, Web, …
 Définition des vues exportées
 Définition d'un schéma global
 Intègre les données utiles
 S'appuie sur le modèle relationnel
 Nécessité d'une gestion de méta-données
 Description des sources
 Description des vues exportées
 Description du schéma global
Conception DW
Organisation par sujet

 Les données sont organisées par sujets majeurs:


 Clients, produits, ventes, …
 Sujet = faits + dimensions
 Collecte les données utiles sur un sujet
 Exemple: ventes
 Synthétise une vue simple des événements à analyser
 Exemple: Ventes (N°, produit, période, magasin, )
 Détaille la vue selon les dimensions
 Exemple: Produits(IDprod, description, couleur, taille, …)
 Magasins(IDmag, nom, ville, dept, pays)
 Periodes(IDper, année, trimestre, mois, jour)
Conception DW
Schémas en étoile

 Une table de faits encadrées par N tables de dimensions


Produits
IDprod
Periode Table de faits “ventes” description
couleur
sIDper
periode taille
année fournisseur
trimestre produit
mois Magasins
magasin
jour
IDmag
unités_vendues nom
montant_ventes ville
département
taxes_ventes pays
Conception DW
Schémas en flocons

 Raffinement du schéma étoile avec des tables normalisées


par dimensions
Produits Fournisseurs
IDprod IDfour
description description
couleur type
taille Adresse
Ventes IDfour

 Avantages
 Évite les redondances
 Conduit aux constellations (plusieurs tables de faits à dimensions
partagées)

Conception DW
Conception du schéma intégré

 Isoler les faits à étudier


 Schéma des tables de faits
 Définir les dimensions
 Axes d'analyse
 Normaliser les dimensions
 Éclater en plusieurs tables liés par contraintes référentielles
 Intégrer l'ensemble
 Plusieurs tables de faits partagent quelques tables de dimension
(constellation d’étoiles)

Conception DW
Bilan conception

 Le datawarehouse regroupe,
historise, résume les données
de l'entreprise
 Le concepteur définit schéma
exportés et intégrés
 des choix fondamentaux !
 Ciblage essentiel !
 Le datamart c’est plus ciblé et
plus petit.
 Questions ?
 Peut-on ajouter des données au
niveau de l ’entrepôt ?
Conception DW
3. Alimenter le DW

 ETL = Extracteur+Intégrateur
 Extract + Transform + Load
 Extraction
 Depuis les bases sources ou les journaux
 Différentes techniques
 Push = règles (triggers)
 Pull = requêtes (queries)
 Périodique et répétée
 Dater ou marquer les données envoyées
 Difficulté
 Ne pas perturber les applications OLTP
L'alimentation
Transformation
 Accès unifiés aux données
 Unification des modèles
 Traduction de fichiers, BD réseaux, annuaires en tables
 Evolution vers XML (modèle d'échange) plus riche
 Unification des accès
 Rowset, SQL limité, SQL complet, …
 Mapping plus ou moins sophistiqué
 Unification des noms
 Appeler pareil les mêmes choses et différemment les choses différentes
 Application des "business rules"
 Elimination des doubles
 Jointure, projection, agrégation (SUM, AVG)
 Cleaning des données
L'alimentation
Data Cleaning
 Valeurs manquantes (nulles)
 Ignorer le tuple
 Remplacer par une valeur fixe ou par la moyenne
 Valeurs erronées ou inconsistantes
 Générées en présence de bruits
 Détecter par une analyse de voisinage
 Écart par rapport à la moyenne
 Factorisation en groupes (outliers)
 Remplacer par une valeur fixe ou par la moyenne
 Inspection manuelle de certaines données possible
L'alimentation
Chargement

 Pas de mise à jour


 Insertion de nouvelles données
 Archivage de données anciennes
 De gros volumes
 Périodicité parfois longue
 Chargement en blocs (bulk load)
 Mise à jour des index et résumés
 Problèmes
 Cohabitation avec l'OLAP ?
 Procédures de reprises ?
L'alimentation
Principaux ETL (JDNet)
Extraction standard
Parfois citée comme
depuis: fichiers plats (C
Issue du rachat d'Acta, plate-forme ETL de
et Cobol), Siebel, les
cette solution se propose référence par certains
Acta était le fournisseur SGBDR, Informix,
de rendre accessible en acteurs, mais pas ceux
historique du premier Teradata, Oracle
"quasi-temps réel" les de la business
connecteur à SAP. Financials, PeopleSoft
Business données les plus souvent
Partenaire notamment de ETI
intelligence, ETI.Extract
HRMS, SAP R3 et BW...
fonctionne avec des
O bjects accédées. L'un des
Siebel, Peoplesoft et ETI.Extract librairies pour supporter
Librairies pour toutes les
éditeurs de référence bases de données ci-
ActaWorks JDEdwards. Interfaçage les entrepôts de données
dans le domaine de l'ETL, dessous, sauf Hyperion,
avec Cognos, Hyperion, et des plugins
qui s'étend sur la partie sur systèmes anciens et
Actuate et Brio. additionnels en
middleware en intégrant plus récents. Plugins
aussi les transactions. prolongement
ETI.Accelerator pour
d'applications précises. Entrepôts de données :
Siebel, SQL/Teradata et
Oracle, Sybase,
Plus de 40 connecteurs Surtout connu pour son les middleware MQ (IBM,
DataStage XE est l'offre Teradata, Hyperion
natifs vers des sources de offre de portail, Tibco. ..).
traditionnelle d'Ardent Essbase, MS SQL Server
données, dont Hummingbird fournit
qu'Informix a racheté et IBM DB2. Prise en
IBM/Informix, Oracle, également une plate-
début 2000 avant charge nouvelle des
Sybase, Teradata et IBM forme ETL et EAI du nom
Ascential qu'Ascential ne la
DB2. Package complet de Genio Suite, assez
formats de données :
XML, mainframe, SAP en
Software reprenne à son compte
dédié à SAP et à la Hum m ingbird réputée. En outre, une
natif, binaires, versions
lors de sa prise
DataStage XE collection de modules Genio Suite 5 offre de business
d'indépendance, tandis récentes des SGBDR. En
MySAP. Partie analytique: intelligence classique,
qu'Informix partait chez EAI: Siebel, SAP, support
Brio, Business Objects, BI/Suite prolonge le
IBM avec ses entrepôts de MQ Series. Le
SPSS et Crystal portail. Mais il n'est pas
de données. roadmap prévoit
Decisions. question de CRM
l'intégration prochaine à
analytique. Mais Genio
Computer Associates des acteurs comme Brio,
Miner aggrège plus de Gamme extrêmement
est plus connu pour ses L'une des plates-formes BO, Cognos et
15 algorithmes de vaste de connecteurs
offres de sécurité, de Connecteurs en direct d'extraction / MicroStrategy.
datamining différents. spécifiques aux sources
surveillance et de pour extraire les données transformation de
de données pour
gestion d'infrastructures en temps réel depuis SAP, données les plus
consolider tous les
réseaux/informatiques. PeopleSoft et des complètes et répandues.
Com puter PowerCenter à l'échelle
principaux entrepôts de
Mais son offre ETL systèmes mainframes. données. Pour citer
Associates s'avère assez complète Accès à de nombreuses Inform atica
de l'entreprise, et
quelques acteurs du CRM
DecisionBase y compris pour maintenir sources de données dont PowerMart à celle du
PowerCenter 5 analytique en vrac:
l'intégrité des IBM/Informix, Oracle, service ou du
Siebel, Business Objects,
métadonnées sur toute Sybase, IBM DB2, HTML département.
Oracle, Hyperion, Crystal
la chaîne de traitement. et fichiers txt. Informatica s'est
Decisions, Brio, SAP,
L'outil ETL s'appelle récemment engagé sur
Cognos, Peoplesoft,
Vision:Pursuit. le créneau des
Kana, Nuance,
applications analytiques,
Microstrategy. .. ainsi que
mais l'offre ETL est
les middleware MQ pour
indépendante.
aller plus loin.
http://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml
4. Gérer l'entrepôt

 Base relationnelle
 Support de larges volumes (qq 100 gigas à qq téras)
 Historisation des données (fenêtres)
 Importance des agrégats et chargements en blocs
 Base spécialisée
 Base multidimensionnelle
 Combinaison des deux
 Machine support parallèle
 Multiprocesseurs
 Mémoire partagée, cluster, bus partagé, etc.
Le multidimensionnel
Principaux systèmes (Jdnet)
Entrepôt de données
Hyperion EssBase est l'entrepôt
de données multi-
Ce n'est pas à la base de
données de se connecter multi-dimensionnel avec
Essbase Les solutions qui accèdent
dimensionnel de aux applications mais aux des extensions de divers
référence sur le marché applications de se à Teradata sont a priori un
types dont des formules
de la business connecter à la base de NCR de data mining. Réputé
peu moins nombreuses
intelligence. Possibilité données. Les accès vers Teradata Database que pour Hyperion
de compléter avec Essbase sont nombreux.
notamment pour ses
Essbase, Microsoft, IBM
l'offre analytique Se reporter aux autres capacités de montée en
DB2, Oracle et Sybase.
d'Hyperion ou des catégories pour savoir charge sous Unix et
solutions tierces. qui accède à quelles Windows 2000.
sources.

Dernière version de la
base de données
relationnelle de l'éditeur,
IBM DB2/Universal DataBase
est la base de données
Même remarque que
pour Hyperion, en Oracle 9i est retaillée
DB2/UDB, Même remarque que pour
relationnelle d'IBM. En particulier pour DB2 qui dans une optique qui
Informix XPS et Red rachetant Informix et est relativement O racle approfondit les fonctions
Hyperion et Microsoft, car
Brick son activité bases de répandue. Se renseigner Oracle 9i Oracle 8i est encore très
dédiées à la business
données, Big Blue a sur les solutions qui répandue.
intelligence. Peut
récupéré ses entrepôts peuvent accéder
de données multi- nativement aux différents également fonctionner
dimensionnels: SGBD OLAP propriétaires comme entrepôt de
XPS d'Informix. données OLAP.
(datawarehouse), et
Red Brick (datamart).
IQ est la version
déclinée de la base de
données relationnelle de
Même remarque que pour
Sybase Sybase, pour des
Hyperion, IBM DB2,
besoins en rapport avec
Microsoft La version la plus
récente de la SGBDR
Même remarque que
pour Hyperion. SQL
Adaptive Server IQ
la business intelligence,
Oracle et Microsoft
SQL Server 2000 (base de données Server est très répandue, donc aussi le CRM
relationnelle) de mais souvent encore en
analytique.
Microsoft. A enrichi ses version 7.0 qui peut aussi
fonctions OLAP avec être attaquée par la
Analysis Services. plupart des solutions du
Parmi celles-ci: l'accès commerce qui
direct aux cubes via le fonctionnent sous Windows
web, et une extension
data mining.

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml
Le multidimensionnel

 Dimensions:  Indicateurs:
 Temps  Nombre d’unités
 Géographie vendues
 Produits  CA
 Clients  Coût
 Canaux de ventes.....  Marge.....

Le multidimensionnel
Cube de données

0
10
Date
NumFou 2002 350 600 300

0
15
2001 300 500 400

0
12
NumPro 2000 250 200 F2
F1
P1 P2 P3

Le multidimensionnel
Le data cube et les dimensions

Axe d'analyse: La géographie


(Pays - région - ville)

Variables analysées:
Nb unités, CA, marge...

Axe d'analyse: Les produits


(classe, produit)

Axes d'analyse: dimensions


Axe d'analyse: Le temps Variables analysées: indicateurs
(Année, trimestre, mois, semaine)
Le multidimensionnel
La granularité des dimensions

Temps Jours Mois Trimestres Années

Géographie Villes Régions Pays

Produits Numéros Types Gammes Marques

Le multidimensionnel
Exemple

 Montant des ventes fonction de (Mois, région, Produit)

Granularité des dimensions :


on
gi

Type Région Année


Catégorie Pays Trimestre


Produit

Produit Ville Mois Semaine

Magasin Jour

Mois
Le multidimensionnel
La navigation multidimensionnelle
Projection en 2 dimensions Coupe d ’un cube
Produits Produits
pour une région donnée
CA CA

Région
Temps en semaines
Réduction selon 1 dimension
Produits Zoom selon une dimension
France

CA Est Sud Ouest

Temps en mois Lyon Marseille Nice


Le multidimensionnel
L'algèbre des cubes

 Roll up :
 Agréger selon une dimension
 Semaine  Mois
 Drill down :
 Détailler selon une dimension
 Mois  Semaine
 Slice et Dice:
 Sélection et projection selon 1 axe
 Mois = 04-2003 ; Projeter(Région, Produit)
 Pivot :
 Tourne le cube pour visualiser une face
 (Région,Produit)(Région, Mois)

Le multidimensionnel
Les vues d'un cube

 Partant d'un cube 3D, il est possible d'agréger selon une


dimension tournante
 On obtient un treillis de vues (calculable en SQL)
NumPro, NumFou, Date

NumPro, NumFouNumPro, DateNumFou, Date

NumPro NumFou Date

Le multidimensionnel
Bilan Gestion

 La modélisation
multidimensionnelle est adaptée à
l ’analyse de données
 Le datacube est au centre du
processus décisionnel
 transformation et visualisation 3D
 une algèbre du cube
 De multiples techniques d'optimisation
 Questions ?
 Combien de datacubes à partir de N
variables ?
Le multidimensionnel
5. Implémentation

 Multidimensional OLAP (MOLAP)


 implémentent les cubes comme des matrices en
mémoire
 Relational OLAP (ROLAP)
 implémentent les cubes comme des tables
relationnelles
 Hybrid systems (HOLAP ou MROLAP)
 certaines données en matrices en mémoires,
d'autres en tables sur disques
Implémentation
ROLAP versus MOLAP
SQL+Cube SQL+Cube
Opérateurs Cache Cube
décisionnels
Analyseur
SQL
Optimiseur
Analyseur
Opérateurs Optimiseur
Opérateurs décisionnels
relationnels Opérateurs
Cache SGBD relationnels Cache SGBD

Implémentation
Evolution des SGBD

 Utilisation intensive des calculs d'agrégats


 Optimisation, concrétisation
 Nouvelles fonctions de SQL
 Fonctions agrégats
 Rank, Moving Average, Rollup, Cube, ...
 Fonctions statistiques:
 Pivot, Standard déviation, Covariance, Corrélation …

Implémentation
Vues Concrètes

 CREATE MATERIALIZED VIEW <Table>


(column_list) AS
SELECT …
 La vue est pré-calculée par le SGBD
 Pré-calcul des agrégats et jointures
 Elle est maintenue lors des mises à jour
 Les requêtes sont reformulées contre la vue
d'une manière transparente pour l'usager
Implémentation
Exemple

 Table:
Emp(#emp, job, salary)
 Définition de la vue:
CREATE MATERIALIZEDVIEW
job_avg_sal
AS select job, avg(sal) avg_sal
FROM emp
GROUP BY job;
 Interrogation de la vue:
SELECT job FROM job_avg_sal
WHERE avg_sal > 10000

Implémentation
Extension de SQL

 ROLLUP:  CUBE:
 SELECT <column list>  SELECT <column list>
 FROM <table…>  FROM <table…>
 GROUP BY  GROUP BY
ROLLUP(column_list);
CUBE(column_list);
 Crée des agrégats à
n+1 niveaux, n étant le  Crée 2n combinaisons
nombre de colonne de d'agrégats, n étant le
groupage nombre de colonne de
 n, n-1, n-2,…0 colonnes groupage
Implémentation
Exemple CUBE

Animal Lieu Quantite Animal Lieu Quantite


Chien Paris 12 Chat Paris 18
Chat Paris 18 Chat Naples 9
Tortue Rome 4 Chat - 27
Chien Rome 14 Chien Paris 12
Chat Naples 9 Chien Naples 5
Chien Naples 5 Chien Rome 14
Tortue Naples 1 Chien - 31
Tortue Naples 1
 SELECT Animal, Lieu, Tortue Rome 4
SUM(Quantite) as Quantite Tortue - 5
- - 63
FROM Animaux
- Paris 30
GROUP BY Animal, Magasin - Naples 15
WITH CUBE - Rome 18

Implémentation
Exemple ROLLUP

Animal Lieu Quantite Animal Lieu Quantite


Chien Paris 12 Chat Paris 18
Chat Paris 18 Chat Naples 9
Tortue Rome 4
Chat - 27
Chien Rome 14
Chat Naples 9
Chien Paris 12
Chien Naples 5 Chien Naples 5
Tortue Naples 1 Chien Rome 14
Chien - 31
Tortue Naples 1
 SELECT Animal, Lieu, Tortue Rome 4
SUM(Quantite) as Quantite Tortue - 5
FROM Animaux - - 63
GROUP BY Animal,Magasin
WITH ROLLUP
Implémentation
Méta-données

 Standard en émergence CWM


MOF
 Common Warehouse Meta- Méta-méta-modèle
model
 Basé sur le méta-modèle objet
de l'OMG (MOF)
 Constructions de base: classe UML CWM EJB
Méta-modèle
(attribut, operation),
association, package, type de
données, contraintes Modèle Vente
numv M éta-données
 Extensions: métaclasses, numpro
quantité
prixtot
métarelations
 Défini en UML
Instance Objet
 Echangé en XML (XMi)
Implémentation
Les Packages CWM

Management Warehouse Warehouse


Process Operation

Analysis Data Information Business


Transformation OLAP
Mining Visualization Nomenclature
Object-
Resources Relational
Record- Multi
XML
Oriented
Oriented Dimensional
(ObjectModel)

Foundation Business Data Keys Type Software


Expressions
InformationTypes Index Mapping Deployment

ObjectModel
(Core, Behavioral, Relationships, Instance)

Chaque package est défini en UML ...


Implémentation
Quelques outils OLAP

 Oracle  Cognos
 OLAP API = Datacube  Impromptu = Reporting
 Express = Analyse  Powerplay = Datacube
 Report = Reporting  Query = Requêtage
 Business Object  Hyperion
 BusinessQuery = Requêtage  ESS Base = Base MOLAP
 BusinessObject =  ESS Analysis= Analyse +
Requêtage + Analyse + Datacube
Reporting
 WebIntelligence = Datacube

Implémentation
6. Le marché du BI
BI= Business Intelligence

Data PRO Users Survey


Conclusion
Les Data Trucs

 Datawarehouse
 entrepôt des données historisées de l'entreprise
 Datamart
 magasin de données ciblé sur un ou plusieurs sujets
 Datamining
 exploration des données afin de découvrir des connaissances
 Datacube
 cube de présentation d'unités selon 3 dimensions
 Datawebhouse
 entrepôt des données collectées sur le web

Conclusion

Vous aimerez peut-être aussi