COURS: DATAWAREHOUSE/DATAMINING
Pr. A. EL OUARDIGHI jalilardighi@[Link]
Cours:
Cours Datawarehouse Travaux dirigs Datawarehouse Cours Datamining Travaux pratiques sur un outil de Datamining
Evaluation:
2 Contrles continus:
1 contrle continu crit en Datawarehouse 1 contrle continu en Datamining
1 Examen Final (Ecrit et Pratique en Dataminin / Datawarehouse)
A. EL OUARDIGHI
Data warehouse 1
Chane de lextraction des connaissances partir dune base de donnes
Zone de prparation des donnes
A. EL OUARDIGHI
Zone de prsentation des donnes
Outils daccs aux donnes
Data warehouse 2
DATA WAREHOUSES
ARCHITECTURES, FONCTIONNALITES CONCEPTION
ANALYSE MULTIDIMENSIONNELLE
Pr. A. EL OUARDIGHI jalilardighi@[Link]
A. EL OUARDIGHI
Data warehouse
PLAN
Partie 1: Notions et architectures dun DW Partie 2: OLAP et Analyse multidimensionnelle Partie 3: Modlisation et Conception dun DW Partie 4: Travaux dirigs
A. EL OUARDIGHI
Data warehouse
Partie 1: Notions et Architecture dun DW
Les concepts de datawarehouse Diffrence entre OLAP et OLTP
Contenu d'un DW
Architecture dun DW
Notion de Datamart
A. EL OUARDIGHI
Data warehouse
Historique
Phase 1 Systme de gestion de bases de donnes: modle relationnel Feuille de calcul & tableur
Phase 2
Systme interactif daide la dcision
Systme daide aux dirigeants
Phase 3 Entrept de donnes (Datawarehouse) Exploitation des donnes (Datamining)
A. EL OUARDIGHI
Data warehouse
Systmes transactionnels vs Systmes dcisionnels
Systmes transactionnels
Les outils traditionnels de gestion et dexploitation des donnes sont du type transactionnel ou OLTP (On-Line Transaction Processing) Lexploitation de donnes tourn vers la saisie, le stockage, la mise jour, la scurit et lintgrit des donnes. Le systme transactionnel est dvelopp pour grer les transactions quotidiennes Conserver la cohrence de la BD, cest lobjectif et la difficult principale pour linformatique de production
A. EL OUARDIGHI
Data warehouse
Systmes transactionnels vs Systmes dcisionnels
Systmes transactionnels
Ces bases de donnes supportent habituellement des applications particulires telles que les inventaires de magasins, les rservations dhtel, etc Le contenu est fait de donnes actuelles, pas darchives Les donnes sont trs dtailles (dtails de chacune des transactions) La mise jour seffectue par de nouvelles transactions Trs souvent plusieurs de ces systmes existent indpendamment les uns des autres
A. EL OUARDIGHI
Data warehouse
Systmes transactionnels vs Systmes dcisionnels
Oprations dans les systmes transactionnels
Ajout Effacement
Mise jour des enregistrements
Requtes simples Interrogations et modifications frquentes des donnes par de nombreux utilisateurs Ncessit de conserver la cohrence des donnes Les systmes transactionnels garantissent la cohrence des donnes
A. EL OUARDIGHI
Data warehouse
Systmes transactionnels vs Systmes dcisionnels
Systmes dcisionnels
Le terme dcisionnel Business Intelligence couvre l'ensemble des technologies permettant en bout de chane d'apporter une aide la dcision. SI capable d'agrger les donnes internes ou externes et de les transformer en information servant une prise de dcision rapide.
SI capable de rpondre certains types de questions:
Quelles sont les ventes du produit X pendant le trimestre A de l'anne B dans la rgion C ? Comment se comporte le produit X par rapport au produit Y?
Quel type de client peut acheter le produit X?
Est-ce qu'une baisse de prix de 10% par rapport la concurrence ferait redmarrer les ventes du produit X ?
A. EL OUARDIGHI
Data warehouse
10
Systmes transactionnels vs Systmes dcisionnels
Ces exemples mettent en vidence les faits suivants: Les questions doivent pouvoir tre formules dans le langage de lutilisateur en fonction de son secteur dactivit:
Service marketing, Service conomique, service relation clients
La prvision des interrogations est difficile car elles sont du ressort de lutilisateur. Les questions vont varier selon les rponses obtenus:
Si le produit X sest vendu moins bien que lanne prcdente, il va tre utile de comprendre les raisons: Dtailler les ventes par rgion par type de magasin,
Des questions ouvertes vont ncessiter la mise en place de mthodes dextraction dinformations
A. EL OUARDIGHI
Data warehouse
11
Systmes transactionnels vs Systmes dcisionnels
Des donnes aux dcisions
Donnes
Points de ventes, gographiques, dmographiques,
Informations I vit dans R, I est g de A,
Connaissances
Dans X%, le produit Y est vendu en mme temps que le produit Z,
Dcisions
Lancer la promotion de Y & Z dans R auprs des clients plus g que A, ...
A. EL OUARDIGHI
Data warehouse
12
Notion de donne et notion d'information
Date Heure Numro 5-3 5-3 6-3 6-3 07:05 16:12 09:40 20:20 00216188 00216188 00441216 04426576 Destinat Dure Cot France Italie UK Espagne 04:08 08:10 10:20 16:30 6.30 11.50 16.45 8.40
6 8 10 12 14 16 18
A. EL OUARDIGHI
L M M J V S D
Data warehouse 13
Applications transactionnelles v.s Applications dcisionnelles
Les applications transactionnelles sont constitues de traitements factuels de type OLTP ( On Line Transaction Processing) Les applications d'aide la dcision sont constitues de
traitements ensembliste de type OLAP: On Line Analytical Processing
A. EL OUARDIGHI
Data warehouse
14
Diffrence entre OLTP et OLAP
Conception
Oriente application Structure statique Dtailles Actuelles Peuvent tre mises jour Accessibles de faon individuelle Servent les agents oprationnels Traites de faon rptitive Requtes simples Sensibles aux performances Des milliers 100 Mo - Go Orientes sujet Structure volutive Rsumes, agrges Historiques Pas de mises jour Accessibles de faon ensembliste Servent les managers Traites de faon heuristiques Requtes complexes Non sensibles aux performances Des centaines 100 Go -To
Data warehouse 15
Donnes
Utilisateurs
Utilisation
Nb Utilisat. Taille BD
A. EL OUARDIGHI
Incompatibilits des deux activits
Les deux activits (OLTP & OLAP) ne peuvent co-exister sur des
donnes dans le mme systme dinformation: leurs objectifs de performance sont exactement opposs:
Les requtes complexes et lourdes dgradent les performances des systmes transactionnels, Les donnes temporelles sont rparties entre donnes actuelles et
donnes archives, rendant la vue historique des donnes trs difficile
ou impossible,
Le support efficace dune activit OLAP ncessite la constitution
dun systme dinformation propre: Le Datawarehouse
A. EL OUARDIGHI
Data warehouse 16
Naissance du Datawarehouse
A. EL OUARDIGHI
Data warehouse
17
Datawarehouse : Dfinition
Collection de donnes orientes sujets, intgres, non volatiles et historises, organises pour le support du processus daide la dcision Base de donnes dans laquelle sont dposes aprs nettoyage et
homognisation les informations en provenance des diffrents
systmes de production de lentreprise OLTP
A. EL OUARDIGHI
Data warehouse
18
Caractristiques des donnes d'un DW
Orientes sujet
Organises autour de sujets majeurs de lentreprise Donnes pour lanalyse et la modlisation en vue de laide la dcision, et non pas pour les oprations et transactions journalires Vue synthtique des donnes selon les sujets intressant les dcideurs
Intgres
Construit en intgrant des sources de donnes multiples et htrognes
BD relationnelles, fichiers, enregistrements de transactions
A. EL OUARDIGHI
Les donnes doivent tre mises en forme et unifies afin davoir un tat cohrent Phase la plus complexe (60 90 % de la charge totale dun projet DW)
Data warehouse 19
Caractristiques des donnes d'un DW
Historises
Fournies par les sources oprationnelles Matire premire pour l'analyse
Stockage de l'historique des donnes, pas de mise jour
Un rfrentiel temps doit tre associ aux donnes
Non volatiles
Consquence de lhistorisation
Une mme requte effectue intervalle de temps, en prcisant la date rfrence de linformation donnera le mme rsultat Stockage indpendant des BD oprationnelles Pas de mises jour des donnes dans le DW
Data warehouse 20
A. EL OUARDIGHI
Contenu d'un DW
Des donnes agrges
Correspondent des lments danalyse, par des fonctions de calcul, reprsentatifs des besoins utilisateurs Constituent dj un rsultat danalyse et une synthse de linformation
Des donnes dtailles
Reflte les vnements les plus rcents Les intgrations des donnes vont tre ralises ce niveau Le volume dinformations est plus importants
A. EL OUARDIGHI
Data warehouse
21
Contenu d'un DW
Des mta donnes
Elles constituent une vritable aide en ligne permettant de connatre les informations contenue dans le DW
Regroupent lensemble des informations concernant le DW
Dcrivant la structure des donnes de base ou agrges Donnant des explications sur la qualit, le mode de drivation, la dure de vie, le rafrachissement, etc... Les principales informations sont destines:
Aux utilisateurs Aux quipes responsable des processus de transformation des donnes du systme de production vers le DW Aux quipes responsables des processus de cration des donnes agrges partir des donnes dtailles Aux quipes dadministration de la BD
Data warehouse 22
A. EL OUARDIGHI
Donnes multidimensionnelles
Notion de dimension
Cest une catgorie linguistique selon laquelle les donnes sont organises:
Nom dun attribut Valeur dun attribut Autre lment linguistique
A. EL OUARDIGHI
Data warehouse
23
Reprsentation
DureMoy
5 5 18 7 12 8 9 15 18 12 22 25
Dpart.
Info Phys Philo Droit Info Phys Philo Droit Info Phys Philo Droit
Mois Janv Janv Janv Janv Fvr Fvr Fvr Fvr Mars Mars Mars Mars
Anne 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998
A. EL OUARDIGHI
Data warehouse
24
... Autres reprsentations
1998 Info Phys Philo Droit
Janv 5 5 18 7
Fvr
Mars
12 8 9 15
18 12 22 25
A. EL OUARDIGHI
Data warehouse
25
... Autres reprsentations
1998 30 25 20 15 10 5
Droit Philo
Phys
Info
A. EL OUARDIGHI
Data warehouse
26
... Autres reprsentations
Droit Philo Phys Info
1995 1996 1997 1998 7 1 8 7 18 Janv 9 Fvr 15 Mars 25 22
5 5 8 12
5 5
12 18
A. EL OUARDIGHI
Data warehouse
27
Fonctionnalits dun DW
Extraction de donnes sources
Ralisation d'un transformateur de modles Modle source vers modle du DW Rgles de transformation entre modles htrognes
Le nettoyage et lintgration des donnes
Avant l'intgration des donnes, il convient de les expurger d'incohrences diverses:
Problmes de formats ou de description
Problme de codage Problme de nommage Problmes de valeurs manquante
A. EL OUARDIGHI
Data warehouse
28
Fonctionnalits dun DW
Lagrgation des donnes
Synthse produisant des indicateurs pour l'aide la dcision utilisant:
Fonctions statistiques simples: Sum, Min, Max,
Analyse de donnes
Techniques d'apprentissage
A. EL OUARDIGHI
Data warehouse
29
Notion de Datamart
Dfinition:
C'est un sous-ensemble de donnes drives du DW cibl sur un sujet unique. Caractristiques:
A. EL OUARDIGHI
Orient vers un sujet unique
Ex: comportement de la clientle Le DW joue le rle de source et d'historique pour le Datamart Dont l'une des dimensions indique souvent le temps Association entre valeur agrge et valeur dtaille
Donnes fortement agrges Organisation multidimensionnelle (cubique) Lien dynamique avec le DW Interfaces simples et conviviales
Data warehouse 30
Les domaines dapplication du dcisionnel
La gestion de la relation client (CRM) est lun des premiers champs dapplication de la Business Intelligence. Le contrle de gestion pour lanalyse des cots, lanalyse de la rentabilit, llaboration budgtaire, les indicateurs de performance La direction marketing pour le ciblage, le pilotage de gamme, les applications de gomarketing, de fidlisation clients La direction commerciale pour le pilotage des rseaux, les prvisions des ventes, loptimisation des territoires Les ressources humaines pour la gestion des carrires, La direction de la production pour lanalyse qualit, la prvision des stocks, la gestion des flux, la fiabilit industrielle La direction gnrale pour les tableaux de bord, indicateurs de pilotage, gestion dalertes
A. EL OUARDIGHI
Data warehouse 31
Exemple: un DW dans les tlcoms
Sujets
Suivi du march: lignes installes/ dsinstalles, services et options choisis, rpartition gographique, rpartition entre public et diffrents secteurs d'organisations
Comportement de la clientle
Comportement du rseau 5 ans pour le suivi du march 1 an pour le comportement de la clientle 1 mois pour le comportement du rseau Fichiers clients labors par les agences Fichiers de facturation
Historique
Sources
A. EL OUARDIGHI
Data warehouse
32
Requtes
Comportement clientle
Nombre moyen d'heures par client, par mois et par rgion Rpartition des appels clients sur la journe Nombre moyen de numros appels Dure moyenne d'une communication urbaine par ville Dure moyenne d'une communication internationale Etc
A. EL OUARDIGHI
Data warehouse
33
Architectures dun Datawarehouse
Une architecture dun Datawarehouse possde les caractristiques suivantes :
Les donnes sources sont extraites du systmes de bases de donnes et de fichiers
Les donnes sources sont nettoyes, transformes et intgres avant dtre stockes dans lentrept
Lentrept est en lecture seulement et est dfini spcifiquement pour la prise de dcision Les usagers accdent lentrept partir dinterfaces et dapplications (clients)
A. EL OUARDIGHI
Data warehouse
34
Architecture dun Datawarehouse
Architecture centralise
Il sagit de la version centralise et intgre dun entrept regroupant lensemble des donnes de lentreprise. Les diffrentes bases de donnes sources sont intgres et sont distribues partir de la mme plate-forme physique
A. EL OUARDIGHI
Data warehouse 35
Architecture dun Datawarehouse
Architecture fdre
Il sagit de la version intgre dun entrept o les donnes sont introduites dans les marchs de donnes orients selon les diffrentes fonctions de lentreprise
A. EL OUARDIGHI
Data warehouse 36
Architecture dun Datawarehouse
Architecture trois-tiers
Il sagit dune variante de larchitecture fdre o les donnes sont divises par niveau de dtail
A. EL OUARDIGHI
Data warehouse
37
Les diffrentes phases du Datawarehouse
Conception
Construction Administration Restitution
A. EL OUARDIGHI
Data warehouse
38
Les diffrentes phases du Datawarehouse
Conception:
Il sagit de dfinir la finalit du DW : Piloter quelle activit de lentreprise ;
A. EL OUARDIGHI
Dterminer et recenser les donnes entreposer ;
Dfinir les aspects techniques de la ralisation ; Modle de donnes ; Dmarches dalimentation ; Stratgies dadministration ; Dfinition des espaces danalyse ; Mode de restitution,
Data warehouse 39
Les diffrentes phases du Datawarehouse
Construction:
Travail technique: Extraction des donnes des diffrentes BD de production
(internes ou externes)
Nettoyage des donnes, rgles dhomoginisation des donnes sous formes de mta donnes.
Techniques dalimentation
A. EL OUARDIGHI
Data warehouse
40
Les diffrentes phases du Datawarehouse
Administration:
Elle est constitue de plusieurs tches pour assurer: La qualit et la prennit des donnes aux diffrents applicatifs ; La maintenance; La gestion de configuration; Lorganisation, loptimisation du SI; La mise en scurit du SI.
A. EL OUARDIGHI
Data warehouse
41
Les diffrentes phases du Datawarehouse
Restitution:
Cest le but du processus dentreposage des donnes.
Elle conditionne le choix de larchitecture du DW et de sa construction.
Elle doit permettre toutes la analyses ncessaires pour la construction des indicateurs recherchs.
A. EL OUARDIGHI
Data warehouse
42
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP
Les 12 rgles OLAP Configurations OLAP Oprations OLAP Outils OLAP
A. EL OUARDIGHI
Data warehouse
43
OLAP
Il sagit dune catgorie de logiciels axs sur lexploration et lanalyse rapide des donnes selon une approche multidimensionnelle plusieurs niveaux dagrgation . OLAP vise assister lusager dans son analyse en lui facilitant lexploration de ses donnes et en lui donnant la possibilit de le faire rapidement.
Lusager na pas matriser des langages dinterrogation et des interfaces complexes Lusager interroge directement les donnes, en interagissant avec celles-ci
A. EL OUARDIGHI
Data warehouse
44
Modles conceptuel
Approche multidimensionnelle
Souvent reprsents par une structure plusieurs dimensions Une dimension est un attribut ou un ensemble dattributs:
Temps Gographie Produits Clients Nombre dunits vendues Chiffre dAffaire Cot Relations, Cube de donnes, hyper cube de donnes
Data warehouse 45
Les cellules contiennent des donnes agrges appeles Faits ou Indicateurs:
Reprsentations:
A. EL OUARDIGHI
Modle conceptuel
Vue multidimensionnelle:
A. EL OUARDIGHI
Data warehouse
46
Agrgation des donnes
Plusieurs niveau dagrgation
Les donnes peuvent tre groupes diffrents niveaux de granularit Les regroupements sont pr-calculs,
Par exemple, le total des ventes pour le mois dernier calcul partir de la somme de toutes les ventes du mois.
Granularit : niveau de dtail des donnes emmagasines dans un Datawarehouse.
A. EL OUARDIGHI
Data warehouse
47
Granularit des dimensions
La granularit des dimensions
A. EL OUARDIGHI
Data warehouse
48
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP
Les 12 rgles OLAP
Configurations OLAP Oprations OLAP Outils OLAP
A. EL OUARDIGHI
Data warehouse
49
Les 12 rgles OLAP ( Edgar Frank Codd, 1993)
Vue multidimensionnelle:
Comme par exemple lorsquon souhaite analyser les ventes selon plusieurs dimension: par produit par rgion ou par priode.
Transparence du serveur OLAP diffrents types de logiciels
Elle s'appuie sur une architecture ouverte permettant l'utilisateur d'implanter le systme OLAP sans affecter les fonctionnalits du systme central. Le systme OLAP doit donner accs aux donnes ncessaires aux analyses demandes. Les outils OLAP doivent avoir leur propre schma logique de stockage des donnes physiques
Accessibilit de nombreuses sources de donnes
A. EL OUARDIGHI
Data warehouse
50
Les 12 rgles OLAP ( Edgar Frank Codd, 1993)
Performance du systme de Reporting
L'augmentation du nombre de dimensions ou du volume de la base de donnes ne doit pas entraner de dgradation visible par l'utilisateur. La plus part des donnes pour OLAP sont stockes sur des gros systmes et sont accessibles via des terminaux . Il est donc ncessaire que les outils OLAP soient capables de travailler dans un environnement Client/Serveur.
Architecture Client/Serveur
A. EL OUARDIGHI
Data warehouse
51
Les 12 rgles OLAP ( Edgar Frank Codd, 1993)
Dimensions Gnriques
Toutes les dimensions doivent tre quivalentes en structure et en calcul. Toute fonction qui s'applique une dimension doit tre aussi applicable une autre dimension. Le schma physique des outils OLAP doit s'adapter entirement au modle d'analyse spcifique cr pour optimiser la gestion des matrices creuses
Gestion dynamique des matrices creuses
A. EL OUARDIGHI
Data warehouse
52
Les 12 rgles OLAP ( Edgar Frank Codd, 1993)
Support Multi-Utilisateurs
Les outils OLAP doivent supporter les accs concurrents, Garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au mme modle d'analyse.
Opration sur les dimensions
Les oprations doivent pouvoir s'effectuer sur toutes les dimensions.
Manipulation intuitive des donnes
Toute manipulation doit tre accomplie via une action directe sur les cellules du modle sans utiliser de menus ou des chemins multiples travers l'interface utilisateur.
A. EL OUARDIGHI
Data warehouse
53
Les 12 rgles OLAP ( Edgar Frank Codd, 1993)
Souplesse et facilit de constitution des rapports
La cration des rapports dans les outils OLAP doit permettre aux utilisateurs de prsenter comme ils le dsirent des donnes synthtiques ou des rsultats en fonction de l'orientation du modle. Tout outil OLAP doit grer au moins 15 20 dimensions.
Nombre illimit de niveaux d'agrgation et de dimensions
A. EL OUARDIGHI
Data warehouse
54
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP Les 12 rgles OLAP
Configurations OLAP
Oprations OLAP Outils OLAP
A. EL OUARDIGHI
Data warehouse
55
Configurations OLAP
Selon le type de base de donnes accd, plusieurs configurations sont possibles :
OLAP Multidimensionnelle: MOLAP OLAP Relationnelle: ROLAP OLAP Hybride: HOLAP
A. EL OUARDIGHI
Data warehouse
56
MOLAP (OLAP Multidimensionnel)
Caractristiques
MOLAP sappuis sur une base de donnes multidimensionnelle Implmentent les cubes comme des matrices en mmoire Nombreuses oprations sur les cubes (Pivot, Slice & Dice, ...)
Exemple
Hyperion, Essbase, [Link]
A. EL OUARDIGHI
Data warehouse
57
ROLAP (OLAP Relationnel)
Caractristiques
ROLAP implmentent les cubes comme des tables relationnelles Lutilisateur interroge directement la base de donnes relationnelle Configuration supportant les gros volumes de donnes
Microstrategy, Microstrategy 7i, Business Objects, Business Objects, [Link] [Link]
Exemples
A. EL OUARDIGHI
Data warehouse
58
HOLAP (OLAP Hybride)
OLAP Hybride
Architecture mixte: Dsigne les outils danalyse multidimensionnelle qui rcuprent les donnes dans des bases relationnelle ou multidimensionnelle.
Prsente lavantage de mixer les avantages des deux systmes MOLAP et ROLAP
A. EL OUARDIGHI
Data warehouse
59
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP Les 12 rgles OLAP Composantes OLAP Configurations OLAP
Oprations OLAP
A. EL OUARDIGHI
Data warehouse
60
Oprations sur la structure des cubes
Pivot (Rotation) Switch (Permutation) Split (Dcomposition)
A. EL OUARDIGHI
Data warehouse
61
Pivot: Rotation par rapport lun des axes de dimensions
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Fvr Mars 15 25 9 22 8 12 12
12
8 6
Droit Philo Phys Info Janv 7 18 5 5 Fvr 15 9 5 12 8 12 Mars 25 2 12 18 8 18 17 15 2 12 18 1996 25 22 1997 1998
<>
<>
<>
<>
<>
<>
6
8
25
18 18
Pivot
A. EL OUARDIGHI
Data warehouse
62
Swich: Permutation de valeurs de dimensions
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Fvr Mars 15 25 9 22 8 12 12
12
8 6
Droit Philo Info Phys
1996 18 24 15 7 7 1997 9 12 8 25 25 <> 1998 7 1 5 5 8 7 18 5 5 5 <> <> Janv 8 15 9 12 8 <> Fvr Mars 25 22 18 12 12
18 18
Switch
A. EL OUARDIGHI
Data warehouse
63
Split: Dcomposition
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Fvr Mars 15 25 9 22 8 12 12 12 6 18 18
8
Droit 1998 1997 1996 Janv 7 9 <> 18 <>
Fvr 15 Mars 25
<> <>
Info
Janv
1998 1997 1996
Phys 1998 1997 1996 Janv 5 25 <> <> 7 <> <>
Philo 1998 1997 1996 Janv Fvr 18 12 9 <> <> 24 <> <>
64
8 <>
15 <>
Fvr 12 Mars 18
A. EL OUARDIGHI
Fvr 8 Mars 12
<> <>
Mars 22
Data warehouse
Oprations sur le contenu des cubes
Roll-up (passage au grain suprieur) Drill-down (passage au grain infrieur) Slice (Restriction) Dice (Projection)
A. EL OUARDIGHI
Data warehouse
65
Changement de granule (Roll-up / Drill-down)
Priode 11,3 18 12,3 9,3 9,3 Janv 11,3 18 12,3 9,3 Fvr <> <> <> 18 18 Mars <> <> <> 10,6 10,6 Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv 8 12 9 8 12 6 Fvr 15 18 Mars 25 22 12 18 Droit Philo Phys Info 1996 16 1997 10,3 16 1998 15,6 16,3 8,3 11,6 Trimestre 1 15,6 16,3 8,3 11,6
A. EL OUARDIGHI
Data warehouse 66
Droit Philo Phys Info
13,5
13,5
Restriction (Slice)
Sapplique sur les valeurs du cube ou les valeurs des dimensions
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv
Fvr Mars 15 25 9 22 8 12 12
12
8 6
18 18
Droit Philo 1997 9 12 12 1998 7 1 18 8 7 18 <> Janv 9 9 Fvr 15
A. EL OUARDIGHI
Data warehouse
67
Projection (Dice)
Rduit le nombre de dimension
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 7 18 5 5 5 17 Janv Fvr Mars 15 25 9 22 8 12 12
12 8
Dice
1996 1997 16 13,5 1998
8,7
18 18
Janv 12,6 Fvr 14,6 Mars 22,3
<> <> <> <>
A. EL OUARDIGHI
Data warehouse
68
Composition doprations (Slice & Dice)
Droit Philo 1997 9 12 12 1998 7 1 18 8 7 18 <> Janv 9 9 Fvr 15
Slice
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv 8 12 9 8 12 6 Fvr 15 18 Mars 25 22 12 18
Dice Droit Philo 1997 9,5 10 1998 11 13,5 11 13,5
A. EL OUARDIGHI
Data warehouse
69
Oprations entre cubes
Jointure Union
A. EL OUARDIGHI
Data warehouse
70
Jointure (Join)
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 18 5 5 5 17 Janv 7 Fvr Mars 25 15 9 22 8 12 12
12 8 6
Droit
18
Philo
Phys Info
80 15 80
80 24 80 7
18 18
1996 1997 7 1998 7 Janv Fvr Mars
75 12 75 25 75 8 60 5 60 60
60
75
75
80 76
60 18 60 5
1996 80 1997 80 75 1998 60 75
76
60 18 60 5 9 70
60 5
80 72 70
15 70
8 70 12 70
70 65
Janv Fvr Mars
A. EL OUARDIGHI
60
60 70 65
70
65
80 72 70
25 65 22 65 12 65 18 65
Data warehouse
71
Union
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 18 5 5 5 17 Janv 7 Fvr 15 Mars 25 9 22 8 12 12
12 8 6
18 18
Droit Philo Phys Info 1996 15 17 717 25 1997 7 14 21 12 25 1998 12 2 7 16 12 25 16 20 3 12 23 7 16 Avr 12 12 16 8 27 42 Mai 20 Juin 22 28 32 27 27
A. EL OUARDIGHI
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 18 5 Phys Droit5 Philo Info Janv 7 8 12 17 717 256 9 8 12 Fvr 15 15 25 7 14 21 12 18 12 22 12 18 Mars 25 25 12 2 7 16 16 20 3 7 16 Avr 12 23 12 Mai Juin 20 8 27 42 12 16
22
28
32
27 27
Data warehouse
72
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP Les 12 rgles OLAP Composantes OLAP Configurations OLAP Oprations OLAP
Outils OLAP
A. EL OUARDIGHI
Data warehouse
73
Outils OLAP
Exemples doutils OLAP
BusinessObjects, BusinessObjects, [Link] SAS, SAS, [Link] HarrySoftware , HarryPilot, HarryCube , [Link]
A. EL OUARDIGHI
Data warehouse
74
Partie 3: Modlisation et Conception dun DW
Conception d'un DW
Etude pralable
Modlisation
Alimentation
A. EL OUARDIGHI
Data warehouse
75
Construction dun Datawarehouse
Caractristiques:
Le Datawarehouse est diffrent des bases de donnes de production: Les besoins pour lesquels on veut le construire sont diffrents Il contient des informations historises, organises selon les mtiers de lentreprise pour le processus daide dcision
Le Datawarehouse nest pas un produit ou un logiciel mais un environnement, qui se btit et ne sachte pas.
A. EL OUARDIGHI
Data warehouse
76
Construction dun Datawarehouse
Phases de construction dun DW:
Il ya trois parties interdpendante qui relve la construction dun Datawarehouse: Ltude pralable qui va dfinir les objectifs, la dmarche suivre, le retour sur investissement, Ltude du modle de donnes qui reprsente le DW conceptuellement et logiquement Ltude de lalimentation du Datawarehouse
A. EL OUARDIGHI
Data warehouse
77
Partie 3: Modlisation et Conception dun DW
La conception d'un DW
Etude pralable
Modlisation
Alimentation
A. EL OUARDIGHI
Data warehouse
78
Etude pralable
Etude des besoins:
Dfinir les objectifs du DW Dterminer le contenu du DW et son organisation, daprs:
Les rsultats attendus par les utilisateurs, Les requtes quils formuleront, Les projets qui ont t dfinie
Recenser les donnes ncessaires un bon fonctionnement du DW:
Recenser les donnes disponibles dans les bases de production Identifier les donnes supplmentaires requises
A. EL OUARDIGHI
Data warehouse
79
Etude pralable
Etude des besoins:
Choisir les dimensions
Typiquement: le temps, le client, le produit, le magasin...
Choisir les mesures de fait
De prfrences des quantits numriques additifs
Choisir la granularit des faits
Niveau de dtails des dimensions
Lunit de temps doit-elle tre le jour, la semaine? Rcapitulatifs journaliers, mensuels
A. EL OUARDIGHI
Data warehouse
80
Etude pralable
Cots de dploiement:
Ncessite des machines puissantes, souvent une machine parallle
Capacit de stockage trs importante (historisation des donnes)
Evaluer la capacit de stockage
Equipes de maintenance et dadministration
Les cots des logiciels
Les logiciels dadministration du DW Les outils ETL (Extract-Transform- Loading)
A. EL OUARDIGHI
Les outils dinterrogation et de visualisation
Les outils de Datamining
Data warehouse 81
Partie 3: Modlisation et Conception dun DW
La conception d'un DW Etude pralable Modlisation Alimentation
A. EL OUARDIGHI
Data warehouse
82
Modles de donnes
Niveau conceptuel:
Un DW est bas sur une modlisation multidimensionnelle qui reprsente les donnes dans un cube Un cube permet de voir les donnes suivant plusieurs dimensions:
Tables de dimensions La table des faits contient les mesures et les cls des dimensions
A. EL OUARDIGHI
Data warehouse
83
Les schmas de rfrence
Niveau Logique:
Plusieurs schmas types sont proposs pour reprsenter un DW:
Schma en toile;
Schma en flocon;
A. EL OUARDIGHI
Data warehouse
84
Schma en toile
Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures . Plusieurs tables de dimension : descripteurs des dimensions.
A. EL OUARDIGHI
Data warehouse
85
Schma en flocons
Raffinement du schma toile avec des tables normalises par dimensions.
A. EL OUARDIGHI
Data warehouse
86
Proprit des mesures
Fait Additive
Additionnable suivant toutes les dimensions
Exemple : CA ; Quantit vendue, ...
Fait Semi-additivit
Additionnable seulement suivant certaines dimensions
Exemple : nombre de contacts clients, Etats des stocks, ...
Fait Non-additivit :
Non additionnable quelque soit la dimension
Comptage des faits ou affichage 1 par 1 Exemple : plus grand CA pour lensemble des magasins
A. EL OUARDIGHI
Data warehouse
87
Exemples de DW
Dans la grande distribution Quelques tables de faits :
Dtailles et volumineuses Classiques : produit, fournisseur, temps, tablissement (structure gographique, fonctionnelle), ... Stratgiques : Client, Promotions, ....
Tables de dimensions :
Dans le secteur des banques Tables de faits :
Nombreuses, ddies chaque produit , peu dtailles et peu volumineuses. Classiques : produit, temps, tablissement (structure gographique, fonctionnelle), ... Stratgiques : Client, ....
Tables de dimensions :
A. EL OUARDIGHI
Data warehouse
88
Estimer la taille du DW
Les grandes surfaces :
Dimensions
Temps : 4 ans * 365 = 1460 jours
Magasin : 300
Produit : 200000 rfrences (10% vendus chaque jour) Promotion : un article est dans une seule condition de promotion par jour et par magasin 1460 * 300 * 200000 * 1 = 8,76 milliards denregistrements Nombre de champs de cl = 4 Nombre de champs de fait = 4
Fait
Taille du DW = 8,76.10^9 * 8 champs * 4 octets = 280 Go
A. EL OUARDIGHI
Data warehouse
89
Estimer la taille du DW
Suivi dappels Tlphoniques :
Dimensions
Temps : 3 ans * 365 = 1095 jours Nombre d appel par jour = 100 000 000 Nombre de champs de cl = 5 Nombre de champs de fait = 3
Faits
Taille du DW = 109.10^9 * 8 champs * 4 octets = 3,49 To
A. EL OUARDIGHI
Data warehouse
90
Partie 3: Modlisation et Conception dun DW
Conception d'un DW Etude pralable Modlisation
Alimentation
A. EL OUARDIGHI
Data warehouse
91
Alimentation
Lalimentation est la procdure qui permet de transfrer des donnes du systme oprationnel vers le DW La conception de cette opration est une tche complexe
60 90 % de la charge totale dun projet DW
Elle doit tre faite en collaboration avec ladministrateur des bases de productions Il est ncessaire de dterminer:
Quelles donnes seront charges
Les transformations et les vrifications ncessaires La priodicit et le moment de transferts des donnes
A. EL OUARDIGHI
Data warehouse
92
Alimentation du DW
Alimentation dun DW (ETL)
Extraction (Extract) Transformation (Transform)
Filtrer Homogniser Nettoyer Etc
Chargement (Loading)
A. EL OUARDIGHI
Data warehouse
93
Extraction
Extraction:
Depuis les bases sources Priodique et Rpte
Dater ou marquer les donnes envoyes
Difficult:
Ne pas perturber les applications OLTP Mthode Push: Le systme oprationnel qui au fil des transactions alimente le DW Mthode Pull : Le systme dcisionnel cherche priodiquement les donnes dans les base de production
Diffrentes techniques dextraction:
A. EL OUARDIGHI
Data warehouse
94
Transformation
Cest une suite doprations qui a pour but de rendre les donnes cibles homognes et puissent tre traites de faon cohrente. Unification des modles Convertir / uniformiser les noms des attributs Uniformiser les valeurs d attributs Nettoyer ( Valeurs manquantes, aberrantes)
A. EL OUARDIGHI
Data warehouse
95
Chargement
Cest lopration qui consiste charger les donnes nettoyes et prpares dans le DW. Cest une opration qui peut tre longue Mettre en place des stratgies pour assurer de bonnes conditions sa ralisation Dfinir la politique de rafrachissement. Cest une phase plutt mcanique et la moins complexe
A. EL OUARDIGHI
Data warehouse
96
Outils ETL
Exemples doutils ETL
BusinessObjects, Data Integrator, [Link] Oracle Corporation, Warehouse builder, [Link] IBM, Websphere Datastage , [Link]
A. EL OUARDIGHI
Data warehouse
97