Entrepôts de données et systèmes décisionnels
Entrepôts de données et systèmes décisionnels
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
29/11/2009
I f Informatique ti de d Production P d ti
Donnes oprationnelles (de production) prod ction) activit constante compose de modifications et d'interrogations frquentes des bases de donnes par de nombreux b utilisateurs tili t : ajouter j t une commande, d modifier difi une adresse de livraison, rechercher les coordonnes d'un client, etc. l'intgrit i i des donnes est ncessaire i pour ce genre d'applications (il faut par exemple, interdire la modification simultane d'une mme donne par deux utilisateurs tili t diff diffrents). t) La cohrence assure par les systmes de production est toute relative. Elle se contrle au niveau de la transaction l lmentaire t i mais i pas au niveau i global l b l et t des d activits ti it de d l'organisation.
29/11/2009
I f Informatique ti de d Production P d ti
Donnes oprationnelles (de production) prod ction) Base sur Les systmes transactionnels temps rel, OLTP (On-line Transaction Processing) garantissent l'intgrit des d donnes. Les utilisateurs accdent aux donnes de la base par de trs courtes transactions atomiques et isoles. La priorit est donne en premier lieu l'enregistrement rapide, sr et efficace des donnes. L'un L un des formalismes les plus utiliss pour la reprsentation conceptuelle des systmes d'information est le modle EntiteAssociation
29/11/2009
S t Systmes Dcisionnels D i i l
d'information, en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) :
les moyens, les outils et les mthodes qui permettent de collecter, consolider, modliser et restituer les donnes, matrielles ou immatrielles, immatrielles d d'une une entreprise en vue d'offrir une aide la dcision et de permettre aux responsables de la stratgie d'entreprise davoir une vue densemble d ensemble de lactivit l activit traite traite..
29/11/2009
Possibilit de poser une grande varit de questions au systme, certaines prvisibles et planifies comme des tablea de bord et d'a tableaux d'autres tres imprvisibles. impr isibles permettre l'utilisateur d'effectuer les requtes qu'il souhaite, par lui-mme, sans l'intervention de programmeur. Il sera souvent ncessaire de filtrer, d'agrger, de compter, sommer et de raliser des statistique (moyenne, crattype, .) )
29/11/2009
La structure str ct re logiq logique e doit tre pr prvue e po pour r rendre aussi a ssi efficace que possible toutes ces requtes. Pour y parvenir, il est ncessaire d'introduire de la redondance dans les informations Stockes en mmorisant des calculs intermdiaires. On rompt donc avec le principe de non redondance des bases de production. la cohrence requise doit tre interprtable par l'utilisateur. Les systmes d'informatique dcisionnelle doivent donc assurer plutt l tt une cohrence h globale l b l des d donnes. d Pour P ce faire, leur alimentation doit tre une opration rflchie et planifie dans le temps.
29/11/2009
Les transferts de donnes du d systme s stme oprationnel Vers le systme dcisionnel seront rguliers avec une priodicit bien choisie dpendante de l'activit de l'entreprise. Chaque transfert sera contrl avant d d'tre tre diffus. diffus Aucune information n'y est jamais modifie. On mmorise toutes les donnes sur une priode dtermine, les donnes ne seront jamais remises jour car toutes les vrifications utiles la cohrence globale sont procdes lors de l'alimentation. L' tili ti L'utilisation se rsume d donc un chargement h t priodique, i di puis des interrogations non rgulires, non prvisibles, parfois longues excuter.
29/11/2009
Tout To t systme s stme d'information dcisionnel (SID) telle que q e le sont les datawarehouses assurent quatre fonctions fondamentales, savoir la collecte, ll t l'intgration, la diffusion et la prsentation des donnes. ces quatre fonctions s'ajoute une fonction de contrle du SID lui-mme, lui-mme ll'administration administration.
29/11/2009
L collecte La ll t
La collecte des donnes (parfois appele data pumping) est l'ensemble des tches consistant dtecter, slectionner, extraire et filtrer les donnes brutes issues des environnements pertinents compte tenu du primtre du SID. Les sources de donnes internes et/ou externes tant souvent htrognes tant sur le plan technique que sur le plan smantique (donnes complexes) cette fonction est la plus dlicate mettre en place dans un systme dcisionnel complexe, car un excdent de donnes, un dfaut de fiabilit ou un trop mauvais rapport signal/bruit sont pires que l'absence de donnes.
29/11/2009
10
Elle s'appuie s'app ie notamment s sur r des o outils tils d'ETL (extract(e tract transform-load pour extraction-transformationchargement). La fonction de collecte joue galement, au besoin, un rle de recodage. Une donne reprsente diffremment d'une source une autre iimpose le choix i d'une reprsentation unique pour les futures analyses.
29/11/2009
11
Li t Lintgration ti
Lintgration des donnes, c'est--dire leur regroupement en un ensemble technique, logique et smantique homogne appropri aux besoins de l'organisation ; elle consiste concentrer les donnes collectes dans un espace unifi, dont le socle informatique essentiel est l' t l'entrept t de d donnes. d l lment t central t ld du di dispositif, itif il permet aux applications dcisionnelles de bnficier d'une source d'information commune, homogne, normalise li et t fi fiable, bl susceptible tibl d de masquer lla di diversit it de l'origine des donnes.
29/11/2009
12
L diffusion La diff i
La diffusion, ou la distribution d'informations labores partir des donnes dans des contextes appropris aux besoins des individus ou des groupes de travail utilisateurs. c'est--dire elle met les donnes la disposition des utilisateurs, selon des schmas correspondant au profil ou au mtier ti de d chacun, h sachant h t que l'accs l' direct di t l'entrept de donnes ne correspondrait gnralement pas aux besoins d'un dcideur ou d'un analyste.
29/11/2009
13
L prsentation La t ti
Cette quatrime fonction, la plus visible pour l'utilisateur, rgit les conditions d'accs de l'utilisateur aux informations. Elle assure le fonctionnement du poste de travail, le contrle d'accs, la prise en charge des requtes, la visualisation des rsultats sous une forme ou une autre. Elle utilise tili t toutes t lles t techniques h i d de communication i ti possibles ibl (outils bureautiques, requteurs et gnrateurs d'tats spcialiss, infrastructure web, tlcommunications mobiles, bil etc.). t )
29/11/2009
14
L d i i t ti Ladministration
Ladministration, qui gre le dictionnaire de donnes et le processus d'alimentation de bout en bout, car le systme dinformation dcisionnelle doit tre lui-mme pilot. C'est la fonction transversale qui supervise la bonne excution de toutes les autres. Elle pilote le processus de mise jour d donnes, des d l d la documentation t ti sur les l donnes d (les (l mta t donnes), la scurit, les sauvegardes, la gestion des incidents.
29/11/2009
15
R Remarque
En pratique, les fonctions de collecte et d'intgration sont troitement lies entre elles, et sont gnralement associes au datawarehouse. De mme, diffusion et prsentation sont des fonctions j tournes vers l'utilisateur et son fortement "orientes sujet", mtier, manipulant des contenus forte valeur ajoute informationnelle et non des donnes brutes; elles sont donc fortement imbriques logiquement et techniquement
29/11/2009
16
Le contexte
Besoin: prise de dcisions stratgiques et politiques Pourquoi: besoin de ractivit face la concurrence Qui: les dcideurs (non informaticiens) Comment: en rpondant aux demandes danalyse d analyse
Qui sont mes Q meilleurs clients? O placer ce produit dans les rayons?
17
Bases de donnes (Oracle, SQL Server) Fichiers, P Paye, gestion ti d des RH, RH gestion ti des d commandes d
Distribues: systmes parpills Htrognes: systmes et structures de donnes diffrents Dtailles: organisation des donnes selon les processus fonctionnels, d donnes surabondantes b d t pour lanalyse l l Peu/pas adaptes lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation d historisation systmatique
29/11/2009
18
Problmatique
Mettre en place un systme dinformation ddi aux applications dcisionnelles: un data warehouse
29/11/2009
19
Champs dapplication d application des systmes dcisionnels Dfinir le Rassembler Analyser les tablir des Dcider solutions problme les donnes donnes p Temps p de p prise dune dcision
29/11/2009
20
Prise de d i i dcision
Bases de production
Data warehouse
Prdiction / simulation
29/11/2009
21
B Banque
Sant
Risques dun prt, prime plus prcise pidmiologie id i l i Risque alimentaire Ciblage d Cibl de clientle li tl Dterminer des promotions Ad Adquation ti demande/production d d / d ti Risque li un contrat dassurance (voiture)
Commerce
Logistique
Assurance
29/11/2009
22
Dterminer et contrler les indicateurs cl de la performance de lentreprise Planifier, analyser et diffuser linformation financire. Mesurer et grer les risques
Finance Intelligence
Aligner g les stratgies g RH, les processus p et les technologies. g Amliorer la connaissance client, identifier et prvoir la rentabilit client, accroitre lefficacit l efficacit du marketing client Classifier et valuer lensemble des fournisseurs. Planifier et piloter la stratgie Achat. Achat
Master F3I (Data Mining et Apprentissage Automatique) 23
29/11/2009
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
29/11/2009
24
Dfinition dun DW
W. H. Inmon (1996): Le data Warehouse est une collection de donnes orientes i t sujet j t, intgres i t , non volatiles l til et t historises hi t i , organises pour le support dun processus daide la dcision Principe: mettre en place une base de donnes utilise des fins danalyse
29/11/2009
25
5 caractristiques des DW :
Orientes sujet Donnes intgres Donnes non volatiles Donnes dates ou archives historises Donnes multidimensionnelles
29/11/2009
26
1.
Regroupe les informations des diffrents mtiers Ne tiens pas compte de lorganisation fonctionnelle des donnes
Ass. Vie
Ass. Auto
29/11/2009
27
Lobjectif dun datawarehouse est la prise de dcisions autour des activits majeures de lentreprise. Dans un datawarehouse, les donnes sont ainsi structures par thmes par opposition celles organises, dans les y de p production, ,p par p processus fonctionnel. systmes Lintrt de cette organisation est de disposer de llensemble ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de lentreprise.
29/11/2009
28
On peut ainsi passer dune vision verticale de lentreprise une vision transversale beaucoup plus riche en informations. On dit que le Datawarehouse est orient mtier , en rponse aux diffrents mtiers de lentreprise quil est cens prparer lanalyse
29/11/2009
29
Donnes i intgres:
h,f
EUR
Les donnes en provenance de sources htrognes ou d'origines diverses (y compris des fichiers externes de cotation ou de scoring). Il sagit alors dintgrer les donnes en provenance de diverse sources afin de les homogniser et de leur donner un sens unique, comprhensible par tous les utilisateurs. La transversalit recherche sera dautant plus efficiente que le systme dinformation sera rellement intgr. Cette intgration ncessite une forte normalisation, une bonne gestion des rfrentiels et de la cohrence, une parfaite matrise de la smantique et des rgles de gestion sappliquant pp q aux donnes manipules. p Ce nest quau prix dune intgration russie que lon peut offrir une vision homogne et cohrente de lentreprise p via ses indicateurs
29/11/2009
31
Traabilit des informations et des dcisions prises Copie des donnes de production
Entrepts de donnes
29/11/2009
32
stables, en lecture seule, non modifiables. Afin de conserver la traabilit des informations et des dcisions p prises, les informations stockes au sein du Datawarehouse ne doivent pas disparatre. Une mme requte lance plusieurs fois, et ce des mois dintervalle, , sur une mme population p p doit restituer les mmes rsultats. ds lors quune donne a t qualifie pour tre introduite au sein du Datawarehouse, elle ne peut ni tre altre, ni modifie, ni supprime (ou en tout cas en de dun certain dlai de purge). Elle devient, de fait, partie prenante de lhistorique p q de lentreprise. p
29/11/2009
33
Les donnes persistent dans le temps Mise en place dun rfrentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Base de production
Ali Samir
Ali Samir
Msila Stif
p Entrept de donnes
1 2
2005 2006
M i Mai Juillet
1 Samir 2 Ali
29/11/2009
Avec une conservation de l'historique et de son volution pour permettre les analyses comparatives (par exemple, d'une anne sur l'autre, etc.). La non-volatilit permet lhistorisation. Dun point de vue fonctionnel, cette proprit permet de suivre dans le temps lvolution des diffrentes valeurs des indicateurs analyser. De fait, dans un Datawarehouse un rfrentiel de temps est ncessaire. Cest laxe temps ou priode
29/11/2009
35
Donnes mutidimentionnelles
prsentes selon diffrents axes d'analyse ou dimensions (par exemple : le temps, les types ou segments de clientle, les diffrentes gammes de produits, produits les diffrents secteurs rgionaux ou commerciaux, etc.). Le Datawarehouse est conu pour contenir les donnes en adquation d ti avec les l b besoins i actuels t l et t futurs f t de d lorganisation, et rpondre de manire centralise tous les utilisateurs.
29/11/2009
36
SGBD et DW
Service commercial
BD prod
Service Financier
BD prod
Service livraison
BD prod
Clientle
H I S T O R I Q U E
37
Data Warehouse
O OLAP: On-Line O e Analitical Processing Clientle
29/11/2009
OLTP VS DW OLTP
Orient transaction Orient application Donnes courantes Donnes dtailles Donnes volutives Utilisateurs nombreux, administrateurs/oprationnels Temps dexcution: court
DW
Orient analyse Orient sujet Donnes historises Donnes agrges Donnes statiques Utilisateurs peu nombreux, manager Temps dexcution: long
29/11/2009
38
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
29/11/2009
39
Datamart
Sous-ensemble dun entrept de donnes Destin rpondre aux besoins dun secteur ou dune fonction particulire de lentreprise Point de vue spcifique selon des critres mtiers ti
Datamarts du service Marketing
DW de lentreprise
29/11/2009
Nouvel environnement structur et format en fonction des besoins dun mtier ou dun usage particulier Moins de donnes que DW
29/11/2009
41
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
29/11/2009
42
Architecture gnrale
Zone de prsentation
Zone de prparation
E X T R A C T I O N
Zone de stockage C H A R G E M E N T
Data warehouse
Sources de donnes
Datamart
29/11/2009
43
Flux entrant
Extraction: multi-source, htrogne Transformation: filtrer, filtrer trier trier, homogniser, homogniser nettoyer Chargement: insertion des donnes dans lentrept Mise disposition des donnes pour les utilisateurs finaux
Flux sortant:
29/11/2009
44
Zone temporaire de stockage des donnes extraites Ralisation des transformations avant linsertion dans le DW: Nettoyage N tt Normalisation Donnes souvent dtruites aprs chargement dans le DW On y transfre les donnes nettoyes Contient les donnes de lentreprise Zone daccs aux donnes contenues dans le DW Peut contenir des outils danalyse programms: Rapports Requtes
Zone de prsentation
29/11/2009
45
29/11/2009
46
Dans cette architecture nous retrouvons : Le staging area : Le staging area est temporaire il sert stocker les donnes extraites (E) des systmes sources. C'est dans le staging area que ll'on on effectue les diffrentes transformations (T) savoir : Le nettoyage des donnes, le merge, la standardisation, le dduplication... des donnes. Les donnes dans le staging g g area sont dtruites une fois le chargement des data marts termin en succs. Le Datawarehouse : Les donnes du staging area sont transfres vers le datawarehouse (L). Il est important de noter que le mta data est aussi stock dans le datawarehouse. Le datawarehouse est centrale et devrait tre contenir toutes les donnes de l'entreprise. p La zone prsentation : Une fois les donnes charges dans le datawarehouse, les utilisateurs peuvent y accder pour excuter e cu e leurs eu s requtes equ es Ad d hoc, oc, programmer p og a e les es rapports, appo s, analyser et visualiser l'information
Master F3I (Data Mining et Apprentissage Automatique) 47
29/11/2009
29/11/2009
48
Dans cette architecture nous retrouvons : L L'architecture architecture prne par Kimball : Le staging area : Le staging area est temporaire il sert stocker les donnes extraites (E) des systmes sources. C C'est est dans le staging area que l'on effectue les diffrentes transformations (T) savoir : Le nettoyage des donnes, le merge, g , la standardisation, , le dduplication... p des donnes. Les donnes dans le staging area sont dtruites une fois le chargement des data marts termin en succs. Les data marts indpendants : Les donnes du staging area sont transfres vers le datamart concern (L). Il est important de noter que le mta data est aussi stock dans le datamart. Les data marts sont indpendants p ce q qui veut dire qu'il n'existe aucune intgration (Communication) entre ces derniers.
29/11/2009
49
Dans cette architecture nous retrouvons : L L'architecture architecture prne par Kimball : La zone prsentation : Une fois les donnes charges dans les Data marts, les utilisateurs peuvent y accder pour excuter leurs requtes Ad hoc, programmer les rapports, analyser et visualiser l'information en provenance des data marts, , analyser y et visualiser l'information
29/11/2009
50
Avantages: permet de rpondre rapidement des besoins extrmement urgents dans des dpartements o la gestion est dcentralise utile lorsque le budget allou pour le dploiement de l'architecture ne permet pas la construction d'un systme global intgr permet de voir des rsultats court terme permet de justifier la poursuite des dveloppements plus globaux ncessite des cots moindres en termes dquipements et autres ressources court terme peut tre utilise lorsque la gestion des donnes est dj dcentralise et que les donnes gres sont propres chacun des groupes de lorganisation
29/11/2009
51
Inconvnients : peut entraner des problmes dvolutivit vers une architecture plus robuste doit faire partie d dun un processus global pour tre russi des problmes de redondance et dinconsistances sont possibles
29/11/2009
52
29/11/2009
53
Dans cette architecture nous retrouvons : L L'architecture architecture prne par Bill Inmon : L'ODS : L'ODS est l'acronyme pour Operational Data Store ou Magasin de donnes oprationnelles. Il joue deux rles : Le rle du staging area qui sert stocker les donnes extraites (E) des systmes sources. On y effectue aussi les diffrentes transformations ( (T) ) savoir : Le nettoyage y g des donnes, le merge, la standardisation, le dduplication... des donnes. Par contre les donnes dans l'ODS l ODS ne sont dtruites qu'aprs la dure de vie des oprations qui est un facteur dfinit par l'organisation et dpend de plusieurs critres. Le deuxime rle d d'un un ODS et c c'est est surtout sa raison d'tre d tre c'est d'intgrer les donnes sources dans le but de prsenter toute l'information ncessaire prendre des dcisions dc s o s tactiques ac ques
29/11/2009
54
L Entreprise Datawarehouse : Les donnes de ll'ODS L'Entreprise ODS sont transfres vers le datawarehouse (L). Le Datawarehouse est centrale, c'est d'ailleurs la raison de l'appellation Entreprise p Datawarehouse ( (EDW), ) et devrait tre contenir toutes les donnes de l'entreprise. Les data marts dpendants : Ces data marts peuvent tre aliments soit de L'EDW soit de l'ODS. Ces data marts sont dpendants. La zone prsentation : Une fois les donnes charges dans le Datawarehouse et les data marts dpendants, les utilisateurs peuvent y accder pour excuter leurs requtes Ad hoc, programmer les rapports, analyser et visualiser l'information...
29/11/2009
55
Avantages: dfinition des donnes intgre et trs consistante fonctionne habituellement bien lorsque la gestion des donnes est dj centralise un certain niveau Inconvnients : demande des efforts trs importants de planification, planification danalyse et de conception au dbut du projet cot de ralisation significatif prsente t d des dl dlais i avant t que limplantation li l t ti fi finale l puisse i tre fonctionnelle retour dinvestissement et bnfices visibles seulement l long t terme demande une bonne coordination entre les diffrents groupes de lorganisation et les consensus peuvent tre difficiles obtenir
Ecole Doctorale (Data Mining et ...) 56
29/11/2009
Les datamarts ne sont pas des bases de donnes spares mais des vues logiques des datawarehouses.
29/11/2009
57
4 Construction 4C t ti dun d DW
29/11/2009
58
4 Construction 4C t ti dun d DW
Les composants fonctionnels d d'un un entrept de donnes s s'observent observent sur trois niveaux : l'acquisition des donnes, leur stockage, leur exploitation (restitution des informations dcisionnelles) PREMIER NIVEAU:ACQUISITION Q DES DONNEES Le premier niveau est celui de l'acquisition des donnes qui vont alimenter l'entrept de donnes. L'htrognit des supports d'o sont issues les donnes extraire a pour corollaire la complexit de la phase d'alimentation de l'entrept de donnes. En effet, les systmes y dinformation oprationnels p sont, , le p plus souvent, , composs p dapplications pp multiples, destines chacune traiter un domaine dactivit spcifique (approvisionnement, production, vente,). Le composant d'acquisition des donnes a donc pour vocation d'unifier les donnes oprationnelles qui, la base, ne sont pas normalises. Il est important p de p porter une g grande attention la nature et la q qualit des donnes avant de les extraire destination du systme d'information dcisionnel. Aprs avoir identifi, parmi toutes les donnes prsentes dans les systmes d'information oprationnels ou issues de bases de donnes externes, celles utiles l'aide la dcision, il est ncessaire d'analyser y leur q qualit tant en termes de capacits p de rapprochement pp d'un mme rfrentiel lors de leur arrive dans l'entrept de donnes, qu'en termes de nettoyage. Si l'on souhaite conserver une cohrence entre les donnes visualises du ct transactionnel et du ct dcisionnel, leur nettoyage s'effectuera la source plutt que dans l'entrept q p de donnes.
29/11/2009
59
4 Construction 4C t ti dun d DW
A) ALIMENTATION DE L'ENTREPOT DE DONNEES L'alimentation des donnes partir des bases de production est une phase primordiale d'un datawarehouse. Des outils logiciels sont alors ncessaires pour intgrer les donnes d dans lle datawarehouse. d t h O parle On l d' d'outil til ETL (Extract, (E t t Transform, T f L d) Load). Extract-Transform-Load est connu sous le terme ETL, ou Extracto-Chargeur, (ou parfois : datapumping). Il s'agit d'une technologie informatique permettant d'effectuer des synchronisations massives d'information d'une base de donnes vers une autre. Selon le conte te on trad contexte, traduira ira par alimentation , extraction e traction , transformation , constitution constit tion ou conversion , souvent combins. Elle repose sur des connecteurs servant exporter ou importer les donnes dans les applications (Ex : connecteur Oracle), des transformateurs qui manipulent les donnes (agrgations, filtres, conversions...), et des mises en correspondance (mappages) (mappages). L'objectif est l'intgration par l'entreprise de ces donnes.
29/11/2009
60
4 Construction 4C t ti dun d DW
A l'origine, les solutions d'ETL sont apparues pour le chargement rgulier de donnes agrges g g dans les entrepts p de donnes ( (ou datawarehouse), ) avant de se diversifier vers les autres domaines logiciels. Ces solutions sont largement utilises dans le monde bancaire et financier, ainsi que dans l'industrie, au vu de la multiplication des nombreuses interfaces.
29/11/2009
61
4 Construction 4C t ti dun d DW
Actuellement il existe trois catgories doutils ETL : Engine-based : les transformations sont excutes sur un serveur ETL, disposant en gnral dun rfrentiel. Ce genre doutil dispose dun moteur de transformation ; Database-embedded : les transformations sont intgres dans la base de donnes. Cette fonctionnalit est trs consommatrice de ressource sur lla b base de d d donnes. Code-generators : les transformations sont conues et un code est gnr. Ce code est dployable indpendamment de la base de donnes.
29/11/2009
62
4 Construction 4C t ti dun d DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes : 1- Dcouverte des donnes : Il s'agit d'identifier dans les systmes sources les donnes importer dans le datawarehouse. Il faut prendre les donnes les plus judicieuses. Un mauvais choix peut considrablement compliquer les phases suivantes de l'alimentation. 2- Extraction des donnes : Il s'agit de collecter les donnes utiles dans l systmes les t d de production(sources). d ti ( ) Il faut f t identifier id tifi les l donnes d ayant t t modifies afin d'importer le minimum de donnes dans le datawarehouse. Et pour ce faire on pourrait s'entendre avec le responsable bl du d systme t source pour ajouter j t soit it un flag fl ou encore des d dates dans chacune des tables extraites, au moins deux dates : Date de cration de l'enregistrement dans la table et la date de mise jour (En gnral la plupart des systmes sources disposent de ces deux dates). dates) Par ailleurs pour ne pas perdre des donnes suites des problmes d'extraction, il est important de s'assurer que le systme source ne purge pas les donnes avant que ll'entrept entrept ne les ait extraits. extraits
29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 63
4 Construction 4C t ti dun d DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes : 3- Transformation des donnes : est la tche la plus complexe et qui demande beaucoup de rflexion. Voici les grandes fonctionnalits de transformation : _ Nettoyage des donnes _ Standardisation des donnes. _ Conformit C f it des d donnes. d _ Gestion des tables de fait _ Gestion des dimensions _ etc. t
Il faut rendre les donnes cohrentes avec la structure du datawarehouse. On d'applique alors des filtres sur les donnes. donnes Il peut tre ncessaire de convertir le format des donnes (EBCDIC vers ASCII par exemple) ou d'harmoniser les formats de dates (jj/mm/aaaa). Il faut galement associer les champs source avec les champs cibles. Un champ source adresse pourra ainsi par exemple tre dcompos en numro , rue , code postal , ville ou l'inverse l inverse. Enfin des donnes des systmes de production doivent tre agrges ou calcules avant leur chargement.
29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 64
4 Construction 4C t ti dun d DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes : 4- Chargement des donnes : C'est la dernire phase de l'alimentation d'un datawarehouse. Il s'agit d'insrer les donnes au sein du datawarehouse. C'est une phase dlicate car les quantits de donnes sont souvent trs importantes.Il permet de transfrer les donnes vers leur destination finale. 3 cas de figures se prsentent, selon larchitecture mise en place 1) de d charger h l donnes les d dans d l' t l'entrept t de d donnes: d Si la politique retenue a t de construire un entrept de donnes avec une base de donnes, alors les donnes seront charges dans l'entrept. Cette approche est proche celle de Bill Inmon. Inmon Il sera ds lors possible dutiliser des fonctionnalits analytiques (comme , permis par, Oracle).
29/11/2009
65
4 Construction 4C t ti dun d DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes : 2) de les charger dans des cubes de donnes : La deuxime possibilit est de charger les donnes directement dans des cubes de donnes sans les stocker dans un DW. Cette approche est certainement la plus proche celle de Ralph Kimball. Un bon exemple est l'utilisation directe des cubes de donnes. 3) le mode hybride: La troisime possibilit est celle offre le plus davantages mais demande par contre t plus l d'effort. d' ff t Le L chargement h td des d donnes seffectue ff t la l fois f i sur le datawarehouse et les datamarts : - Un premier chargement des donnes dans un entrept de donnes. - Un deuxime chargement dans des cubes de donnes. donnes
Par contre cette approche ajoute une charge de travail trs considrable pour l'quipe de dveloppement (Aucun impact sur les utilisateurs) : maintenir - Une base de donnes crer et maintenir. - Un exercice de rflexion sur le modle de donnes du datawarehouse. -Un autre exercice de rflexion sur le modle des mtas donns. 29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 66
4 Construction 4C t ti dun d DW
Les composants fonctionnels d d'un un entrept de donnes s s'observent observent sur trois niveaux : l'acquisition des donnes, leur stockage, leur exploitation (restitution des informations dcisionnelles) DEUXIEME NIVEAU: STOCKAGE DES DONNEES Le second niveau est celui de la gestion
des donnes. Sa principale vocation est d'assurer leur stockage dans une base dcisionnelle souvent sous un SGBDR. Les donnes sont structures en contexte d'analyse dcisionnelle et sont orientes vers l'utilisateur dcisionnel ;les donnes sont le plus souvent structures selon des modles en toile. Cest ce niveau que lon construit des cubes multidimensionnels. Le composant de gestion des donnes permet ainsi de raliser au travers des cubes des interrogations sur plusieurs dimensions (diff (diffrents t points i t de d vue) ) des d d donnes contenues t dans d l'entrept.. l' t t
29/11/2009
67
4 Construction 4C t ti dun d DW
Classes de donnes : Le datawarehouse se structure en quatre classes de donnes, organises selon un axe historique et un axe synthtique. 1-Les donnes dtailles : Elles refltent des vnements les plus rcents. Les donnes provenant des systmes de production sont g es ce niveau. eau. Elles es prsentent p se e des avantages a a ages vidents de s intgres (profondeur et niveau de dtail, possibilit d'appliquer de nouveaux axes d'analyse et mme de revenir a posteriori sur le pass ) mais reprsentent p un p plus g grand volume et ncessitent donc des matriels plus performants. .
29/11/2009
68
4 Construction 4C t ti dun d DW
2-Les donnes agrges : Elles correspondent des lments d'analyse y reprsentatifs p des besoins des utilisateurs. Ce sont donc des donnes dj traites par le systme et reprsentant un premier rsultat d'analyse et de synthse des donnes contenues dans les systmes y de p production. Elles p prsentent d'autres avantages g ( (facilit d'analyse, rapidit d'accs, moindre volume) mais il n'est pas toujours possible de retrouver le dtail et la profondeur des indicateurs une fois ceux-ci agrgs et figs : on prend le risque de figer les donnes dans une certaine vue, selon les axes d'agrgation retenus, et de ne plus pouvoir revenir plus tard sur ces critres si l'on n'a pas conserv le dtail (par exemple, si l'on a agrg les rsultats par mois, il ne sera peut-tre t t plus l possible ibl d de f faire i une analyse l par j journe). ) et de celles du datawarehouse.
29/11/2009
69
4 Construction 4C t ti dun d DW
3-Les donnes historises : Chaque nouvelle insertion dans le datawarehouse ne dtruit pas les anciennes valeurs mais cre une nouvelle insertion. 4- Les 4 L mta t donnes d : Il s'agit ' it de d d donnes sur les l donnes d . Elles Ell dcrivent les rgles ou processus attachs aux donnes du systme. Les mta donnes permettront notamment de connatre: quelles sont les donnes entreposes, leurs formats, leurs significations, leurs degrs d'exactitude. les processus de rcupration/extraction dans les bases sources. sources la date du dernier chargement du datawarehouse. l'historique des donnes sources et de celles du datawarehouse.
29/11/2009
70
4 Construction 4C t ti dun d DW
Stockage de donnes : Le stockage au sein d d'un un datawarehouse a un besoin de synthse (agrgation des donnes) et un besoin de dtails (conservation des donnes dtailles). Ce stockage peut tre ralis de trois manires diffrentes : structure directe simple, structure de cumul simple, par rsum droulant.
29/11/2009
71
4 Construction 4C t ti dun d DW
1-Structure directe simple: On fait des mises jour du datawarehouse avec des laps de temps important.
29/11/2009
72
4 Construction 4C t ti dun d DW
2- Structure de cumul simple : on stocke les donnes de chaque mise j jour, les l mises i jour j tant t t frquentes f t (par ( exemple l t tous les l jours) j ) on a un espace occup important, mais on ne perd pas dinformation
29/11/2009
73
4 Construction 4C t ti dun d DW
3-Structure par rsum droulant : chaque mise jour, on stocke des d donnes dtailles, dt ill et t on synthtise thti les l anciennes i d donnes en fonction f ti de leur age. Plus une donne est vieille, moins elle est dtaille
29/11/2009
74
4 Construction 4C t ti dun d DW
Les composants fonctionnels d d'un un entrept de donnes s s'observent observent sur trois niveaux : l'acquisition des donnes, leur stockage, leur exploitation (restitution des informations dcisionnelles)
Le troisime niveau est celui des restitutions des informations dcisionnelles dans des applications pouvant se greffer sur la base dcisionnelle. Cette fonction est assure par des outils dcisionnels varis comme des outils de reporting, des outils de tableaux de bord, des outils de Balanced Scorecard ou des outils de fouille de donnes. Pour un mme outil, le type d'utilisation est galement de diffrents ordres. Ainsi, p pour un outil de requtage, q g l'utilisateur p peut vouloir accder des rapports prdfinis fixes, modifier les paramtres de rapports prdfinis ou crer son propre rapport. De la mme manire, un rapport peut tre excut directement par l'utilisateur ou le rsultat envoy dans sa messagerie. Les personnes qui produisent les tableaux de bord n n'auront auront pas saisir des donnes alimentant leurs tableaux. Ce qui a pour effet d'augmenter les qualits des tableaux de bord au niveau notamment de la fiabilit et de la rapidit p d'obtention des informations.
29/11/2009
75
4 Construction 4C t ti dun d DW
En bref :
En conclusion Un entrept de donnes est une collection de donnes orientes sujet, sujet intgres, intgres non volatiles et historises, historises organises pour supporter un processus d'aide la dcision. Typiquement ce processus est men par l'intermdiaire de requtes de type OLAP (On-line (On line Analytical processing). Ces requtes sont gnralement complexes car elles contiennent de nombreuses oprations de jointure et de regroupement et induisent des temps de rponse trs lves.
29/11/2009
76
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
29/11/2009
77
Modlisation Entit/Association
A Avantages: t
Normalisation:
Pas dinterface g graphique p q capable p de rendre utilisable le modle E/A Inadapt pour lanalyse
29/11/2009
78
Exemple
Transporteur Mode M d dexpdition Produit Commande client Client Magasin E l Employ Stock Fonction
29/11/2009
Groupe de produits
Famille de produits d i
Fournisseurs
79
Modlisation des DW
Ne pas normaliser au maximum Table de faits Table de dimensions Modle en toile Modle en flocon
29/11/2009
80
Table de faits
Table principale du modle dimensionnel Contient les donnes observables (les faits) sur le sujet tudi selon divers axes danalyse (les dimensions) Table de faits des ventes
Cl date (CE) Cl produit (CE) Cl magasin (CE) Quantit vendue Cot Montant des ventes
29/11/2009
81
Fait:
Ce que lon souhaite mesurer Quantits vendues, vendues montant des ventes ventes Contient les cls trangres des axes danalyse (dimension) Date, , produit, p , magasin g Trois types de faits: Additif Semi additif Non additif
29/11/2009
82
Pas de P d sens dadditionner d dditi sur lles d dates t car cela l reprsente des instantans dun niveau sur les comptes: on connat ce que nous possdons en banque Non additif: fait non additionnable quelque soit la dimension
Prix unitaire: laddition sur nimporte quelle dimension donne un nombre dpourvu de sens
29/11/2009
83
Rpondre la question :
Exemple: une ligne de commande par produit produit, par client et par jour
29/11/2009
Finesse
84
Table de dimension
Axe danalyse d analyse selon lequel vont tre tudies les donnes observables (faits) Contient le dtail sur les faits Dimension produit
Cl de substitution
Attributs de la dimension
Cl produit (CP) Code produit Description du produit Groupe de produits Marque Emballage Poids
29/11/2009
85
Client, produit, priode de temps Lensemble des informations descriptives des faits
29/11/2009
86
La dimension Temps
Di Dimension i Temps T
29/11/2009
87
Chacun d Ch des membres b appartient ti t un niveau i hi hirarchique hi (ou niveau de granularit) particulier Granularit dune dimension : nombre de niveaux hirarchiques
Temps :
29/11/2009
88
Un client peut se marier, avoir des enfants Un produit peut changer de noms ou de formulation: Somam en Danon yaourt la vanille en yaourt saveur vanille G ti Gestion d de la l situation, it ti 3 solutions: l ti crasement de lancienne valeur Ajout j de nouvel enregistrement g Valeur dorigine / valeur courante Subit S bit d des changements h t t trs frquents f t (t (tous les l mois) i ) dont d t on veut t prserver lhistorique Solution: isoler les attributs qui changent rapidement
29/11/2009
89
Correction des informations errones Facile mettre en uvre Perte de la trace des valeurs antrieures des attributs Perte de la cause de lvolution dans les faits mesurs
Avantage:
Inconvnients:
Cl p produit Description p du p produit Groupe p de p produits 12345 Intelli-Kids Logiciel Jeux ducatifs
29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 90
Utilisation dune cl de substitution Permet de suivre lvolution des attributs Permet de segmenter la table de faits en fonction de lhistorique Accroit le volume de la table
Avantages:
Inconvnient:
Valeur origine/valeur courante Avoir deux visions simultanes des donnes : Voir les donnes rcentes avec lancien attribut Voir les donnes anciennes avec le nouvel attribut Voir les donnes comme si le changement navait pas eu lieu Inadapt pour suivre i plusieurs i valeurs dattributs i iintermdiaires i i
Avantages:
Inconvnient:
Cl produit d it D Description i ti d du Groupe G de d produit produits 12345 Intelli Kids Intelli-Kids Logiciel
29/11/2009
29/11/2009
93
29/11/2009
Profil_achat
94
Modle en toile
29/11/2009
Modle en flocon
95
Modle en toile
Une table de fait centrale et des dimensions Les dimensions nont pas de liaison entre elles Avantages:
Facilit de navigation N Nombre b de d jointures j i t limit li it Redondance dans les dimensions Toutes les dimensions ne concernent pas les mesures
Inconvnients:
29/11/2009
96
Modle en toile
Dimension Temps ID temps anne mois jour j
T bl d Table de f faits it A Achat h t ID client ID temps ID magasin g ID rgion ID produit Quantit achete Montant des achats
Dimension produit ID produit nom code prix i poids groupe famille Dimension Client ID client nom prnom adresse
97
Modle en flocon
Une table de fait et des dimensions dcomposes en sous hirarchies On a un seul niveau hirarchique dans une table de dimension La table de dimension de niveau hirarchique le plus bas est relie la table de fait. On dit quelle a la granularit la plus fine Avantages:
Normalisation des dimensions conomie despace disque Modle plus complexe (jointure) Requtes moins performantes
Inconvnients:
29/11/2009
98
Modle en flocon
Dimension Temps ID temps annee mois jour
Dimension Region ID rgion ID division vente pays description p . Dimension Division vente ID di division i i vente t description .
29/11/2009
Table de faits Achat ID client ID temps ID magasin ID rgion ID produit Quantit achete Montant des achats
Dimension Client ID client nom prnom adresse Master F3I (Data Mining et Apprentissage Automatique)
99
Choisir Ch i i l le sujet j t Choisir les faits Choisir la granularit des faits Identifier et adapter les dimensions Stocker les pr-calculs tablir les tables de dimensions Choisir la dure de la base Suivre les dimensions lentement volutives Dcider des requtes q p prioritaires, , des modes de requtes
29/11/2009
100
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
29/11/2009
101
Entrept mis jour rgulirement Besoin dun outil permettant dautomatiser les chargements dans lentrept Utilisation doutils ETL (Extract, Transform, Load)
29/11/2009
102
Offre un environnement de dveloppement Offre des outils de gestion des oprations et de maintenance Permet de dcouvrir, analyser et extraire les donnes partir de sources htrognes Permet de nettoyer et standardiser les donnes Permet de charger g les donnes dans un entrept p
29/11/2009
103
Extraction
Extraire des donnes des systmes de production Dialoguer avec diffrentes sources:
Base d B de d donnes, Fichiers, Bases propritaires ODBC, SQL natif, tif Fichiers plats
29/11/2009
104
Transformation
Transformer, nettoyer, trier les donnes Exemple: unifier le format des dates (MM/JJ/AA BJJ/MM/AA)
29/11/2009
105
Chargement
29/11/2009
106
29/11/2009
107
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation Dmonstration
29/11/2009
108
OLTP VS OLAP
Produits Produit
PK id produit id_produit Libell Famille
Pays
Espagne Algrie
A h t Achat
PK FK id_achat id_client _ id_produit Quantit id li t id_client Nom adresse
France
client
PK
janvier j fvrier
avril
Temps
29/11/2009
109
ROLAP
Relational OLAP
Donnes stockes dans une base de donnes relationnelles Un moteur OLAP permet de simuler le comportement dun SGBD multidimensionnel
Plus facile et moins cher mettre en place Moins performant lors des phases de calcul Exemples de moteurs ROLAP:
29/11/2009
110
MOLAP
Utiliser un systme multidimensionnel pur qui gre les structures multidimensionnelles natives (les cubes) Accs direct aux donnes dans le cube
Plus difficile mettre en place Formats souvent propritaires Conu exclusivement pour lanalyse multidimensionnelle Exemples de moteurs MOLAP:
29/11/2009
111
HOLAP
Hybride OLAP:
tables de faits et tables de dimensions stockes dans SGBD relationnel (donnes de base) donnes agrges stockes dans des cubes
Solution hybride y entre MOLAP et ROLAP Bon compromis au niveau cot et performance
29/11/2009
112
Le cube
Modlisation multidimensionnelle des donnes facilitant lanalyse dune quantit selon diffrentes dimensions:
29/11/2009
113
06 263 257
05 101 QA 395
06 120 400
07 52 203
29/11/2009
114
Tranchage (slicing): consiste ne travailler que sur une tranche du cube. Une des dimensions est alors rduite une seule valeur
29/11/2009
115
07 284 240 145 184 uf Idf 05 220 QA 225 06 265 245 07 284 240
29/11/2009
116
Forage vers le haut (roll-up): dzoomer Obtenir un niveau de granularit suprieur Utilisation de fonctions dagrgation Forage vers le bas (drill-down): zoomer Obtenir Obt i un niveau i de d granularit l it infrieur i f i Donnes plus dtailles
29/11/2009
117
Drill-up, drill-down
Roll up Roll up p
05-07 uf Viand e 623 648 uf Viand e Buf 05 Alim. 496 06 520 07 255
Dimension Temps
1S05 uf Viand e 100 134 2S05 121 141 1S06 111 120 2S06 152 137 1S07 139 116
05 221 275 05 20
06 263 257 06 19 43
07 139 116 07 22 48
Drill down
Omelette 40
Drill down
Dimension Produit
29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 118
Langage permettant de dfinir, d'utiliser et de rcuprer des donnes partir d'objets multidimensionnels
29/11/2009
119
MDX, exemple
Fournir les effectifs d dune une socit pendant les annes 2004 et 2005 croiss par le type de paiement
SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS, {[Pay] [Pay Type] {[Pay].[Pay Type].Members} Members} ON ROWS FROM RH
Cube Dimensions, axes a es d danalyse a a yse
WHERE ([Measures].[Count])
2004 Heure Jour
29/11/2009
3396 3678
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
29/11/2009
121
Le march du dcisionnel
29/11/2009
122
29/11/2009
123
Entrept de donnes
MySql Postgresql Greenplum/Biz
OLAP
Mondrian Palo
Reporting
Birt Open
Data Mining
Weka R-Project Orange Xelopes
gres
Intgr
Pentaho SpagoBI S BI
29/11/2009
124
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation Dmonstration
29/11/2009
125
Fonction
29/11/2009
F Fournisseurs i
Contrat
Type de T d contrat
Client
Employs St k Stock
Rgion de ventes t
Fonction
F Fournisseurs i
Division de ventes
127
29/11/2009
Modle en flocon
29/11/2009
128
Rfrences
J. Han, J H and d M. M Kamber. K b D t Mining Data Mi i C Concepts t and Techniques. Morgan Kaufmann.
29/11/2009
Ecole Doctorale (Data Mining et ...) Master F3I (Data Mining et Apprentissage Automatique)
129