0% ont trouvé ce document utile (0 vote)
36 vues31 pages

Chapitre 2

Le document traite du processus ETL (Extraction, Transformation, Chargement) dans le cadre des entrepôts de données, soulignant l'importance de l'homogénéisation des données provenant de sources hétérogènes. Il décrit les étapes de sélection, extraction, transformation et chargement des données, ainsi que l'administration et l'exploitation de l'entrepôt de données. Enfin, il aborde les différences entre les bases de données et les entrepôts de données, ainsi que le cycle de vie d'un entrepôt de données.

Transféré par

ghorbeljamila
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
36 vues31 pages

Chapitre 2

Le document traite du processus ETL (Extraction, Transformation, Chargement) dans le cadre des entrepôts de données, soulignant l'importance de l'homogénéisation des données provenant de sources hétérogènes. Il décrit les étapes de sélection, extraction, transformation et chargement des données, ainsi que l'administration et l'exploitation de l'entrepôt de données. Enfin, il aborde les différences entre les bases de données et les entrepôts de données, ainsi que le cycle de vie d'un entrepôt de données.

Transféré par

ghorbeljamila
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ENTREPÔTS

DE DONNÉES

Omar Khrouf
[Link]@[Link]
Entrepôts de données
CHAPITRE 2 :

Processus ETL (Extracting –


Transforming – Loading )

Entrepôts de données
Processus ETL (Extracting – Transforming –
Loading )
Le principe de l'entreposage des données est de rassembler de multiples données
sources qui souvent sont hétérogènes en les rendant homogènes afin de les analyser.

Ce travail d'homogéinisation nécessite des règles précises servant de dictionnaire


(ou de référentiel) et qui seront mémorisées sous forme de métadonnées
(information sur les données).

Ces règles permettent d'assurer des tâches d'administration et de gestion des donnés
entreposées.

Entrepôts de données
3
ETL
Un système ETL est tout système qui permet :

❑ de découvrir, analyser et extraire les données à partir de sources hétérogènes;


❑ de nettoyer et standardiser les données selon les règles d'affaires établies par l'entreprise;

❑ de charger les données dans un entrepôt de données et/ou les propager vers les data-

marts.

Entrepôts de données
4
ETL
L'alimentation d'un ED est un processus qui s'effectue en plusieurs
étapes :

❑Sélection des données sources

❑Extraction des données

❑Transformation

❑Chargement
Entrepôts de données
5
Sélection des données sources
• Quelles sont les données de production qu'il faut sélectionner pour alimenter l'ED ?

• Toutes les données sources ne sont forcément pas utiles.

• Doit-on prendre l'adresse complète ou séparer le code postal ?

• Les données sélectionnées seront réorganisées pour servir à la fabrication des

informations.

• La dénormalisation des données.

Entrepôts de données
6
Sélection des données sources
La sélection des données utiles à partir des BD de production n'est pas
simple à faire .
Les données sont :

• hétérogènes (différents SGBD et différentes méthodes d'accès);

• diffusés (différents environnements matériels et différents réseaux interconnectés


ou non);

• complexes (différents modèles logiques et physiques principalement orientés vers les


traitements transactionnels).

• La définition de la granularité dépend du niveau de raffinement de l'information


qu'on veut obtenir.
Entrepôts de données
7
Sélection des données sources
Il existe plusieurs niveaux de données :

• Les données sont parfois assemblées avant d'être injectées dans l'ED permettant une
vision intégrée et transversale de l'entreprise.

• Cette forme de données constitue le niveau le plus fin au niveau de l’ED : ceux sont les
données de détail. Elles peuvent être agrégées et constituent ainsi un autre niveau de
détail.

• Elles seront par la suite structurées dans des espaces d'analyse (soit des cubes de
données, soit des data marts).

• Elles seront finalement à un niveau de présentation, où elles peuvent avoir plusieurs


formes (tableaux, graphiques, tableaux de bord, règles de connaissances...).
Entrepôts de données
8
Extraction des données
❑ L'extraction peut se faire à travers un outil d'alimentation qui doit travailler de
façon native avec les SGBD qui gèrent les données sources.

❑ Ou alors créer des programmes extracteurs. L'inconvénient de cette approche


est le risque de faire des extractions erronées, incomplètes et qui peuvent biaiser
l'ED.

❑ Il faut gérer les anomalies en les traitant et en gardant une trace

Entrepôts de données
9
Extraction des données
❑ L'extraction doit se faire conformément aux règles précises du référentiel.

❑ Elle ne doit pas non plus perturber les activités de production.

❑ Il faut faire attention aux données cycliques. Celles qu'on doit calculer à chaque
période, pour pouvoir les prendre en considération.

❑ L'extraction peut se faire en interne selon l'horloge interne ou par un planificateur ou


par la détection d'une donnée cible (de l'ED) ; ou en externe par des planificateurs
externes.

❑ Les données extraites doivent être marquées par “ horodatage ” afin qu'elles puissent
être pistées.

Entrepôts de données
10
Transformation
C'est une suite d'opérations qui a pour but de rendre les données cibles homogènes
et puissent être traitées de façon cohérente.

Entrepôts de données
11
Transformation
❑ Les données doivent alors filtrées afin d'éliminer les données aberrantes: données
sans valeurs, avec des valeurs manquantes.

❑ Souvent dans les bases de production, certaines données sont sémantiquement


fausses.

❑ Pour avoir une alimentation de qualité, il faut avoir une bonne connaissance des
données à entreposer et des règles qui les régissent. Savoir corriger les données pour
les doter d'un vrai sens sémantique.

Entrepôts de données
12
Transformation
❑ L'ensemble des données sources, après nettoyage ou transformation d'après
des règles précises ou par application de programmes, seront restructurées et

converties dans un format cible.

❑Il faut synchroniser les données pour que les valeurs agrégées obtenues soient
cohérentes, avant de passer à la phase de chargement.

Entrepôts de données
13
Data Cleaning
• Présence de données fausses dès leur saisie
➢ Fautes de frappe
➢ Différents formats dans une même colonne
➢ Texte masquant de l’information (e.g., ”N/A”)
➢ Valeur nulle
➢ Incompatibilité entre la valeur et la description de la colonne
duplication d’information, ...
• Persistance de données obsolètes
• Confrontation de données sémantiquement équivalentes mais
14
syntaxiquement différentes Entrepôts de données
Chargement
❑C'est l'opération qui consiste à charger les données nettoyées et préparées dans
le DW.
❑C'est une opération qui risque d'être assez longue. Il faut mettre en place des
stratégies pour assurer de bonnes conditions à sa réalisation et définir la politique
de rafraîchissement.
❑C'est une phase plutôt mécanique et la moins complexe.

Entrepôts de données
15
Chargement
• Le dictionnaire (ou référentiel) de données est constitué de
l'ensemble des métadonnées.
• Il renferme des informations sur toutes les données de l’ED.
• Il renferme également des informations sur chaque étape lors de la
construction du DW ; sur le passage d'un niveau de données à un
autre lors de l'exploitation du DW.
•Le rôle des métadonnées est de permettre :
oLa définition des données
oLa fabrication des données
oLe stockage des données
oL'accès aux données
oLa présentation des données. Entrepôts de données
16
Avantage ETL
• Développement simple, rapide et moins coûteux. Les coûts de l'outil

seront amortis rapidement pour les projets sophistiqués.


• Les outils ETL disposent de programme intégré qui permet de faciliter la

documentation, la création et la gestion de changement. L'outil ETL doit


bien gérer les erreurs qui peuvent surgir en cours d'exécution.
• Les outils ETL offrent des mécanismes de cryptage de compression en

ligne de données.

• La plupart des outils ETL offre une très bonne performance même pour
17
une grande quantité de données Entrepôts de données
Avantages des ETL - Maison
• Les outils de tests unitaires automatique sont disponibles seulement pour

les outils développé maison.


• Les techniques de programmation orientée objet permettent de rendre

consistantes la gestion des erreurs, la validation et la mise à jour des méta-


data.
• Disponibilité des programmeurs dans l'entreprise.

• Un outil développé maison donne une grande flexibilité et si le besoin se

présente. Il est possible de tout faire.

Entrepôts de données
18
Administration d'un ED
❑La fonction d'administration porte sur un aspect fonctionnel (qualité et la pérennité
des données) mais aussi sur un aspect technique (maintenance, optimisation,
sécurisation,...)

❑Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection


des données de production à la mise à disposition pour construire les espaces
d'analyse.
❑L'administrateur de l'ED doit maîtriser la gestion des données (données, provenance
des données, méta-données).

❑Les données agrégées sont aussi une production (information) de l'entreprise comme
les données de production, doivent être entreposées.
Entrepôts de données
19
Administration d'un ED
❑La fonction d'administration porte sur un aspect fonctionnel (qualité et la pérennité
des données) mais aussi sur un aspect technique (maintenance, optimisation,
sécurisation,...)

❑Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection


des données de production à la mise à disposition pour construire les espaces
d'analyse.
❑L'administrateur de l'ED doit maîtriser la gestion des données (données, provenance
des données, méta-données).

❑Les données agrégées sont aussi une production (information) de l'entreprise comme
les données de production, doivent être entreposées.
Entrepôts de données
20
Administration d'un ED
❑La fonction de DBA est très recherchée

❑Les DBA sont bien rémunérés (mieux que les développeurs)

❑Les compétences demandées chez les DBA :

❑Data warehousing (très recherché)

❑Services de transformation des données (ETL)

Entrepôts de données
21
Exploitation de l’entrepôt
❑Business Intelligence:

• Possibilité de visualiser et d’exploiter une masse importante de données


complexes
❑Trois principaux outils:

• OLAP :On-Line Analytical Processing


• Data mining: fouille de données
• Formulation de requêtes et visualisation des résultats

Entrepôts de données
22
Architecture d’un entrepôt de données
❑Souvent une architecture trois-tiers
•Serveur d’entrepôt (“Warehouse Database Server”)
•Très souvent un système relationnel (ex. Oracle)

•Serveur OLAP (“OLAP Server”) de type ROLAP, MOLAP, ou


HOLAP
•Clients
•Outils de requêtes et de production de rapports
•Outils d’analyse et de prospection de données

Entrepôts de données
23
Domaine d’application
❑Banque, Assurance
•Détermination des profils client (prêt, …)

❑Commerce
•Ciblage de clientèle

•Compagnies de grande production


•Aménagement des rayons (2 produits en corrélation)

❑Compagnies téléphoniques

❑Santé
Entrepôts de données
24
Base de données vs. Entrepôt de donnée

Entrepôts de données
25
Base de données vs. Entrepôt de donnée

❑Les objectifs de performances dans les BD ne sont pas les


mêmes que ceux dans les EDs :
oBD : requêtes simples (OLTP), méthodes d’accès et indexation
oED : requêtes OLAP souvent complexes!!!

❑La nécessité de combiner des données provenant de diverses sources,


d’effectuer des agrégations dans un ED et d’offrir des vues multidimensionnelles

❑Les données d’un ED sont souvent non volatiles et ont donc une plus longue
durée de vie que celles d’une BD
Entrepôts de données
26
Cycle de vie de l’entrepôt de données

Entrepôts de données
27
Cycle de vie
❑Spécification des besoins
• Rassembler clairement et fidèlement les besoins des utilisateurs (décideurs)

❑Clarifier les objectifs spécifiques


• Comportement de la clientèle, analyse de tendance de prévisions, etc.

❑Énumérer les dimensions


• Définir l’architecture du système (modèle de données), l’usage final (rapports,
requêtes, outils d’analyse et visualisation)

Entrepôts de données
28
Cycle de vie
❑Analyse
• Développer le schéma de l’entrepôt

• Définir les processus nécessaires à la mise en place de l’entrepôt (extraction de données à partir
des sources, transformations)

❑Conception (3 niveaux)
• Conceptuel : mise au point du schéma, définition des méta- données

• Logique : adapté aux particularités du serveur de l’entrepôt (ROLAP, MOLAP, etc.)

• Physique: choix d’index, vues matérialisées, fragmentation

Entrepôts de données
29
Cycle de vie
❑Construction
• Développer des programmes d’extraction, d’épuration et de transformation de
données

❑Déploiement
• Fournir une installation initiale incluant la connexion aux données sources, la
synchronisation et la réplication de données

• Permettre des extensions futures

•Offrir la formation pour les groupes d’intervenants


•Offrir les divers mécanismes d’administration de l’ED (reprise, sécurité, performances)
• Offrir les outils nécessaires à l’exploitation des données et à la consultation des méta-
données Entrepôts de données
30
Cycle de vie
❑Construction
• Développer des programmes d’extraction, d’épuration et de transformation de
données

❑Déploiement
• Fournir une installation initiale incluant la connexion aux données sources, la
synchronisation et la réplication de données

• Permettre des extensions futures

•Offrir la formation pour les groupes d’intervenants


•Offrir les divers mécanismes d’administration de l’ED (reprise, sécurité, performances)
• Offrir les outils nécessaires à l’exploitation des données et à la consultation des méta-
données Entrepôts de données
31

Vous aimerez peut-être aussi