0% ont trouvé ce document utile (0 vote)

23 vues25 pages

2BImod Modelisation3

L'intégration des données est essentielle pour gérer des sources diverses, des applications obsolètes et des problèmes de qualité des données. Les principales approches d'intégration incluent ETL (Extract Transform Load) et ELT (Extract Load Transform), chacune ayant ses propres méthodes de traitement et de stockage des données. Le document décrit également les étapes du processus ETL, les types de transformations nécessaires et les considérations pratiques pour le chargement des données dans un entrepôt.

Transféré par

hmidaaziz78

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

23 vues25 pages

2BImod Modelisation3

Transféré par

hmidaaziz78

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Intégration des données et

ETL
Pourquoi est-il nécessaire de faire
l’intégration des données?
1. Sources diverses et disparates

2. Sources sur différentes plateformes et OS

3. Applications anciennes utilisant des BD et autres technologies obsolètes

4. Historique de changement non-préservé dans les sources

5. Qualité de données douteuse et changeante dans le temps

6. Structure des systèmes sources changeante dans le temps

7. Incohérence entre les différentes sources

Quelles sont les principales
approches d’intégration?

ETL (Extract Transform Load)

Data Warehouse + ETL

ELT (Extract Load Transform)

Data Lake + ELT
Data Warehouse + ETL ou
Data Lake + ELT
• Les ETL structurent les données, les organisent,
les filtrent en fonction des besoins de
l’entreprise. Toutes les données n’entrent pas
dans le DWH.

• Avec un ELT, les données qui arrivent dans le

Data Lake n’ont aucune organisation. Les
données sont triées, structurées, normalisées
après avoir été chargées.
• ETL extrait d’abord les données d’un ensemble de sources de données.

• Les données sont conservées dans une base de données temporaire (Staging Area).

• Des opérations de transformation sont ensuite effectuées pour structurer et convertir les données
en une forme appropriée pour le système Data Warehouse cible.

• Les données structurées sont ensuite chargées dans le Data Warehouse, prêtes à être analysées.
• Avec ELT, les données sont chargées immédiatement après avoir été extraites des ensembles de
données sources.

• Il n’y a pas de base de données temporaire, ce qui signifie que les données sont immédiatement
chargées dans le référentiel unique et centralisé.

• Les données sont transformées à l’intérieur du système Data Warehouse pour être utilisées avec
des outils de business intelligence et d’analyse.i
Datawarehouse vs DataLakes
Un Data Lake ou lac de Un entrepôt de
données données
• Repose sur une architecture • Recueille des données de
à plat permettant de stocker diverses sources, internes
une grande quantité de ou externes.
données brutes provenant • Permet de stocker des
de sources diverses. données historiques,
• Ces données peuvent structurées, non volatiles,
également être structurées, orientées objet.
non-structurées ou semi- • Les données doivent être
structurées pour une nettoyées et préparées
utilisation ultérieure avant d'être stockées.
Quelles sont les principales étapes
dans le développement du système
ETL?
Tâches et étapes de l'ETL
(6) Préparer le (7) Définir les
(1) Déterminer les
staging area et les procédures pour le
données nécessaires
outils d'assurance chargement de
à la solution de BI
qualité données

(2) Déterminer les

(5) Planifier les
sources internes et (8) ETL des tables de
agrégations de
externes renfermant dimension
données
ces données

(4) Définir les règles

(3) Définir les règles
de transformation et (9) ETL des tables de
d'extraction des
de nettoyage des faits
données cibles
données
Extraction des données
Identification des sources

1.Énumérer les items cibles (métriques et attributs de dimension) nécessaires à l'entrepôt de

données

2. Pour chaque item cible, trouver la source et l'item correspondant de cette source

3. Si plusieurs sources sont trouvées, choisir la plus pertinente

4. Si l'item cible exige des données de plusieurs sources, former des règles de consolidation

[Link] l'item source renferme plusieurs items cibles (ex: un seul champs pour le nom et
l'adresse du client), définir des règles de découpage

6. Inspecter les sources pour des valeurs manquantes

Extraction des données
Extraction complète Extraction incrémentale

• Capture l'ensemble des données à un • Capture uniquement les données qui

certain instant (snapshot de l'état ont changées ou ont été ajoutées
opérationnel); depuis la dernière extraction;
• utile dans deux situations: • Peut être faite de deux façons:

• Chargement initial des données; • Extraction temps-réel;

• Rafraîchissement complet des • Extraction différée (en lot).

données (ex: modification
d'une source).
• Peut être très coûteuse en temps (ex:
plusieurs heures/jours).
Comment peut-on extraire les
données qui ont changées
dans les sources?
• En temps-réel?

• En différé (lot)?
Extraction temps-réel
• S'effectue au moment où les transactions surviennent dans les systèmes sources.
• 3 solutions
Extraction temps-réel
Option 1: Capture à Option 2: Capture à Option 3: Capture à
l'aide du journal des l'aide de triggers l'aide des
transactions • Des procédures applications sources
• Utilise les logs de déclenchées (triggers) • Les applications sources
transactions de la BD sont définies dans la sont modifiées pour
servant à la BD écrire chaque ajout et
récupération en pour recopier les modification de
cas de panne; données à extraire dans données
• Aucune modification un fichier de sortie; dans un fichier
• Meilleur contrôle de la d'extraction;
requise à la BD ou
aux capture • Exige des modifications
sources; d'évènements; aux applications
• Doit être fait avant le • Exige de modifier les BD existantes;
rafraîchissement sources; • Entraîne des coûts
périodique du journal; • Pas possible avec les additionnels de
• Pas possible avec les systèmes anciens ou développement et de
systèmes anciens ou les les maintenance;
sources à base de sources à base de • Peut être employé sur
fichiers (il fichiers. des systèmes legacy
faut une BD et
journalisée). les systèmes à base de
fichiers.
Extraction différée
• Extrait tous les changements survenus durant une période donnée (ex:
heure, jour, semaine, mois).
Extraction différée
Option 1: Capture basée sur Option 2: Capture par
les timestamps comparaison de fichiers
• Une estampille (timestamp) • Compare deux snapshots
d'écriture est ajoutée à successifs des données
chaque ligne des sources;
systèmes sources; • Extrait seulement les différences
• L'extraction se fait uniquement (ajouts, modifications,
sur les données dont le suppressions) entre les deux
timestamp est plus récent que snapshots;
la dernière extraction; • Peut être employé sur des
• Peu fonctionner avec les systèmes systèmes anciens et les
anciens et les fichiers plats, systèmes à base de
mais peut exiger des fichiers, sans aucune
modifications aux modification;
systèmes sources; • Exige de conserver une copie de
• Gestion compliquée des l'état des données sources;
suppressions. • Approche relativement
coûteuse.
Considérations pratiques

• Choisir, pour chaque source, la fenêtre temporelle durant laquelle sera

faite l'extraction;

• Déterminer la séquence des tâches d'extraction;

• Déterminer comment gérer les exceptions.

Quelles sont les transformations à effectuer
sur les données sources avant de les charger
dans l’entrepôt?
Types de transformation:
Révision de format
• Ex: Changer le type ou la longueur de champs individuels.

Décodage de champs
• Consolider les données de sources multiples
• Ex: ['homme', 'femme'] vs ['M', 'F'] vs [1,2].
• Traduire les valeurs cryptiques
• Ex: 'AC', 'IN', 'SU' pour les statuts actif,
inactif et suspendu.

Pré-calcul des valeurs dérivées

• Ex: profit calculé à partir de ventes et coûts.

Découpage de champs complexes

• Ex: extraire les valeurs code postal, ville, gouvernorat et pays à partir d'une seule chaîne de
caractères adresse.
Fusion de plusieurs champs
• Ex: fusionner les champs prénom, secondPrénom et nomFamille en un seul nomComplet
Types de transformation
Conversion de jeu de caractères
• Ex: EBCDIC (IBM) vers ASCII.

Conversion des unités de mesure

• Ex: kelvin à Celsius, impérial à métrique.

Conversion de dates
• Ex: '24 FEB 2011' vs '24/02/2011' vs '02/24/2011'.

Pré-calcul des agrégations

• Ex: ventes par produit par semaine par région.

Déduplication
• Ex: Plusieurs enregistrements pour un même client.
Transformation des données
Problème de résolution d'entités:
• Survient lorsqu'une même entité se retrouve sur différentes sources, sans qu'on ait la
correspondance entre ces sources
• Ex: clients de longue date ayant un identifiant différent sur les différentes sources
• L'intégration des données requiert de retrouver la correspondance
• Approches basées sur des règles de résolution
• Ex: les entités doivent avoir au moins N champs identiques (fuzzy lookup/matching).

Problème des sources multiples:

• Survient lorsqu'une entité possède une représentation différente sur plusieurs sources
• Approches de sélection:
• Choisir la source la plus prioritaire;
• Choisir la source ayant l'information la plus récente.
Matrice de transformation
Chargement des données
Chargement initial: Chargement incrémental:
• Fait une seule fois lors de l'activation de • Fait une fois le chargement initial
l'entrepôt de données complété
• Les indexes et contraintes d'intégrité • Tient compte de la nature des
référentielle (clé étrangères) sont changements (ex: SCD Type 1, 2 ou
normalement désactivés temporairement 3)
• Peut prendre plusieurs heures • Peut être fait en temps-réel ou en lot

Rafraîchissement complet:
• Employé lorsque le nombre de
changements rend le
chargement incrémental
trop complexe
• Ex: lorsque plus de 20% des
enregistrements ont changé depuis
le dernier
chargement.
Chargement des données

• Considération additionnelles:

• Faire les chargements en lot dans une période creuse (entrepôt de

données non utilisé);

• Considérer la bande passante requise pour le chargement;

• Avoir un plan pour évaluer la qualité des données chargées dans

l'entrepôt;

• Commencer par charger les données des tables de dimension.

Exemples d’outils ETL

Vous aimerez peut-être aussi

BI-cours 3
Pas encore d'évaluation
BI-cours 3
27 pages
CHAPITRE05-ETL-Entrepot de Données
Pas encore d'évaluation
CHAPITRE05-ETL-Entrepot de Données
42 pages
Chapitre2 IntégrationDonnées
Pas encore d'évaluation
Chapitre2 IntégrationDonnées
18 pages
chp2 Bi
Pas encore d'évaluation
chp2 Bi
21 pages
Intégration des données : ETL et EAI
Pas encore d'évaluation
Intégration des données : ETL et EAI
31 pages
Optimisation ETL pour Entreprises
Pas encore d'évaluation
Optimisation ETL pour Entreprises
22 pages
Chap 5
Pas encore d'évaluation
Chap 5
44 pages
Etl DM Touil
Pas encore d'évaluation
Etl DM Touil
54 pages
Conception Et Mise en Œuvre Des SD - Chapitre2
Pas encore d'évaluation
Conception Et Mise en Œuvre Des SD - Chapitre2
31 pages
Intégration des données avec Pentaho
Pas encore d'évaluation
Intégration des données avec Pentaho
20 pages
Dwfacile - Les Composantes
100% (3)
Dwfacile - Les Composantes
3 pages
Optimiser l'Alimentation du Data Warehouse
Pas encore d'évaluation
Optimiser l'Alimentation du Data Warehouse
9 pages
Chap 4
Pas encore d'évaluation
Chap 4
38 pages
Sara, Article15
Pas encore d'évaluation
Sara, Article15
5 pages
Chargement Complet des Données ETL
100% (1)
Chargement Complet des Données ETL
5 pages
Les Systèmes D'Information Écisionnels: Youness OUBENAALLA
Pas encore d'évaluation
Les Systèmes D'Information Écisionnels: Youness OUBENAALLA
21 pages
2 - Etl
Pas encore d'évaluation
2 - Etl
10 pages
Guide complet sur les outils ETL
Pas encore d'évaluation
Guide complet sur les outils ETL
25 pages
S2 - Processus ETL Et Entrepôt de Données - 2
Pas encore d'évaluation
S2 - Processus ETL Et Entrepôt de Données - 2
77 pages
Types and Sets of Data in Data Mining
Pas encore d'évaluation
Types and Sets of Data in Data Mining
6 pages
Intégration des données et processus ETL
Pas encore d'évaluation
Intégration des données et processus ETL
19 pages
Chapitre 2 Intro ETL Et Oracle
Pas encore d'évaluation
Chapitre 2 Intro ETL Et Oracle
20 pages
Entrepôt de Données pour Décideurs
Pas encore d'évaluation
Entrepôt de Données pour Décideurs
71 pages
Intégration des Données & ETL
Pas encore d'évaluation
Intégration des Données & ETL
21 pages
Approche ETL
Pas encore d'évaluation
Approche ETL
13 pages
Intégration de Données en Entrepôt
Pas encore d'évaluation
Intégration de Données en Entrepôt
8 pages
Chapitre 02a
Pas encore d'évaluation
Chapitre 02a
17 pages
Extrait Du Livre
Pas encore d'évaluation
Extrait Du Livre
6 pages
Les Étapes Et Notions de La BI 2
Pas encore d'évaluation
Les Étapes Et Notions de La BI 2
4 pages
DWS Et BigData - Partie 1 - Cours 4
Pas encore d'évaluation
DWS Et BigData - Partie 1 - Cours 4
15 pages
Questions clés pour concevoir un ETL
Pas encore d'évaluation
Questions clés pour concevoir un ETL
10 pages
PDI. PENTAHO Data Integration
Pas encore d'évaluation
PDI. PENTAHO Data Integration
32 pages
Développement de Microstrategy au Maroc
100% (1)
Développement de Microstrategy au Maroc
56 pages
Business Intelligence (BI) : Chabamouna - Mustapha@univ-Blida - DZ
Pas encore d'évaluation
Business Intelligence (BI) : Chabamouna - Mustapha@univ-Blida - DZ
35 pages
MTI820 Acetates ETL - 1pp
Pas encore d'évaluation
MTI820 Acetates ETL - 1pp
43 pages
Sujet 3
Pas encore d'évaluation
Sujet 3
22 pages
Cours-2 Sid2021
Pas encore d'évaluation
Cours-2 Sid2021
44 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
31 pages
Processus ETL : Extraction et Chargement
Pas encore d'évaluation
Processus ETL : Extraction et Chargement
11 pages
Test 2 Entrepot de Données
Pas encore d'évaluation
Test 2 Entrepot de Données
4 pages
DWH Complet Avec Grands Schemas Biens
100% (2)
DWH Complet Avec Grands Schemas Biens
42 pages
Intégration Des Big Data Avec L Approche ETL
Pas encore d'évaluation
Intégration Des Big Data Avec L Approche ETL
20 pages
Partie Theorique BI
Pas encore d'évaluation
Partie Theorique BI
7 pages
Système d'Information Décisionnel et ETL
Pas encore d'évaluation
Système d'Information Décisionnel et ETL
5 pages
Datawarehouse 2023 2024
Pas encore d'évaluation
Datawarehouse 2023 2024
97 pages
Présentation Des Outils ETL
Pas encore d'évaluation
Présentation Des Outils ETL
12 pages
4 OLAP Sans Solutions
Pas encore d'évaluation
4 OLAP Sans Solutions
137 pages
OUTILs Autour de Entrepôt de Données
Pas encore d'évaluation
OUTILs Autour de Entrepôt de Données
13 pages
Alimenter un entrepôt de données
Pas encore d'évaluation
Alimenter un entrepôt de données
35 pages
Alimentation d'un Entrepôt de Données
Pas encore d'évaluation
Alimentation d'un Entrepôt de Données
19 pages
Programme Pentaho Data Integration
Pas encore d'évaluation
Programme Pentaho Data Integration
3 pages
Guide complet sur le Datawarehouse et BI
Pas encore d'évaluation
Guide complet sur le Datawarehouse et BI
10 pages
TD SERIE 04 eED
Pas encore d'évaluation
TD SERIE 04 eED
2 pages
Projet BI
Pas encore d'évaluation
Projet BI
22 pages
2-Datawarehouse - English
Pas encore d'évaluation
2-Datawarehouse - English
42 pages
Theme 5
Pas encore d'évaluation
Theme 5
8 pages
TP2 Sid
Pas encore d'évaluation
TP2 Sid
11 pages
Chapitre 2 - Fouille de Motif
Pas encore d'évaluation
Chapitre 2 - Fouille de Motif
61 pages
chp1 Intro Conduite de Projets 2021
Pas encore d'évaluation
chp1 Intro Conduite de Projets 2021
45 pages
Chapitre 4 Classiication
Pas encore d'évaluation
Chapitre 4 Classiication
19 pages
Chapitre 3 Segmentation
Pas encore d'évaluation
Chapitre 3 Segmentation
33 pages
Structures de données en C
Pas encore d'évaluation
Structures de données en C
27 pages
Chapitre 7: La Gestion Des Incidents Et La Reponse Aux Cyberattaques
Pas encore d'évaluation
Chapitre 7: La Gestion Des Incidents Et La Reponse Aux Cyberattaques
5 pages
Cahier Des Charges (Pour Le Drive)
Pas encore d'évaluation
Cahier Des Charges (Pour Le Drive)
17 pages
Tableaux et Collections en Java
Pas encore d'évaluation
Tableaux et Collections en Java
11 pages
STM32F103x8 STM32F103xB Microcontrôleur 32 Bits Basé Sur Arm® Avec 64 Ou 128 Ko Flash, USB, CAN, 7 Temporisateurs, 2 ADC, 9 Com. Interfaces
Pas encore d'évaluation
STM32F103x8 STM32F103xB Microcontrôleur 32 Bits Basé Sur Arm® Avec 64 Ou 128 Ko Flash, USB, CAN, 7 Temporisateurs, 2 ADC, 9 Com. Interfaces
117 pages
ScrumMaster Checklist FR
Pas encore d'évaluation
ScrumMaster Checklist FR
6 pages
9 Vlan
Pas encore d'évaluation
9 Vlan
7 pages
Tutoriel Excel 2013
Pas encore d'évaluation
Tutoriel Excel 2013
19 pages
Chapitre 4 - Risque
Pas encore d'évaluation
Chapitre 4 - Risque
13 pages
CV Riadh Rezig
Pas encore d'évaluation
CV Riadh Rezig
2 pages
Dar ch2
Pas encore d'évaluation
Dar ch2
46 pages
Tableaux en C : Concepts et Manipulations
Pas encore d'évaluation
Tableaux en C : Concepts et Manipulations
16 pages
Les Inverseurs de Sources P
Pas encore d'évaluation
Les Inverseurs de Sources P
13 pages
Notes Sur Le Durcissement de La Sécurité
Pas encore d'évaluation
Notes Sur Le Durcissement de La Sécurité
6 pages
Formalisation Et Résolution Des Problèmes de Découpes Linéaires
Pas encore d'évaluation
Formalisation Et Résolution Des Problèmes de Découpes Linéaires
19 pages
Commutation Et Routage
Pas encore d'évaluation
Commutation Et Routage
165 pages
Gestion des Images et Inscription Laravel
Pas encore d'évaluation
Gestion des Images et Inscription Laravel
4 pages
Chap 10 Procedure de Depannage
Pas encore d'évaluation
Chap 10 Procedure de Depannage
18 pages
QCM Réseau Informatique: Protocole et Adressage
Pas encore d'évaluation
QCM Réseau Informatique: Protocole et Adressage
20 pages
Université Ibn Tofail Concours D'accès Au Master
Pas encore d'évaluation
Université Ibn Tofail Concours D'accès Au Master
25 pages
Chapitre 21 Fpga+Vhdl
Pas encore d'évaluation
Chapitre 21 Fpga+Vhdl
99 pages
Créateur de listes de niveaux Disney
Pas encore d'évaluation
Créateur de listes de niveaux Disney
1 page
Cycle de Produit CAO
Pas encore d'évaluation
Cycle de Produit CAO
35 pages
LE DANGER DES SMARTPHONES ET DES OBJETS CONNECTÉS - LinkedIn
Pas encore d'évaluation
LE DANGER DES SMARTPHONES ET DES OBJETS CONNECTÉS - LinkedIn
6 pages
Formation Maquette Graphique et Prototype
Pas encore d'évaluation
Formation Maquette Graphique et Prototype
22 pages
Etude Des Systmes - Complet Site
Pas encore d'évaluation
Etude Des Systmes - Complet Site
14 pages
10 Schémas Pour Comprendre Power Bi
Pas encore d'évaluation
10 Schémas Pour Comprendre Power Bi
18 pages
TP WIRESHARK
Pas encore d'évaluation
TP WIRESHARK
4 pages
Programme de La Formation LisePV
Pas encore d'évaluation
Programme de La Formation LisePV
2 pages