0% ont trouvé ce document utile (0 vote)
23 vues2 pages

Intégration de données avec Talend : Jointures et Sélections

Le document décrit un TP sur l'intégration de données avec Talend, axé sur la jointure et la sélection de fichiers. Il explique comment créer des jobs pour joindre des fichiers de personnes et d'adresses email, filtrer les données sans adresse email, et appliquer un filtre sur le prénom 'James'. Enfin, il propose d'enregistrer les données jointes dans une base de données et de stocker les autres enregistrements dans un fichier CSV.

Transféré par

AbdelHadi TLM
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
23 vues2 pages

Intégration de données avec Talend : Jointures et Sélections

Le document décrit un TP sur l'intégration de données avec Talend, axé sur la jointure et la sélection de fichiers. Il explique comment créer des jobs pour joindre des fichiers de personnes et d'adresses email, filtrer les données sans adresse email, et appliquer un filtre sur le prénom 'James'. Enfin, il propose d'enregistrer les données jointes dans une base de données et de stocker les autres enregistrements dans un fichier CSV.

Transféré par

AbdelHadi TLM
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université des Sciences et de la Technologie d’Oran -Mohammed BOUDIAF-

Faculté des Mathématiques et Informatique


Département d’Informatique
Master I Bases de Données Multidimensionnelles et Entrepôts de Données

TP 2: Intégration de données avec Talend (2/5)


Jointure et sélection
1 Jointure de fichiers
Le fichier [Link] permet d’associer une adresse mail aux personnes. Nous proposons de regrouper cette information dans
le fichier personnes mails. Pour faire cela, créer un nouveau Job Jointure fichiers et suivre les étapes suivantes:

ˆ Glisser les deux fichiers délimités personnes et mails dans le panneau principal. Glisser le composant tM ap, de la
catégorie Transformation dans le panneau principal. Ce composant permet de transformer et diriger les données à
partir d’une ou plusieurs sources vers une ou plusieurs destinations. Enfin, faire glisser un fichier délimité de sortie.
ˆ Relier les différents composants. Relier en premier le composant personnes avec tmap, puis le composant mails.

ˆ Double cliquer sur le composant tMap pour le configurer. Une fenêtre s’ouvre. Commencer par relier les champs nom
et prénom de la première table row1, aux champs nom et prénom de la table row2. Faire glisser ensuite les champs id,
nom, prénom, adresse de row1 puis le champ correspondant aux emails de row2 vers la table de destination.
ˆ Configurer ensuite le fichier de sortie en précisant son chemin et en incluant l’en-tête. Exécuter le Job, et vérifier le
fichier de sortie.

Exercice
ˆ Créer un nouveau Job Jointure Tri fichiers de base. Ce job permet de:

– Faire la jointure entre la table personnes créée précédemment et le fichier [Link] pour obtenir les champs
id, nom, prénom adresse et mail.
– Trier ces données jointes par nom, avant de les stocker dans un fichier texte [Link] dont les
champs sont délimités par le caractère ”|”.

2 Sélection de données
Il est possible de filtrer les données, en sélectionnant les lignes qui respectent la jointure interne (Inner Join). On peut
remarquer dans les données du fichier personnes mails que certaines entrées ne comportent pas d’adresse mail. On désire
filtrer ces données, et n’enregistrer dans le fichier de sortie que les données comportant une adresse mail. Les autres données
pourront être affichées dans la console. Pour cela, suivre les étapes suivantes:

ˆ Dupliquer le Job Jointure fichiers et le renommer en Selection fichiers. Double-cliquer sur le composant tMap pour en
modifier les propriétés.
ˆ Cliquer sur le tournevis au dessus de la table mails et choisir inner join comme modèle de jointure.

ˆ Créer une deuxième sortie appelée rejets en cliquant sur (+) au dessus de la table de sortie. Faire glisser les champs
nom et prénom dans la table rejets.
ˆ Indiquer que cette table contient les données qui ne respectent pas la jointure en cliquant sur le tournevis sur la table
rejets, et en mettant le champ catch lookup inner join reject à true. Cliquer sur OK.
ˆ Faire glisser le composant tLogRow de la catégorie Logs et Erreurs dans la fenêtre principale. Clic-droit sur la tMap,
choisir Row → rejet et cliquer sur le composant de Log pour relier ces deux composants, et envoyer la sortie rejet vers
le log.
ˆ Exécuter le Job et observer le résultat.

Nous souhaitons rajouter un filtre sur le prénom ”James”. Pour cela:

1
ˆ double-cliquer sur le composant tMap pour en modifier les propriétés. Activer le filtre des données, en cliquant sur la
flèche de la table de sortie. Entrer ensuite le critère de sélection des données (en Java):

!(”James”.equals([Link]))

ˆ Créer une troisème sortie appelée filtre en cliquant sur (+) au dessus de la table de sortie. Faire glisser les champs nom
et prénom dans la table filtre.
ˆ Indiquer que cette table contient les données qui sont rejetées en cliquant sur le tournevis sur la table rejets, et en
mettant le champ catch output reject à true. Cliquer sur OK. Afficher le résultat dans un tLogRow.

ˆ Exécuter le Job et observer le résultat.

Exercice
ˆ Stocker dans une nouvelle table de la base de données les données joints des deux fichiers (personnes et mails).
Il faudra stocker uniquement les clients habitants dans les états Nevada (NV) ou Delaware (DE).
ˆ Stocker le reste des enregistrements dans un fichier [Link].

Vous aimerez peut-être aussi