0% ont trouvé ce document utile (0 vote)

48 vues17 pages

Manipulation de données avec Apache Pig

Ce document présente un compte rendu d'un TP sur Apache Pig, visant à comprendre et manipuler ses fonctionnalités via le langage Pig Latin pour le traitement de données massives. Les étapes incluent le chargement, le filtrage, le classement, la projection, l'agrégation et l'imbrication des données, démontrant ainsi la flexibilité d'Apache Pig par rapport à MapReduce. La conclusion souligne l'enrichissement des compétences en manipulation de données dans des environnements distribués, essentiel pour gérer des projets de traitement de données en masse.

Transféré par

Kanae Sakura

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

48 vues17 pages

Manipulation de données avec Apache Pig

Transféré par

Kanae Sakura

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Département de Mathématique et Informatique

Master Spécialisé Big Data & Cloud Computing

Tp 3

Apache Pig
Réalisé par : Encadré par :

Ouahmid Fatimaezahra Mr. CHIBA Zouhair

Amine Sayagh
Mouad Imam

Année Universitaire 2024 / 2025

Compte rendu du Tp 3

1. Objectif :

Dans ce devoir, l'objectif est de comprendre et de manipuler les fonctionnalités

d'Apache Pig à travers le langage Pig Latin. Apache Pig simplifie la création de
traitements de données basés sur MapReduce en offrant une approche plus intuitive
comparée au codage en Java. Cela facilite considérablement le travail avec des
données massives dans des environnements distribués, tout en réduisant la complexité
du développement.

2. Étapes de Réalisation

Chargement et définition des données

● Lancer le shell Pig avec la commande pig.

● Charger le fichier [Link] avec la commande LOAD.
● Valider le chargement des données avec un aperçu du contenu et la commande
DESCRIBE arbres_bruts.

Affichons un aperçu du contenu pour valider le chargement :

BD2C – S3 1
Compte rendu du Tp 3

Pour s'assurer que les données sont correctement chargées, utilisons :

Cette commande nous montre le schéma de la relation arbres_bruts.

Filtrage des données

● Exclure les lignes invalides (par exemple, celles sans coordonnées

géographiques).
● Vérifier l'intégrité des données filtrées avec DUMP arbres.

Vérifions le schéma avec DESCRIBE arbres :

BD2C – S3 2
Compte rendu du Tp 3

Affichons les données avec DUMP arbres :

Passons maintenant au filtrage :

Aperçu du résultat :

BD2C – S3 3
Compte rendu du Tp 3

Classement et sélection des éléments

● Trier les arbres par année de plantation.

● Sélectionner les arbres les plus anciens.
● Limiter les résultats aux cinq plus vieux arbres grâce à la commande RANK.

Aperçu du résultat :

BD2C – S3 4
Compte rendu du Tp 3

Limiter les résultats

Récupérons les 5 premiers arbres :

Aperçu du résultat :

Pour obtenir les 5 premiers arbres, filtrons ceux ayant un rang inférieur ou égal à 5.

Ici, vieux_arbres2 contient les arbres les plus anciens (top 5), classés par année.

BD2C – S3 5
Compte rendu du Tp 3

Aperçu du résultat :

Opérations de projection et de calculs simples

● Créer une colonne calculant l'âge de chaque arbre en fonction de l'année

actuelle.
● Supprimer des colonnes spécifiques avec une syntaxe simplifiée.

Aperçu du résultat :

BD2C – S3 6
Compte rendu du Tp 3

Le cours mentionne une syntaxe basée sur .. (2 points) pour écrire facilement
une énumération de champs. Voici comment enlever le rang de vieux_arbres2 sans
lister tous les champs :

Aperçu du résultat :

Élimination des doublons

● Identifier et supprimer les enregistrements en double pour conserver des

données uniques.

Aperçu du résultat :

BD2C – S3 7
Compte rendu du Tp 3

Groupement

● Grouper les arbres par genre.

● Calculer des statistiques (moyenne, maximum, nombre) sur l'âge des arbres par
genre.

Genre âge connus :

Aperçu du résultat :

BD2C – S3 8
Compte rendu du Tp 3

Ages par genre :

Aperçu du résultat :

BD2C – S3 9
Compte rendu du Tp 3

Une variante du groupement consiste à grouper tous les n-uplets dans un seul
résultat :

Par age :

Aperçu du résultat :

Par groupe d’age :

Aperçu du résultat :

Groupement et agrégation

● Grouper les arbres par genre.

● Calculer des statistiques (moyenne, maximum, nombre) sur l'âge des arbres par
genre.

Résultat :

BD2C – S3 10
Compte rendu du Tp 3

Pour le nombre :

Résultat :

Pour l’age moyen :

Résultat :

BD2C – S3 11
Compte rendu du Tp 3

Pour l’age maximal :

Résultat :

calculer la moyenne et le maximum de l'âge pour chaque genre d’arbre :

Résultat :

Dégroupement

● Utiliser la fonction FLATTEN pour transformer des groupes en éléments

individuels.

Aperçu du résultat :

BD2C – S3 12
Compte rendu du Tp 3

Imbrication

● Effectuer des analyses complexes en combinant des boucles et des filtres.

● Identifier les genres ayant au moins deux arbres de plus de 150 ans.

Résultat :

BD2C – S3 13
Compte rendu du Tp 3

Pour voir les résultats de l’agrégation :

Résultat :

3. Conclusion

Ce travail nous a offert l'opportunité de découvrir Apache Pig et de pratiquer le

langage Pig Latin pour manipuler des données massives de manière intuitive, réduisant
ainsi la complexité des jobs MapReduce écrits en Java. À travers des étapes

BD2C – S3 14
Compte rendu du Tp 3

progressives, nous avons appris à charger, filtrer, classer, projeter et agréger des
données, ce qui nous a permis de mieux comprendre la structure des relations et
l'importance de définir des schémas pour une manipulation efficace des données.

Les fonctions clés utilisées, telles que FILTER, ORDER, LIMIT, RANK, et
GROUP, ont démontré la flexibilité d'Apache Pig pour organiser et traiter les données.
Nous avons également exploré des techniques avancées, comme le groupement et
l’agrégation, ainsi que le dégroupement avec FLATTEN, qui simplifient le traitement
des groupes de données et facilitent les analyses.

Cette expérience nous a permis de renforcer notre compréhension des concepts de

manipulation des données dans des environnements distribués et d'acquérir des
compétences essentielles pour traiter des bases de données volumineuses. En somme,
ce TP a été une expérience enrichissante, nous préparant à gérer efficacement des
projets de traitement de données en masse dans l'écosystème Hadoop.

BD2C – S3 15

Vous aimerez peut-être aussi

Prise en main d'Apache Pig pour Big Data
Pas encore d'évaluation
Prise en main d'Apache Pig pour Big Data
6 pages
Tutoriel Pig Latin pour Big Data
Pas encore d'évaluation
Tutoriel Pig Latin pour Big Data
7 pages
TP 4
Pas encore d'évaluation
TP 4
11 pages
Traitement de texte avec Apache Pig
Pas encore d'évaluation
Traitement de texte avec Apache Pig
8 pages
TP 9
Pas encore d'évaluation
TP 9
8 pages
Clustering K-means avec Apache Mahout
Pas encore d'évaluation
Clustering K-means avec Apache Mahout
4 pages
Chapitre 5 Partie II
Pas encore d'évaluation
Chapitre 5 Partie II
28 pages
Introduction à PIG et Pig Latin
Pas encore d'évaluation
Introduction à PIG et Pig Latin
13 pages
Introduction à Apache Pig et Pig Latin
Pas encore d'évaluation
Introduction à Apache Pig et Pig Latin
22 pages
Sujets
50% (2)
Sujets
33 pages
Sujets
Pas encore d'évaluation
Sujets
33 pages
TP 7
Pas encore d'évaluation
TP 7
4 pages
Resume Big Data Pig
Pas encore d'évaluation
Resume Big Data Pig
3 pages
TP4 - Spark: Outils Pour Le Big Data
Pas encore d'évaluation
TP4 - Spark: Outils Pour Le Big Data
6 pages
6 - Chapitre 3.3
Pas encore d'évaluation
6 - Chapitre 3.3
11 pages
Polycopié TP: Fouille de Données en R
Pas encore d'évaluation
Polycopié TP: Fouille de Données en R
86 pages
CHAPITRE Big Data Pig
Pas encore d'évaluation
CHAPITRE Big Data Pig
22 pages
TP2 Pig
Pas encore d'évaluation
TP2 Pig
4 pages
Examen TP Data Science 2024
Pas encore d'évaluation
Examen TP Data Science 2024
4 pages
Big Data TP10
Pas encore d'évaluation
Big Data TP10
3 pages
Chapitre3 Imp
Pas encore d'évaluation
Chapitre3 Imp
29 pages
3 Elfaddouli Bigdata Pig 2022
Pas encore d'évaluation
3 Elfaddouli Bigdata Pig 2022
21 pages
Bac Pratique 25052022 Eco 9h30
100% (2)
Bac Pratique 25052022 Eco 9h30
3 pages
Installation de Pig avec Docker pour IA
Pas encore d'évaluation
Installation de Pig avec Docker pour IA
2 pages
Ch5-2 - Langages de Requête - Pig
Pas encore d'évaluation
Ch5-2 - Langages de Requête - Pig
15 pages
Chapitre 3 - Pig & Hive
Pas encore d'évaluation
Chapitre 3 - Pig & Hive
8 pages
Introduction à Apache Pig et Big Data
Pas encore d'évaluation
Introduction à Apache Pig et Big Data
25 pages
Pré-traitement des données d'attaques de requins
Pas encore d'évaluation
Pré-traitement des données d'attaques de requins
29 pages
TP 3 - Exercices Map Reduce
88% (8)
TP 3 - Exercices Map Reduce
3 pages
Épreuve Numérique et Sciences Informatiques
Pas encore d'évaluation
Épreuve Numérique et Sciences Informatiques
10 pages
TD-MapReduce 02 2024
Pas encore d'évaluation
TD-MapReduce 02 2024
3 pages
Cours Avancé en Python et Bases de Données
Pas encore d'évaluation
Cours Avancé en Python et Bases de Données
38 pages
Gestion des parcs nationaux en Tunisie
Pas encore d'évaluation
Gestion des parcs nationaux en Tunisie
35 pages
Introduction à Apache Pig et Big Data
Pas encore d'évaluation
Introduction à Apache Pig et Big Data
32 pages
TP Data Mining : Exploration et Analyse
Pas encore d'évaluation
TP Data Mining : Exploration et Analyse
1 page
Installation et Configuration Big Data
Pas encore d'évaluation
Installation et Configuration Big Data
23 pages
Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
NSIcorrigee 2606
Pas encore d'évaluation
NSIcorrigee 2606
6 pages
Énoncé TP4 Machine Learning ESTK 2024 2025
Pas encore d'évaluation
Énoncé TP4 Machine Learning ESTK 2024 2025
1 page
EFM Base de Données
60% (5)
EFM Base de Données
2 pages
TP 01 - RDD
Pas encore d'évaluation
TP 01 - RDD
2 pages
Analyse de données avec Python en 2025
Pas encore d'évaluation
Analyse de données avec Python en 2025
5 pages
Atelier Framework Big Data PDF
Pas encore d'évaluation
Atelier Framework Big Data PDF
21 pages
Rapport NOSQL
Pas encore d'évaluation
Rapport NOSQL
33 pages
TP PySpark : Traitement Big Data et ML
Pas encore d'évaluation
TP PySpark : Traitement Big Data et ML
4 pages
Td1: Hadoop: Exercice 1
75% (4)
Td1: Hadoop: Exercice 1
3 pages
Consommation D'énergie
Pas encore d'évaluation
Consommation D'énergie
19 pages
TD2 Pig Hive
Pas encore d'évaluation
TD2 Pig Hive
4 pages
TP4Bigdata INDIA 2023 2024
Pas encore d'évaluation
TP4Bigdata INDIA 2023 2024
2 pages
Cours TraitementAvancéBigData Version Finale
Pas encore d'évaluation
Cours TraitementAvancéBigData Version Finale
180 pages
Épreuve Pratique Informatique Bac 2022
Pas encore d'évaluation
Épreuve Pratique Informatique Bac 2022
4 pages
Exercices Hadoop
Pas encore d'évaluation
Exercices Hadoop
4 pages
Science des Données avec Python
Pas encore d'évaluation
Science des Données avec Python
39 pages
1-TD01 Bases de Données Langage SQL
Pas encore d'évaluation
1-TD01 Bases de Données Langage SQL
4 pages
TP 2 Préparation Et Analyse Des Données Sur Le Dataset Autos CSV
Pas encore d'évaluation
TP 2 Préparation Et Analyse Des Données Sur Le Dataset Autos CSV
1 page
Initiation à Hadoop et MapReduce
100% (4)
Initiation à Hadoop et MapReduce
5 pages
Integration Efficace Des Arbres de Decision Dans L
Pas encore d'évaluation
Integration Efficace Des Arbres de Decision Dans L
13 pages
PDF tp1 Bases de Donnees Enonce
Pas encore d'évaluation
PDF tp1 Bases de Donnees Enonce
4 pages
Traitement Distribué avec Hadoop et Spark
Pas encore d'évaluation
Traitement Distribué avec Hadoop et Spark
2 pages
Les Organes Du Corps Humain
Pas encore d'évaluation
Les Organes Du Corps Humain
2 pages
Anatomie et Systèmes du Corps Humain
Pas encore d'évaluation
Anatomie et Systèmes du Corps Humain
3 pages
Systèmes et organes du corps humain
Pas encore d'évaluation
Systèmes et organes du corps humain
3 pages
Systèmes et organes du corps humain
Pas encore d'évaluation
Systèmes et organes du corps humain
2 pages
Les Systèmes Du Corps Humain
Pas encore d'évaluation
Les Systèmes Du Corps Humain
3 pages
Émergence de La Vie
Pas encore d'évaluation
Émergence de La Vie
2 pages
Introduction à la Géologie et ses Applications
Pas encore d'évaluation
Introduction à la Géologie et ses Applications
2 pages
Pollution et Risque de Cancer
Pas encore d'évaluation
Pollution et Risque de Cancer
2 pages
Prévention du cancer et pollution
Pas encore d'évaluation
Prévention du cancer et pollution
2 pages
Comprendre et traiter la dépression
Pas encore d'évaluation
Comprendre et traiter la dépression
2 pages
Comprendre le Cancer : Causes et Traitements
Pas encore d'évaluation
Comprendre le Cancer : Causes et Traitements
2 pages
Clustering K-Means avec Apache Mahout
Pas encore d'évaluation
Clustering K-Means avec Apache Mahout
9 pages
Analyse des k-grammes et modélisation
Pas encore d'évaluation
Analyse des k-grammes et modélisation
3 pages
Consultant ERP et SAP à Casablanca
Pas encore d'évaluation
Consultant ERP et SAP à Casablanca
1 page
Corrigé Du DM N 2 Rendu Le 16/09/25: T T A at
Pas encore d'évaluation
Corrigé Du DM N 2 Rendu Le 16/09/25: T T A at
3 pages
Rapport Sineng
Pas encore d'évaluation
Rapport Sineng
53 pages
Rapport de Stage : Logistique à La Poste
Pas encore d'évaluation
Rapport de Stage : Logistique à La Poste
48 pages
Épreuves de contrôle continu NSI Première
Pas encore d'évaluation
Épreuves de contrôle continu NSI Première
19 pages
Compression de Données : Exercices Master 1
Pas encore d'évaluation
Compression de Données : Exercices Master 1
3 pages
Exercices de Programmation JAVA 2021-2022
Pas encore d'évaluation
Exercices de Programmation JAVA 2021-2022
3 pages
(DIY) Arduino Minuterie Avec LCD. Timer en Arduino + Code, Câblage
Pas encore d'évaluation
(DIY) Arduino Minuterie Avec LCD. Timer en Arduino + Code, Câblage
11 pages
Memoire Glodi-Chapitre 1 Mecanisme D'authentification
Pas encore d'évaluation
Memoire Glodi-Chapitre 1 Mecanisme D'authentification
11 pages
Examen POO : Gestion de Parking en Java
Pas encore d'évaluation
Examen POO : Gestion de Parking en Java
2 pages
L'Organisation Des Services Informatiques
Pas encore d'évaluation
L'Organisation Des Services Informatiques
13 pages
Algèbre Linéaire : Diagonalisation et Suites
Pas encore d'évaluation
Algèbre Linéaire : Diagonalisation et Suites
1 page
Rapport PFE Karim ZIKY
Pas encore d'évaluation
Rapport PFE Karim ZIKY
72 pages
Exercices Fonctions Logarithmique SD Drs
Pas encore d'évaluation
Exercices Fonctions Logarithmique SD Drs
1 page
Introduction au JavaScript pour le Web
Pas encore d'évaluation
Introduction au JavaScript pour le Web
5 pages
FR 301123 160844 ME anDHVB
Pas encore d'évaluation
FR 301123 160844 ME anDHVB
4 pages
Bases du langage JAVA : Guide complet
Pas encore d'évaluation
Bases du langage JAVA : Guide complet
8 pages
Transfert de Données entre Modèles Odoo
Pas encore d'évaluation
Transfert de Données entre Modèles Odoo
11 pages
Fiche 10 Equations Du Premier Degré À Une Inconnue - 2APIC
100% (1)
Fiche 10 Equations Du Premier Degré À Une Inconnue - 2APIC
11 pages
Histoire et définition de l'informatique
100% (1)
Histoire et définition de l'informatique
11 pages
Azure Arm
Pas encore d'évaluation
Azure Arm
404 pages
MERISE : Modélisation SI et MCD
Pas encore d'évaluation
MERISE : Modélisation SI et MCD
9 pages
Collecte de fonds efficace sur KissKissBankBank
Pas encore d'évaluation
Collecte de fonds efficace sur KissKissBankBank
36 pages
Tutoriel IPTV Smarter Pro
83% (6)
Tutoriel IPTV Smarter Pro
3 pages
Chapitre (2) Fonctions Circulaires Réciproques
Pas encore d'évaluation
Chapitre (2) Fonctions Circulaires Réciproques
10 pages
Cours Complet de Maintenance Industrielle
Pas encore d'évaluation
Cours Complet de Maintenance Industrielle
99 pages
Notes Du Cours d'INFORMATIQUE - 031445-1
Pas encore d'évaluation
Notes Du Cours d'INFORMATIQUE - 031445-1
71 pages
Guide PFEISI2022
Pas encore d'évaluation
Guide PFEISI2022
13 pages
ECKO BALANCE FR
Pas encore d'évaluation
ECKO BALANCE FR
9 pages
Gestion de Production dans l'Immobilier
Pas encore d'évaluation
Gestion de Production dans l'Immobilier
31 pages

Manipulation de données avec Apache Pig

Transféré par

Manipulation de données avec Apache Pig

Transféré par

Département de Mathématique et Informatique

Master Spécialisé Big Data & Cloud Computing

Ouahmid Fatimaezahra​ Mr. CHIBA Zouhair​

Année Universitaire 2024 / 2025

Dans ce devoir, l'objectif est de comprendre et de manipuler les fonctionnalités

Chargement et définition des données

●​ Lancer le shell Pig avec la commande pig.

Affichons un aperçu du contenu pour valider le chargement :

Pour s'assurer que les données sont correctement chargées, utilisons :

Cette commande nous montre le schéma de la relation arbres_bruts.

Filtrage des données

●​ Exclure les lignes invalides (par exemple, celles sans coordonnées

Vérifions le schéma avec DESCRIBE arbres :

Affichons les données avec DUMP arbres :

Passons maintenant au filtrage :

Classement et sélection des éléments

●​ Trier les arbres par année de plantation.

Limiter les résultats

Récupérons les 5 premiers arbres :

Opérations de projection et de calculs simples

●​ Créer une colonne calculant l'âge de chaque arbre en fonction de l'année

Élimination des doublons

●​ Identifier et supprimer les enregistrements en double pour conserver des

●​ Grouper les arbres par genre.

Genre âge connus :

Ages par genre :

Par groupe d’age :

●​ Grouper les arbres par genre.

Pour l’age moyen :

Pour l’age maximal :

calculer la moyenne et le maximum de l'âge pour chaque genre d’arbre :

●​ Utiliser la fonction FLATTEN pour transformer des groupes en éléments

●​ Effectuer des analyses complexes en combinant des boucles et des filtres.

Pour voir les résultats de l’agrégation :

Ce travail nous a offert l'opportunité de découvrir Apache Pig et de pratiquer le

Cette expérience nous a permis de renforcer notre compréhension des concepts de

Vous aimerez peut-être aussi

Ouahmid Fatimaezahra Mr. CHIBA Zouhair

● Lancer le shell Pig avec la commande pig.

● Exclure les lignes invalides (par exemple, celles sans coordonnées

● Trier les arbres par année de plantation.

● Créer une colonne calculant l'âge de chaque arbre en fonction de l'année

● Identifier et supprimer les enregistrements en double pour conserver des

● Grouper les arbres par genre.

● Grouper les arbres par genre.

● Utiliser la fonction FLATTEN pour transformer des groupes en éléments

● Effectuer des analyses complexes en combinant des boucles et des filtres.