Project

Le projet 'Big Data' vise à établir une architecture complète pour l'ingestion, la transformation et l'exposition de données, en combinant au moins deux sources de données pour générer de la valeur. Les participants doivent utiliser des APIs ou effectuer du scraping pour ingérer des données, puis nettoyer et analyser ces données à l'aide d'outils comme Airflow pour la planification et des plateformes de visualisation pour la présentation des résultats. Les livrables incluent une présentation, une documentation technique, un dépôt Git et éventuellement une vidéo de démonstration.

Transféré par

kouadjeungatchou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

17 vues3 pages

Project

Transféré par

kouadjeungatchou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Projet “Big Data”

Le but de ce projet est de mettre en place une architecture big data complète comprenant :
- Ingestion
- Transformation et nettoyage
- Exposition de données.

Dans ce projet, vous pouvez choisir les données à récupérer et les outputs finaux, le but étant de
générer de la valeur à partir de ces données.

Vue d'ensemble

Dataset
Choisissez un dataset sur lequel travailler. L’idée étant d’avoir au moins 2 sources de données
pour les combiner et générer de la valeur.

Vous pouvez commencer en travaillant avec des données statiques, puis chercher une API à
ingérer.
Ingestion
Utiliser l’API requests de Python pour créer un job qui récupère des données via une API
dynamique. Le job peut être exécuté tous les jours par exemple. Les données doivent être
stockées sur un data lake organisé, en local ou sur HDFS.

Pour les données statiques, vous pouvez par exemple regarder sur Kaggle.

Vous pouvez chercher une API ou par exemple utiliser ces idées :
• forums : [Link]
• finance : [Link]
• weather : [Link] [Link] https://
[Link]/
• sport : [Link] [Link] https://
[Link]/get-started/overview, [Link]
• news : [Link]
• books : [Link] [Link]
• cinema : [Link] [Link]
[Link]
• music : [Link]
• nature : [Link]
• health : [Link]
• countries : [Link]
• Transport : [Link] https://
[Link]/html/dot/html/about/[Link]
• Open data [Link] par exemple
• Sites qui référencent des APIs [Link] [Link]
[Link], [Link]

Alternativement vous pouvez faire du scraping, c’est-à-dire récupérer le contenu d’une page web
complète. Par exemple la librairie beautifulsoup en Python peut vous aider à faire le parsing
rapidement.

Nettoyage
Après avoir ingéré un nouveau dataset, il faut mettre en place un job qui permet de nettoyer les
données.

Par exemple:
- formatter les données de Json vers parquet
- Normaliser les heures sur le fuseau UTC
- Gérer les valeurs manquantes
- Normaliser les textes (eg. Nike et nike doivent être équivalents)

Combinaison de données

Il peut y avoir plusieurs types de combinaisons.

Exemples d’analyses simples :

- Aggregations et génération de KPI
- Jointures et enrichissement.
Exemples d’analyses avancées :
- Recommendations
- Detection d’anomalies
- Analyse de fraude
Quelques ressources :

[Link]
[Link]
[Link]
cae55cb583ab

Scheduling
Les jobs doivent être schedulées et enchainées en utilisant Airflow (ou Cloud Composer). Cf. TP
Airflow.

Présentation
Vous pouvez présenter vos résultats sous la forme de graphiques dans un Dashboard avec par
exemple Kibana, Grafana ou PowerBI ou Tableau etc.

Deliverables attendus
- Une présentation
- Une documentation technique : architecture du projet, les choix, et quelles diﬃcultés
techniques rencontrées, comment elles ont été résolues
- Lien dépôt git (Github ou équivalent eg. Bitbucket)
- Opt : une vidéo de démonstration, une démonstration live etc

Vous aimerez peut-être aussi

Introduction au Data Engineering
Pas encore d'évaluation
Introduction au Data Engineering
14 pages
Cours Modelisation de Grand Volume de Donnees Big Data (M1-SIGL-2025)
Pas encore d'évaluation
Cours Modelisation de Grand Volume de Donnees Big Data (M1-SIGL-2025)
378 pages
TP0 - Project Overview
Pas encore d'évaluation
TP0 - Project Overview
2 pages
BD2 - Cours7
Pas encore d'évaluation
BD2 - Cours7
67 pages
Orange Digital Center - Copie
Pas encore d'évaluation
Orange Digital Center - Copie
4 pages
Gestion de Projet Big Data & Développement D'applications Big Data
Pas encore d'évaluation
Gestion de Projet Big Data & Développement D'applications Big Data
30 pages
Processus de la Data Science en Finance
Pas encore d'évaluation
Processus de la Data Science en Finance
62 pages
Introduction Au Big Data
Pas encore d'évaluation
Introduction Au Big Data
9 pages
Spark
Pas encore d'évaluation
Spark
24 pages
Plan Module de Big Data en Cybersécurité
Pas encore d'évaluation
Plan Module de Big Data en Cybersécurité
3 pages
Support de Cours - Spark - Intro - Partie 1 Et 2
100% (2)
Support de Cours - Spark - Intro - Partie 1 Et 2
52 pages
C1 Big Data Intro 2022
Pas encore d'évaluation
C1 Big Data Intro 2022
56 pages
BD2 - Cours 8 Et 9 v2
Pas encore d'évaluation
BD2 - Cours 8 Et 9 v2
71 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
112 pages
Cours 20
Pas encore d'évaluation
Cours 20
4 pages
Architectures Big Data et Spark
Pas encore d'évaluation
Architectures Big Data et Spark
14 pages
PRJ Data Science
Pas encore d'évaluation
PRJ Data Science
2 pages
Notes BigData
Pas encore d'évaluation
Notes BigData
4 pages
Qlik View
Pas encore d'évaluation
Qlik View
19 pages
Stockage Des Données Massives
Pas encore d'évaluation
Stockage Des Données Massives
2 pages
APBI - Modern Data Stack OpenSource
Pas encore d'évaluation
APBI - Modern Data Stack OpenSource
42 pages
IoT Big Data Analytics Session1
Pas encore d'évaluation
IoT Big Data Analytics Session1
19 pages
Outils et techniques du Big Data
Pas encore d'évaluation
Outils et techniques du Big Data
29 pages
Introduction Vers Les Big Data Et Chapitre 1
Pas encore d'évaluation
Introduction Vers Les Big Data Et Chapitre 1
49 pages
Projets Pour Data Engineer
Pas encore d'évaluation
Projets Pour Data Engineer
30 pages
Analyse Big Data pour E-commerce
Pas encore d'évaluation
Analyse Big Data pour E-commerce
3 pages
Chapitre 1 - Big Data
100% (2)
Chapitre 1 - Big Data
30 pages
Big Data 2
Pas encore d'évaluation
Big Data 2
89 pages
Ecosystème Big Data
Pas encore d'évaluation
Ecosystème Big Data
5 pages
DJS22 SEM6 Syllabus
Pas encore d'évaluation
DJS22 SEM6 Syllabus
6 pages
Sundaravel Selvaraj 1398025 202407111659 Resume
Pas encore d'évaluation
Sundaravel Selvaraj 1398025 202407111659 Resume
1 page
Projet Big Data Soft-1
Pas encore d'évaluation
Projet Big Data Soft-1
1 page
ch3 Bigdata2020 Spark - Part1 4p
Pas encore d'évaluation
ch3 Bigdata2020 Spark - Part1 4p
12 pages
Glossaire Big Data
Pas encore d'évaluation
Glossaire Big Data
3 pages
UDEMY Hadoop BigData Pascal Lochert
Pas encore d'évaluation
UDEMY Hadoop BigData Pascal Lochert
316 pages
Notes Diapo 2
Pas encore d'évaluation
Notes Diapo 2
3 pages
4A-Outils de Traitement Du Big Data
Pas encore d'évaluation
4A-Outils de Traitement Du Big Data
100 pages
Introduction au Big Data avancé
Pas encore d'évaluation
Introduction au Big Data avancé
28 pages
Outil de DS
Pas encore d'évaluation
Outil de DS
3 pages
Fondement Des Ordinateur FDO - VIII-1
Pas encore d'évaluation
Fondement Des Ordinateur FDO - VIII-1
22 pages
Big Data Et Machine Learning (3e Éd) (Pirmin Lemberger Marc Batty (Lemberger Etc.)
100% (1)
Big Data Et Machine Learning (3e Éd) (Pirmin Lemberger Marc Batty (Lemberger Etc.)
378 pages
Brochure - Big Data & Machine Learning - Job SkillZ
Pas encore d'évaluation
Brochure - Big Data & Machine Learning - Job SkillZ
5 pages
C01
Pas encore d'évaluation
C01
16 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
Détection de Fraude et Scraping LinkedIn
Pas encore d'évaluation
Détection de Fraude et Scraping LinkedIn
4 pages
Chapitre1: Introduction: Big Data
Pas encore d'évaluation
Chapitre1: Introduction: Big Data
31 pages
Coursbigdata Chap1 - Introduction À Big Data
Pas encore d'évaluation
Coursbigdata Chap1 - Introduction À Big Data
53 pages
Rapport BigData
Pas encore d'évaluation
Rapport BigData
12 pages
Big Data
Pas encore d'évaluation
Big Data
31 pages
Chapitre 1 - Le Big Data
Pas encore d'évaluation
Chapitre 1 - Le Big Data
33 pages
Big Data - Generalite
Pas encore d'évaluation
Big Data - Generalite
28 pages
Cours Complet - de La Statistique Au Deep Learning - PROGRAMME
Pas encore d'évaluation
Cours Complet - de La Statistique Au Deep Learning - PROGRAMME
33 pages
Lecture 1 Bis
Pas encore d'évaluation
Lecture 1 Bis
53 pages
Cours Ingénierie Des Données
100% (1)
Cours Ingénierie Des Données
69 pages
Big Data
Pas encore d'évaluation
Big Data
48 pages
Introduction à l'Architecture Big Data
100% (1)
Introduction à l'Architecture Big Data
9 pages
Tips Backend
Pas encore d'évaluation
Tips Backend
3 pages
Programme de Noël Écosam 2023
Pas encore d'évaluation
Programme de Noël Écosam 2023
3 pages
AIR GRACIEUX, Jan Mulder - Partitur
Pas encore d'évaluation
AIR GRACIEUX, Jan Mulder - Partitur
2 pages
Les Runes Angéliques
Pas encore d'évaluation
Les Runes Angéliques
13 pages
9782705917685
Pas encore d'évaluation
9782705917685
31 pages
Publi 2019 - V. Castellotti
Pas encore d'évaluation
Publi 2019 - V. Castellotti
11 pages
CV IZARD Celia
Pas encore d'évaluation
CV IZARD Celia
1 page
Le Religieux Après La Religion
Pas encore d'évaluation
Le Religieux Après La Religion
68 pages
Artículo Científico Gestión de Almacenes e Inventarios - Ing. Alexis Campó Q.
Pas encore d'évaluation
Artículo Científico Gestión de Almacenes e Inventarios - Ing. Alexis Campó Q.
14 pages
Chapitre 1 de L'algorithmique Vers La Programmation 1
Pas encore d'évaluation
Chapitre 1 de L'algorithmique Vers La Programmation 1
13 pages
Ok Bon Mémoire Finalisé - Juillet 01
Pas encore d'évaluation
Ok Bon Mémoire Finalisé - Juillet 01
60 pages
Dév. Appli Web Plancher Expert
Pas encore d'évaluation
Dév. Appli Web Plancher Expert
6 pages
Agent IA
Pas encore d'évaluation
Agent IA
2 pages
L Arabe en 50 Semaines Tome 1
100% (3)
L Arabe en 50 Semaines Tome 1
40 pages
Devoir-1-Semestre-1 - TC
Pas encore d'évaluation
Devoir-1-Semestre-1 - TC
2 pages
Ashrak le Mutilé : Héraut de Khorne
Pas encore d'évaluation
Ashrak le Mutilé : Héraut de Khorne
3 pages
La Maison de Adam: Évaluation 1 Tu Habites Où !
Pas encore d'évaluation
La Maison de Adam: Évaluation 1 Tu Habites Où !
3 pages
TP TEchniques de Commande Électrique Tec
67% (3)
TP TEchniques de Commande Électrique Tec
9 pages
A2 Revision Plan
Pas encore d'évaluation
A2 Revision Plan
12 pages
La Science Divine Et La Spiritualité TOME 2 Première Partie
80% (15)
La Science Divine Et La Spiritualité TOME 2 Première Partie
386 pages
Formation pastorale gratuite en ligne
Pas encore d'évaluation
Formation pastorale gratuite en ligne
1 page
Ptojet Mari GR 3 Sohal Sghiouri Lakhoud
Pas encore d'évaluation
Ptojet Mari GR 3 Sohal Sghiouri Lakhoud
5 pages
Guide Réseaux pour Futurs Ingénieurs
Pas encore d'évaluation
Guide Réseaux pour Futurs Ingénieurs
101 pages
Examen Régional - 3AC - La Langue Française - Orientale - 2019 (Récupération Automatique)
100% (1)
Examen Régional - 3AC - La Langue Française - Orientale - 2019 (Récupération Automatique)
2 pages
Chapitre 5 - Modèles de Cycle de Vie Logiciel
Pas encore d'évaluation
Chapitre 5 - Modèles de Cycle de Vie Logiciel
21 pages
TP MP 3if 2025
Pas encore d'évaluation
TP MP 3if 2025
2 pages
Chapitre 3. Types D'équivalents
Pas encore d'évaluation
Chapitre 3. Types D'équivalents
6 pages
Parties du Discours et Fonctions
Pas encore d'évaluation
Parties du Discours et Fonctions
21 pages
Tiếng Pháp cơ bản Bài 5
Pas encore d'évaluation
Tiếng Pháp cơ bản Bài 5
3 pages
Présentation Documents
Pas encore d'évaluation
Présentation Documents
96 pages