0% ont trouvé ce document utile (0 vote)

77 vues20 pages

DSE 11 Data Engineering FR

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

77 vues20 pages

DSE 11 Data Engineering FR

Transféré par

Serge Pascal Fogoum Tamu

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Session 4

11. L’ingénierie des données

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 215
Session 4

Contexte
L'un des défis de la science des données : mettre de grandes quantités de
données dans des formats pouvant être lus par des algorithmes.

L'ingénierie des données est liée au traitement de ces données.

Après le traitement, les scientifiques des données développent des preuves

de concept ; les ingénieurs IA/AA les traduisent en modèles déployables.

L'ingénierie des données existe depuis un certain ; avec l'essor du “cloud

computing”, l'expertise dans ce domaine devient aussi recherchée que celle
en analyse de données (du moins, dans certains cercles).

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 216

Rôles et responsabilités (reprise)
Ingénieurs en données (ID) Scientifiques des données
§ recevoir des données d'une source § recevoir des données procurées/fournies par l’ID
§ structurer, distribuer et stocker les données § extraire la valeur des données
dans des lacs et des entrepôts de données § construire des modèles prédictifs de preuve de
§ créer des outils et des modèles de données concept
que les SD utilisent § mesurer et améliorer les résultats
§ construire des modèles analytiques
Ingénieurs AA
§ déployer de modèles de données
§ combler les écarts entre ID et SD
§ faire passer des idées de validation de
concept à grande échelle

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 217

Session 4

Rôles et responsabilités (reprise)

Dans les petites organisations, l'ingénierie et la science des données sont
généralement regroupées dans sous un même toit.

Les grandes entreprises disposent d'ingénieurs de données spécialisés, qui

construisent des pipelines de données et gèrent des entrepôts de données
(en les alimentant en données et en créant des schémas de table pour assurer
le suivi des données stockées).

En général, ID ≠ SD.

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 218

Session 4

Les pipelines de données

Ingénierie des données
§ les opérations qui créent des interfaces et des mécanismes pour le flux/l'accès à l'information
§ mise en place d'une infrastructure de données, préparation des données pour une analyse
plus poussée par des SD

Les données peuvent provenir de nombreuses sources (et types de sources), et dans
une variété de formats et de tailles.

Transformer tout cela en un processus que les SD peuvent utiliser et dont ils peuvent
tirer du sens est connu sous le nom de construction d'un pipeline de données.

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 219

Session 4

Les pipelines de données

Collecte Stockage

Analyse Présentation

Préparation
9 composantes
5 étapes + 4 transitions

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 220

Session 4

Les pipelines de données

Principal défi en matière d'ingénierie des données :
§ construire un pipeline qui s'exécute en temps réel (ou presque) à chaque fois qu'il est sollicité
§ afin que les utilisateurs obtiennent des informations actualisées avec des délais minimaux

Les pipelines conceptuels sont transmis aux ingénieurs AA pour le déploiement et la

production. Certains des travaux entourant cette tâche comprennent :
§ contrôles de la qualité des données
§ optimisation de la performance des requêtes
§ la création d'un écosystème d'intégration/livraison continue pour les changements de modèles
§ ingéstion des données provenant de diverses sources dans le modèle de données
§ transfert des techniques d’AA et de SD aux systèmes distribués

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 221

Session 4

Les pipelines de données

Thèmes communs (opérations/framework/tâches/sources) pour les étapes
du pipeline :
§ collecte de données : applications, applications mobiles, microservices, dispositifs de
l'Internet des objets (IoT), sites web, instrumentation, journalisation, capteurs, données
externes, contenu généré par l'utilisateur, etc.
§ le stockage des données : Gestion des données de référence (MDM), entrepôt, lac de
données, etc.
§ intégration/préparation des données : ETL, intégration de données en flux, etc.
§ analyse des données : apprentissage automatique, analyse prédictive, tests A/B,
expériences, intelligence artificielle (IA), apprentissage profond, etc.
§ livraison et présentations : tableaux de bord, rapports, microservices, notifications push,
email, SMS, etc.

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 222

Session 4

La collecte de données
Commentaires
Sondages Observations
des utilisateurs

Documents Suivi en ligne

Médias sociaux Entrevues Services Web

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 223

Session 4

ETC – Extraire

Extraire Transformer Charger

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 224

Session 4

ETC – Transformer
Structure Types de données Agrégation

Nettoyage Rejoindre Regroupement

Extraire Transformer Charger

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 225

Session 4

ETC – Transformer

Ensemble de Entrepôt de
données données

Extraire Transformer Charger

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 226

Session 4

Un pipeline de données “Open Source”

Collecte Stockage

Préparation

Analyse Présentation

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 227

Session 4

Un pipeline de données GdC (?)

Collecte Stockage

Préparation

Analyse Présentation

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 228

Session 4

Les outils de pipelines de données

Les pipelines permettent aux utilisateurs Les outils de pipeline de données
de diviser les tâches importantes en une sélectionnent le meilleur cadre/
série de petites étapes séquentielles, ce langage pour chaque composante/
qui peut aider à optimiser chaque étape. tâche du pipeline :
§ Luigi (Spotify)
E.g., si vous utilisez TensorFlow pour la
composante d'analyse d'un pipeline DL § Airflow (AirBnB)
qui consiste en un seul grand script, tout, § scikit-learn
de la collecte des données à la § pandas/tidyverse
présentation, doit utiliser TensorFlow, ce § etc.
qui peut ne pas être optimal.

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 229

Session 4

Les outils d'ingénierie des données

Il est peu probable qu’un ID puisse maîtriser tous les outils d'ingénierie de
données possibles, mais les équipes ID ont une plus grande couverture :
§ bases de données analytiques (Big Query, Redshift, Synapse, etc.)
§ ETC (Spark, Databricks, DataFlow, DataPrep, etc.)
§ moteurs de calcul évolutifs (GKE, AKS, EC2, DataProc, etc.)
§ orchestration de processus (AirFlow/Cloud Composer, Bat, Azure Data Factory, etc.)
§ déploiement et mise à l'échelle de plateforme (Terraform, outils personnalisés, etc.)
§ outils de visualisation (Power BI, Tableau, Google Data Studio, [Link], ggplot2, etc.)
§ programmation (tidyverse, numpy, pandas, matplotlib, scikit-learn, scipy, Spark, Scala,
Java, SQL, T-SQL, H-SQL, PL/SQL, etc.)

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 230

La gouvernance des données
La gouvernance des données englobe :
§ les personnes ;
§ les processus, et
§ les technologie de l'information

Onl’utilise pour créer un traitement cohérent/approprié des données d'une

organisation à travers l'entreprise.

Elle fournit la base, la stratégie, et la structure pour garantir que les données
sont gérées comme un actif et transformées en informations significatives.

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 231

Session 4

La gouv. des données

Architecture

Modélisation &
Qualité
Design

Objectifs : Méta-données
Stockage &
Opérations
§ création d'une culture de données libre service
§ établir des règles internes pour leur utilisation Gouvernance
des données

§ mettre en œuvre les exigences de conformité

§ améliorer les communications Entreposage et
BI
Sécurité

§ augmenter la valeur des données

§ réduire les coûts associés aux données
Intégration &
Données de
§ gérer continuellement les risques référence
Inter-
opérabilité

§ assurer une existence continue Gestions des

documents

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 232

Session 4

Data Understanding, Data Analysis, Data Science

Lectures Data Engineering and Management
suggérées
Background and Context
L’ingénierie des données

Data Engineering
§ Data Pipelines
§ Automatic Deployment and Operations
§ Scheduled Pipelines and Workflows
§ Data Engineering Tools

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 233

Session 4

1. À quoi ressemble votre pipeline de science des

données (ou celui de votre organisation) ?
Pourrait-il être amélioré ?
Exercices
L’ingénierie des données 2. Identifiez des cas où vous avez rencontré des
problèmes liés à la disponibilité, la facilité
d’utilisation, la cohérence, l'intégrité, la qualité,
la sécurité ou la fiabilité des données.

3. Complétez tous les exercices précédents que

vous n'avez pas eu l'occasion de terminer.

LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 234

Vous aimerez peut-être aussi

Science des données et prise de décision
Pas encore d'évaluation
Science des données et prise de décision
5 pages
Introduction à la Science des Données
Pas encore d'évaluation
Introduction à la Science des Données
26 pages
Chap1-Ingénierie Des donnéesEnseigne2021Students
100% (1)
Chap1-Ingénierie Des donnéesEnseigne2021Students
86 pages
Fondement Des Sciences de Données
100% (1)
Fondement Des Sciences de Données
43 pages
Fouille Des Big Data Et Visualisation - Week 1
100% (2)
Fouille Des Big Data Et Visualisation - Week 1
31 pages
Introduction à la science des données
Pas encore d'évaluation
Introduction à la science des données
13 pages
Sciences des données et apprentissage AI
Pas encore d'évaluation
Sciences des données et apprentissage AI
2 pages
SNT 2nde - DELAGRAVE - Livre Du Professeur
83% (12)
SNT 2nde - DELAGRAVE - Livre Du Professeur
161 pages
Initiation à la Science des Données
Pas encore d'évaluation
Initiation à la Science des Données
25 pages
FR-Databricks 171382 Compact Guide of de
Pas encore d'évaluation
FR-Databricks 171382 Compact Guide of de
29 pages
Introduction à la Data Science
Pas encore d'évaluation
Introduction à la Data Science
23 pages
Sylabus IngDon
Pas encore d'évaluation
Sylabus IngDon
5 pages
Science Des Données Et Analyse Des Big Data
Pas encore d'évaluation
Science Des Données Et Analyse Des Big Data
2 pages
(Collège de France) Stéphane Mallat - Sciences Des Donnees Et Apprentissage en Grande Dimension 276
Pas encore d'évaluation
(Collège de France) Stéphane Mallat - Sciences Des Donnees Et Apprentissage en Grande Dimension 276
43 pages
Introduction à la Science des Données
Pas encore d'évaluation
Introduction à la Science des Données
2 pages
CC Inf365 Corrigé (2024-2025)
Pas encore d'évaluation
CC Inf365 Corrigé (2024-2025)
3 pages
Livret DataScience 2019
Pas encore d'évaluation
Livret DataScience 2019
100 pages
Master en Sciences des Données - Rouen
Pas encore d'évaluation
Master en Sciences des Données - Rouen
6 pages
Programme 3e Année Data Science ENSAI
Pas encore d'évaluation
Programme 3e Année Data Science ENSAI
42 pages
Partie I Introduction Et Concepts Generaux: Introduction A La Science de Donnees
Pas encore d'évaluation
Partie I Introduction Et Concepts Generaux: Introduction A La Science de Donnees
10 pages
Introduction à la science des données
Pas encore d'évaluation
Introduction à la science des données
6 pages
Cours Data Science
Pas encore d'évaluation
Cours Data Science
7 pages
Ingénieur en Informatique Spécialité Science de Données
Pas encore d'évaluation
Ingénieur en Informatique Spécialité Science de Données
81 pages
Introduction aux Entrepôts de Données
Pas encore d'évaluation
Introduction aux Entrepôts de Données
45 pages
Depliant IID 1
Pas encore d'évaluation
Depliant IID 1
2 pages
Chap 1
Pas encore d'évaluation
Chap 1
19 pages
Big Data Chap 1 - Introduction
Pas encore d'évaluation
Big Data Chap 1 - Introduction
32 pages
Science Des Données - Wikipédia
Pas encore d'évaluation
Science Des Données - Wikipédia
8 pages
Programme 3e année SID 2020/2021
Pas encore d'évaluation
Programme 3e année SID 2020/2021
38 pages
Agr Gation Externe Section Sciences Industrielles de L Ing Nieur - Programme de La Session 2024 6371
Pas encore d'évaluation
Agr Gation Externe Section Sciences Industrielles de L Ing Nieur - Programme de La Session 2024 6371
17 pages
Introduction à la Data Science
Pas encore d'évaluation
Introduction à la Data Science
19 pages
Les Sciences Fondamentales Constituent La Base de Toute Formation en Ingénierie
Pas encore d'évaluation
Les Sciences Fondamentales Constituent La Base de Toute Formation en Ingénierie
19 pages
Big Data V2
Pas encore d'évaluation
Big Data V2
21 pages
Applications de la science des données
Pas encore d'évaluation
Applications de la science des données
26 pages
Agr Gation Externe Section Sciences Industrielles de L Ing Nieur Programme de La Session 2026 16613
Pas encore d'évaluation
Agr Gation Externe Section Sciences Industrielles de L Ing Nieur Programme de La Session 2026 16613
18 pages
1 Introduction
Pas encore d'évaluation
1 Introduction
16 pages
Théorie de La Conception Logique Par NN Biswas
Pas encore d'évaluation
Théorie de La Conception Logique Par NN Biswas
3 pages
Fiche Idsi
Pas encore d'évaluation
Fiche Idsi
3 pages
Modélisation et gestion des bases de données
Pas encore d'évaluation
Modélisation et gestion des bases de données
24 pages
Introduction à la Science des Données
Pas encore d'évaluation
Introduction à la Science des Données
44 pages
Outils informatiques en modélisation scientifique
Pas encore d'évaluation
Outils informatiques en modélisation scientifique
6 pages
Cours Ingénierie Des Données
100% (1)
Cours Ingénierie Des Données
69 pages
Métiers de la Data : Guide Complet
Pas encore d'évaluation
Métiers de la Data : Guide Complet
33 pages
Chap 01 H24 INF8100
Pas encore d'évaluation
Chap 01 H24 INF8100
18 pages
Introduction À L'ingénierie Des Données
Pas encore d'évaluation
Introduction À L'ingénierie Des Données
34 pages
Ingénierie en Science des Données et IA
Pas encore d'évaluation
Ingénierie en Science des Données et IA
6 pages
Administration des Bases de Données 2023
Pas encore d'évaluation
Administration des Bases de Données 2023
49 pages
Formation Data Science pour Pros
Pas encore d'évaluation
Formation Data Science pour Pros
1 page
Compétences en Science des Données et IA
Pas encore d'évaluation
Compétences en Science des Données et IA
5 pages
LB Cours Données (ABCDEF)
Pas encore d'évaluation
LB Cours Données (ABCDEF)
11 pages
Cours 1 Architecture - Big Data Fondements de BIG DATA
Pas encore d'évaluation
Cours 1 Architecture - Big Data Fondements de BIG DATA
49 pages
Domaines clés de l'informatique moderne
Pas encore d'évaluation
Domaines clés de l'informatique moderne
7 pages
Formation en Data Science à l'INSEA
Pas encore d'évaluation
Formation en Data Science à l'INSEA
2 pages
Techniques de Data Mining en Science des Données
Pas encore d'évaluation
Techniques de Data Mining en Science des Données
16 pages
Introduction au Data Engineering
Pas encore d'évaluation
Introduction au Data Engineering
7 pages
ATTRIBUTIONS Surveillante Generale
Pas encore d'évaluation
ATTRIBUTIONS Surveillante Generale
1 page
Script SESA
Pas encore d'évaluation
Script SESA
1 page
Epreuve Cm2deuxième Trimestre2024
100% (1)
Epreuve Cm2deuxième Trimestre2024
31 pages
Curriculum Vitae
Pas encore d'évaluation
Curriculum Vitae
1 page
CERTIFICAT DE PROMOTION MATERNELLE GRANDE SECTION Francopjone
Pas encore d'évaluation
CERTIFICAT DE PROMOTION MATERNELLE GRANDE SECTION Francopjone
13 pages
Feuille de route scolaire 2025
Pas encore d'évaluation
Feuille de route scolaire 2025
1 page
Cep 2023 GSB Les Laitieres
Pas encore d'évaluation
Cep 2023 GSB Les Laitieres
1 page
Fiche de renseignement scolaire CM2
Pas encore d'évaluation
Fiche de renseignement scolaire CM2
2 pages
Créer Un Programme de Traduction Pour Une IA
Pas encore d'évaluation
Créer Un Programme de Traduction Pour Une IA
9 pages
Attributions du Superviseur Général
Pas encore d'évaluation
Attributions du Superviseur Général
1 page
Base de Données Contacts avec Auth Google
Pas encore d'évaluation
Base de Données Contacts avec Auth Google
8 pages
ByPath Use Case DOCAPOST
Pas encore d'évaluation
ByPath Use Case DOCAPOST
11 pages
Message de Transmission Bilingue Du Primaire Pour Le Mois de Janvier Sur Le
Pas encore d'évaluation
Message de Transmission Bilingue Du Primaire Pour Le Mois de Janvier Sur Le
10 pages
Recrutement Ingénieur(e) Data Hcéres
Pas encore d'évaluation
Recrutement Ingénieur(e) Data Hcéres
2 pages
Programme Février : Monde Végétal Maternelle
Pas encore d'évaluation
Programme Février : Monde Végétal Maternelle
7 pages
PHP Page de Connection
Pas encore d'évaluation
PHP Page de Connection
4 pages
M T U D E P B I J K: Langues Et Cultures Nationales
Pas encore d'évaluation
M T U D E P B I J K: Langues Et Cultures Nationales
21 pages
Chant Septembre Septembre
Pas encore d'évaluation
Chant Septembre Septembre
1 page
Feuille de Rythme
Pas encore d'évaluation
Feuille de Rythme
1 page
DEVOIRS
Pas encore d'évaluation
DEVOIRS
34 pages
DEVOIRS
Pas encore d'évaluation
DEVOIRS
34 pages
BD Bench
Pas encore d'évaluation
BD Bench
47 pages
Chapitre4 - La Replication
Pas encore d'évaluation
Chapitre4 - La Replication
12 pages
Sauvegardes et Récupérations Oracle DB
Pas encore d'évaluation
Sauvegardes et Récupérations Oracle DB
19 pages
IE Introduction 2024
Pas encore d'évaluation
IE Introduction 2024
26 pages
Projet de Base de Données Distribuée
Pas encore d'évaluation
Projet de Base de Données Distribuée
7 pages
Introduction au langage PL/SQL
Pas encore d'évaluation
Introduction au langage PL/SQL
43 pages
BIG DATA Resumé
Pas encore d'évaluation
BIG DATA Resumé
6 pages
Processus ETL
Pas encore d'évaluation
Processus ETL
15 pages
Rapport de Projet en Business Intelligence
Pas encore d'évaluation
Rapport de Projet en Business Intelligence
4 pages
QCM Revision
Pas encore d'évaluation
QCM Revision
3 pages
Nosql
Pas encore d'évaluation
Nosql
21 pages
Étapes et Concepts des Bases de Données
Pas encore d'évaluation
Étapes et Concepts des Bases de Données
2 pages
Procédures de base Trideux 2019/20
Pas encore d'évaluation
Procédures de base Trideux 2019/20
21 pages
Exercices sur les commandes Unix et Shell
Pas encore d'évaluation
Exercices sur les commandes Unix et Shell
5 pages
Cours sur les Systèmes de Gestion de BD
Pas encore d'évaluation
Cours sur les Systèmes de Gestion de BD
19 pages
CM 2 Hive
Pas encore d'évaluation
CM 2 Hive
8 pages
Bases de Données Orientées Objets : Concepts et Évolution
Pas encore d'évaluation
Bases de Données Orientées Objets : Concepts et Évolution
85 pages
Epreuve Informatique Tle CD Sequence 3 Decembre 2025 COllege Mongo B0eti
Pas encore d'évaluation
Epreuve Informatique Tle CD Sequence 3 Decembre 2025 COllege Mongo B0eti
2 pages
TD 2
Pas encore d'évaluation
TD 2
5 pages
Projet Pratique 2
Pas encore d'évaluation
Projet Pratique 2
5 pages
Semaine 03 - Les Bases de Donn Es Avec MySQL Et PHP
Pas encore d'évaluation
Semaine 03 - Les Bases de Donn Es Avec MySQL Et PHP
32 pages
Guide MySQL pour Administrateurs
Pas encore d'évaluation
Guide MySQL pour Administrateurs
25 pages
Base de Donnees NoSQL - Chapitre 3
Pas encore d'évaluation
Base de Donnees NoSQL - Chapitre 3
15 pages
Systeme Info CHAP 2 - MCD
Pas encore d'évaluation
Systeme Info CHAP 2 - MCD
15 pages
Examen Administration Oracle V10g
Pas encore d'évaluation
Examen Administration Oracle V10g
8 pages
Document Bac Éco Final
Pas encore d'évaluation
Document Bac Éco Final
89 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
37 pages
Vérifiez L'intégrité de La Base de Données Avec DBCC CHECKDB
Pas encore d'évaluation
Vérifiez L'intégrité de La Base de Données Avec DBCC CHECKDB
3 pages
Candidature Master BI&BD 2020
Pas encore d'évaluation
Candidature Master BI&BD 2020
13 pages
Introduction à Microsoft Access 2
Pas encore d'évaluation
Introduction à Microsoft Access 2
45 pages