Session 4
11. L’ingénierie des données
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 215
Session 4
Contexte
L'un des défis de la science des données : mettre de grandes quantités de
données dans des formats pouvant être lus par des algorithmes.
L'ingénierie des données est liée au traitement de ces données.
Après le traitement, les scientifiques des données développent des preuves
de concept ; les ingénieurs IA/AA les traduisent en modèles déployables.
L'ingénierie des données existe depuis un certain ; avec l'essor du “cloud
computing”, l'expertise dans ce domaine devient aussi recherchée que celle
en analyse de données (du moins, dans certains cercles).
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 216
Rôles et responsabilités (reprise)
Ingénieurs en données (ID) Scientifiques des données
§ recevoir des données d'une source § recevoir des données procurées/fournies par l’ID
§ structurer, distribuer et stocker les données § extraire la valeur des données
dans des lacs et des entrepôts de données § construire des modèles prédictifs de preuve de
§ créer des outils et des modèles de données concept
que les SD utilisent § mesurer et améliorer les résultats
§ construire des modèles analytiques
Ingénieurs AA
§ déployer de modèles de données
§ combler les écarts entre ID et SD
§ faire passer des idées de validation de
concept à grande échelle
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 217
Session 4
Rôles et responsabilités (reprise)
Dans les petites organisations, l'ingénierie et la science des données sont
généralement regroupées dans sous un même toit.
Les grandes entreprises disposent d'ingénieurs de données spécialisés, qui
construisent des pipelines de données et gèrent des entrepôts de données
(en les alimentant en données et en créant des schémas de table pour assurer
le suivi des données stockées).
En général, ID ≠ SD.
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 218
Session 4
Les pipelines de données
Ingénierie des données
§ les opérations qui créent des interfaces et des mécanismes pour le flux/l'accès à l'information
§ mise en place d'une infrastructure de données, préparation des données pour une analyse
plus poussée par des SD
Les données peuvent provenir de nombreuses sources (et types de sources), et dans
une variété de formats et de tailles.
Transformer tout cela en un processus que les SD peuvent utiliser et dont ils peuvent
tirer du sens est connu sous le nom de construction d'un pipeline de données.
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 219
Session 4
Les pipelines de données
Collecte Stockage
Analyse Présentation
Préparation
9 composantes
5 étapes + 4 transitions
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 220
Session 4
Les pipelines de données
Principal défi en matière d'ingénierie des données :
§ construire un pipeline qui s'exécute en temps réel (ou presque) à chaque fois qu'il est sollicité
§ afin que les utilisateurs obtiennent des informations actualisées avec des délais minimaux
Les pipelines conceptuels sont transmis aux ingénieurs AA pour le déploiement et la
production. Certains des travaux entourant cette tâche comprennent :
§ contrôles de la qualité des données
§ optimisation de la performance des requêtes
§ la création d'un écosystème d'intégration/livraison continue pour les changements de modèles
§ ingéstion des données provenant de diverses sources dans le modèle de données
§ transfert des techniques d’AA et de SD aux systèmes distribués
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 221
Session 4
Les pipelines de données
Thèmes communs (opérations/framework/tâches/sources) pour les étapes
du pipeline :
§ collecte de données : applications, applications mobiles, microservices, dispositifs de
l'Internet des objets (IoT), sites web, instrumentation, journalisation, capteurs, données
externes, contenu généré par l'utilisateur, etc.
§ le stockage des données : Gestion des données de référence (MDM), entrepôt, lac de
données, etc.
§ intégration/préparation des données : ETL, intégration de données en flux, etc.
§ analyse des données : apprentissage automatique, analyse prédictive, tests A/B,
expériences, intelligence artificielle (IA), apprentissage profond, etc.
§ livraison et présentations : tableaux de bord, rapports, microservices, notifications push,
email, SMS, etc.
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 222
Session 4
La collecte de données
Commentaires
Sondages Observations
des utilisateurs
Documents Suivi en ligne
Médias sociaux Entrevues Services Web
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 223
Session 4
ETC – Extraire
Extraire Transformer Charger
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 224
Session 4
ETC – Transformer
Structure Types de données Agrégation
Nettoyage Rejoindre Regroupement
Extraire Transformer Charger
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 225
Session 4
ETC – Transformer
Ensemble de Entrepôt de
données données
Extraire Transformer Charger
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 226
Session 4
Un pipeline de données “Open Source”
Collecte Stockage
Préparation
Analyse Présentation
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 227
Session 4
Un pipeline de données GdC (?)
Collecte Stockage
Préparation
Analyse Présentation
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 228
Session 4
Les outils de pipelines de données
Les pipelines permettent aux utilisateurs Les outils de pipeline de données
de diviser les tâches importantes en une sélectionnent le meilleur cadre/
série de petites étapes séquentielles, ce langage pour chaque composante/
qui peut aider à optimiser chaque étape. tâche du pipeline :
§ Luigi (Spotify)
E.g., si vous utilisez TensorFlow pour la
composante d'analyse d'un pipeline DL § Airflow (AirBnB)
qui consiste en un seul grand script, tout, § scikit-learn
de la collecte des données à la § pandas/tidyverse
présentation, doit utiliser TensorFlow, ce § etc.
qui peut ne pas être optimal.
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 229
Session 4
Les outils d'ingénierie des données
Il est peu probable qu’un ID puisse maîtriser tous les outils d'ingénierie de
données possibles, mais les équipes ID ont une plus grande couverture :
§ bases de données analytiques (Big Query, Redshift, Synapse, etc.)
§ ETC (Spark, Databricks, DataFlow, DataPrep, etc.)
§ moteurs de calcul évolutifs (GKE, AKS, EC2, DataProc, etc.)
§ orchestration de processus (AirFlow/Cloud Composer, Bat, Azure Data Factory, etc.)
§ déploiement et mise à l'échelle de plateforme (Terraform, outils personnalisés, etc.)
§ outils de visualisation (Power BI, Tableau, Google Data Studio, [Link], ggplot2, etc.)
§ programmation (tidyverse, numpy, pandas, matplotlib, scikit-learn, scipy, Spark, Scala,
Java, SQL, T-SQL, H-SQL, PL/SQL, etc.)
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 230
La gouvernance des données
La gouvernance des données englobe :
§ les personnes ;
§ les processus, et
§ les technologie de l'information
Onl’utilise pour créer un traitement cohérent/approprié des données d'une
organisation à travers l'entreprise.
Elle fournit la base, la stratégie, et la structure pour garantir que les données
sont gérées comme un actif et transformées en informations significatives.
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 231
Session 4
La gouv. des données
Architecture
Modélisation &
Qualité
Design
Objectifs : Méta-données
Stockage &
Opérations
§ création d'une culture de données libre service
§ établir des règles internes pour leur utilisation Gouvernance
des données
§ mettre en œuvre les exigences de conformité
§ améliorer les communications Entreposage et
BI
Sécurité
§ augmenter la valeur des données
§ réduire les coûts associés aux données
Intégration &
Données de
§ gérer continuellement les risques référence
Inter-
opérabilité
§ assurer une existence continue Gestions des
documents
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 232
Session 4
Data Understanding, Data Analysis, Data Science
Lectures Data Engineering and Management
suggérées
Background and Context
L’ingénierie des données
Data Engineering
§ Data Pipelines
§ Automatic Deployment and Operations
§ Scheduled Pipelines and Workflows
§ Data Engineering Tools
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 233
Session 4
1. À quoi ressemble votre pipeline de science des
données (ou celui de votre organisation) ?
Pourrait-il être amélioré ?
Exercices
L’ingénierie des données 2. Identifiez des cas où vous avez rencontré des
problèmes liés à la disponibilité, la facilité
d’utilisation, la cohérence, l'intégrité, la qualité,
la sécurité ou la fiabilité des données.
3. Complétez tous les exercices précédents que
vous n'avez pas eu l'occasion de terminer.
LES PRINCIPES FONDAMENTAUX DE LA SCIENCE DES DONNÉES 234