Questions-Réponses sur le Domaine du Data Engineering pour Débutants
1. Qu'est-ce que le data engineering ? Le data engineering est une discipline qui consiste à concevoir,
construire, maintenir et optimiser les infrastructures de traitement de données. Cela inclut les pipelines
de données, les bases de données, et les outils permettant aux analystes et data scientists d'accéder
aux données de manière fiable.
2. Quelle est la différence entre un Data Engineer, un Data Scientist et un Data Analyst ? - Le Data
Engineer construit l'infrastructure et les pipelines de données. - Le Data Scientist crée des modèles
prédictifs à partir des données traitées. - Le Data Analyst analyse les données pour produire des
rapports ou des dashboards.
3. Quels langages de programmation faut-il maîtriser ? - SQL pour manipuler les bases de données -
Python (bibliothèques : Pandas, PySpark, etc.) - Scala ou Java (notamment pour Spark)
4. C'est quoi un pipeline de données ? Un pipeline de données est un ensemble d'étapes automatisées
qui permettent d'ingérer, de transformer et de stocker les données afin qu'elles soient exploitables par
les utilisateurs finaux.
5. Quels sont les types de bases de données utilisés ? - Relationnelles (SQL) : PostgreSQL, MySQL,
SQL Server - NoSQL : MongoDB, Cassandra, Redis
6. Qu'est-ce que l'ETL ? ETL signifie Extract, Transform, Load. C'est un processus qui permet de : -
Extraire les données d'une source - Les transformer (nettoyage, enrichissement...) - Les charger dans
une base ou un entrepôt de données
7. Quels outils ETL sont populaires ? - Talend - Apache NiFi - Airbyte - Apache Airflow (orchestration) -
dbt (pour la transformation)
8. Qu'est-ce qu'un Data Lake ? Un Data Lake est un réservoir de données brutes ou semi-structurées,
stockées à grande échelle, souvent dans le cloud (ex : Amazon S3, Azure Data Lake).
9. C'est quoi Apache Spark ? Apache Spark est un moteur de traitement de données distribué, conçu
pour effectuer des calculs en mémoire de manière très rapide sur de gros volumes de données.
10. Quelle est la place du cloud en data engineering ? Le cloud (AWS, GCP, Azure) permet de stocker,
traiter et analyser des données à grande échelle sans se soucier de l'infrastructure physique.
1
11. Comment débute-t-on dans le data engineering ? - Apprendre SQL et Python - Comprendre le
fonctionnement des bases de données - Suivre des tutoriels sur les pipelines de données - Créer un
projet ETL simple (ex : extraire des données d'une API, les transformer et les stocker dans une base) -
Explorer des outils comme Airflow ou Spark
12. Quels sont les défis courants en data engineering ? - Gérer les données manquantes ou erronées
- Gérer les volumes massifs de données - Assurer la qualité, la sécurité et la disponibilité des données
13. Pourquoi la qualité des données est-elle importante ? Des données de mauvaise qualité mènent
à de mauvaises analyses ou décisions. Le Data Engineer doit s'assurer que les données sont exactes,
complètes, cohérentes et actualisées.
14. Quelle est la différence entre un entrepôt de données et un data lake ? - Entrepôt de données :
structure relationnelle, données transformées, prêtes à l'analyse. - Data Lake : données brutes, tous
formats, peu structurées, grande capacité.
15. Qu'est-ce que le batch vs streaming ? - Batch : traitement de données en lots périodiques -
Streaming : traitement en temps réel, à mesure que les données arrivent (ex : Kafka, Spark Streaming)
16. Faut-il savoir déployer ses projets ? Oui, des compétences DevOps sont utiles : Docker, CI/CD,
monitoring, cloud deployments.
17. Quelle est la place de la documentation ? La documentation est essentielle pour que les autres
comprennent les pipelines, les transformations appliquées et l'origine des données.
18. Des certifications utiles ? - Google Professional Data Engineer - Azure Data Engineer Associate -
AWS Certified Data Analytics
19. Faut-il savoir modéliser les données ? Oui, la modélisation des données (ex : schémas en étoile, en
flocon) est importante pour optimiser la performance des analyses et des requêtes.
20. Quel projet simple pour débuter ? Exemple : Créer un pipeline ETL qui extrait des données météo
depuis une API, les transforme (normalise les unités, nettoie les erreurs), et les stocke dans une base
PostgreSQL. Puis créer un dashboard simple avec Power BI ou Metabase.