Datalake pour l'analyse de
données de Logs
Réaliser par : Encadré par :
• Zakaria et-tajir • Prof. EL Qadi
• Marouane Aboutara Belghiti
• Aymane Ramadane
plan
Avantages du
1 Introduction 2 Caractéristiques d’un 3 Datalake
Datalake
Les Logs de Serveurs Exemples de
4 Architecture 5 6
et d'Applications Datalake
7 Flux de données 8 Démonstration
Introduction
Un Datalake est une solution de stockage centralisée qui permet de conserver
toutes les données, quel que soit leur type :
Structurées : Données organisées en lignes et colonnes (comme dans les
bases de données relationnelles).
Semi-structurées : Données avec un certain format (par exemple, JSON,
XML).
Non structurées : Données non organisées (texte brut, images, vidéos, logs,
etc.).
Caractéristiques d’un
Datalake
Centralisation des données : Toutes les données de différentes
sources sont stockées dans un même espace.
Grande capacité de stockage : Adapté aux grandes volumétries
de données, notamment pour les besoins du Big Data.
Flexibilité d’utilisation : Les données ne nécessitent pas d’être
structurées au moment de leur stockage. Elles sont analysées
lorsqu’un besoin précis apparaît (schéma à la lecture).
Évolutivité : Les Datalakes utilisent souvent des systèmes de
stockage évolutifs comme HDFS (Hadoop Distributed File
System) ou Amazon S3.
Critères Datalake Data Warehouse
Type de données Brutes, non Transformées, prêtes à
transformées l’analyse
Structure Schéma appliqué à la Schéma appliqué à
lecture l’écriture
Stockage Peu coûteux (ex. Plus coûteux, optimisé
stockage cloud) pour les requêtes
Utilisation Exploration de Analyses structurées,
données, Big Data rapports BI
Performance Adapté au traitement Adapté aux requêtes
par batch rapides (SQL)
Avantages du Datalake
Avantage
Scalabilité : Capacité à évoluer en ajoutant
de nouveaux volumes de stockage.
Polyvalence : Convient à tous types de
données.
Accessibilité : Permet à divers outils
d’analyse (Spark, Hadoop, etc.) d’accéder
aux données pour des traitements avancés.
Architecture
Les Logs de Serveurs
et d'Applications
Les Logs de Serveurs et d'Applications
•Rôle clé : Surveillance des systèmes et analyse du
fonctionnement.
•Types d’informations :
• Performance : Temps de réponse, charge serveur.
• Erreurs : Détection de problèmes système.
• Comportement des utilisateurs : Actions et interactions.
•Problème : Logs souvent non structurés, en formats variés
(texte, JSON), rendant l’analyse complexe.
Exemples de Datalake
Flux de données
Démonstration d'une
analyse de logs avec
Spark
Conclusion
Conclusion
En conclusion, un Datalake permet de collecter, stocker et analyser de grandes quantités
de données de manière flexible et évolutive. Il centralise les données brutes, les rend
facilement accessibles et les transforme en informations utiles à travers des outils
d'analyse, facilitant ainsi la prise de décision.