Le document que vous avez partagé traite du Big Data, en mettant en lumière ses
concepts fondamentaux, ses caractéristiques, ses défis, et les solutions
architecturales adaptées. Voici un résumé structuré des points clés abordés :
1. Définition et Origine des Données
Sources de Données : Médias sociaux, IoT, vidéos, transactions en ligne, signaux
GPS, capteurs climatiques, etc.
Le Big Data se caractérise par l'explosion du volume, de la vitesse et de la
variété des données générées.
2. Les Unités de Stockage
Tableau des unités : mégaoctet (Mo), gigaoctet (Go), jusqu'à yottaoctet (Yo,
1
0
24
10
24
).
Ces unités illustrent les capacités de stockage croissantes requises pour gérer les
volumes massifs de données.
3. Terminologie
Données : Observation brute et objective (ex. : température = 35°).
Informations : Signification attribuée à des données dans un contexte (ex. : 35° =
temps chaud).
Connaissances : Informations combinées et enrichies par des règles, expériences ou
expertises (ex. : 35° + nourrisson = risque de déshydratation).
4. Types de Données
Structurées : Formats prédéfinis (transactions bancaires, catalogues produits).
Non structurées : Aucune structure définie (fichiers texte, vidéos, médias
sociaux).
Semi-structurées : Données partiellement structurées grâce à des métadonnées.
5. Les 3+2 "V" du Big Data
Volume : Quantité massive de données générées.
Vitesse (Velocity) : Flux de données nécessitant un traitement rapide, parfois en
temps réel.
Variété : Diversité des formats et types de données.
Véracité : Fiabilité et qualité des données.
Valeur : Potentiel des données à générer des bénéfices ou des insights
stratégiques.
6. Architecture Big Data
Collecte des données :
Streaming : Données en temps réel (IoT, capteurs). Outils : Apache Kafka, Flink.
Par lots : Données collectées périodiquement. Outils : Hadoop, Amazon S3.
Stockage des données :
Bases relationnelles pour les données structurées (MySQL, PostgreSQL).
Bases NoSQL pour les données hétérogènes et distribuées (MongoDB, Cassandra).
Systèmes de fichiers distribués (HDFS, Amazon S3) = Un système de fichiers
distribué (SFD) est une abstraction qui permet aux utilisateurs et aux applications
d'accéder à des fichiers situés sur des serveurs distant
Traitement :
Frameworks comme Apache Hadoop,
Spark,
et Flink pour gérer des données massives.
7. Big Data et NoSQL
Problématique
Essor des grandes plateformes Web (Google, Facebook, etc.).
Volume croissant de données nécessitant des systèmes distribués pour gestion et
traitement.
Objets complexes et hétérogènes, révélant les limites des SGBD traditionnels.
Solution : NoSQL
NoSQL (Not Only SQL) : systèmes complémentaires aux bases relationnelles pour des
scénarios spécifiques.
Permettent une meilleure scalabilité, gestion d’objets complexes sans schéma
préétabli.
Conçues pour des données volumineuses et fortement distribuées.
Caractéristiques des BD NoSQL
Non-relationnelles : alternatives ou compléments aux SGBD relationnels.
Scalabilité horizontale : meilleure performance avec des données exponentielles.
Modèle BASE :
Basically Available : Disponibilité partielle en cas de panne.
Soft State : État des données temporairement incohérent.
Eventually Consistent : Cohérence atteinte après un certain délai.
Types de BD NoSQL
Clé-Valeur :
Modèle simple (paires clé-valeur).
Exemples : Redis, DynamoDB.
Document :
Stockage de documents JSON.
Exemples : MongoDB, CouchDB.
Colonnes :
Données structurées en colonnes.
Exemples : Cassandra, HBase.
Graphes :
Modèle pour gérer des relations complexes.
Exemples : Neo4j, OrientDB.
HDFS (Hadoop Distributed File System)
NameNode :
Gère les métadonnées (nom des fichiers, emplacement des blocs).
DataNodes :
Stockent les blocs de données.
Réplication des blocs sur plusieurs machines pour la tolérance aux pannes.
MapReduce
Framework logiciel :
Traite d'énormes ensembles de données en parallèle sur des clusters.
Étapes principales :
Map : Émission de paires <clé, valeur> pour chaque donnée.
Reduce : Regroupement et traitement des valeurs par clé commune.
Ce système garantit une gestion fiable, tolérante aux pannes, et adaptée aux défis
du Big Data.