Module 3 : tout générer les données
3.1.1 Qu'est-ce que le Big Data ?
Définition du Big Data : Il désigne une grande quantité de données
provenant de diverses sources comme des capteurs, des sites web, des
objets connectés, etc.
Caractéristiques du Big Data :
Volume : Une grande quantité de données nécessitant plus d'espace
de stockage.
Vélocité (Velocity) : Une augmentation rapide du volume des
données.
Variété : Des données générées dans différents formats (texte,
images, capteurs, etc.).
Exemples de données collectées par les capteurs :
Maison connectée : 1 Go de données par semaine.
Voiture autonome : 4 000 Go par jour.
Secteur minier : 2,4 To par minute.
Avion Airbus A380 : 1 Po (1 million de Go) de données par vol.
Défis du Big Data : Le stockage, l'analytique et la gestion des données.
Cependant, le Big Data offre des opportunités pour améliorer l'efficacité
des entreprises et la satisfaction client.
3.1.4 Ensembles de données volumineux
Accès aux données : Les entreprises n'ont pas toujours besoin de
générer elles-mêmes de grandes quantités de données (Big Data). De
nombreuses sources de données sont disponibles gratuitement.
Petites entreprises : Les petites entreprises n'ont pas toujours la
capacité d'avoir des capteurs ou une grande variété de données.
Cependant, elles peuvent utiliser des données existantes provenant de
sources publiques ou d'autres entreprises.
Leurres de la collecte de données : Il n'est pas nécessaire pour toutes
les entreprises de collecter leurs propres données pour bénéficier de
l'analyse du Big Data. L'accès à des ensembles de données externes peut
suffire pour tirer des insights précieux.
3.2 Où le Big Data est-il stocké ?
3.2.1 Quels sont les défis du Big Data ?
Croissance exponentielle des données : Le volume de données
générées quotidiennement est énorme (463 exaoctets). Cela pose des
défis de gestion et de stockage pour les entreprises, surtout avec des
données provenant de vidéos, messages, e-mails, images, etc.
Technologies de stockage traditionnelles : Les technologies
classiques et les entrepôts de données ne sont pas suffisamment adaptés
à la quantité croissante de données. Même les solutions cloud de géants
comme Amazon, Google, et Microsoft ont du mal à suivre cette croissance.
Sécurité des données : Avec l'énorme volume de données, la sécurité
devient un problème majeur. Il est crucial de protéger ces données contre
les pertes, les fuites ou les cyberattaques.
Gestion et répartition des données : Au-delà du stockage, il est
nécessaire de gérer et de sécuriser efficacement les données. La
réplication des données et la tolérance aux pannes sont nécessaires pour
éviter la perte de données importantes.
3.2.2 Où stocker le Big Data ?
Stockage sur serveurs dans des data centers : Le Big Data est
généralement stocké sur plusieurs serveurs dans des centres de données
pour assurer la sécurité, l'accessibilité et la redondance
Edge Computing :
L'Edge computing permet de traiter et stocker les données plus près
de leur source, c'est-à-dire sur les appareils périphériques ou clients,
plutôt que sur des serveurs centralisés.
Cela réduit la latence, économise de la bande passante et accélère
les communications, car les données sont traitées localement avant
d'être envoyées vers les serveurs pour des analyses approfondies.
Les données prétraitées sont ensuite stockées à long terme ou
analysées dans le cloud.
Fog Computing : Ce modèle, lié à l'Edge computing, décrit comment des
appareils comme les capteurs ou les serveurs locaux peuvent être utilisés
pour prétraiter et analyser les données avant de les envoyer vers le cloud,
comme dans le cas des aéroports, restaurants ou immeubles connectés.
3.2.3 Le cloud et le cloud computing
Cloud :
Le cloud désigne un ensemble de serveurs ou data centers
connectés où sont stockées et accessibles des données et services
via Internet.
Les services de cloud sont fournis par des entreprises comme
Google, Microsoft, et Apple, avec des plateformes comme Google
Drive, iCloud, OneDrive, et Dropbox pour le stockage.
Avantages du cloud pour les particuliers :
Stockage à distance des fichiers (images, vidéos, etc.), libérant de
l'espace sur les appareils locaux.
Accès à des applications sans les télécharger.
Accès aux données et applications depuis n'importe quel appareil, à
tout moment.
Inconvénients du cloud pour les particuliers :
Les données peuvent être exposées à des risques de sécurité si le
fournisseur de cloud ne garantit pas une protection robuste.
Avantages du cloud pour les entreprises :
Accessibilité des données depuis n'importe quel endroit.
Rationalisation des opérations IT en payant uniquement pour les
services nécessaires.
Réduction des besoins en équipements et maintenance sur site.
3.3 Contribuer à la croissance de l'entreprise grâce au Big Data
3.3.1 Pourquoi les entreprises analysent-elles les données ?
Objectifs de l'analyse des données :
Comprendre l'impact des produits : L'analyse permet de mieux
comprendre l'usage des produits et services.
Ajuster les méthodes et objectifs : Cela aide les entreprises à
améliorer leurs processus et à réagir plus rapidement aux besoins
des clients.
Améliorer les produits : En analysant les données, les entreprises
peuvent proposer de meilleurs produits à leurs clients plus
rapidement.
Types de données traitées :
Données transactionnelles : Capturées en temps réel, elles aident à
analyser les ventes, les stocks et la production quotidienne.
Données analytiques : Utilisées pour les analyses stratégiques, elles
aident à prendre des décisions sur des actions à long terme comme
l'ouverture d'une nouvelle usine ou l'embauche de nouveaux
employés.
3.3.2 Sources d'informations
Sources de données diverses :
Réseaux sociaux : Facebook, Instagram, WhatsApp, TikTok, etc.
Pages web et moteurs de recherche : Données extraites de sites
HTTP.
Archives publiques et privées : Données historiques.
Types de données :
Données structurées : Organisées selon un format spécifique
(ex. : feuilles de calcul, formulaires). Elles sont souvent stockées
dans des formats comme CSV, JSON, ou XML pour assurer la
compatibilité entre différentes applications.
Données non structurées : Générées de manière « libre » comme
des vidéos, tweets, ou pages web. Elles nécessitent des outils
spécifiques pour le traitement, comme le web scraping (extraction
de données à partir de pages web HTML) et l'utilisation d'APIs
RESTful pour récupérer des données depuis des services web (ex. :
Facebook, Google).
Traitement des données :
Web scraping : Extraction automatique de données depuis des
pages web pour créer une base de données.
API RESTful : Interface standardisée pour collecter
automatiquement des données en utilisant HTTP et JSON, facilitant
l'accès à de grands volumes de données générés en continu.
3.3.3 Visualisation des données
Data Mining : Le processus de data mining consiste à extraire des
informations utiles à partir de données brutes en identifiant des schémas
et relations cachées dans de grands ensembles de données.
Choix des graphiques : Le type de graphique à utiliser dépend de
plusieurs facteurs :
Nombre de variables à afficher
Nombre de points de données de chaque variable
Les données sont-elles chronologiques
Éléments nécessitant une comparaison
Types de graphiques populaires :
Graphiques à courbes : Utilisés pour afficher des données
chronologiques ou des tendances.
Graphiques à colonnes : Idéaux pour comparer différentes
catégories.
Graphiques à barres : Efficaces pour comparer des valeurs entre
des catégories.
Graphiques à secteurs : Utilisés pour représenter des proportions
ou des parts d'un tout.
Nuages de points : Utilisés pour visualiser la relation entre deux
variables continues.