0% ont trouvé ce document utile (0 vote)
41 vues22 pages

Culture Digitale: Big Data & Data Science

Culture digital

Transféré par

mindachraf
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
41 vues22 pages

Culture Digitale: Big Data & Data Science

Culture digital

Transféré par

mindachraf
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Module

Culture digitale
Big Data & Data Science

Pr .Mhamda Abderrahim
Big Data & Data Science

1. Introduction
2. Emergence des Big Data
3. Vocabulaire autour des Big Data
4. BIG DATA :Cas d’utilisation
5. Comment le Big Data fonctionne-t-il ?
6. Science des Données (Data Science)
7. Le processus Data Science (étapes clés)
Introduction au Big Data

Le Big Data, ou mégadonnées en français, désigne un ensemble très volumineux de données, souvent
trop complexe pour être traité par des méthodes classiques. Ces données peuvent venir de différentes
sources comme les réseaux sociaux, les capteurs, les vidéos, les sites web, ou encore les objets
connectés.
Avec l’évolution des technologies numériques, la quantité de données générées chaque jour augmente
rapidement. Le Big Data permet d’analyser ces données pour en extraire des informations utiles,
prendre de meilleures décisions, prévoir des tendances, ou encore améliorer des services dans des
domaines comme la santé, l’environnement, le commerce ou la sécurité.
❖ la donnée
•Une donnée est l’enregistrement d’une observation, objet, fait destiné à être interprété, traité
par l’homme. La donnée est généralement objective
Exemples :
- température =35°
- âge = 2 mois
❖ l’information
• Une information est le signifiant attaché à la donnée ou à un ensemble de données par
association. L’information est généralement subjective, définie selon un contexte
Exemples
– (température=35°) : temps chaud
– (âge=2 mois) : nourrisson

❖ la connaissance
• Une connaissance est une information nouvelle, apprise par association d’informations de
base, de règles, de raisonnement, d’expérience, d’expertise, etc.
Exemple :
- temps chaud et enfant nourrisson alors risque de déshydratation
❖ les fichiers
Un fichier est un ensemble d'enregistrements stockés de manière physique. Tous les utilisateurs qui
accèdent au fichier voient les mêmes données, avec une seule et unique manière de les consulter.

❖ la base de données
Une base de données est un ensemble organisé et structuré de données, conçu pour être utilisé par des
applications spécifiques. Elle permet de stocker, gérer et retrouver facilement des informations.
Contrairement à un simple fichier, la base de données suit un schéma qui définit la structure des
données et les relations entre elles. Ce schéma permet de créer plusieurs vues adaptées aux besoins
des utilisateurs. Ainsi, différentes personnes peuvent accéder à la même base de données tout en ne
consultant que les informations qui les concernent.

Exemple : une base de données du personnel dans une université peut contenir des données sur la
carrière, la paie ou les congés des employés. Le service des ressources humaines peut voir l’ensemble,
tandis que le service comptable n’a accès qu’aux informations de paie.

❖ la banque de données
Une banque de données, quant à elle, regroupe l’ensemble des données de référence d’un domaine
particulier. Elle est souvent composée de plusieurs bases de données. Elle sert de source d’information
centralisée pour un secteur donné (par exemple : santé, éducation, météorologie...).
Les notions de base de Big Data

Chaque jour, nous générons des trillions d‘octets de données (Big Data). ces
données proviennent de partout : de capteurs utilisés pour collecter les
informations climatiques, de messages sur les sites de médias sociaux, d’images
numériques et de vidéos publiées en ligne, d’enregistrements transactionnels
d’achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que
quelques sources.
Les Big Data se caractérisent par leur volumétrie (données massives); ils sont
connus aussi par leur variété en termes de formats et de nouvelles structures, ainsi,
qu’une exigence en termes de rapidité dans le traitement. Mais jusqu’à maintenant
d’après nos recherches, aucun logiciel est encore capable de gérer toutes ces
données qui ont plusieurs types et formes et qui augmentent très rapidement. Alors
les problématiques du Big Data font partie de notre quotidien, et il faudrait des
solutions plus avancées pour gérer cette masse de données dans un petit temps.
Définitions

« Le Big Data désigne un très grand volume de données souvent hétérogènes qui ont plusieurs formats (texte,
données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.), et comprenant des formats
hétérogènes : données structurées, non structurées et semi-structurées.
Le Big Data a une nature complexe qui nécessite des technologies puissantes et des algorithmes avancés pour
son traitement et stockage. Ainsi, il ne peut être traité en utilisant des outils tels que les SGBD traditionnels. La
plupart des scientifiques et experts des données définissent le Big Data avec le concept des 3V comme suit» :

➢ Vélocité : Les données sont générées rapidement et doivent être traitées rapidement pour extraire des
informations utiles et des informations pertinentes. Par exemple, Wallmart (une chaîne internationale de
déta.illants à prix réduits) génère plus de 2,5 petabyte(PB) de données toutes les heures à partir des
transactions de ses clients. YouTube est un autre bon exemple qui illustre la vitesse rapide du Big Data.
➢ Variété : Les données volumineuses sont générées à partir de diverses sources distribuées dans plusieurs
formats (vidéos, documents, commentaires, journaux, par exemple). Les grands ensembles de données
comprennent des données structurées et non structurées, publiques ou privées, locales ou distantes,
partagées ou confidentielles, complètes ou incomplètes, etc.
➢ Volume : il représente la quantité de données générées, stockées et exploitées. Le volume des données
stockées aujourd’hui est en pleine explosion il est presque de 800.000 Péta-octets, Twitter générer plus de
50 Péta-octets chaque jour de données, Facebook générer plus de 600 petabyte .
🧠 Tableau des unités de données numériques

Unité Symbole Par rapport à 1 Go


Kilooctet Ko 0,001 Go
Mégaoctet Mo 0,001 Go
Gigaoctet Go 1 Go

Téraoctet To 1 000 Go

Pétaoctet Po 1 000 000 Go


Exaoctet Eo 1 000 000 000 Go

Zettaoctet Zo 1 000 000 000 000 Go (1 trillion Go)


Par la suite, les trois dimensions initiales sont élargies par deux autres dimensions des données Big Data (on parle
aussi des « 5 V du Big Data») :

➢ Véracité : La véracité (ou validité) des données correspond à la fiabilité et l’exactitude des données, et la
confiance que ces Big Data inspirent aux décideurs. Si les utilisateurs de ces données doutent de leur qualité ou
de leur pertinence, il devient difficile d’y investir davantage.
➢ Valeur : Ce dernier V joue un rôle primordial dans les Big Data, la démarche Big Data n’a de sens que pour
atteindre des objectifs stratégiques de création de valeur pour les clients et pour les entreprises dans tous les
domaines.
BIG DATA :Cas d’utilisation
Marketing:
Plus d’intelligence pour plus de ventes.
• Analyse prédictive : En analysant l’historique des achats du client ou les fichiers Logs qui
contiennent les pages visitées, l’entreprise peut prévoir ce que le client cherche et les
mettre dans les zones des offres et publicités afin d’augmenter les achats.
• Analyse des sentiments : De Nombreuses sociétés utilisent les échanges sur les réseaux
sociaux comme le reflet de l’opinion publique. Celle-ci devient une nouvelle source
d’informations en temps réel directement fournie par le consommateur. Le Big Data permet
de prendre le pouls quasiment en direct, mesurer l’impact de sa marque, savoir comment est
perçue la société par le public et anticiper les mauvaises critiques.
• Analyse des comportements : L’analyse du comportement des clients en magasin permet
d’améliorer l’aménagement du magasin, le mix produit et la disposition des produits dans les
rayons et sur les étagères.
Les dernières innovations ont également permis de suivre les habitudes d’achat (compter le
nombre de pas effectués et le temps passé dans chaque rayon du magasin), géolocaliser en
temps réel les clients,....peuvent maintenant être analysées et révèlent les habitudes
d’achat des clients.
BIG DATA :Cas d’utilisation

Sécurité publique

▪ Aujourd’hui, avec le Big Data, la vidéosurveillance va beaucoup plus loin : elle permet
d’analyser automatiquement les images et les situations, de croiser les informations, et
d’envoyer des alertes.

▪ Cette analyse de vidéo avancée est utilisée en particulier pour :


o la sécurité du trafic (routier, ferroviaire, maritime et aérien)
o la protection des espaces et des bâtiments publics
o la sécurité personnelle.

▪ Il est aujourd’hui possible à travers l’analyse des images vidéo de faire de :


o la reconnaissance d’objets et de mouvements
o la lecture de plaques minéralogiques
o la détection de véhicule non autorisé
o la reconnaissance faciale
o l’auto-surveillance avec possibilité de déclenchement d’alertes ou autres actions
automatisées.
Comment le Big Data fonctionne-t-il ?

L’idée principale du Big Data, c’est que plus vous avez d’informations sur un sujet, plus vous pouvez en tirer des
données qui vous permettront de prendre une décision ou de trouver une solution. Dans la plupart des cas, ce
processus est entièrement automatisé : nous disposons d’outils d’analyse, de machine learning ou même
d’intelligence artificielle très avancés qui exécutent des millions de simulations pour nous donner le meilleur
résultat possible.
Mais pour y parvenir, il faut savoir comment fonctionne le Big Data et comment tout configurer correctement.
La nécessité de traiter une telle quantité de données exige une infrastructure stable et bien structurée, pour
analyser rapidement d’énormes volumes de données de différents types, ce qui peut surcharger un serveur ou
un cluster..
Il est important de tenir compte de la capacité du système pour tous les processus. Et cela peut potentiellement
nécessiter des centaines ou des milliers de serveurs pour les grandes entreprises.

Intégration
Le Big Data se compose de données numériques recueillies à partir de nombreuses sources et, étant donné la
quantité énorme d’informations, il faut trouver de nouvelles stratégies et de nouvelles technologies pour les traiter.
Dans certains cas, des pétaoctets d’informations circulent dans votre système. Intégrer un tel volume d’information
ne sera pas facile. Vous devrez recevoir les données, les traiter et les formater dans un format adapté.

Gestion
Une bonne gestion des données est également essentielle à toute stratégie de Big Data réussie. Vous aurez besoin
d’un endroit où les stocker. les solutions de stockage peut se faire en serveurs, sur site ou les deux. Vous devez aussi
faire en sorte qu’elles soient disponibles en temps réel à la demande.
Analyse
Une fois que vous avez reçu et stocké les données, vous devez les analyser pour pouvoir les utiliser. Explorez vos
données et utilisez-les pour prendre des décisions importantes, par exemple en identifiant les caractéristiques les
plus recherchées par vos clients, ou utilisez-les pour partager vos recherches.
Science des Données (Data Science)

La « Science des Données » est l’ensemble des techniques permettant de


collecter, nettoyer, organiser, explorer, modéliser, visualiser les données.
L’objectif est d’en extraire des informations pertinentes permettant de prendre les
bonnes décisions (estimation, prévision, classification, …)

Elle est basée sur trois compétences :

✓ Le traitement informatique
✓ L’analyse statistique
✓ La valorisation des résultats
Cela peut être pour :
•comprendre ce qui s’est passé (analyse descriptive),
•prédire ce qui va arriver (analyse prédictive),
•ou encore recommander une action à faire (analyse prescriptive).
Le processus Data Science (étapes clés)

La Data Science suit un processus clair, souvent appelé cycle de vie d’un projet Data Science :

1. Collecte des données


Rassembler les données depuis :
•des bases de données (SQL, Excel, CSV…),
•des APIs (Twitter, météo…),
•du web (récupération de données sur des sites).

2. Nettoyage des données (Data Cleaning)


Les données sont souvent incomplètes, erronées ou mal formatées. Il faut :
•Supprimer les doublons,
•Gérer les valeurs manquantes,
•Corriger les erreurs de format (ex : date écrite "01/01/25" au lieu de "2025-01-01").

3. Exploration et visualisation
C’est une étape où on explore visuellement et statistiquement les données :
•Moyenne, médiane, écart-type…
•Graphiques : histogrammes, courbes, boxplots…
•Corrélations entre variables
4. Modélisation / Machine Learning
C’est ici qu’on crée un modèle prédictif ou de classification :
•Pour prédire un chiffre (ex : prix d’un logement),
•Ou pour classer un objet (ex : e-mail = spam ou non ?).

Algorithmes utilisés :
•Régression linéaire, forêts aléatoires, k-means, réseaux de neurones…

5. Évaluation du modèle
On teste le modèle avec des données non utilisées pour l'entraînement :
•Score de précision

6. Visualisation des résultats


Créer des dashboards ou des graphiques clairs pour montrer les résultats.
Les métiers liés à la Data Science

Métier Rôle
Data Analyst Analyse des données pour générer des rapports clairs.
Crée des modèles prédictifs et explore les données en
Data Scientist
profondeur.
Machine Learning Engineer Déploie des modèles IA en production.
Data Engineer Gère les bases de données et l’infrastructure technique.
Merci de votre attention.

Pr .Mhamda Abderrahim

Vous aimerez peut-être aussi