Hakim AKEB
PGE 3A - ISC Paris
Sommaire
1. Origines du big data
2. Exemples d’application du big data
3. Définitions
4. Entreprise : compétences et outils nécessaires
5. Impact du big data sur l’entreprise
6. Un exemple concret
PGE 3A Big Data & Data Mining 2
1. Origines du
big data
PGE 3A Big Data & Data Mining 3
1. Origines du Big data
1.1. Contexte
Depuis plus de 10 ans : changements dans nos habitudes
- Développement et démocratisation des smartphones + tablettes
- Multiplication des réseaux sociaux (web 1.0 -> web 2.0)
- Web 2.0 (participatif), web 1.0 = statique
- 4G (50 à 100 Mbps)
- 5G (> 500 Mbps)
Augmentation exponentielle du volume des données
« Big data » ou « données massives »
PGE 3A Big Data & Data Mining 4
1. Origines du Big data
1.1. Contexte
Web 3.0 (Web 3)
- Redonner le « pouvoir » aux utilisateurs
- S’affranchir des GAFAM
- Réseaux de données décentralisés
- Basé sur la notion de blockchain (registres chiffrés de transactions)
- …
Ceci en théorie …
En pratique: notion encore floue, emprise des GAFAM
PGE 3A Big Data & Data Mining 5
1. Origines du Big data
1.2. Quelques chiffres:
Chaque minute
- >200 millions d’emails envoyés (plus de 50% de spams). En 2024, 251 millions
- YouTube :
- >400 h de vidéos mises en ligne (480 000 vues, 70% sur mobile)
- 1 min de vidéo = 8,3 Mo en 480 p
- Twitter
Janvier 2021:
- en 2020 : 456 000 tweets /min = 656 millions par jour
- en 2022: 71% de utilisateurs suivent des marques 4,95 Mds d’utilisateurs
- en 2022 : 2 Mds de vidéos vues par jour actifs sur les réseaux
- Instagram sociaux
- 216 000 publications sur Instagram
- en 2022: 90% des utilisateurs suivent des marques
- Google = 6 millions de recherches (en 2022)
- Facebook
- 510 000 commentaires + 136 000 photos
- 400 nouveaux utilisateurs
PGE 3A Big Data & Data Mining 6
1. Origines du Big data
1.2. Quelques chiffres:
Chiffres de Facebook (2020) :
- 2.2 Milliards d’utilisateurs actifs mensuels
- 4 Po de données générés par jour
(1 Po = 1000 To = 1 million Go = 1015 octets)
- Facebook détient 300 Po de données sur ses utilisateurs
stockées dans la « ruche »
PGE 3A Big Data & Data Mining 7
1. Origines du Big data
1.2. Quelques chiffres: en France
- 42,2 millions se connectent par mois à une messagerie
(Monde= 3,9 Mds)
- 1,4 Mds de mails envoyés chaque jour
- 1 internaute reçoit en moyenne 39 emails/jour
- Impact carbone email 1 Mo = 19 grammes
- Entreprise de 100 salariés = 13,6 tonnes de CO2/an
- Salariés interrompus toutes les 10 minutes par les emails
- Il faut 64 secondes pour reprendre le fil de leur pensée
PGE 3A Big Data & Data Mining 8
1. Origines du Big data
Dernières statistiques
- 2020 : 40% des données sont générées par des machines
- 2022: économie numérique = 15,5% du PIB mondial
- 200 Zo de données stockées dans le cloud en 2025 (1 Zo = 1021 octets = 1000 Eo)
- En 2030 : plus de 25 Mds d’objets connectés
- Chine: 3,17 Mds d’objets connectés en 2020
PGE 3A Big Data & Data Mining 9
1. Origines du Big data
1.3. Origine des données
- Humaines
- Données des entreprises
- Commentaires, photos, vidéos, etc. laissés
sur le web
- …
- Machines connectées (IoT = Internet of Things)
- Compteurs en tout genre (EDF, web, transport, …)
- Véhicules autonomes
- Capteurs (météo, pollution, …)
- Objets électroniques à domicile
- …
PGE 3A Big Data & Data Mining 10
1. Origines du Big data
1.4. Traitement et stockage des données
L’offre croissante de services (GAFA) a engendré:
- Un besoin d’imaginer d’autres architectures pour stocker et traiter
les données (informations?) en temps réel
- SGBDs et applications standards ne sont plus adaptés
PGE 3A Big Data & Data Mining 11
1. Origines du Big data
1.5. Causes économiques et technologiques
- Baisse importante des prix
- Loi de Moore (nb transistors/circuit double tous les 18 mois à prix constant)
=> actuellement limite physique (taille composants)
- Fabrication dans des pays à bas coûts
- Miniaturisation et efficacité des composants électroniques (CPU, RAM,
Disque dur, …)
- Bande passante plus grande => développement du cloud + services
- Apparition des data centers
PGE 3A Big Data & Data Mining 12
1. Origines du Big data
1.6. Qui a initié les progrès ?
- Ce sont les géants du web : moyens financiers et humains « illimités »
- Google
- Apple
1998 1976 2004 1994
- Facebook
- Amazon
- Microsoft (1975)
- Etc.
PGE 3A Big Data & Data Mining 14
1. Origines du Big data
1.6. Qui a initié les progrès ?
Capitalisation des GAFA (=PIB France mais taux de croissance de 35% par an)
en Mds de dollars
PGE 3A Big Data & Data Mining 15
1. Origines du Big data
1.6. Qui a initié les progrès ?
Capitalisation des plus grandes entreprises US de la tech au 31/12/2021 (x1000
Milliards $)
(Tesla dépasse facebook)
PGE 3A Big Data & Data Mining 16
1. Origines du Big data
1.6. Qui a initié les progrès ?
PGE 3A Big Data & Data Mining 17
1. Origines du Big data
1.6. Qui a initié les progrès ?
Comparaison capitalisation boursière (places boursières) de certains
pays avec Apple (au 31/12/2021)
PGE 3A Big Data & Data Mining 18
1. Origines du Big data
1.6. Qui a initié les progrès ?
Les GAFAM ont continué à prospérer durant la crise sanitaire !
Évolution sur 1 an
PGE 3A Big Data & Data Mining 19
1. Origines du Big data
1.6. Qui a initié les progrès ?
CA des GAFAM (2004 – 2020)
PGE 3A Big Data & Data Mining 20
1. Origines du Big data
1.6. Qui a initié les progrès ?
Secteurs d’activités des GAFAM
Source: lafinancepourtous.com,
d’après Le monde
PGE 3A Big Data & Data Mining 21
1. Origines du Big data
1.6. Qui a initié les progrès ?
Apple Park : siège social d’Apple, Cupertino (CA): diamètre = 461 m
PGE 3A Big Data & Data Mining 22
1. Origines du Big data
1.6. Qui a initié les progrès ?
Câbles sous-marins de télécommunication à travers le monde
(source submarinecablemap.com, 2022)
PGE 3A Big Data & Data Mining 23
1. Origines du Big data
Câbles sous-marins de télécommunication – Zoom sur l’Europe
(source submarinecablemap.com, 2022)
PGE 3A Big Data & Data Mining 24
1. Origines du Big data
1.6. Qui a initié les progrès ?
Câble sous-marin
reliant l’Espagne
(Bilbao) aux USA
(Virginia Beach),
financé par Miscrosoft
et facebook
(source Les Echos)
PGE 3A Big Data & Data Mining 25
1. Origines du Big data
1.7. Frontière data – big data
Stockage
Big Data
> 10 Po > 100 To
= 1 To < 100 Go
Système
Internet Datacenter Disque dur RAM
PGE 3A Big Data & Data Mining 26
1. Origines du Big data
1.8. Exemple de big data
- Gros volumes de données impossibles à stocker et à traiter par les systèmes
traditionnels (disque dur, SGBD, Excel, …)
- Données de logs transactionnels (entreprises de l’e-commerce)
- Trafic des gros sites web
- Echanges boursiers (trading algorithmique)
- Données de localisation réseaux cellulaires
- Données des objets connectés (IoT)
- Données publiques à accès libre = Open Data (non téléchargeables avec une
connexion standard)
PGE 3A Big Data & Data Mining 27
1. Origines du Big data
1.9. Exemple de ce qui n’est pas du big data
- Données pouvant être traitées dans un fichier Excel
- Données stockées dans une BDD relationnelle
- Données de sondages
- …
Mais…
On peut bien sûr extraire des données du big data et les traiter ensuite avec Excel
ou un logiciel de datamining.
PGE 3A Big Data & Data Mining 28
1. Origines du Big data
1.10. Nouveaux principes
- Accélérer le traitement en mémoire centrale plutôt que l’accès disque
- Parallélisation et distribution des traitements afin d’accélérer les calculs
- Apparition du NoSQL (Not Only SQL) : données structurées et non-structurées
- Utilisation de méthodes statistiques d’apprentissage (Machine Learning,
intelligence artificielle)
PGE 3A Big Data & Data Mining 29
1. Origines du Big data
1.11. Moyens et ressources nécessaires au big data
- Data centers : www.datacentermap.com
PGE 3A Big Data & Data Mining 30
1. Origines du Big data
1.11. Moyens et ressources nécessaires au big data
- Data centers : www.datacentermap.com
PGE 3A Big Data & Data Mining 31
1. Origines du Big data
1.11. Moyens et ressources nécessaires au big data
- Data center de Facebook au Danemark
Locaux climatisés
PGE 3A Big Data & Data Mining 32
2. Exemples
d’application du
big data
PGE 3A Big Data & Data Mining 33
2. Exemples d’application du Big data
2.1. Big data & entreprises (exemple : connaissance client)
- Clients entreprises deviennent de plus en plus exigeants
- Pour les satisfaire, les entreprises:
- Mesurer image de marque (réseaux sociaux) => Community Manager
- Potentiel financier des clients
- Leurs goûts et préférences
=> Développer de nouveaux produits et services sur mesure (ex. Drive, click &
collect, paiement sans contact, …)
- Etc.
PGE 3A Big Data & Data Mining 34
2. Exemples d’application du Big data
2.2. Entreprise à l’ère du numérique
• Proximité numérique avec les clients (surveillance ? Harcèlement?)
• Echange de données avec clients, prospects, fournisseurs, etc.
Exemple du Marketing : profils clients (marketing ciblé)
Echanges Parcours sur
téléphoniques un site
Marketing
Dossiers
Sites visités
clients
PGE 3A Big Data & Data Mining 35
2. Exemples d’application du Big data
2.3. Cloud computing et développement du big data
- Cloud computing = services à distance via Internet
- Cloud = 3 modèles
- Iaas = Infrastructure as a service
- PaaS = Platform as a Service
- SaaS = Software as a Service
PGE 3A Big Data & Data Mining 36
3. Définitions
PGE 3A Big Data & Data Mining 37
3. Définitions
3.1. Big data
• Domaine technologique dédié à l’analyse de très grands volumes
de données informatiques, issus d'une grande variété de sources,
tels les moteurs de recherche et les réseaux sociaux (Larousse)
• Ensemble des technologies et algorithmes permettant de trier en
temps réel une masse considérable de données sur Internet afin
de cerner les comportements des internautes-consommateurs
(Marketing)
PGE 3A Big Data & Data Mining 38
3. Définitions
3.2. Les 4 dimensions Big data (source IBM)
• Volume : volume de données très important (To voire Po)
• Vélocité = vitesse : traitement « rapide », voire en temps réel
• Variété : diverses sources + données structurées (texte) et non
structurées (images, vidéos, sons, logs, …)
• Véracité : la donnée collectée doit être véridique.
PGE 3A Big Data & Data Mining 39
3. Définitions
3.3. Les autres « V » du Big data
• Valeur : données doivent apporter de la valeur (entreprise:
transformer les données en CA).
• Visualisation : synthétiser puis afficher les résultats de manière
simple
PGE 3A Big Data & Data Mining 40
4. Entreprises:
compétences et outils
nécessaires
PGE 3A Big Data & Data Mining 41
4. Entreprise: compétences et outils nécessaires
Pour les entreprises
• Nouvelles méthodes de modélisation des données (ex. NoSQL)
• Environnements/ Modèles de programmation
• MapReduce (Google) : paralléliser et/ou distribuer les données et traitement sur des clusters
• Hadoop : Implémentation open source de MapReduce
• Rentable si une grande quantité de données
• Système de fichiers HDFS (Hadoop Distributed File System)
• Clusters hadoop très tolérants aux pannes
• Ajout dynamique de clusters si 1 cluster est surchargé
PGE 3A Big Data & Data Mining 42
4. Entreprise: compétences et outils nécessaires
• Nouvelles méthodes d’analyse de données (datamining)
• extension des méthodes standards
• outils d’exploration et de visualisation interactive
• Métier de data scientist
• Métier du Community Manager
PGE 3A Big Data & Data Mining 43
4. Entreprise: compétences et outils nécessaires
Exemple de langages de programmation
Python
R
Java (Apache Hadoop basé sur Java)
Go : développé par Google
Etc.
Pour des applications rapides => C/C++ (aucun superflu + contrôle
plus strict de la mémoire)
PGE 3A Big Data & Data Mining 44
5. Impact du big data
sur l’entreprise
PGE 3A Big Data & Data Mining 45
5. Impact sur l’entreprise
• Conception de nouveaux systèmes (par ex basés sur NoSQL),
contraires aux croyances établies (voir Cours sur les BDD)
• Utilisation de nouveaux langages de programmation
• Apparition du métier de « data scientist » : pilote le
développement d’applications prédictives
• Le Data Scientist prend de plus en plus de pouvoir…
=> Le SI devient « data-centric » = tirer de la valeur de toutes les
données
PGE 3A Big Data & Data Mining 46
5. Impact sur l’entreprise
Domaines d’application du big data (non-exhaustif):
- Prise de décision grâce à des modèles sophistiqués (tous les domaines):
Machine Learning+ IA (voir chapitre sur le ML)
- Sécurité électronique + détection de fraude (finance, banque, assurance)
- Management du risque (projets, banques, finance, bourse, …)
- Analyse des humeurs (commentaires) sur les réseaux sociaux
- Construire des profils consommateurs (ex en marketing)
- Suivi client en temps réel (e-commerce, …)
- Analyse des logs d’un site internet (historique)
PGE 3A Big Data & Data Mining 47
5. Impact sur l’entreprise
Domaines d’application du big data (non-exhaustif): suite
- Tracking RFID (suivi production -> livraison de produits)
- Tout autre système logistique
- Suivi et gestion des épidémies/pandémies
- Analyse de fichiers médias (texte, vidéos, audio, photos, …)
- …
PGE 3A Big Data & Data Mining 48
PGE 3A Big Data & Data Mining 49
6. Un exemple concret
Exemple Ville de Paris (https://opendata.paris.fr/page/home/)
• Projet : réaménagement de 7 grandes places parisiennes
• Objectif : redéfinir l’espace accordé aux piétons, au mobilier urbain et aux espaces
verts.
• Moyens : capteurs, caméras, Internet des objets (IoT) et big data
• Partenaires : Cisco et plusieurs startups
Place de la Nation (2016-2019)
50 capteurs
Bruit, pollution, déplacements (piétons, vélos, véhicules, …)
Barrer pendant une période certains passages et reconnecter
certains ilots pour voir la réaction du trafic et des piétons.
Caméras + Datamining = nombre de piétons
Livraison : 7 juillet 2019 Capteurs de bruit
PGE 3A Big Data & Data Mining 50
6. Un exemple concret
• Valeurs bruit
enregistrées
• Capteurs affichant aux piétons l’intensité
du bruit subi
PGE 3A Big Data & Data Mining 51
6. Un exemple concret
• E-Tree ou City Tree (startup allemande Green City Solutions)
- Arbre connecté, absorbe la pollution
- Equivalent de 275 arbres
- Energie solaire
- Récolte eau de pluie
- Possède un ordinateur
- Optimiser arrosage
- Récolter données sur pollution
- Transmettre les données
Objectif du projet:
Croiser toutes ces données afin de trouver des solutions pour améliorer la qualité de
vie des citoyens.
PGE 3A Big Data & Data Mining 52
6. Un exemple concret
Place de la Nation à la fin des travaux (été 2019)
PGE 3A Big Data & Data Mining 53
6. Un exemple concret (en haut: avant, en bas: après)
Après
Avant
PGE 3A Big Data & Data Mining 54
6. Un exemple concret
Exemple 2: Comptage multimodale automatique et intelligent
PGE 3A Big Data & Data Mining 55
6. Un exemple concret
Exemple 2: Comptage multimodale automatique et intelligent
PGE 3A Big Data & Data Mining 56
6. Un exemple concret
Ville de Paris: exemple de jeux de données (janvier 2022)
https://opendata.paris.fr/pages/home/
PGE 3A Big Data & Data Mining 57
Conclusion
Big data :
- Fait partie de notre vie quotidienne (réseaux sociaux, Internet,
achats en ligne, santé, banques, …)
- Peut aider les entreprises à tirer de la valeur des données
- Nécessite outils et compétences spéciales
- Entreprises + villes : fournir aux développeurs des données pour
proposer des services aux citoyens (applications internet,
informations, …)
PGE 3A Big Data & Data Mining 58
Sources
• Académie des technologies. Big data : un changement de paradigme peut-il en cacher un
autre ? EDP Sciences, 2015.
• Amazon EMR, https://aws.amazon.com/fr/emr/, 2023
• IBM, https://www.ibm.com/fr-fr/analytics/hadoop/big-data-analytics, 2023.
• P. Lemberger, M. Batty, M. Morel, J-L Raffaëlli. Big Data et Machine Learning - 3e édition,
Les concepts et outils de la data science. Dunod, 2019.
• V. Mayer-Schönberger, K. Cukier. Big Data: A Revolution that Will Transform how We Live,
Work, and Think. Houghton Mifflin Harcourt, 2013.
• Ville de Paris, https://opendata.paris.fr/page/home/, 2022
• ZDNtet.fr, 2022.
PGE 3A Big Data & Data Mining 59