0% ont trouvé ce document utile (0 vote)
49 vues58 pages

Comprendre le Big Data et ses enjeux

Transféré par

menouar.rania30
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
49 vues58 pages

Comprendre le Big Data et ses enjeux

Transféré par

menouar.rania30
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Hakim AKEB

PGE 3A - ISC Paris


Sommaire

1. Origines du big data

2. Exemples d’application du big data

3. Définitions

4. Entreprise : compétences et outils nécessaires

5. Impact du big data sur l’entreprise

6. Un exemple concret

PGE 3A Big Data & Data Mining 2


1. Origines du
big data

PGE 3A Big Data & Data Mining 3


1. Origines du Big data
1.1. Contexte

Depuis plus de 10 ans : changements dans nos habitudes


- Développement et démocratisation des smartphones + tablettes
- Multiplication des réseaux sociaux (web 1.0 -> web 2.0)
- Web 2.0 (participatif), web 1.0 = statique
- 4G (50 à 100 Mbps)
- 5G (> 500 Mbps)

 Augmentation exponentielle du volume des données


 « Big data » ou « données massives »

PGE 3A Big Data & Data Mining 4


1. Origines du Big data
1.1. Contexte

Web 3.0 (Web 3)

- Redonner le « pouvoir » aux utilisateurs


- S’affranchir des GAFAM
- Réseaux de données décentralisés
- Basé sur la notion de blockchain (registres chiffrés de transactions)
- …

Ceci en théorie …

En pratique: notion encore floue, emprise des GAFAM

PGE 3A Big Data & Data Mining 5


1. Origines du Big data
1.2. Quelques chiffres:

Chaque minute
- >200 millions d’emails envoyés (plus de 50% de spams). En 2024, 251 millions
- YouTube :
- >400 h de vidéos mises en ligne (480 000 vues, 70% sur mobile)
- 1 min de vidéo = 8,3 Mo en 480 p
- Twitter
Janvier 2021:
- en 2020 : 456 000 tweets /min = 656 millions par jour
- en 2022: 71% de utilisateurs suivent des marques 4,95 Mds d’utilisateurs
- en 2022 : 2 Mds de vidéos vues par jour actifs sur les réseaux
- Instagram sociaux
- 216 000 publications sur Instagram
- en 2022: 90% des utilisateurs suivent des marques
- Google = 6 millions de recherches (en 2022)
- Facebook
- 510 000 commentaires + 136 000 photos
- 400 nouveaux utilisateurs

PGE 3A Big Data & Data Mining 6


1. Origines du Big data
1.2. Quelques chiffres:

Chiffres de Facebook (2020) :

- 2.2 Milliards d’utilisateurs actifs mensuels

- 4 Po de données générés par jour


(1 Po = 1000 To = 1 million Go = 1015 octets)

- Facebook détient 300 Po de données sur ses utilisateurs


stockées dans la « ruche »

PGE 3A Big Data & Data Mining 7


1. Origines du Big data
1.2. Quelques chiffres: en France
- 42,2 millions se connectent par mois à une messagerie
(Monde= 3,9 Mds)

- 1,4 Mds de mails envoyés chaque jour

- 1 internaute reçoit en moyenne 39 emails/jour

- Impact carbone email 1 Mo = 19 grammes

- Entreprise de 100 salariés = 13,6 tonnes de CO2/an

- Salariés interrompus toutes les 10 minutes par les emails

- Il faut 64 secondes pour reprendre le fil de leur pensée

PGE 3A Big Data & Data Mining 8


1. Origines du Big data
Dernières statistiques

- 2020 : 40% des données sont générées par des machines

- 2022: économie numérique = 15,5% du PIB mondial

- 200 Zo de données stockées dans le cloud en 2025 (1 Zo = 1021 octets = 1000 Eo)

- En 2030 : plus de 25 Mds d’objets connectés

- Chine: 3,17 Mds d’objets connectés en 2020

PGE 3A Big Data & Data Mining 9


1. Origines du Big data
1.3. Origine des données

- Humaines
- Données des entreprises
- Commentaires, photos, vidéos, etc. laissés
sur le web
- …

- Machines connectées (IoT = Internet of Things)


- Compteurs en tout genre (EDF, web, transport, …)
- Véhicules autonomes
- Capteurs (météo, pollution, …)
- Objets électroniques à domicile
- …

PGE 3A Big Data & Data Mining 10


1. Origines du Big data
1.4. Traitement et stockage des données

L’offre croissante de services (GAFA) a engendré:

- Un besoin d’imaginer d’autres architectures pour stocker et traiter


les données (informations?) en temps réel

- SGBDs et applications standards ne sont plus adaptés

PGE 3A Big Data & Data Mining 11


1. Origines du Big data
1.5. Causes économiques et technologiques

- Baisse importante des prix


- Loi de Moore (nb transistors/circuit double tous les 18 mois à prix constant)
=> actuellement limite physique (taille composants)
- Fabrication dans des pays à bas coûts
- Miniaturisation et efficacité des composants électroniques (CPU, RAM,
Disque dur, …)
- Bande passante plus grande => développement du cloud + services
- Apparition des data centers

PGE 3A Big Data & Data Mining 12


1. Origines du Big data
1.6. Qui a initié les progrès ?

- Ce sont les géants du web : moyens financiers et humains « illimités »

- Google
- Apple
1998 1976 2004 1994
- Facebook
- Amazon
- Microsoft (1975)
- Etc.

PGE 3A Big Data & Data Mining 14


1. Origines du Big data
1.6. Qui a initié les progrès ?
Capitalisation des GAFA (=PIB France mais taux de croissance de 35% par an)
en Mds de dollars

PGE 3A Big Data & Data Mining 15


1. Origines du Big data
1.6. Qui a initié les progrès ?
Capitalisation des plus grandes entreprises US de la tech au 31/12/2021 (x1000
Milliards $)
(Tesla dépasse facebook)

PGE 3A Big Data & Data Mining 16


1. Origines du Big data
1.6. Qui a initié les progrès ?

PGE 3A Big Data & Data Mining 17


1. Origines du Big data
1.6. Qui a initié les progrès ?
Comparaison capitalisation boursière (places boursières) de certains
pays avec Apple (au 31/12/2021)

PGE 3A Big Data & Data Mining 18


1. Origines du Big data
1.6. Qui a initié les progrès ?
Les GAFAM ont continué à prospérer durant la crise sanitaire !
Évolution sur 1 an

PGE 3A Big Data & Data Mining 19


1. Origines du Big data
1.6. Qui a initié les progrès ?
CA des GAFAM (2004 – 2020)

PGE 3A Big Data & Data Mining 20


1. Origines du Big data
1.6. Qui a initié les progrès ?

Secteurs d’activités des GAFAM

Source: lafinancepourtous.com,
d’après Le monde

PGE 3A Big Data & Data Mining 21


1. Origines du Big data
1.6. Qui a initié les progrès ?
Apple Park : siège social d’Apple, Cupertino (CA): diamètre = 461 m

PGE 3A Big Data & Data Mining 22


1. Origines du Big data
1.6. Qui a initié les progrès ?

Câbles sous-marins de télécommunication à travers le monde


(source submarinecablemap.com, 2022)
PGE 3A Big Data & Data Mining 23
1. Origines du Big data

Câbles sous-marins de télécommunication – Zoom sur l’Europe


(source submarinecablemap.com, 2022)
PGE 3A Big Data & Data Mining 24
1. Origines du Big data
1.6. Qui a initié les progrès ?

Câble sous-marin
reliant l’Espagne
(Bilbao) aux USA
(Virginia Beach),

financé par Miscrosoft


et facebook

(source Les Echos)

PGE 3A Big Data & Data Mining 25


1. Origines du Big data
1.7. Frontière data – big data

Stockage

Big Data

> 10 Po > 100 To


= 1 To < 100 Go

Système
Internet Datacenter Disque dur RAM
PGE 3A Big Data & Data Mining 26
1. Origines du Big data
1.8. Exemple de big data

- Gros volumes de données impossibles à stocker et à traiter par les systèmes


traditionnels (disque dur, SGBD, Excel, …)
- Données de logs transactionnels (entreprises de l’e-commerce)
- Trafic des gros sites web
- Echanges boursiers (trading algorithmique)
- Données de localisation réseaux cellulaires
- Données des objets connectés (IoT)
- Données publiques à accès libre = Open Data (non téléchargeables avec une
connexion standard)

PGE 3A Big Data & Data Mining 27


1. Origines du Big data
1.9. Exemple de ce qui n’est pas du big data

- Données pouvant être traitées dans un fichier Excel


- Données stockées dans une BDD relationnelle
- Données de sondages
- …

Mais…
On peut bien sûr extraire des données du big data et les traiter ensuite avec Excel
ou un logiciel de datamining.

PGE 3A Big Data & Data Mining 28


1. Origines du Big data
1.10. Nouveaux principes

- Accélérer le traitement en mémoire centrale plutôt que l’accès disque

- Parallélisation et distribution des traitements afin d’accélérer les calculs

- Apparition du NoSQL (Not Only SQL) : données structurées et non-structurées

- Utilisation de méthodes statistiques d’apprentissage (Machine Learning,


intelligence artificielle)

PGE 3A Big Data & Data Mining 29


1. Origines du Big data
1.11. Moyens et ressources nécessaires au big data
- Data centers : www.datacentermap.com

PGE 3A Big Data & Data Mining 30


1. Origines du Big data
1.11. Moyens et ressources nécessaires au big data
- Data centers : www.datacentermap.com

PGE 3A Big Data & Data Mining 31


1. Origines du Big data
1.11. Moyens et ressources nécessaires au big data
- Data center de Facebook au Danemark

Locaux climatisés

PGE 3A Big Data & Data Mining 32


2. Exemples
d’application du
big data

PGE 3A Big Data & Data Mining 33


2. Exemples d’application du Big data
2.1. Big data & entreprises (exemple : connaissance client)

- Clients entreprises deviennent de plus en plus exigeants

- Pour les satisfaire, les entreprises:


- Mesurer image de marque (réseaux sociaux) => Community Manager
- Potentiel financier des clients
- Leurs goûts et préférences
=> Développer de nouveaux produits et services sur mesure (ex. Drive, click &
collect, paiement sans contact, …)
- Etc.

PGE 3A Big Data & Data Mining 34


2. Exemples d’application du Big data
2.2. Entreprise à l’ère du numérique
• Proximité numérique avec les clients (surveillance ? Harcèlement?)
• Echange de données avec clients, prospects, fournisseurs, etc.

Exemple du Marketing : profils clients (marketing ciblé)

Echanges Parcours sur


téléphoniques un site

Marketing

Dossiers
Sites visités
clients

PGE 3A Big Data & Data Mining 35


2. Exemples d’application du Big data
2.3. Cloud computing et développement du big data

- Cloud computing = services à distance via Internet

- Cloud = 3 modèles
- Iaas = Infrastructure as a service

- PaaS = Platform as a Service

- SaaS = Software as a Service

PGE 3A Big Data & Data Mining 36


3. Définitions

PGE 3A Big Data & Data Mining 37


3. Définitions
3.1. Big data

• Domaine technologique dédié à l’analyse de très grands volumes


de données informatiques, issus d'une grande variété de sources,
tels les moteurs de recherche et les réseaux sociaux (Larousse)

• Ensemble des technologies et algorithmes permettant de trier en


temps réel une masse considérable de données sur Internet afin
de cerner les comportements des internautes-consommateurs
(Marketing)

PGE 3A Big Data & Data Mining 38


3. Définitions
3.2. Les 4 dimensions Big data (source IBM)

• Volume : volume de données très important (To voire Po)

• Vélocité = vitesse : traitement « rapide », voire en temps réel

• Variété : diverses sources + données structurées (texte) et non


structurées (images, vidéos, sons, logs, …)

• Véracité : la donnée collectée doit être véridique.

PGE 3A Big Data & Data Mining 39


3. Définitions
3.3. Les autres « V » du Big data

• Valeur : données doivent apporter de la valeur (entreprise:


transformer les données en CA).

• Visualisation : synthétiser puis afficher les résultats de manière


simple

PGE 3A Big Data & Data Mining 40


4. Entreprises:
compétences et outils
nécessaires

PGE 3A Big Data & Data Mining 41


4. Entreprise: compétences et outils nécessaires
Pour les entreprises
• Nouvelles méthodes de modélisation des données (ex. NoSQL)
• Environnements/ Modèles de programmation
• MapReduce (Google) : paralléliser et/ou distribuer les données et traitement sur des clusters

• Hadoop : Implémentation open source de MapReduce


• Rentable si une grande quantité de données
• Système de fichiers HDFS (Hadoop Distributed File System)
• Clusters hadoop très tolérants aux pannes
• Ajout dynamique de clusters si 1 cluster est surchargé

PGE 3A Big Data & Data Mining 42


4. Entreprise: compétences et outils nécessaires

• Nouvelles méthodes d’analyse de données (datamining)


• extension des méthodes standards
• outils d’exploration et de visualisation interactive

• Métier de data scientist

• Métier du Community Manager

PGE 3A Big Data & Data Mining 43


4. Entreprise: compétences et outils nécessaires
Exemple de langages de programmation

Python
R
Java (Apache Hadoop basé sur Java)
Go : développé par Google
Etc.

Pour des applications rapides => C/C++ (aucun superflu + contrôle


plus strict de la mémoire)

PGE 3A Big Data & Data Mining 44


5. Impact du big data
sur l’entreprise

PGE 3A Big Data & Data Mining 45


5. Impact sur l’entreprise
• Conception de nouveaux systèmes (par ex basés sur NoSQL),
contraires aux croyances établies (voir Cours sur les BDD)

• Utilisation de nouveaux langages de programmation

• Apparition du métier de « data scientist » : pilote le


développement d’applications prédictives

• Le Data Scientist prend de plus en plus de pouvoir…

=> Le SI devient « data-centric » = tirer de la valeur de toutes les


données

PGE 3A Big Data & Data Mining 46


5. Impact sur l’entreprise

Domaines d’application du big data (non-exhaustif):


- Prise de décision grâce à des modèles sophistiqués (tous les domaines):
Machine Learning+ IA (voir chapitre sur le ML)

- Sécurité électronique + détection de fraude (finance, banque, assurance)

- Management du risque (projets, banques, finance, bourse, …)

- Analyse des humeurs (commentaires) sur les réseaux sociaux

- Construire des profils consommateurs (ex en marketing)

- Suivi client en temps réel (e-commerce, …)

- Analyse des logs d’un site internet (historique)

PGE 3A Big Data & Data Mining 47


5. Impact sur l’entreprise

Domaines d’application du big data (non-exhaustif): suite

- Tracking RFID (suivi production -> livraison de produits)

- Tout autre système logistique

- Suivi et gestion des épidémies/pandémies

- Analyse de fichiers médias (texte, vidéos, audio, photos, …)

- …

PGE 3A Big Data & Data Mining 48


PGE 3A Big Data & Data Mining 49
6. Un exemple concret
Exemple Ville de Paris (https://opendata.paris.fr/page/home/)
• Projet : réaménagement de 7 grandes places parisiennes
• Objectif : redéfinir l’espace accordé aux piétons, au mobilier urbain et aux espaces
verts.
• Moyens : capteurs, caméras, Internet des objets (IoT) et big data
• Partenaires : Cisco et plusieurs startups
Place de la Nation (2016-2019)
50 capteurs

Bruit, pollution, déplacements (piétons, vélos, véhicules, …)


Barrer pendant une période certains passages et reconnecter
certains ilots pour voir la réaction du trafic et des piétons.

Caméras + Datamining = nombre de piétons

Livraison : 7 juillet 2019 Capteurs de bruit

PGE 3A Big Data & Data Mining 50


6. Un exemple concret
• Valeurs bruit
enregistrées

• Capteurs affichant aux piétons l’intensité


du bruit subi

PGE 3A Big Data & Data Mining 51


6. Un exemple concret
• E-Tree ou City Tree (startup allemande Green City Solutions)

- Arbre connecté, absorbe la pollution


- Equivalent de 275 arbres
- Energie solaire
- Récolte eau de pluie
- Possède un ordinateur
- Optimiser arrosage
- Récolter données sur pollution
- Transmettre les données

Objectif du projet:
Croiser toutes ces données afin de trouver des solutions pour améliorer la qualité de
vie des citoyens.

PGE 3A Big Data & Data Mining 52


6. Un exemple concret

Place de la Nation à la fin des travaux (été 2019)

PGE 3A Big Data & Data Mining 53


6. Un exemple concret (en haut: avant, en bas: après)

Après

Avant

PGE 3A Big Data & Data Mining 54


6. Un exemple concret
Exemple 2: Comptage multimodale automatique et intelligent

PGE 3A Big Data & Data Mining 55


6. Un exemple concret
Exemple 2: Comptage multimodale automatique et intelligent

PGE 3A Big Data & Data Mining 56


6. Un exemple concret
Ville de Paris: exemple de jeux de données (janvier 2022)
https://opendata.paris.fr/pages/home/

PGE 3A Big Data & Data Mining 57


Conclusion

Big data :
- Fait partie de notre vie quotidienne (réseaux sociaux, Internet,
achats en ligne, santé, banques, …)

- Peut aider les entreprises à tirer de la valeur des données

- Nécessite outils et compétences spéciales

- Entreprises + villes : fournir aux développeurs des données pour


proposer des services aux citoyens (applications internet,
informations, …)

PGE 3A Big Data & Data Mining 58


Sources
• Académie des technologies. Big data : un changement de paradigme peut-il en cacher un
autre ? EDP Sciences, 2015.
• Amazon EMR, https://aws.amazon.com/fr/emr/, 2023
• IBM, https://www.ibm.com/fr-fr/analytics/hadoop/big-data-analytics, 2023.
• P. Lemberger, M. Batty, M. Morel, J-L Raffaëlli. Big Data et Machine Learning - 3e édition,
Les concepts et outils de la data science. Dunod, 2019.
• V. Mayer-Schönberger, K. Cukier. Big Data: A Revolution that Will Transform how We Live,
Work, and Think. Houghton Mifflin Harcourt, 2013.
• Ville de Paris, https://opendata.paris.fr/page/home/, 2022
• ZDNtet.fr, 2022.

PGE 3A Big Data & Data Mining 59

Vous aimerez peut-être aussi