Big Data

Le document présente une rétrospective historique des Big Data, soulignant l'évolution des méthodes statistiques depuis les années 1990 jusqu'à aujourd'hui, avec l'émergence du data mining et des défis liés à la haute dimensionnalité des données. Il aborde également la nature variée des données, incluant des données quantitatives, qualitatives, textuelles et d'images, ainsi que les enjeux liés à leur volume et à leur évolution continue. Enfin, il mentionne les méthodes modernes pour traiter ces données et les défis actuels en statistique et machine learning.

Transféré par

Corentin

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

32 vues14 pages

Big Data

Transféré par

Corentin

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction aux Big Data

Julien JACQUES
Rétrospective historique (1/4)

I Historiquement, les premières approches statistiques étudient

un petit nombre n d’individus décrits par un petit
nombre p de variables. Ces données sont issues de plans
d’expériences.
Rétrospective historique (2/4)

I 1990s (MO) : les entreprises commencent à stocker de plus

en plus de données concernants leur clients, sans planification
expérimentale. Les méthodes statistiques classiques sont
massivement utilisées pour extraire de la connaissance de ces
données (CRM, gestion de la relation client). C’est la naissance
du data mining.
Rétrospective historique (3/4)

I 2000s (GO) : première révolution du data mining avec

l’avénement de la bioinformatique et des données omiques : on
observe beaucoup de variables sur peu d’individus (n << p).
On parle du fléau de la dimension et on doit réduire la
dimension et développer de nouvelles méthodes
parcimonieuses.
Fléau de la dimension
Illustration des distances entre points choisis uniformément sur [0, 1]p
par(mfrow=c(1,3))
for (p in c(2,100,1000)){
x=matrix(runif(100*p),ncol = p)
hist(dist(x),xlim=c(0,15))
}
Histogram of dist(x) Histogram of dist(x) Histogram of dist(x)

800
800

800
600
600

600
Frequency

Frequency

Frequency
400
400

400
200
200

200
0

0
0 5 10 15 0 5 10 15 0 5 10 15

dist(x) dist(x) dist(x)

En grande dimension, l’espace est vide, tous les points sont loins les uns
des autres, aucune observation ne ressemble à aucune autre
Rétrospective historique (4/4)

I 2010s (TO) : seconde révolution due au développement

d’internet (commerce en ligne, réseau sociaux). On parle de
big data et de science des données.
Les big data sont des données :
I volumineuses : à la fois en nombre n d’observations et en
nombre p de variables
I de nature variée : quantitative, qualitative, texte, image,
réseau. . .
I évolutive : les jeux de données grandissent en continue. On
parle de flux de données
Quelques lectures intéressantes

Philippe Besse, Aurélien Garivier, Jean-Michel Loubes. Big Data

Analytics - Retour vers le Futur 3; De Statisticien à Data Scientist.
https://hal.archives-ouvertes.fr/hal-00959267
Philippe Besse, Nathalie Vialaneix. Statistique et Big Data
Analytics; Volumétrie, L’Attaque des Clones. 2014.
https://hal.archives-ouvertes.fr/hal-00995801v3
Big Data : des données volumineuses

Un grand nombre n d’observations :

I théoriquement, plus n est grand, mieux les modèles seront
estimés. C’est donc statistiquement un avantage. . .
I . . . sauf si on ne peut plus mettre en mémoire le jeu de
données
I il faut alors faire appel à des architectures big data qui
distribue les calculs sur différentes machine (Hadoop, Spark)
I l’enjeu est alors de savoir estimer un modèle en distribuant les
données sur différentes machine (Map Reduce)
Nous n’aborderons pas ceci dans cette formation
Big Data : des données volumineuses
Un grand nombre p de variables :
I là par contre, c’est théoriquement plus complexe. . .
I certains modèles ne peuvent être estimés
x=matrix(rnorm(80),8,10)
y=x %*% 1:10
lm(y~x)

##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x1 x2 x3
## 1.4880 5.8685 4.7659 -0.6869
## x6 x7 x8 x9
## 24.0514 9.9607 NA NA
Big Data : des données volumineuses
Un grand nombre p de variables :
I plus il y a de variables, plus il y a de chances de voir des
variables corrélées
I ces variables peuvent être réellement corrélées
I ou une corrélation fictive peut apparaitre lorsque n << p
cor(matrix(rnorm(18),3,6))

## [,1] [,2] [,3] [,4]

## [1,] 1.0000000 0.7119641 -0.5812057 -0.13011509 0.930
## [2,] 0.7119641 1.0000000 0.1576353 0.60360897 0.919
## [3,] -0.5812057 0.1576353 1.0000000 0.88246251 -0.243
## [4,] -0.1301151 0.6036090 0.8824625 1.00000000 0.240
## [5,] 0.9309473 0.9192177 -0.2439257 0.24091899 1.000
## [6,] -0.9895580 -0.8057440 0.4578455 -0.01415372 -0.973
On parle de statistique en grande dimension
Nous aborderons ceci dans cette formation, en commençant par le
Big Data : des données (variables) de nature variée

Cas des variables quantitatives et catégorielles :

I bien avant les big data, on a eu à faire à des données de ce type
I deux approches sont alors possibles :
I utiliser des méthodes qui nativement peuvent travailler avec des
variables mixtes (Trees, RandomForest)
I uniformiser la nature des données, en transformant les variables
catégorielles en variables quantitatives (l’inverse est à proscrire,
cela ferait perdre trop d’information) :
I en variable binaire indicatrices de catégories (attention, la
dimension explose. . . )
I via une ACM et en travaillant sur les composantes principales
(on perd en interprétation)

Nous aborderons ceci dans cette formation, en commençant par le

cas de la classification
Big Data : des données (variables) de nature variée
Cas des données textuelles :
I représentation bag-of-words : à chaque mot du dictionnaire
on associe une variable discrète qui compte le nombre
d’occurences du mot dans le texte. Attention : une telle
représentation est en très grande dimension et contient
essentiellement des 0
I des techniques modernes (Word2Vec, Bert) plongent les
mots dans des espaces vectoriels de dimension réduite, de sorte
que deux mots proches ayant un sens proche soient proches
dans cet espace
Cas des images :
I une image n’est qu’un ensemble de pixel, un pixel étant décrit
par une ou des variables quantitatives :
I niveau de gris ∈ [0, 255] pour les images en noir et blanc
I niveau de rouge, vert et bleu ∈ [0, 255]3 pour les images en
couleur
Big Data : des données (variables) de nature variée

Travailler avec tous ces types de données ensemble pose encore des
soucis, même si on sait à chaque fois se ramener à des
représentations quantitatives :
I la dimension induite devient très grand
I le poids de chaque type de variables est difficile à gérer
Nous sommes sur des problématiques de recherche actuelle en
statistique et machine learning. . .
Big Data : des données évolutives

I Dans certains applications, les données arrivent par flux

régulier.
I Recommencer l’étude à chaque fois est coûteuse en temps
notamment
I Certains algorithmes online permettent de mettre à jour les
paramètres des modèles au fur et à mesure
Ce point ne sera pas abordé dans cette formation, et là encore nous
sommes sur des problématiques de recherche actuelle

Vous aimerez peut-être aussi

BD 1
Pas encore d'évaluation
BD 1
17 pages
Introduction Au Big Data
100% (1)
Introduction Au Big Data
17 pages
CM #1&#2 - Introduction À La Big Data Avec R
Pas encore d'évaluation
CM #1&#2 - Introduction À La Big Data Avec R
9 pages
Seance 1
Pas encore d'évaluation
Seance 1
26 pages
Données Structurées et Non Structurées
Pas encore d'évaluation
Données Structurées et Non Structurées
29 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
112 pages
BIG DATA - Niv III PP 1&2 - 023-024
Pas encore d'évaluation
BIG DATA - Niv III PP 1&2 - 023-024
15 pages
Plan D'étude en Science Des Données v1
Pas encore d'évaluation
Plan D'étude en Science Des Données v1
25 pages
Qui Suis-Je ?: Pr. Y Khourdifi, D I
Pas encore d'évaluation
Qui Suis-Je ?: Pr. Y Khourdifi, D I
20 pages
Cours FAA Partie1
Pas encore d'évaluation
Cours FAA Partie1
15 pages
Data Mining et Machine Learning
Pas encore d'évaluation
Data Mining et Machine Learning
34 pages
Bases de Données NoSQL et Big Data
Pas encore d'évaluation
Bases de Données NoSQL et Big Data
112 pages
1ere Partie Le Monde de La BIG DATA - Résumé
Pas encore d'évaluation
1ere Partie Le Monde de La BIG DATA - Résumé
8 pages
Chap1 Intro Au Big Data
Pas encore d'évaluation
Chap1 Intro Au Big Data
28 pages
Science Des Données Et Analyse Des Big Data
Pas encore d'évaluation
Science Des Données Et Analyse Des Big Data
2 pages
MOOC Big Data: Informatique et Statistiques
Pas encore d'évaluation
MOOC Big Data: Informatique et Statistiques
4 pages
Partie 1 - Cours NoSQL New
Pas encore d'évaluation
Partie 1 - Cours NoSQL New
102 pages
Analyse Des Données
Pas encore d'évaluation
Analyse Des Données
13 pages
Introduction au Big Data
Pas encore d'évaluation
Introduction au Big Data
41 pages
Big Data - Generalite
Pas encore d'évaluation
Big Data - Generalite
28 pages
Apprentissage Statistique PDF
Pas encore d'évaluation
Apprentissage Statistique PDF
159 pages
Table Des Matières - 978-2-409-00043-0
Pas encore d'évaluation
Table Des Matières - 978-2-409-00043-0
12 pages
SVM et Méthodes à Noyaux pour Données
Pas encore d'évaluation
SVM et Méthodes à Noyaux pour Données
310 pages
2 - Big Data
Pas encore d'évaluation
2 - Big Data
60 pages
Lecture 1 Bis
Pas encore d'évaluation
Lecture 1 Bis
53 pages
Introduction au Big Data et Analyse des Données
Pas encore d'évaluation
Introduction au Big Data et Analyse des Données
57 pages
4-Préparation Données
100% (1)
4-Préparation Données
55 pages
Cours 1 Architecture - Big Data Fondements de BIG DATA
Pas encore d'évaluation
Cours 1 Architecture - Big Data Fondements de BIG DATA
49 pages
Introduction à la régression linéaire univariée
Pas encore d'évaluation
Introduction à la régression linéaire univariée
10 pages
Cours SwarmIntelligence BigData PlateForme
Pas encore d'évaluation
Cours SwarmIntelligence BigData PlateForme
60 pages
Big Data Chap 1 - Introduction
Pas encore d'évaluation
Big Data Chap 1 - Introduction
33 pages
Big Data Chap 1 - Introduction
Pas encore d'évaluation
Big Data Chap 1 - Introduction
32 pages
CM StatGD
Pas encore d'évaluation
CM StatGD
80 pages
Chap1 Introduction
Pas encore d'évaluation
Chap1 Introduction
44 pages
Big Data 2025 Partie 1
Pas encore d'évaluation
Big Data 2025 Partie 1
29 pages
Introduction à l'analyse de données
Pas encore d'évaluation
Introduction à l'analyse de données
159 pages
Chapitre1: Introduction: Big Data
Pas encore d'évaluation
Chapitre1: Introduction: Big Data
31 pages
Introduction au Big Data
Pas encore d'évaluation
Introduction au Big Data
15 pages
Méthodologie Des Nomophob01
Pas encore d'évaluation
Méthodologie Des Nomophob01
5 pages
Cours Framework Big DATA - DR SEBRI
Pas encore d'évaluation
Cours Framework Big DATA - DR SEBRI
15 pages
Fouille Des Big Data Et Visualisation - Week 1
100% (2)
Fouille Des Big Data Et Visualisation - Week 1
31 pages
Cour Big Data
Pas encore d'évaluation
Cour Big Data
29 pages
Introduction à l'Analyse de Données
Pas encore d'évaluation
Introduction à l'Analyse de Données
15 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
13 pages
CoursFDA Slides Chap1
Pas encore d'évaluation
CoursFDA Slides Chap1
25 pages
Informatique Et Gestion Des Donnees
Pas encore d'évaluation
Informatique Et Gestion Des Donnees
88 pages
Steps To Complete A Machine Learning
Pas encore d'évaluation
Steps To Complete A Machine Learning
11 pages
Culture Digitale: Big Data & Data Science
Pas encore d'évaluation
Culture Digitale: Big Data & Data Science
22 pages
Chapitre 1-1
Pas encore d'évaluation
Chapitre 1-1
107 pages
Big Data et Machine Learning en Data Science
100% (1)
Big Data et Machine Learning en Data Science
10 pages
Cours
Pas encore d'évaluation
Cours
54 pages
ESCT - 2023 - 2024 - 3LMKG - Big - Data en Assurance Avec Python 17 02 2024
Pas encore d'évaluation
ESCT - 2023 - 2024 - 3LMKG - Big - Data en Assurance Avec Python 17 02 2024
39 pages
Chapitre 1 - Introduction Aux Big Data
Pas encore d'évaluation
Chapitre 1 - Introduction Aux Big Data
47 pages
Hal Apprent Massif BGL 06 16
Pas encore d'évaluation
Hal Apprent Massif BGL 06 16
39 pages
Big Data
Pas encore d'évaluation
Big Data
48 pages
Cours 1 Architecture - Big Data Fondements de BIG DATA
Pas encore d'évaluation
Cours 1 Architecture - Big Data Fondements de BIG DATA
49 pages
1 Introduction
Pas encore d'évaluation
1 Introduction
20 pages
Diapo Endof10
Pas encore d'évaluation
Diapo Endof10
2 pages
Classification Randomforest
Pas encore d'évaluation
Classification Randomforest
22 pages
Classification RegressionLogistique
Pas encore d'évaluation
Classification RegressionLogistique
20 pages
Livre Kobol
Pas encore d'évaluation
Livre Kobol
8 pages
Ex Linux-1
Pas encore d'évaluation
Ex Linux-1
7 pages
Support de Réunion Du Comité Pilotage
Pas encore d'évaluation
Support de Réunion Du Comité Pilotage
13 pages
BTS 2021 - Mecatronique
Pas encore d'évaluation
BTS 2021 - Mecatronique
7 pages
Cybelec DNC 60 Ps Operation User S Manual 113
100% (1)
Cybelec DNC 60 Ps Operation User S Manual 113
113 pages
Épreuve théorique en informatique C
Pas encore d'évaluation
Épreuve théorique en informatique C
3 pages
Projet de Contrat Marchand - Idole Cash - V003 - FR
Pas encore d'évaluation
Projet de Contrat Marchand - Idole Cash - V003 - FR
24 pages
Poo Python 29-03-2025
Pas encore d'évaluation
Poo Python 29-03-2025
282 pages
Logi TOLE
Pas encore d'évaluation
Logi TOLE
2 pages
PIC Hmidi
100% (1)
PIC Hmidi
7 pages
Ra19 Lycee GT 2 Phychi Programmerpython Fiche2-Premiere-exploitation 1161843
Pas encore d'évaluation
Ra19 Lycee GT 2 Phychi Programmerpython Fiche2-Premiere-exploitation 1161843
3 pages
Presentation SHELEC 2024 S2
Pas encore d'évaluation
Presentation SHELEC 2024 S2
16 pages
Ingénieur Informaticien et Formateur
Pas encore d'évaluation
Ingénieur Informaticien et Formateur
3 pages
Résumé GE37
Pas encore d'évaluation
Résumé GE37
13 pages
Guide Mémoire
Pas encore d'évaluation
Guide Mémoire
18 pages
Implementation Analyse Siem Wazuh
100% (1)
Implementation Analyse Siem Wazuh
52 pages
Livret Filiere Informatique Management
Pas encore d'évaluation
Livret Filiere Informatique Management
20 pages
SBR Outil Excel
Pas encore d'évaluation
SBR Outil Excel
91 pages
Circuits Logiques Programmables PLD
Pas encore d'évaluation
Circuits Logiques Programmables PLD
34 pages
SupportEtudiantATELIER CLOUD2023
Pas encore d'évaluation
SupportEtudiantATELIER CLOUD2023
24 pages
Epreuve Initiation en Algorithme CC 2025
Pas encore d'évaluation
Epreuve Initiation en Algorithme CC 2025
2 pages
Performances et frais 2022 de Natixis
Pas encore d'évaluation
Performances et frais 2022 de Natixis
2 pages
Modèles OSI et TCP/IP expliqués
Pas encore d'évaluation
Modèles OSI et TCP/IP expliqués
12 pages
Rapport Machine Learning
100% (1)
Rapport Machine Learning
61 pages
Aeb 80 D 12
Pas encore d'évaluation
Aeb 80 D 12
34 pages
GIA 450 Cours 2
Pas encore d'évaluation
GIA 450 Cours 2
46 pages
Brochure DigiFemmes Academy
Pas encore d'évaluation
Brochure DigiFemmes Academy
28 pages
L'impact Digital Sur Le Service Bancaire Le Cas Banque Populaire
100% (4)
L'impact Digital Sur Le Service Bancaire Le Cas Banque Populaire
73 pages
TD°4: Préparation Des Commandes
Pas encore d'évaluation
TD°4: Préparation Des Commandes
4 pages
Serie Des Exercices Corriges
100% (2)
Serie Des Exercices Corriges
7 pages
CV Zineb Benfathallah Data Analyste
Pas encore d'évaluation
CV Zineb Benfathallah Data Analyste
1 page