Big Data, Machine Learning :
qu’est-ce que la science des données ?
Journée de l’IREM, Bordeaux
Aurélien Garivier
18 janvier 2017
Institut de Mathématiques de Toulouse
LabeX CIMI
Université Paul Sabatier
Plan de la présentation
1. Un monde numérique
2. Qu’est-ce que le machine learning ?
3. Le phénomène Big Data
4. Quel Machine Learning pour les Big Data?
5. Les Big Data, le Machine learning et la loi
6. Enseignement des sciences des données
2
Un monde numérique
Un monde numérique
Nous vivons aujourd’hui dans une ”ère du numérique”:
• Les données sont partout : sondages, indices de popularité, scores
électoraux, statistiques économiques voire sportives...
• Nous produisons nous-mêmes des données de notre plein gré :
photos, interactions sur les réseaux sociaux, objets connectés...
• sans le vouloir vraiment : recherches sur Internet, traces laissées par
nos actions (achats, réseaux sociaux ...),
• ou en échange de services (pas si) gratuits.
4
Un monde numérique
Notre vie est de plus en plus dirigée par ce monde numérique :
• Société de consommation (prédiction des goûts et des achats)
• Notre relation avec les banques, assurances (scoring pour déterminer
crédit, avantages)
• Algorithmes pour la carte scolaire, pour l’orientation scolaire...
• Surveillance policière...
• Choix d’un conjoint par sites de rencontre...
• Voitures qui roulent seule et réagissent à leur environnement ...
Tout cela grâce avec des algorithmes...
5
Un monde numérique : le mythe du Big Data
Des chiffres tous les jours dans tous les media, chiffres sur lesquels
s’appuie la pensée :
Economie quantitative, psychologie quantitative mais aussi décisions
politiques.
6
Un monde numérique : points positifs
• Une donnée quantitative (un
nombre) ça ne se discute pas
• c’est sérieux
• c’est facile à interpréter
• c’est synthétique ..
7
Un monde numérique : points positifs
• Une donnée quantitative (un
nombre) ça ne se discute pas
• c’est sérieux
• c’est facile à interpréter
• c’est synthétique ..
Bref ... c’est efficace !
7
Points négatifs
Peut-on faire mentir les nombres ?
• Disraeli : Il y a les mensonges, les gros mensonges, et les statistiques.
Par manque de temps , de connaissances, on s’expose à des erreurs
d’interprétation.
Nécessité de comprendre l’usage de la statistique et leur signification : la
vérité mathématique est-elle vérité au sens usuel ?
• HG. Wells : Le jugement statistique sera un jour aussi nécessaire à
l’exercice de base des fonctions du citoyen que la capacité de lire et
d’écrire.
8
La science historique des données : la statistique
• La statistique est l’étude de la collecte de données, leur analyse, leur
traitement, l’interprétation des résultats et leur présentation afin de
rendre les données compréhensibles par tous. C’est à la fois une
science, une méthode et un ensemble de techniques.
Source : Wikipedia
• La statistique est utilisée dans presque tous les domaines de
l’activité humaine : sciences sociales, économie, médecine, biologie,
industrie ...
• Mais aujourd’hui, Open Data, Big Data, Big Science... changent les
règles du jeu.
9
Qu’est-ce que le machine learn-
ing ?
Plan de la présentation
1. Un monde numérique
2. Qu’est-ce que le machine learning ?
Intelligence artificielle
Machine Learning
3. Le phénomène Big Data
4. Quel Machine Learning pour les Big Data?
5. Les Big Data, le Machine learning et la loi
6. Enseignement des sciences des données
11
Intelligence Artificielle (IA) : définition
Intelligence des machines
• simuler les capacités cognitives des humains
(big data: les humains apprennent en utilisant des sources de
données très abondantes et diverses).
• une machine mime les fonctions cognitives que les humains associent
à l’esprit humain, tels que apprendre ou résoudre un problème.
Machine intelligente idéale =
agent rationnel flexible qui perçoit son environnement et qui prend des
décisions qui maximisent ses chances de succès pour un but donné.
Fondé sur le postulat que l’intelligence humaine
peut être décrite si précisément qu’on peut construire une machine la
simulant.
12
Intelligence Artificielle: Tension
Buts opérationnels
• Robots autonomes pour réaliser des tâches pas trop spécialisées
• En particulier, vision + compréhension et production de langage
(naturel)
Tension entre les objectifs opérationnels et les buts philosophiques
• Au fur et à mesure que les machines accomplissent de plus en plus
de tâches, des compétences qu’on pensait relever de l’intelligence
sont progressivement retirées de la liste. Par exemple, la
reconnaissance de caractères n’est plus considérée comme relevant
de l’IA, mais comme une technologie de routine.
• Parmi les compétences encore classées en IA, il y a le jeu de go ou
les voitures autonomes...
13
AI: principaux thèmes
Principaux objectifs de l’IA: S’appuie sur:
• raisonnement • informatique
• connaissance • mathématiques
• planification • linguistique
• apprentissage • philosophie
• traitement des langues naturelles • neurosciences
• perception • psychologie
• intelligence ”générale” (artificielle)
Approches centrales de l’IA: Outils:
• approche symbolique • optimisation
traditionnelle (cf. logique) mathématique
• méthodes d’inspiration • logique
statistique • algorithmes
• soft computing d’inspiration
14
probabiliste
Plan de la présentation
1. Un monde numérique
2. Qu’est-ce que le machine learning ?
Intelligence artificielle
Machine Learning
3. Le phénomène Big Data
4. Quel Machine Learning pour les Big Data?
5. Les Big Data, le Machine learning et la loi
6. Enseignement des sciences des données
15
Machine Learning (ML): Définition
Arthur Samuel (1959)
Champ d’étude qui donne aux ordinateurs la capacité d’apprendre sans
avoir été programmés explicitement
Tom M. Mitchell (1997)
On dit qu’un programme apprend d’une expérience E par rapport à une
classe de tâches T et à une mesure de performance P si sa performance
sur T, mesurée par P, augmente avec l’expérience E.
16
ML: Apprendre des données et faire des prédictions
• Les algorithmes construisent un modèle à partir d’exemples donnés
en entrée, dans but de faire des prédictions ou de prendre des
décisions...
• ...plutôt que de suivre strictement une suite statique d’instructions :
c’est utile quand il serait impossible ou inefficace de concevoir et de
programmer de tels algorithmes.
Analyse de données (Data Analytics)
• Le Machine Learning est utilisé pour concevoir des modèles
complexes et des algorithmes qui conduisent eux-même à des
prédictions - le mot commercial est souvent predictive analytics.
• [Link]: ”Produce reliable, repeatable decisions and results”
and uncover ”hidden insights” through learning from historical
relationships and trends in the data.
• évolution à partir de la reconnaissance de motifs (pattern
recognition) de la computational learning theory en IA.
17
Machine Learning: problèmes-types
• filtrage de spams, classification de textes
• reconnaissance de caractères (OCR)
• moteurs de recherche
• plateformes de recommandation
• outils de reconnaissance de la parole
• vision par ordinateur
• bio-informatique, analyse du génome, médecine (prédictive)
Pour chacune de ces tâches, il est possible mais inefficace d’écrire des
programmes explicitement destinés à résoudre les buts recherchés.
Il apparaı̂t beaucoup plus fécond d’apprendre à des machines à inférer
elles-même les bonnes règles de décision.
18
Disciplines connexes
• Statistique computationnelle: centré sur la prédiction obtenue par
l’usage de modèles statistiques nécessitant des calculs numériques
intensifs (ex: méthodes bayésiennes)
• Apprentissage statistique: ML basé sur des méthodes statistiques,
avec un point de vue statistique (garanties probabilistes:
consistence, inégalités oracles, minimax...)
→ plus axés sur la corrélation, et moins sur la causalité
• Data Mining (apprentissage non supervisé) centré plutôt sur
l’analyse exploratoire des données et la découverte de propriétés
inconnues des données.
• Importance des méthodes basées sur les probabilités et les
statistiques → Data Science (Michael Jordan)
• Liens très forts avec l’optimisation mathématique, qui fournit des
méthodes, des concepts et des applications au ML.
19
Classification supervisée : cadre statistique
Définition (terme anglais) ex: reconnaissance de chiffres
Input space X 64 × 64 images
Output space Y {0, 1, . . . , 9}
Joint distribution P(x, y ) ?
Prediction function h ∈ H
Risk R(h) = P(h(X ) 6= Y )
Sample {(xi , yi )}ni=1 MNIST dataset
Empirical risk
Pn
R̂n (h) = n1 i=1 1{h(xi ) 6= yi }
Learning algorithm
φn : (X × Y)n → H NN,boosting...
Expected risk Rn (φ) = En [R(φn )]
Empirical risk minimizer
ĥn = arg minh∈H R̂n (h)
Regularized empirical risk minimizer
ĥn = arg minh∈H R̂n (h) + λC (h)
20
Minimisation du risque empirique
Inégalité de Hoeffding: avec probabilité au moins 1 − η,
s
R(h) − R̂n (h) ≤ 1 2
log .
2n η
Problème: vrai pour chaque h fixé mais pas pour ĥn !
Ex: Prédiction of 10 lancers de Pile ou Face
Ex: régression polynomiale → sur-apprentissage
Fléau de la dimension
21
Minimisation structurelle du risque
→ loi des grands nombres uniforme — inégalité de Vapnik-Chervonenkis :
si H a une dimension de VC dH , alors
s !
1 2 d H n
sup R(h) − R̂n (h) ≤ O log + log .
h∈H 2n η n d H
Structure: [
H= Hm
m
Ex: polynômes/splines de degré m, arbres de décision de profondeur m,...
Décompotion du risque en biais–variance
Minimisation structurelle du risque :
ĥn = arg min R̂n (h) + λK (h)
h∈H
ou
ĥn = arg min R̂n (h)
K (h)≤C
22
Structural Risk Minimization Tradeoff
Source: Bottou et al. tutorial on optimization
23
Machine Learning et Statistique
• L’analyse de données (inférence, description) est le but des
statistiques depuis longtemps.
• Le Machine Learning a des buts plus opérationels (ex: la
consistence est importante en statistique mais moins en ML).
Les modèles (quand il y en a) sont instrumentaux.
Ex: modèle linéaires (jolie théorie mathématique) vs Random Forests
(utilisation massive de modèles pauvres et sans signification propre).
• Machine Learning pour les big data: plus de séparation entre
modélisation stochastique et optimisation (contrairement aux
statistiques classiques).
• En ML, les données sont souvent là a priori (malheureusement).
• Pas de frontière infranchissable (la statistique aussi évolue).
24
Le phénomène Big Data
[Src: Bouzeghoub, Mastodons: Une approche interdisciplinaire des Big Data]
Sur
le
site
du
CNRS
Big Data, la déferlante des octets | CNRS le journal 04/03/14 12:30
Rechercher Partager l'article
Donner du sens à la science
Suivre
Rechercher Se connecter / S'inscrire
VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE
Types
MES THÈMES
[Link] Page 1 sur 10
25
[Src: Bouzeghoub, Mastodons: Une approche interdisciplinaire des Big Data]
Et
ailleurs
41
25
[Src: Bouzeghoub, L’exploitation scientifique des données]
P. 33
NEEDS
Intervenant l mentions légales.
l CNRS - MI
25
Plan de la présentation
1. Un monde numérique
2. Qu’est-ce que le machine learning ?
3. Le phénomène Big Data
Les Big Data dans la presse
Qu’est-ce que les Big Data ?
Éviter les fausses découvertes
4. Quel Machine Learning pour les Big Data?
5. Les Big Data, le Machine learning et la loi
6. Enseignement des sciences des données
26
[Src: Bouzeghoub, Mastodons: Une approche interdisciplinaire des Big Data]
Aucun
domaine
n’échappe
à
l’avalanche
des
données
¤ Commerce et les affaires
¡ SI d’entreprise, Banques, transactions commerciales,
systèmes de réservation, …
¤ Gouvernements et organisations
¡ Lois, réglementations, standards, infrastructures, ….
¤ Loisirs
¡ Musique, vidéo, jeux, réseaux sociaux…
¤ Sciences fondamentales
¡ Astronomie, physique et énergie, génome, …
¤ Santé
¡ Dossier médical, sécurité sociale,…
¤ Environnement
¡ Climat, dév durable, pollution, alimentation,…
¤ Humanités et Sciences Sociales
¡ Numérisation du savoir (littérature, histoire,art, srchitectures),
données archéologiques…
26
[Src: Bouzeghoub, Mastodons: Une approche interdisciplinaire des Big Data]
Qu’est-‐ce
qu’une
(très
grande)
masse
de
données
?
Big Data
VLDB ta
B ig Da
B Very
XLD
Data Deluge
Mas
sive
Data
Grandes Conf du domaine: VLDB, XLDB, ICDE, EDBT, …
26
[Src: Bouzeghoub, Mastodons: Une approche interdisciplinaire des Big Data]
Complexité
mulEdimensionnele
des
Big
Data
•
Nouvelles
archi.
de
•
Défi
pour
les
réseaux
•
Ne[oyage
et
Nouveaux
modèles
de
stockage
de
communicaEon
transformaEon
qualité
(données
&
processus
de
•
Nouvelles
archi.
•
Nouveaux
modèles
•
Fusion
de
données
traitement)
d’interopérabilité
de
calcul
sur
des
flux
h6p://[Link]/profiles/blogs/data-‐veracity
7
26
Plan de la présentation
1. Un monde numérique
2. Qu’est-ce que le machine learning ?
3. Le phénomène Big Data
Les Big Data dans la presse
Qu’est-ce que les Big Data ?
Éviter les fausses découvertes
4. Quel Machine Learning pour les Big Data?
5. Les Big Data, le Machine learning et la loi
6. Enseignement des sciences des données
27
Corrélations en statistique
De nombreux journaux parlent d’études scientifiques s’appuyant sur des
études et des sondages
28
Corrélations en statistique
De nombreux journaux parlent d’études scientifiques s’appuyant sur des
études et des sondages
28
Si les mathématiques l’affirment ...
29
Incompréhension autour de la notion de corrélation
• En grandes dimensions tout est corrélé.
• Corrélation n’est pas causalité :
A nombre de prix Nobel et B consommation de chocolat
A 7→ B ou B 7→ A
• Variables non observées : variables confondantes
30
[Src: Loubes, Petit guide de self-défense contre la statistique et ceux qui la manipulent]
31
[Src: Loubes, Petit guide de self-défense contre la statistique et ceux qui la manipulent]
32
Quel Machine Learning pour les
Big Data?
Réseaux de neurones
Source: [Link] cranium/
34
Réseau mono-couche
Source: [Tufféry, Data Mining et Informatique Décisionnelle]
35
Réseau avec couche intermédiaire
Source: [Tufféry, Data Mining et Informatique Décisionnelle]
36
Réseau à une couche cachée
Src: [Link]
37
Des réseaux de neurones au deep learning (apprentissage
profond)
Deep learning = réseaux de neurones + 3 améliorations:
• extensions (nouvelles fonction d’activation, convolution, récursivité)
• régularisation (dropout, pooling)
• calcul (GPU, jeux de donnés massifs)
Src:[Link] 38
Plan de la présentation
1. Un monde numérique
2. Qu’est-ce que le machine learning ?
3. Le phénomène Big Data
4. Quel Machine Learning pour les Big Data?
Deep Learning
Optimisation
5. Les Big Data, le Machine learning et la loi
6. Enseignement des sciences des données
39
Optimisation: Gradient Stochastique
• Les méthodes du second ordre sont trop coûteuses (même une seule
itération)
• Même les méthodes classiques du premier ordre sont trop coûteuses
avec des données vraiment massives
• Le gradient stochastique (et ses variantes) utilisent plus efficacement
l’information que les algorithmes batch.
40
[Src: Bottou,Curtis,Nocedal,Stochastic Gradient Methods for Large-Scale Machine Learning]
Practical Experience
Rn
0.6
0.5 Fast initial progress
of SG followed by
Empirical Risk
0.4
LBFGS
drastic slowdown
0.3
0.2
Can we explain this?
0.1 SGD
0
0 0.5 1 1.5 2 2.5 3 3.5 4
Accessed Data Points 5
x 10
10 epochs
40
[Src: Bottou,Curtis,Nocedal,Stochastic Gradient Methods for Large-Scale Machine Learning]
1 n
Example by Bertsekas Rn (w) = ∑ fi (w)
n i=1
w1 − 1 w1,* 1
Region of confusion
Note that this is a geographical argument
Analysis: given wk what is the expected decrease in the
objective function Rn as we choose one of the quadratics
randomly?
40
Les Big Data, le Machine learning
et la loi
Deux principes et une contrainte
Principes :
• principe de minimisation
enlever les données qui ne sont pas utiles (contre logique big-data)
• principe de finalité
pas le droit de croiser des données de différents services
Contrainte :
• contrainte de compatibilité
ne pas empêcher les progrès en France !
42
(au moins) 5 challenges
• explicabilité des décisions
ex: pour les systèmes de référencement, la loi République numérique
adoptée en oct 2016 oblige à préciser les modalités de référencement
Quel contrôle ?
• anonymisation des données
garantir la non-identifiabilité (contre-exemples célèbres)
• non-discrimination des sous-populations
création d’une plateforme de dénonciation des mauvaises expériences
avec les algorithmes
• distorsion de concurrence
barrière à l’entrée du fait d’avoir les données
• ouverture/transparence versus protection du secret d’affaire
43
[Src: Besse, Grosses Data - Imbrications Technologiques, Juridiques, Ethiques]
L’Apprentissage Machine comdamné
43
Enseignement des sciences des
données
Enseignement des sciences des donnés
Dosage informatique (bases de données) / mathématique (statistiques)
Bordeaux: Master Mathématiques appliquées et statistique (MAS):
parcours
• Modélisation Mathématique pour le Signal et l’Image
• Modélisation statistique et stochastique
• Image Processing and Computer Vision
• Cursus Master Ingénierie Statistique et Informatique
Toulouse:
• UPS CMI MAPI3
• UPS CMI SID-bigdata
• INSA parcours GMM
• ISAE
• TSE Master StatEco
45
Challenges
Intérêts:
• motivation
• autonomie
• travail en équipe
• débrouillardise
• initiation recherche
Challenge 2016-2017 :
voir [Link]
[Link]/
46