Machine Learning
C. Bishop
1 Définitions
1.1 Approche déterministe
Soient x les données d’entraînement, t les cibles (scalaire, vecteur, matrice)
— apprentissage supervisé (x, t),
— apprentissage non supervisé (x), la cible n’étant pas donnée, on va re-
chercher de l’information dans l’ensemble d’entraînement.
— On cherche à construire un modèle y(x), à partir d’un ensemble d’en-
traînement. L’ensemble de test est évidemment différent de l’ensemble
d’entraînement (sur-apprentissage, sous apprentissage)
— classification : la cible est un indice de classe (discret),
— régression : la cible est un nombre réel.
La nature de l’information que l’on cherche peut être de nature probabiliste.
1.2 Introduction du non linéaire ;
On a vu le cas de la régression linéaire, puis polynomiale
Tout en restant dans un cadre linéaire, on va introduire du non linéaire pour
avoir plus de potentiel.
M
X
y(x, w) = wj xj
j=0
Comment déterminer les coefficients w : critère (quadratique, linéaire, ...)
avec recherche des extremas (minima, maxima).
Capacité d’un modèle et hyper-paramètres
1
En fonction du critère, on va moduler la capacité du modèle (exemple de la
régularisation)
La sélection de modèle se fait en fonction des hyper-paramètres.
Malédiction de la dimensionnalité
Données qualitative et quantitative (formulation one-hot)
Prétraitement de des données avec normalisation (instabilités numériques)
Intervalle de confiance (nécessaire à toute mesure)
L’algèbre linéaire & propriétés
1.3 Approche probabiliste
On introduit la notion de variable aléatoire (la valeur d’une variable est
incertaine avant de l’observer), la loi de probabilité caractérise notre incertitude
par rapport à sa valeur.
3 probabilités à connaître + la règle de Bayes :
— probabilité jointe,
— probabilité marginale
— probabilité conditionnelle
— règle de Bayes
Cadre discret et continu
Fonction de densité & fonction de répartition
2
Le passage du cadre déterministe au cadre probabiliste se manifeste par le
fait que l’on passe d’une variable à 2 variables, à savoir l’espérance (moyenne)
et la covariance (variation entre les variables)
Cadre i.i.d : On considère souvent les variables indépendantes et identi-
quement distribuées, car cela simplifie beaucoup le cadre analytique (c’est une
hypothèse non forcément respectée).
Loi normale ou loi gaussienne : loi qui décrit bien la physique des phénomènes
(on peut aller plus loin, évidemment).
Dans le cadre de la régression polynomiale, on a remplacé le cadre détermi-
niste par le cadre probabiliste. Deux cas sont à considérer, à savoir :
— Si on s’intéresse à la cible t, cela revient à dire que les résultats (la cible)
sont entachés d’erreur que l’on contrôle par les paramètres (moyenne,
covariance). Par exemple, la cible t est générée selon une loi gaussienne
de moyenne y(x, w) et de variance σ 2 ou β −1 (précision)
M
X
y(x, w) = wj xj
j=0
p(t | x, w, β) = N t | y(x, w), β −1
On a une loi gaussienne conditionnelle.
L’hypothèse i.i.d permet d’introduire le produit (simplification pour le calcul
des probabilités) :
N
Y
N t | y(x, w), β −1
p(t | X, w, β) =
n=1
— Si on veut décrire les données x dans un cadre probabiliste, on parlera
de loi(s) a priori
On pense, par exemple, que les coefficients w sont proches de 0 :
p(w | α) = N w | 0, α−1 I
On déduit une loi a posteriori
p(w | X, t, α, β) ∝ p (t | X, w, β) p(w | α)
On retrouve la Fonction de perte, de coût, ... pour déterminer les coefficients :
3
N
1X 2
E(w) = {y(xn , w) − tn }
2 n=1
N
1X 2 λ
E(w) = {y(xn , w) − tn } + ∥ w ∥2
2 n=1 2
L’idée générale sera de trouver le bon espace de représentation, c’est à dire
trouver les fonctions de base qui permettront de projeter dans le bon espace et
ce, sous forme d’une somme de fonctions (Fourier, ...).
2 Régression linéaire
Généralisation de la régression linéaire
y(x, w) = w0 + w1 x1 + . . . + wD xD
biais & poids
M
X −1
y(x, w) = w0 + wj xj M = D + 1
j=1
M
X −1
y(x, w) = w0 + wj ϕj (x)
j=1
où
ϕj (x) sont des fonctions de base, ϕj (x) = xj
M
X −1
y(x, w) = w0 + wj ϕj (x) = wT ϕ(x)
j=0
fonctions de base polynomiales (1D)
ϕj (x) = xj
fonctions de vase gaussiennes
(x−µ )2
n o
ϕj (x) = exp − 2σ2j w_{0}
Cadre général
y(x, w) = WT ϕ(x)
W une matrice M x K
4
3 Classification linéaire
3.1 Fonction discriminante
On introduit la surface de décision. On reste dans le cadre de la classification
binaire et linéaire.
fonction discriminante : fonction qui prend x en entrée et donne sa classe Ck
en sortie (1, 0, -1).
y(x) = wT x + w0
3.2 Méthode des moindres carrés (régression)
y(x) = wT x + w0
On utilise les résultats décrits dans la section précédente.
Si plus de 2 classes, problème de régression à prédiction multiple (one-hot).
3.3 Analyse discriminante linéaire
y(x) = wT x
On cherche ici à bien séparer la projection des moyennes (inter-classes) et à
réduire les variances intra-classes.
3.4 Approches probabilistes générative & discriminante
— Le terme “génératif” implique que l’on va considérer une information a
priori sur les données x. On choisit donc un modèle pour p(x, t), la cible
t étant connue (classification)
— A contrario, l’approche discriminante supposera que l’on ne dispose pas
d’information a priori sur x et la cible t sera estimée à partir des données
x donc par une loi conditionnelle p(t | x).
3.4.1 Approche probabiliste générative
On suppose que les données ont été générées par une loi gaussienne, de
moyennes différentes (cas binaire) :
p(C1 ) = π pour tn = 1
p(C2 ) = 1 − π pour tn = 0
5
Si tn = 1, les entrées xn proviennent d’une loi gaussienne :
p(xn | C1 ) = N (xn | µ1 , Σ)
Si tn = 0, les entrées xn proviennent d’une loi gaussienne :
p(xn | C2 ) = N (xn | µ2 , Σ)
On calcule à la suite les différents paramètres par le maximum de vraisem-
blance (ou la log-vraisemblance), à savoir :π, µ1 , µ2 , Σ.
Enfin, on peut classifier en utilisant la règle de Bayes, stipulant la probabilité
a posteriori d’appartenance à une classe
p(C1 | x)
On reformule à la suite la solution pour se replacer dans un contexte linéaire
(classifieur linéaire) en introduisant la fonction sigmoïde.
1
σ(a) =
1 + exp(−a)
p(C1 | x) = σ wT x + w0
3.4.2 Approche probabiliste discriminante
L’approche discriminante suppose que l’on ne dispose pas d’information a
priori sur x et la cible t sera estimée à partir des données x donc par une loi
conditionnelle p(t | x).
On se sert du cadre génératif comme modèle de p(t | x), c’est à dire on utilise
la régression logistique.
p(C1 | x) = σ wT x + w0
Le calcul des coefficients (π, µ1 , µ2 , Σ) se fait de manière identique au cas de
la régression.
On déroule comme pour la régression, en introduisant les fonctions de base,
en particulier les fonctions de base gaussiennes (non linéaire) :
p(C1 | ϕ) = y(ϕ) = σ wT ϕ
3.5 Classification à multiples classes
— Approche one-versus-rest
— Approche one-versus-one
6
4 Méthodes à Noyau
On reste dans un cadre linéaire mais on utilise des fonctions de base non
linéaires. L’idée des noyaux est que l’on a pas besoin de définir les fonctions
explicitement (c’est à dire sous forme ϕ(x).
Une fonction k(x, x′ ) sera appelée noyau.
4.1 Représentation duale
Cadre identique au cas de la régression (version régularisée).
Pour le calcul des coefficients, on définit une somme pondérée dans une autre
base (base duale) :
PN
w = − λ1
T
n=1 w ϕ(xn ) − tn ϕ(xn )
PN
w= n=1 an ϕ(xn ) = ϕT a
On fait alors une prédiction par :
−1
y(x) = wT ϕ(x) = aT Φϕ(x) = k(x)T (K + λIN ) t
avec
T
k(x) = (k(x1 , x), . . . , k(xN , x)
Intérêt du noyau : haute dimensionnalité
4.2 Astuce du noyau
Tout l’information se trouve dans le domaine d’entraînement. Calcul beau-
coup plus rapide.
4.3 Construction de noyau
On construit des noyaux valises à partir de fonctionnelles de noyaux valides
(à savoir pouvant se décomposer sous forme de produits scalaires). Il existe des
règles de construction.
— noyau polynomial
M
k(x, x′ ) = xT x′ + c
— noyau gaussien (RBF)
−∥x−x′ ∥2
k(x, x′ ) = exp 2σ 2
7
5 Machines à vecteur de support
5.1 Marge
Classification binaire (1,-1)
5.2 Classifieur à marge maximale
— L’idée est de séparer en ayant la marge maximale, c’est à dire la plus
petite distance la plus éloignée de la surface de décision.
— Centrage de la marge par la normalisation à 1.
— Optimisation avec contraintes (traité par les multiplicateurs de Lagrange).
5.3 Représentation duale
L’utilisation des noyaux peut être intéressante (voir chapitre précédent).
Dans le cas des vecteurs de support, c’est évidemment très intéressant car on
ne fait les estimations (les produits scalaires) que sur les vecteurs appartenant
à la marge (les autres ont des coefficients nuls).
5.4 Chevauchement de classes
Le cas du chevauchement de classe est un exemple type de construction
d’algorithme :
— on relâche la contrainte,
— on crée une pénalité pour quantifier le relâchement de contraintes, cette
pénalité devient un hyper-paramètre.
5.5 lien avec la régression logistique
Encore une fois, on procède à la comparaison.
6 Mélange de gaussiennes (à compléter)
6.1 Modèle
On est dans le cadre de l’apprentissage non supervisé p(x), c’est à dire que
l’on va devoir travailler sur l’ensemble d’entraînement pour extraire de l’infor-
mation. Soit on cherche à estimer des fonctions de densité (aspect probabiliste
avec des lois sous-jacentes), soit on cherche à extraire des patterns, des features,
... pour faire du clustering.
En particulier, on va poser des hypothèses a priori, développer l’estimation
pour ensuite passer à la prédiction (qui sera a posteriori).
Les entrées sont des échantillons d’une de K différentes lois gaussiennes,
chacune ayant des moyennes et covariances différentes. On note z la variable
aléatoire correspondant à l’identité de la gaussienne qui a généré une entrée x.
8
6.2 Partitionnement de données
6.3 Maximum de vraisemblance
— Optimisation par Estimation et Maximisation
— cas particulier : Fenêtre de Parzen (on travaille sur les variances) et com-
paraison avec le Kmeans (on travaille sur les moyennes)
6.4 Dérivation générale de EM
Pour les fans de la théorie.
7 Cadre applicatif (exemples des TP)
Avant de plonger dans la recherche de l’algorithme idoine et de maîtriser ses
paramètres (c’est à dire ... 1 ligne de code), il faut identifier le problème.
7.1 Démarche générale
formulation des hypothèses
exemple du classifieur bayésien naïf : Que veut dire naïf ?
— loi conditionnelle multiple (multiple conditions)
— on suppose l’indépendance (i.i.d) mais hypothèse fausse (les phrases du
langage sont corrélées)
7.2 Variables et travail
— résidus,
— prédiction,
— ensemble d’entraînement, ensemble de test, validation croisée,
— données déséquilibrées,
— stratification, agrégation
— GridSearch
7.3 Probabilité
— Histogramme
— Q-Q plot
7.4 Indicateur de performances / Classification
— Précision, Rappel et F1-score
— Courbe ROC (Receiver Operating Characteristic), AUC (Area Under the
Curve)
— Matrice de confusion
9
7.5 Indicateur de performances / Régression
— R2 (Coefficient de Pearson)
— R2-score & MSE (Mean Squared Error)
— Erreur quadratique moyenne : RMSE
— MAE (Mean Absolute Error)
— MAPE (Mean Squared Percentage Error)
— MLSE (Mean Squared Logarithmic Error)
— Intervalle de confiance
7.6 Exemples de Travaux Pratiques
1. Classifieur Bayésien Naïf
2. Classifieur Régression logistique
3. Régression polynomiale
4. Méthode à noyaux
5. GMM
8 Formulation d’un problème
Comment, à partir de l’énoncé d’une problématique, définir la modélisation
ad hoc pour solutionner à partir des données disponibles et pouvoir faire de la
prédiction.
8.1 Exemple
Nous cherchons à estimer la température moyenne d’une salle de classe...
Références
[1] Bishop C.,
[2]
10