0% ont trouvé ce document utile (0 vote)

66 vues10 pages

Cours Bishop

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

66 vues10 pages

Cours Bishop

Transféré par

nassim.bnckh

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Learning

C. Bishop

1 Définitions
1.1 Approche déterministe
Soient x les données d’entraînement, t les cibles (scalaire, vecteur, matrice)
— apprentissage supervisé (x, t),
— apprentissage non supervisé (x), la cible n’étant pas donnée, on va re-
chercher de l’information dans l’ensemble d’entraînement.
— On cherche à construire un modèle y(x), à partir d’un ensemble d’en-
traînement. L’ensemble de test est évidemment différent de l’ensemble
d’entraînement (sur-apprentissage, sous apprentissage)
— classification : la cible est un indice de classe (discret),
— régression : la cible est un nombre réel.
La nature de l’information que l’on cherche peut être de nature probabiliste.

1.2 Introduction du non linéaire ;

On a vu le cas de la régression linéaire, puis polynomiale
Tout en restant dans un cadre linéaire, on va introduire du non linéaire pour
avoir plus de potentiel.
M
X
y(x, w) = wj xj
j=0

Comment déterminer les coefficients w : critère (quadratique, linéaire, ...)

avec recherche des extremas (minima, maxima).

Capacité d’un modèle et hyper-paramètres

1
En fonction du critère, on va moduler la capacité du modèle (exemple de la
régularisation)
La sélection de modèle se fait en fonction des hyper-paramètres.

Malédiction de la dimensionnalité

Données qualitative et quantitative (formulation one-hot)

Prétraitement de des données avec normalisation (instabilités numériques)

Intervalle de confiance (nécessaire à toute mesure)

L’algèbre linéaire & propriétés

1.3 Approche probabiliste

On introduit la notion de variable aléatoire (la valeur d’une variable est
incertaine avant de l’observer), la loi de probabilité caractérise notre incertitude
par rapport à sa valeur.

3 probabilités à connaître + la règle de Bayes :

— probabilité jointe,
— probabilité marginale
— probabilité conditionnelle
— règle de Bayes

Cadre discret et continu

Fonction de densité & fonction de répartition

2
Le passage du cadre déterministe au cadre probabiliste se manifeste par le
fait que l’on passe d’une variable à 2 variables, à savoir l’espérance (moyenne)
et la covariance (variation entre les variables)
Cadre i.i.d : On considère souvent les variables indépendantes et identi-
quement distribuées, car cela simplifie beaucoup le cadre analytique (c’est une
hypothèse non forcément respectée).
Loi normale ou loi gaussienne : loi qui décrit bien la physique des phénomènes
(on peut aller plus loin, évidemment).

Dans le cadre de la régression polynomiale, on a remplacé le cadre détermi-

niste par le cadre probabiliste. Deux cas sont à considérer, à savoir :
— Si on s’intéresse à la cible t, cela revient à dire que les résultats (la cible)
sont entachés d’erreur que l’on contrôle par les paramètres (moyenne,
covariance). Par exemple, la cible t est générée selon une loi gaussienne
de moyenne y(x, w) et de variance σ 2 ou β −1 (précision)
M
X
y(x, w) = wj xj
j=0

p(t | x, w, β) = N t | y(x, w), β −1

On a une loi gaussienne conditionnelle.

L’hypothèse i.i.d permet d’introduire le produit (simplification pour le calcul
des probabilités) :
N
Y
N t | y(x, w), β −1

p(t | X, w, β) =
n=1

— Si on veut décrire les données x dans un cadre probabiliste, on parlera

de loi(s) a priori
On pense, par exemple, que les coefficients w sont proches de 0 :

p(w | α) = N w | 0, α−1 I

On déduit une loi a posteriori

p(w | X, t, α, β) ∝ p (t | X, w, β) p(w | α)

On retrouve la Fonction de perte, de coût, ... pour déterminer les coefficients :

3
N
1X 2
E(w) = {y(xn , w) − tn }
2 n=1

N
1X 2 λ
E(w) = {y(xn , w) − tn } + ∥ w ∥2
2 n=1 2

L’idée générale sera de trouver le bon espace de représentation, c’est à dire

trouver les fonctions de base qui permettront de projeter dans le bon espace et
ce, sous forme d’une somme de fonctions (Fourier, ...).

2 Régression linéaire
Généralisation de la régression linéaire
y(x, w) = w0 + w1 x1 + . . . + wD xD
biais & poids

M
X −1
y(x, w) = w0 + wj xj M = D + 1
j=1

M
X −1
y(x, w) = w0 + wj ϕj (x)
j=1

où
ϕj (x) sont des fonctions de base, ϕj (x) = xj

M
X −1
y(x, w) = w0 + wj ϕj (x) = wT ϕ(x)
j=0

fonctions de base polynomiales (1D)

ϕj (x) = xj

fonctions de vase gaussiennes

(x−µ )2
n o
ϕj (x) = exp − 2σ2j w_{0}

Cadre général
y(x, w) = WT ϕ(x)
W une matrice M x K

4
3 Classification linéaire
3.1 Fonction discriminante
On introduit la surface de décision. On reste dans le cadre de la classification
binaire et linéaire.
fonction discriminante : fonction qui prend x en entrée et donne sa classe Ck
en sortie (1, 0, -1).

y(x) = wT x + w0

3.2 Méthode des moindres carrés (régression)

y(x) = wT x + w0

On utilise les résultats décrits dans la section précédente.

Si plus de 2 classes, problème de régression à prédiction multiple (one-hot).

3.3 Analyse discriminante linéaire

y(x) = wT x

On cherche ici à bien séparer la projection des moyennes (inter-classes) et à

réduire les variances intra-classes.

3.4 Approches probabilistes générative & discriminante

— Le terme “génératif” implique que l’on va considérer une information a
priori sur les données x. On choisit donc un modèle pour p(x, t), la cible
t étant connue (classification)
— A contrario, l’approche discriminante supposera que l’on ne dispose pas
d’information a priori sur x et la cible t sera estimée à partir des données
x donc par une loi conditionnelle p(t | x).

3.4.1 Approche probabiliste générative

On suppose que les données ont été générées par une loi gaussienne, de
moyennes différentes (cas binaire) :

p(C1 ) = π pour tn = 1
p(C2 ) = 1 − π pour tn = 0

5
Si tn = 1, les entrées xn proviennent d’une loi gaussienne :

p(xn | C1 ) = N (xn | µ1 , Σ)

Si tn = 0, les entrées xn proviennent d’une loi gaussienne :

p(xn | C2 ) = N (xn | µ2 , Σ)

On calcule à la suite les différents paramètres par le maximum de vraisem-

blance (ou la log-vraisemblance), à savoir :π, µ1 , µ2 , Σ.
Enfin, on peut classifier en utilisant la règle de Bayes, stipulant la probabilité
a posteriori d’appartenance à une classe
p(C1 | x)

On reformule à la suite la solution pour se replacer dans un contexte linéaire

(classifieur linéaire) en introduisant la fonction sigmoïde.
1
σ(a) =
1 + exp(−a)

p(C1 | x) = σ wT x + w0

3.4.2 Approche probabiliste discriminante

L’approche discriminante suppose que l’on ne dispose pas d’information a
priori sur x et la cible t sera estimée à partir des données x donc par une loi
conditionnelle p(t | x).
On se sert du cadre génératif comme modèle de p(t | x), c’est à dire on utilise
la régression logistique.

p(C1 | x) = σ wT x + w0

Le calcul des coefficients (π, µ1 , µ2 , Σ) se fait de manière identique au cas de

la régression.
On déroule comme pour la régression, en introduisant les fonctions de base,
en particulier les fonctions de base gaussiennes (non linéaire) :

p(C1 | ϕ) = y(ϕ) = σ wT ϕ

3.5 Classification à multiples classes

— Approche one-versus-rest
— Approche one-versus-one

6
4 Méthodes à Noyau
On reste dans un cadre linéaire mais on utilise des fonctions de base non
linéaires. L’idée des noyaux est que l’on a pas besoin de définir les fonctions
explicitement (c’est à dire sous forme ϕ(x).
Une fonction k(x, x′ ) sera appelée noyau.

4.1 Représentation duale

Cadre identique au cas de la régression (version régularisée).
Pour le calcul des coefficients, on définit une somme pondérée dans une autre
base (base duale) :

PN
w = − λ1
T
n=1 w ϕ(xn ) − tn ϕ(xn )

PN
w= n=1 an ϕ(xn ) = ϕT a

On fait alors une prédiction par :

−1
y(x) = wT ϕ(x) = aT Φϕ(x) = k(x)T (K + λIN ) t

avec

T
k(x) = (k(x1 , x), . . . , k(xN , x)

Intérêt du noyau : haute dimensionnalité

4.2 Astuce du noyau

Tout l’information se trouve dans le domaine d’entraînement. Calcul beau-
coup plus rapide.

4.3 Construction de noyau

On construit des noyaux valises à partir de fonctionnelles de noyaux valides
(à savoir pouvant se décomposer sous forme de produits scalaires). Il existe des
règles de construction.
— noyau polynomial
M
k(x, x′ ) = xT x′ + c

— noyau gaussien (RBF)

−∥x−x′ ∥2

k(x, x′ ) = exp 2σ 2

7
5 Machines à vecteur de support
5.1 Marge
Classification binaire (1,-1)

5.2 Classifieur à marge maximale

— L’idée est de séparer en ayant la marge maximale, c’est à dire la plus
petite distance la plus éloignée de la surface de décision.
— Centrage de la marge par la normalisation à 1.
— Optimisation avec contraintes (traité par les multiplicateurs de Lagrange).

5.3 Représentation duale

L’utilisation des noyaux peut être intéressante (voir chapitre précédent).
Dans le cas des vecteurs de support, c’est évidemment très intéressant car on
ne fait les estimations (les produits scalaires) que sur les vecteurs appartenant
à la marge (les autres ont des coefficients nuls).

5.4 Chevauchement de classes

Le cas du chevauchement de classe est un exemple type de construction
d’algorithme :
— on relâche la contrainte,
— on crée une pénalité pour quantifier le relâchement de contraintes, cette
pénalité devient un hyper-paramètre.

5.5 lien avec la régression logistique

Encore une fois, on procède à la comparaison.

6 Mélange de gaussiennes (à compléter)

6.1 Modèle
On est dans le cadre de l’apprentissage non supervisé p(x), c’est à dire que
l’on va devoir travailler sur l’ensemble d’entraînement pour extraire de l’infor-
mation. Soit on cherche à estimer des fonctions de densité (aspect probabiliste
avec des lois sous-jacentes), soit on cherche à extraire des patterns, des features,
... pour faire du clustering.
En particulier, on va poser des hypothèses a priori, développer l’estimation
pour ensuite passer à la prédiction (qui sera a posteriori).
Les entrées sont des échantillons d’une de K différentes lois gaussiennes,
chacune ayant des moyennes et covariances différentes. On note z la variable
aléatoire correspondant à l’identité de la gaussienne qui a généré une entrée x.

8
6.2 Partitionnement de données
6.3 Maximum de vraisemblance
— Optimisation par Estimation et Maximisation
— cas particulier : Fenêtre de Parzen (on travaille sur les variances) et com-
paraison avec le Kmeans (on travaille sur les moyennes)

6.4 Dérivation générale de EM

Pour les fans de la théorie.

7 Cadre applicatif (exemples des TP)

Avant de plonger dans la recherche de l’algorithme idoine et de maîtriser ses
paramètres (c’est à dire ... 1 ligne de code), il faut identifier le problème.

7.1 Démarche générale

formulation des hypothèses
exemple du classifieur bayésien naïf : Que veut dire naïf ?
— loi conditionnelle multiple (multiple conditions)
— on suppose l’indépendance (i.i.d) mais hypothèse fausse (les phrases du
langage sont corrélées)

7.2 Variables et travail

— résidus,
— prédiction,
— ensemble d’entraînement, ensemble de test, validation croisée,
— données déséquilibrées,
— stratification, agrégation
— GridSearch

7.3 Probabilité
— Histogramme
— Q-Q plot

7.4 Indicateur de performances / Classification

— Précision, Rappel et F1-score
— Courbe ROC (Receiver Operating Characteristic), AUC (Area Under the
Curve)
— Matrice de confusion

9
7.5 Indicateur de performances / Régression
— R2 (Coefficient de Pearson)
— R2-score & MSE (Mean Squared Error)
— Erreur quadratique moyenne : RMSE
— MAE (Mean Absolute Error)
— MAPE (Mean Squared Percentage Error)
— MLSE (Mean Squared Logarithmic Error)
— Intervalle de confiance

7.6 Exemples de Travaux Pratiques

1. Classifieur Bayésien Naïf
2. Classifieur Régression logistique
3. Régression polynomiale
4. Méthode à noyaux
5. GMM

8 Formulation d’un problème

Comment, à partir de l’énoncé d’une problématique, définir la modélisation
ad hoc pour solutionner à partir des données disponibles et pouvoir faire de la
prédiction.

8.1 Exemple
Nous cherchons à estimer la température moyenne d’une salle de classe...

Références
[1] Bishop C.,
[2]

Vous aimerez peut-être aussi

1 Apprentissage Supervisé PB
Pas encore d'évaluation
1 Apprentissage Supervisé PB
4 pages
Introbf
Pas encore d'évaluation
Introbf
32 pages
04 Classification Lineaire 2pages
Pas encore d'évaluation
04 Classification Lineaire 2pages
65 pages
Corrigé D'un Examen de Machine Learning S4 Génie MIS
100% (1)
Corrigé D'un Examen de Machine Learning S4 Génie MIS
25 pages
Classifieurs Linéaires
Pas encore d'évaluation
Classifieurs Linéaires
42 pages
MLchap3 - Ver Pédagogique23 - 24
Pas encore d'évaluation
MLchap3 - Ver Pédagogique23 - 24
7 pages
Cours - Apprentissage Statistique
100% (1)
Cours - Apprentissage Statistique
24 pages
Cours Apprentissage
Pas encore d'évaluation
Cours Apprentissage
24 pages
Méthode des k plus proches voisins KNN
Pas encore d'évaluation
Méthode des k plus proches voisins KNN
8 pages
Regression Logistique
Pas encore d'évaluation
Regression Logistique
14 pages
DM2 - 14 10 2024
Pas encore d'évaluation
DM2 - 14 10 2024
110 pages
Bases de l'apprentissage statistique
Pas encore d'évaluation
Bases de l'apprentissage statistique
126 pages
DM2 - 22 10 2024
100% (1)
DM2 - 22 10 2024
117 pages
KNN Talk
Pas encore d'évaluation
KNN Talk
32 pages
Intelligence-Artificielle 25 Cours
Pas encore d'évaluation
Intelligence-Artificielle 25 Cours
19 pages
Chapitre 5 SVM
Pas encore d'évaluation
Chapitre 5 SVM
28 pages
Introduction aux Support Vector Machines
Pas encore d'évaluation
Introduction aux Support Vector Machines
22 pages
SVM : Théorie et Applications
Pas encore d'évaluation
SVM : Théorie et Applications
39 pages
AP Prentiss Age
Pas encore d'évaluation
AP Prentiss Age
90 pages
Introduction aux SVM et Classification Binaire
Pas encore d'évaluation
Introduction aux SVM et Classification Binaire
50 pages
AP Prentiss Age Supervise
Pas encore d'évaluation
AP Prentiss Age Supervise
114 pages
Chapitre 5 Régression Logistique
Pas encore d'évaluation
Chapitre 5 Régression Logistique
6 pages
Section 3.1 - Apprentissages
Pas encore d'évaluation
Section 3.1 - Apprentissages
25 pages
Proba
Pas encore d'évaluation
Proba
10 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
49 pages
SN 372
Pas encore d'évaluation
SN 372
2 pages
Cours Statistiques
Pas encore d'évaluation
Cours Statistiques
119 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
7 pages
Exercices en Apprentissage Supervis e Et Non Supervis e M2 SISE - Universit e Lyon 2 - 2018/2019
Pas encore d'évaluation
Exercices en Apprentissage Supervis e Et Non Supervis e M2 SISE - Universit e Lyon 2 - 2018/2019
6 pages
Introduction aux Machines à Vecteurs Supports
Pas encore d'évaluation
Introduction aux Machines à Vecteurs Supports
16 pages
Cours Apprentissage Stat
Pas encore d'évaluation
Cours Apprentissage Stat
22 pages
TP ML Supervise
Pas encore d'évaluation
TP ML Supervise
9 pages
Cour 2
Pas encore d'évaluation
Cour 2
3 pages
Classification et Algorithmes K-NN
Pas encore d'évaluation
Classification et Algorithmes K-NN
7 pages
Iid 2 Automne 2023-2024: Machine Learning Ensak
Pas encore d'évaluation
Iid 2 Automne 2023-2024: Machine Learning Ensak
3 pages
Fondements de l'apprentissage machine
Pas encore d'évaluation
Fondements de l'apprentissage machine
12 pages
Cours
Pas encore d'évaluation
Cours
164 pages
Machine - Learning - Classification
Pas encore d'évaluation
Machine - Learning - Classification
34 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
TD Et Indications - Éléments de Réponse
Pas encore d'évaluation
TD Et Indications - Éléments de Réponse
10 pages
Introduction au Data Mining et Classifieurs
100% (10)
Introduction au Data Mining et Classifieurs
14 pages
Chap02.concepts Apprentissage
Pas encore d'évaluation
Chap02.concepts Apprentissage
58 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
83 pages
0 Intro - New
Pas encore d'évaluation
0 Intro - New
16 pages
03 Classification
Pas encore d'évaluation
03 Classification
79 pages
Cours de Machine Learning: Théorie et Pratique
Pas encore d'évaluation
Cours de Machine Learning: Théorie et Pratique
84 pages
Chap02.Concepts Apprentissage
Pas encore d'évaluation
Chap02.Concepts Apprentissage
64 pages
GLM Poly Logistique Web PDF
Pas encore d'évaluation
GLM Poly Logistique Web PDF
140 pages
Régression Linéaire et Descente de Gradient
Pas encore d'évaluation
Régression Linéaire et Descente de Gradient
43 pages
Chap04.reg Logistique
Pas encore d'évaluation
Chap04.reg Logistique
27 pages
MID RDF 02
Pas encore d'évaluation
MID RDF 02
53 pages
Regression
Pas encore d'évaluation
Regression
20 pages
Poly Copie Partie 1
Pas encore d'évaluation
Poly Copie Partie 1
125 pages
ML If-Sitn
Pas encore d'évaluation
ML If-Sitn
122 pages
Résumé Du Cours de Machine Learning
Pas encore d'évaluation
Résumé Du Cours de Machine Learning
7 pages
Machine Learning Python Guide
100% (1)
Machine Learning Python Guide
6 pages
TP2 A Rendre
Pas encore d'évaluation
TP2 A Rendre
5 pages
La Régression Logistique
Pas encore d'évaluation
La Régression Logistique
43 pages
Statistique
Pas encore d'évaluation
Statistique
175 pages
1 Introduction
Pas encore d'évaluation
1 Introduction
5 pages
Comparaison des tris : insertion vs sélection
Pas encore d'évaluation
Comparaison des tris : insertion vs sélection
3 pages
Méthodes de tri en Python : Bulle, Sélection, Insertion
Pas encore d'évaluation
Méthodes de tri en Python : Bulle, Sélection, Insertion
2 pages
TP Python : Piles et OOP
Pas encore d'évaluation
TP Python : Piles et OOP
4 pages
Regression Lineaire Simple
100% (1)
Regression Lineaire Simple
43 pages
Valeurs propres des matrices de covariance
Pas encore d'évaluation
Valeurs propres des matrices de covariance
7 pages
Ensta Sta201 2024
Pas encore d'évaluation
Ensta Sta201 2024
109 pages
Statistique Inférentielle DataScience
Pas encore d'évaluation
Statistique Inférentielle DataScience
58 pages
Sujet 20152016
Pas encore d'évaluation
Sujet 20152016
4 pages
Toutes Les Maths en MP MPI Et Un Peu Plus en MP MPI 1st Edition Vincent Rohart Download
100% (10)
Toutes Les Maths en MP MPI Et Un Peu Plus en MP MPI 1st Edition Vincent Rohart Download
66 pages
Une Introduction A La Methodologie de Box Et Jenki
Pas encore d'évaluation
Une Introduction A La Methodologie de Box Et Jenki
24 pages
Chapt1 Analyse Graphique
Pas encore d'évaluation
Chapt1 Analyse Graphique
17 pages
TD 3 Theorie Des Probabilites 2024 2025
Pas encore d'évaluation
TD 3 Theorie Des Probabilites 2024 2025
2 pages
Stm2actuariat CHP2
Pas encore d'évaluation
Stm2actuariat CHP2
19 pages
TD 3 STAT3 Distribution Déchantillonnage CORRECTION
Pas encore d'évaluation
TD 3 STAT3 Distribution Déchantillonnage CORRECTION
13 pages
Série 3
Pas encore d'évaluation
Série 3
1 page
Graphiques Python pour Proba/Stats
Pas encore d'évaluation
Graphiques Python pour Proba/Stats
11 pages
Concevoir Un Modele de Choix Modal
Pas encore d'évaluation
Concevoir Un Modele de Choix Modal
108 pages
2018 SE 2C Maths Maths2
Pas encore d'évaluation
2018 SE 2C Maths Maths2
15 pages
Introduction aux Probabilités
Pas encore d'évaluation
Introduction aux Probabilités
14 pages
Test Métier Actuariat
100% (1)
Test Métier Actuariat
5 pages
Exercices de Probabilités Agrégation 2013-2014
Pas encore d'évaluation
Exercices de Probabilités Agrégation 2013-2014
5 pages
Estimparam 241119 072345
Pas encore d'évaluation
Estimparam 241119 072345
14 pages
Examen Janvier 2021
Pas encore d'évaluation
Examen Janvier 2021
2 pages
Chaînes de Markov et méthodes de rejet
Pas encore d'évaluation
Chaînes de Markov et méthodes de rejet
2 pages
Expose Pepd TCL
Pas encore d'évaluation
Expose Pepd TCL
35 pages
Karim Panel
Pas encore d'évaluation
Karim Panel
38 pages
Series Chronologique
50% (2)
Series Chronologique
53 pages
Introduction aux Processus de Poisson
Pas encore d'évaluation
Introduction aux Processus de Poisson
12 pages
Theoreme Central Limite Exercices Corrigés 02
Pas encore d'évaluation
Theoreme Central Limite Exercices Corrigés 02
4 pages
Series Temporelles - Doctorat Ptci - Abidjan Dakar
Pas encore d'évaluation
Series Temporelles - Doctorat Ptci - Abidjan Dakar
41 pages
Statistiques et Régression Avancée
Pas encore d'évaluation
Statistiques et Régression Avancée
4 pages
Cours Modèle Linéaire Et Violation D'hypothèses de Base Lesa3
100% (1)
Cours Modèle Linéaire Et Violation D'hypothèses de Base Lesa3
55 pages
Examen IF
Pas encore d'évaluation
Examen IF
2 pages