0% ont trouvé ce document utile (0 vote)
13 vues3 pages

Exam 2008

Ce document est un examen de Data-Mining pour la 4ème année, comprenant des questions sur l'algorithme K-means, les SVM avec pénalisations, et l'analyse linéaire discriminante (LDA). Les étudiants doivent résoudre des problèmes théoriques et pratiques, incluant des formulations mathématiques et des justifications graphiques. L'examen dure 3 heures et nécessite l'utilisation de cours et d'une calculatrice.

Transféré par

soltani
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
13 vues3 pages

Exam 2008

Ce document est un examen de Data-Mining pour la 4ème année, comprenant des questions sur l'algorithme K-means, les SVM avec pénalisations, et l'analyse linéaire discriminante (LDA). Les étudiants doivent résoudre des problèmes théoriques et pratiques, incluant des formulations mathématiques et des justifications graphiques. L'examen dure 3 heures et nécessite l'utilisation de cours et d'une calculatrice.

Transféré par

soltani
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data-Mining

Examen 2007/2008 4ème année


G. Gasso

– Durée : 3h
– Documents autorisés : cours et calculatrice
– La copie du voisin n’est pas un document autorisé
– L’annexe 1 est à rendre avec la copie finale

1 Ka-mines (4 points)

1. On veut regrouper les points (les ronds) des figures en annexe 1 en deux clusters. On utilise
l’algorithme de K-means avec K = 2. L’initialisation des centres µ1 et µ2 est marquée sur
la figure en haut à gauche.

Détailler sur les figures en annexe chaque itération (affectation des points et calcul des nou-
veaux centres) de l’algorithme jusqu’à convergence.

Aucun calcul numérique n’est demandé. Justifier graphiquement les résultats de chaque
itération.

2 SVM à pénalisations différentes en fonction des points (7 points)


Soit un ensemble de données étiquettées {(xi , yi ) ∈ X × Y}i=1,...,n avec Y = {−1, +1}.
On cherche à résoudre un problème SVM où on utilise un terme de régularisation Ci spécifique
pour chaque point xi . Le problème d’apprentissage est alors

1 2
Pn
minw,b,ξi 2 kwk + i=1 Ci ξi

s.c. yi (hw, xi i + b) ≥ 1 − ξi ∀ i = 1, . . . , n
ξi ≥ 0 ∀ i = 1, · · · , n
Dans cette formulation du problème, les ξi représentent les variables d’écart, les paramètres
Ci représentent les termes de régularisation fixés par l’utilisateur.
1. Exprimer le lagrangien L correspondant à ce problème.
2. Exprimer les conditions d’optimalité du lagrangien par rapport aux variables primales w, b, ξi .

3. Donner la formulation du problème dual. Quelle méthode connaissez-vous pour résoudre ce


problème dual ?
4. Proposer une façon de calculer le paramètre b.
5. On note respectivement D + = {(xi , yi ), yi = 1} et D − = {(xi , yi ), yi = −1)} les en-
sembles de points des classes "positive" et "négative". On considère Ci = C+ , ∀i ∈ D + et
Ci = C− , ∀i ∈ D − .
En s’inspirant de la question 1, donner la nouvelle formulation du problème SVM. Que
devient le problème dual ?

p.1/3
ASI4 Examen DM 2007/2008

3 Bayes et moindres carrés (9 points)

Soit un problème de classification à deux classes C1 et C2 avec des données {(xi , yi ) ∈


IRp ×Y}i=1,...,n où Y = {C1 , C2 }. On veut construire un classifieur en utilisant l’analyse linéaire
discriminante (LDA).
1. Montrer qu’un point quelconque x est affecté à la classe C2 si
1 ⊤ −1
w⊤ x > µ Σ µ2 − µ⊤ −1
1 Σ µ1 + log(Pr(C1 )) − log(Pr(C2 ))
2 2
avec w = Σ−1 (µ2 − µ1 ), Pr(C1 ) et Pr(C2 ) les probabilités a priori des classes C1 et C2 .

2. On veut estimer les moyennes µ1 , µ2 et la matrice de covariance Σ à partir des données


{(xi , yi )}i=1,...,n . On notera n1 le nombre de points de la classe C1 et n2 le nombre de
points de la classe C2 (n1 + n2 = n).
Donner l’expression des estimations µ̂1 , µ̂2 et Σ̂.
3. Plutôt que de faire la LDA, on veut estimer directement une fonction de décision f (x) =
x⊤ β + β0 avec β ∈ IRp et β0 ∈ IR en utilisant la méthode des moindres carrés. Pour cela,
on fait l’encodage suivant :

Classe C1 : yi = −n/n1 Classe C2 : yi = −n/n2

et on minimise le critère
n
X
J= (yi − x⊤
i β − β0 )
2

i=1

Ecrire le critère sous la forme matricielle J = (Y − Xa βa )⊤ (Y − Xa βa )


avec βa = [β ⊤ 1]⊤ . On précisera le vecteur Y et la matrice Xa .
4. Ecrire la condition d’optimalité de ce problème des moindres carrés par rapport à βa .
5. Montrer que le vecteur β vérifie la relation
 n1 n2 
(n − 2)Σ̂ + M̂ β = n(µ̂2 − µ̂1 ) avec M̂ = (µ̂2 − µ̂1 )(µ̂2 − µ̂1 )⊤
n

6. Déduire que M̂ β est colinéaire au vecteur (µ̂2 − µ̂1 ) càd M̂ β ∝ (µ̂2 − µ̂1 ).
7. En déduire alors que la solution de β obtenue par moindres carrés est colinéaire au vecteur
Σ̂−1 (µ̂2 − µ̂1 ). Comparer par rapport au vecteur w de la LDA. Quelle conclusion peut-on
tirer ?

p.2/3
ASI4 Examen DM 2007/2008

Annexe 1

Initialisation
4 4

3.5 µ1 3.5
3 3
2.5 2.5
2 2
1.5 1.5
1 µ2 1
0.5 0.5
0 0
−0.5 −0.5
−1 −1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6

4 4
3.5 3.5
3 3
2.5 2.5
2 2
1.5 1.5
1 1
0.5 0.5
0 0
−0.5 −0.5
−1 −1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6

4 4
3.5 3.5
3 3
2.5 2.5
2 2
1.5 1.5
1 1
0.5 0.5
0 0
−0.5 −0.5
−1 −1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6

p.3/3

Vous aimerez peut-être aussi