Exam 2008

Ce document est un examen de Data-Mining pour la 4ème année, comprenant des questions sur l'algorithme K-means, les SVM avec pénalisations, et l'analyse linéaire discriminante (LDA). Les étudiants doivent résoudre des problèmes théoriques et pratiques, incluant des formulations mathématiques et des justifications graphiques. L'examen dure 3 heures et nécessite l'utilisation de cours et d'une calculatrice.

Transféré par

soltani

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

13 vues3 pages

Exam 2008

Transféré par

soltani

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data-Mining

Examen 2007/2008 4ème année

G. Gasso

– Durée : 3h
– Documents autorisés : cours et calculatrice
– La copie du voisin n’est pas un document autorisé
– L’annexe 1 est à rendre avec la copie finale

1 Ka-mines (4 points)

1. On veut regrouper les points (les ronds) des figures en annexe 1 en deux clusters. On utilise
l’algorithme de K-means avec K = 2. L’initialisation des centres µ1 et µ2 est marquée sur
la figure en haut à gauche.

Détailler sur les figures en annexe chaque itération (affectation des points et calcul des nou-
veaux centres) de l’algorithme jusqu’à convergence.

Aucun calcul numérique n’est demandé. Justifier graphiquement les résultats de chaque
itération.

2 SVM à pénalisations différentes en fonction des points (7 points)

Soit un ensemble de données étiquettées {(xi , yi ) ∈ X × Y}i=1,...,n avec Y = {−1, +1}.
On cherche à résoudre un problème SVM où on utilise un terme de régularisation Ci spécifique
pour chaque point xi . Le problème d’apprentissage est alors

1 2
Pn
minw,b,ξi 2 kwk + i=1 Ci ξi

s.c. yi (hw, xi i + b) ≥ 1 − ξi ∀ i = 1, . . . , n
ξi ≥ 0 ∀ i = 1, · · · , n
Dans cette formulation du problème, les ξi représentent les variables d’écart, les paramètres
Ci représentent les termes de régularisation fixés par l’utilisateur.
1. Exprimer le lagrangien L correspondant à ce problème.
2. Exprimer les conditions d’optimalité du lagrangien par rapport aux variables primales w, b, ξi .

3. Donner la formulation du problème dual. Quelle méthode connaissez-vous pour résoudre ce

problème dual ?
4. Proposer une façon de calculer le paramètre b.
5. On note respectivement D + = {(xi , yi ), yi = 1} et D − = {(xi , yi ), yi = −1)} les en-
sembles de points des classes "positive" et "négative". On considère Ci = C+ , ∀i ∈ D + et
Ci = C− , ∀i ∈ D − .
En s’inspirant de la question 1, donner la nouvelle formulation du problème SVM. Que
devient le problème dual ?

p.1/3
ASI4 Examen DM 2007/2008

3 Bayes et moindres carrés (9 points)

Soit un problème de classification à deux classes C1 et C2 avec des données {(xi , yi ) ∈

IRp ×Y}i=1,...,n où Y = {C1 , C2 }. On veut construire un classifieur en utilisant l’analyse linéaire
discriminante (LDA).
1. Montrer qu’un point quelconque x est affecté à la classe C2 si
1 ⊤ −1
w⊤ x > µ Σ µ2 − µ⊤ −1
1 Σ µ1 + log(Pr(C1 )) − log(Pr(C2 ))
2 2
avec w = Σ−1 (µ2 − µ1 ), Pr(C1 ) et Pr(C2 ) les probabilités a priori des classes C1 et C2 .

2. On veut estimer les moyennes µ1 , µ2 et la matrice de covariance Σ à partir des données

{(xi , yi )}i=1,...,n . On notera n1 le nombre de points de la classe C1 et n2 le nombre de
points de la classe C2 (n1 + n2 = n).
Donner l’expression des estimations µ̂1 , µ̂2 et Σ̂.
3. Plutôt que de faire la LDA, on veut estimer directement une fonction de décision f (x) =
x⊤ β + β0 avec β ∈ IRp et β0 ∈ IR en utilisant la méthode des moindres carrés. Pour cela,
on fait l’encodage suivant :

Classe C1 : yi = −n/n1 Classe C2 : yi = −n/n2

et on minimise le critère
n
X
J= (yi − x⊤
i β − β0 )
2

i=1

Ecrire le critère sous la forme matricielle J = (Y − Xa βa )⊤ (Y − Xa βa )

avec βa = [β ⊤ 1]⊤ . On précisera le vecteur Y et la matrice Xa .
4. Ecrire la condition d’optimalité de ce problème des moindres carrés par rapport à βa .
5. Montrer que le vecteur β vérifie la relation
n1 n2
(n − 2)Σ̂ + M̂ β = n(µ̂2 − µ̂1 ) avec M̂ = (µ̂2 − µ̂1 )(µ̂2 − µ̂1 )⊤
n

6. Déduire que M̂ β est colinéaire au vecteur (µ̂2 − µ̂1 ) càd M̂ β ∝ (µ̂2 − µ̂1 ).
7. En déduire alors que la solution de β obtenue par moindres carrés est colinéaire au vecteur
Σ̂−1 (µ̂2 − µ̂1 ). Comparer par rapport au vecteur w de la LDA. Quelle conclusion peut-on
tirer ?

p.2/3
ASI4 Examen DM 2007/2008

Annexe 1

Initialisation
4 4

3.5 µ1 3.5
3 3
2.5 2.5
2 2
1.5 1.5
1 µ2 1
0.5 0.5
0 0
−0.5 −0.5
−1 −1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6

4 4
3.5 3.5
3 3
2.5 2.5
2 2
1.5 1.5
1 1
0.5 0.5
0 0
−0.5 −0.5
−1 −1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6

p.3/3

Vous aimerez peut-être aussi

SVM : Classification et Optimisation Avancée
Pas encore d'évaluation
SVM : Classification et Optimisation Avancée
5 pages
Exam 2007
Pas encore d'évaluation
Exam 2007
2 pages
Chap Svm2019dernièreversion
Pas encore d'évaluation
Chap Svm2019dernièreversion
63 pages
Classifieurs en Classification Supervisée
Pas encore d'évaluation
Classifieurs en Classification Supervisée
32 pages
Exam Modeles Pour Le Datamining 2015 2016cor
Pas encore d'évaluation
Exam Modeles Pour Le Datamining 2015 2016cor
4 pages
Exercices en Apprentissage Supervis e Et Non Supervis e M2 SISE - Universit e Lyon 2 - 2018/2019
Pas encore d'évaluation
Exercices en Apprentissage Supervis e Et Non Supervis e M2 SISE - Universit e Lyon 2 - 2018/2019
6 pages
Seance 4
Pas encore d'évaluation
Seance 4
26 pages
Optimisation et Analyse de Données en Régression et Classification
Pas encore d'évaluation
Optimisation et Analyse de Données en Régression et Classification
12 pages
Examen Ia
Pas encore d'évaluation
Examen Ia
11 pages
Apprentissage Automatique Feuille D'exercices: Exercice 1
100% (1)
Apprentissage Automatique Feuille D'exercices: Exercice 1
6 pages
INF8111 - Exercices + Solutions
Pas encore d'évaluation
INF8111 - Exercices + Solutions
32 pages
Modèle Linéaire Mixte : Concepts et Estimations
Pas encore d'évaluation
Modèle Linéaire Mixte : Concepts et Estimations
139 pages
Chapitre III
Pas encore d'évaluation
Chapitre III
37 pages
SVMet Noyaux
Pas encore d'évaluation
SVMet Noyaux
57 pages
DATA MINING Examen 2020 Corrigé 1
83% (6)
DATA MINING Examen 2020 Corrigé 1
6 pages
Cours Complet ML Mory - (Partie 5 - Apprentissage Non-Supervisé)
Pas encore d'évaluation
Cours Complet ML Mory - (Partie 5 - Apprentissage Non-Supervisé)
43 pages
Introduction aux SVM et classification
Pas encore d'évaluation
Introduction aux SVM et classification
18 pages
SVM Slides
Pas encore d'évaluation
SVM Slides
39 pages
Exam
Pas encore d'évaluation
Exam
6 pages
MEA-Ch2 - S1-18-23
Pas encore d'évaluation
MEA-Ch2 - S1-18-23
83 pages
Devoir sur la projection orthogonale et régression linéaire
Pas encore d'évaluation
Devoir sur la projection orthogonale et régression linéaire
8 pages
Expose de Machine Learning-Final
Pas encore d'évaluation
Expose de Machine Learning-Final
26 pages
Introduction aux Support Vector Machines
Pas encore d'évaluation
Introduction aux Support Vector Machines
22 pages
Examen SVM et Optimisation Quadratique
Pas encore d'évaluation
Examen SVM et Optimisation Quadratique
3 pages
Mth2303 Dev2 h25 Corrige
Pas encore d'évaluation
Mth2303 Dev2 h25 Corrige
8 pages
Article 2
Pas encore d'évaluation
Article 2
19 pages
Introduction aux SVM et leur optimisation
Pas encore d'évaluation
Introduction aux SVM et leur optimisation
139 pages
TD 7: Méthodes de Classification
100% (1)
TD 7: Méthodes de Classification
5 pages
Introduction aux SVM en Machine Learning
Pas encore d'évaluation
Introduction aux SVM en Machine Learning
6 pages
Merged 20200609 233823
Pas encore d'évaluation
Merged 20200609 233823
5 pages
Merged 20200609 234318
Pas encore d'évaluation
Merged 20200609 234318
6 pages
1.introduction Cours ONL (Optimisation Non Linéaire)
Pas encore d'évaluation
1.introduction Cours ONL (Optimisation Non Linéaire)
5 pages
Techniques Prédictives en Data Mining
Pas encore d'évaluation
Techniques Prédictives en Data Mining
151 pages
RDF Ds 0102
Pas encore d'évaluation
RDF Ds 0102
6 pages
Notes Correction TD8
Pas encore d'évaluation
Notes Correction TD8
6 pages
Méthode des k plus proches voisins KNN
Pas encore d'évaluation
Méthode des k plus proches voisins KNN
8 pages
Régression et Estimation Statistique
Pas encore d'évaluation
Régression et Estimation Statistique
2 pages
Introduction aux Machines à Vecteurs Supports
Pas encore d'évaluation
Introduction aux Machines à Vecteurs Supports
16 pages
ENSAEEconometrie Cursusintegre 2006
Pas encore d'évaluation
ENSAEEconometrie Cursusintegre 2006
101 pages
Datamining : Exercices et Méthodes
50% (2)
Datamining : Exercices et Méthodes
5 pages
Modèles Linéaires et Analyse CPU
Pas encore d'évaluation
Modèles Linéaires et Analyse CPU
7 pages
Modèle Linéaire Standard en RLM
Pas encore d'évaluation
Modèle Linéaire Standard en RLM
31 pages
SVM Support Vector Machine: Ricco Rakotomalala
Pas encore d'évaluation
SVM Support Vector Machine: Ricco Rakotomalala
52 pages
Corrigé Examen 24 25 PDF
Pas encore d'évaluation
Corrigé Examen 24 25 PDF
6 pages
Prova ISD 2022-23
Pas encore d'évaluation
Prova ISD 2022-23
3 pages
Corrigé Examen Data-Mining 2002/2003
Pas encore d'évaluation
Corrigé Examen Data-Mining 2002/2003
4 pages
Analyse de Clustering et Classification
Pas encore d'évaluation
Analyse de Clustering et Classification
4 pages
Examen Apprentissage Statistique Juin 2013
Pas encore d'évaluation
Examen Apprentissage Statistique Juin 2013
5 pages
Correction TD Classification Supervisée Et Non Supervisé
Pas encore d'évaluation
Correction TD Classification Supervisée Et Non Supervisé
10 pages
SVM 7
100% (5)
SVM 7
45 pages
ML SVM Court 5 French
Pas encore d'évaluation
ML SVM Court 5 French
26 pages
Fondements économétriques en finance
Pas encore d'évaluation
Fondements économétriques en finance
7 pages
Optimisation : Méthodes du premier ordre
Pas encore d'évaluation
Optimisation : Méthodes du premier ordre
16 pages
Classification SVM en Machine Learning
Pas encore d'évaluation
Classification SVM en Machine Learning
39 pages
Examen Intelligence des Affaires: Data Mining et BD NoSQL
Pas encore d'évaluation
Examen Intelligence des Affaires: Data Mining et BD NoSQL
7 pages
Chap05.machine Vecteurs Support
Pas encore d'évaluation
Chap05.machine Vecteurs Support
44 pages
Copie de SUIVI
Pas encore d'évaluation
Copie de SUIVI
2 pages
Copie de Suivi Du Retard Des Vols 29-06-2015
Pas encore d'évaluation
Copie de Suivi Du Retard Des Vols 29-06-2015
2 pages
Nettoyer Son PC Manuellement
Pas encore d'évaluation
Nettoyer Son PC Manuellement
1 page
Module 3eme
Pas encore d'évaluation
Module 3eme
1 page
04 Les Boucles
Pas encore d'évaluation
04 Les Boucles
3 pages
Exercices sur les arbres en C
Pas encore d'évaluation
Exercices sur les arbres en C
2 pages
TP1: R Esolution Num Erique Des Syst' Emes Lin Eaires: M Ethodes Directes Exercice 1
Pas encore d'évaluation
TP1: R Esolution Num Erique Des Syst' Emes Lin Eaires: M Ethodes Directes Exercice 1
2 pages
Polycopié Analyse Numérique Complet
Pas encore d'évaluation
Polycopié Analyse Numérique Complet
132 pages
Hachage et tableaux associatifs en C
100% (1)
Hachage et tableaux associatifs en C
4 pages
Examen de Programmation Linéaire
100% (2)
Examen de Programmation Linéaire
7 pages
Méthodes de Tri Cours
Pas encore d'évaluation
Méthodes de Tri Cours
23 pages
Algorithme Bellman Ford
Pas encore d'évaluation
Algorithme Bellman Ford
13 pages
04c Resume Cours Exo Algo Boyer Moore1820985873
0% (1)
04c Resume Cours Exo Algo Boyer Moore1820985873
2 pages
Introduction à la PLNE et ses applications
Pas encore d'évaluation
Introduction à la PLNE et ses applications
100 pages
Cours Fouille de Données
100% (1)
Cours Fouille de Données
59 pages
Examen Algo II Juin 2019 VF VF
Pas encore d'évaluation
Examen Algo II Juin 2019 VF VF
4 pages
Examen 2
Pas encore d'évaluation
Examen 2
3 pages
Algorithme de Tri
Pas encore d'évaluation
Algorithme de Tri
4 pages
Algorithme Du Simplexe Méthode Des Deux Phases
100% (1)
Algorithme Du Simplexe Méthode Des Deux Phases
11 pages
TD Table Hachage Graphe
Pas encore d'évaluation
TD Table Hachage Graphe
9 pages
Algorithme de Strassen et Complexité
Pas encore d'évaluation
Algorithme de Strassen et Complexité
18 pages
CHPT 5 Anneaux de Polynomes
Pas encore d'évaluation
CHPT 5 Anneaux de Polynomes
17 pages
Etude Des Algorithmes de Tri Et de Recherche.: Master1
Pas encore d'évaluation
Etude Des Algorithmes de Tri Et de Recherche.: Master1
15 pages
Algorithmes de Tri Et de Recherche
Pas encore d'évaluation
Algorithmes de Tri Et de Recherche
19 pages
Engagement des Turbines avec Contraintes
Pas encore d'évaluation
Engagement des Turbines avec Contraintes
6 pages
Cours - Algorithmes - Dichotomie - KNN - Glouton - Eleves (2022 - 06 - 04 10 - 45 - 10 UTC)
Pas encore d'évaluation
Cours - Algorithmes - Dichotomie - KNN - Glouton - Eleves (2022 - 06 - 04 10 - 45 - 10 UTC)
9 pages
Correction CC Inf 112 2025 New
Pas encore d'évaluation
Correction CC Inf 112 2025 New
22 pages
Sujet 23 05 17
Pas encore d'évaluation
Sujet 23 05 17
5 pages
Exercices Pratiques Pour Maîtriser Les Concepts Fondamentaux
Pas encore d'évaluation
Exercices Pratiques Pour Maîtriser Les Concepts Fondamentaux
3 pages
S3 Algo Et Prog
Pas encore d'évaluation
S3 Algo Et Prog
2 pages
Algobox Tri Insertion Recursif
Pas encore d'évaluation
Algobox Tri Insertion Recursif
2 pages
Algorithmique Avancee
Pas encore d'évaluation
Algorithmique Avancee
4 pages
Algorithmique : Listes, Tris et Arbres
Pas encore d'évaluation
Algorithmique : Listes, Tris et Arbres
100 pages
Travaux Dirigés en Algorithmique II
Pas encore d'évaluation
Travaux Dirigés en Algorithmique II
57 pages