Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique
Master IDM Fouille de Données Avancée
28 Jan 2013 10:00-11:30, Salle 5
Corrigé type de l’examen
Questions de cours (4 pts)
1. En apprentissage supervisé, la différence fondamentale entre classification et régression
est que la classification est utilisée pour prédire les classes discrètes (catégorielles) tandis
que la régression est utilisée pour prédire les classes continues (numériques).
2. Le phénomène de sur-apprentissage apparait lorsqu’on obtient des modèles qui recon-
naissent parfaitement les exemples utilisés lors de l’apprentissage et échouent face aux
nouveaux exemples.
3. La stratégie utilisée pour éviter le sur-apprentissage lors de l’apprentissage d’arbres de
décision est l’élagage.
4. Les méthode d’évaluation des techniques d’apprentissage sont diverses telles que la vali-
dation croisée, le bootstrap, leave one out, ...etc. (voir le cours pour les principes)
Exercice 1 Motifs fréquents (10.5 pts : 4 + 2.5 + 2.5 + 1.5)
1. Les motifs fréquents :
F1={ Lait,Couches,Pain,,Beurre,Jus,Sucre }
F2= { Lait Couches,Lait Pain, Lait Beurre,Couches Pain,Couches Beurre,Couches Jus,
Couches Sucre, Pain Beurre,Jus Sucre }
F3= {Lait Couches Pain, Lait Couches Beurre, Lait Pain Beurre,Couches Pain Beurre }
F4= { Lait Couches Pain Beurre }
Motifs fréquents = { F1 ∪ F2 ∪ F3 ∪ F4 }
2. Motifs fréquents fermés = { Lait,Couches, Jus, Sucre, Lait Couches, Couches Jus, Couches
Sucre, Pain Beurre, Jus Sucre , Lait Pain Beurre, Couches Pain Beurre, Lait Couches Pain
Beure }
3. Motifs fréquents maximaux = { Couches Jus, Couches Sucre, Jus Sucre, Lait Couches
Pain Beure }
4. Les règles solides d’association de type A, B ⇒ C sont :
Lait Beurre ⇒ Pain
Lait Pain ⇒ Beurre
Couches Beurre ⇒ Pain
Couches Pain ⇒ Beurre
Exercice 2 Classification (5.5 pts : 4 + 0.5 + 1)
1. L’arbre souhaité en utilisant l’algorithme ID3 :
1
2. Le risque du patient ayant les attributs (Jeune,V,F) selon l’arbre construit est E.
3. Le risque du même patient en utilisant la classification bayésienne naı̈ve :
X = (Jeune,V,F)
P(X/Risque=F) = P(Age=Jeune/Risque=F)xP(S1=V/Risque=F)xP(S2=F/Risque=F)
x P(P(Risque=F)
= 0.5 x 0 x ... = 0
P(X/Risque=E) = P(Age=Jeune/Risque=E)xP(S1=V/Risque=E)xP(S2=F/Risque=E)
x P(P(Risque=E)
= 1/3 x 3/3 x 1/3 x 3/10 = 9/90 = 0.1
P(X/Risque=M) = P(Age=Jeune/Risque=M)xP(S1=V/Risque=M)xP(S2=F/Risque=M)
x P(P(Risque=M)
= 0 x ... = 0
Le risque est celui de la classe de probabilité max c-à-d E.
Dr A.Djeffal