0% ont trouvé ce document utile (0 vote)
206 vues2 pages

Corrigé Examen Fouille de Données Avancée

Ce document contient les corrigés d'un examen sur la fouille de données avancées. Il présente les réponses à des questions de cours et à deux exercices, le premier sur les motifs fréquents et le second sur la classification.

Transféré par

slim yaich
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
206 vues2 pages

Corrigé Examen Fouille de Données Avancée

Ce document contient les corrigés d'un examen sur la fouille de données avancées. Il présente les réponses à des questions de cours et à deux exercices, le premier sur les motifs fréquents et le second sur la classification.

Transféré par

slim yaich
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Mohamed Khider-Biskra

Faculté des sciences exactes et des sciences de la nature et de la vie


Département d’informatique

Master IDM Fouille de Données Avancée


28 Jan 2013 10:00-11:30, Salle 5

Corrigé type de l’examen

Questions de cours (4 pts)


1. En apprentissage supervisé, la différence fondamentale entre classification et régression
est que la classification est utilisée pour prédire les classes discrètes (catégorielles) tandis
que la régression est utilisée pour prédire les classes continues (numériques).
2. Le phénomène de sur-apprentissage apparait lorsqu’on obtient des modèles qui recon-
naissent parfaitement les exemples utilisés lors de l’apprentissage et échouent face aux
nouveaux exemples.
3. La stratégie utilisée pour éviter le sur-apprentissage lors de l’apprentissage d’arbres de
décision est l’élagage.
4. Les méthode d’évaluation des techniques d’apprentissage sont diverses telles que la vali-
dation croisée, le bootstrap, leave one out, ...etc. (voir le cours pour les principes)

Exercice 1 Motifs fréquents (10.5 pts : 4 + 2.5 + 2.5 + 1.5)

1. Les motifs fréquents :


F1={ Lait,Couches,Pain,,Beurre,Jus,Sucre }
F2= { Lait Couches,Lait Pain, Lait Beurre,Couches Pain,Couches Beurre,Couches Jus,
Couches Sucre, Pain Beurre,Jus Sucre }
F3= {Lait Couches Pain, Lait Couches Beurre, Lait Pain Beurre,Couches Pain Beurre }
F4= { Lait Couches Pain Beurre }
Motifs fréquents = { F1 ∪ F2 ∪ F3 ∪ F4 }
2. Motifs fréquents fermés = { Lait,Couches, Jus, Sucre, Lait Couches, Couches Jus, Couches
Sucre, Pain Beurre, Jus Sucre , Lait Pain Beurre, Couches Pain Beurre, Lait Couches Pain
Beure }
3. Motifs fréquents maximaux = { Couches Jus, Couches Sucre, Jus Sucre, Lait Couches
Pain Beure }
4. Les règles solides d’association de type A, B ⇒ C sont :
Lait Beurre ⇒ Pain
Lait Pain ⇒ Beurre
Couches Beurre ⇒ Pain
Couches Pain ⇒ Beurre

Exercice 2 Classification (5.5 pts : 4 + 0.5 + 1)

1. L’arbre souhaité en utilisant l’algorithme ID3 :

1
2. Le risque du patient ayant les attributs (Jeune,V,F) selon l’arbre construit est E.
3. Le risque du même patient en utilisant la classification bayésienne naı̈ve :
X = (Jeune,V,F)
P(X/Risque=F) = P(Age=Jeune/Risque=F)xP(S1=V/Risque=F)xP(S2=F/Risque=F)
x P(P(Risque=F)
= 0.5 x 0 x ... = 0
P(X/Risque=E) = P(Age=Jeune/Risque=E)xP(S1=V/Risque=E)xP(S2=F/Risque=E)
x P(P(Risque=E)
= 1/3 x 3/3 x 1/3 x 3/10 = 9/90 = 0.1
P(X/Risque=M) = P(Age=Jeune/Risque=M)xP(S1=V/Risque=M)xP(S2=F/Risque=M)
x P(P(Risque=M)
= 0 x ... = 0

Le risque est celui de la classe de probabilité max c-à-d E.

Dr A.Djeffal

Vous aimerez peut-être aussi