M1-DATA Mining - exam
Data Mining (Université Djillali Liabès de Sidi Bel Abbès)
Scan to open on Studocu
Studocu is not sponsored or endorsed by any college or university
Downloaded by ABdelatif Boukabrine (
[email protected])
MINISTERE DE L’ENSEI GNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQ UE
UNIVERSITE DJILLALI LIABES SIDI BEL ABBES
F AC U LTE DE S CIE NCE S E X AC TE S
DE P AR TE M E N T D ’IN FOR M ATI QUE
M AS TE R IS I R S S I WI C 1 E R AN NE E
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
DATA MINING JUIN 2021 DURÉE 1H30
Corrigé Type : Voir le cours pour les réponses completes. CECI EST UN RESUME
Exercice 1 : Traiter le problème des valeurs manquantes ?1, ?2, ?3, ?4 en proposant à chaque fois
2 techniques différentes.
Traiter est le mot clé.
Exemple : Je remplace la valeur manquante par la moyenne des valeurs connues de l’attribut,
donc ?1 devient 31.5
8 méthodes différentes. Pas de répétition. 0.5 Point par méthode. Voir cours.
Exercice 2 :
Donner le pourquoi et le principe des méthodes ensemblistes.
Plusieurs avis valent mieux qu’un.
Combiner plusieurs modèles. Voir cours
Comparer les algorithmes boosting et stacking (vus au cours) étape par étape (apprentissage
et classification), donner les similarités et les différences.
Voir cours
Expliquez les paramètres de chacun.
Boosting : nombre de modèles + Algorithme à booster
Stacking : Algorithmes du premier niveau + Algorithme de deuxième niveau
Donner sous la forme d’un schéma l’approche de chaque algorithme.
Voir cours
Quel est le meilleur et pourquoi ?
Chaque algorithme fonctionnera bien dans certaines conditions
Exercice 3 : Pourquoi sélectionner les attributs. Expliquez les deux types de sélections.
Tous les attributs ne sont pas important pour la tâche qu’on souhaite effectuer.
Pour la majorité des algorithmes, les attributs non importants vont influencer négativement sur
les performances du modèle crée. Donc, il est important dans la phase de prétraitement de
sélectionner seulement les attributs important pour la tache considérée.
Les deux types Filter et Wrapper Voir le cours
Donner les attributs sélectionnés pour cet algorithme par la recherche ascendante, puis la
recherche descendante de l’heuristique vue au cours.
Descendante :
1. Perf(A,B,C,D) = 0.72
2. Perf(A,B,C) =0.75 ; Perf(A,C,D) = 0.70 ; Perf(B,C,D) = 0.80 * ; Perf(A,B,D) = 0.63
3. Perf(B,C) = 0.55 ; Perf(B,D) = 0.65 ; Perf(C,D) = 0.45
4. STOP : Les attributs sélectionnés sont B, C, D
Ascendante :
1. Perf(A) = 0.35 ; Perf(B) = 0.25 ; Perf(C) = 0.40 * ; Perf(D) = 0.30
2. Perf(C,A) = 0.60 * ; Perf(C,B) = 0.55 ; Perf(C,D)= 0.45
3. Perf(C,A,B) = 0.75 * ; Perf(C,A,D) = 0.70
4. Perf(C,A,B,D) = 0.72
5. STOP : Les attributs selectionnés sont A, B, C
RIEN DE PLUS OU DE MOINS, SINON C’EST FAUX.
Downloaded by ABdelatif Boukabrine ([email protected])
MINISTERE DE L’ENSEI GNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQ UE
UNIVERSITE DJILLALI LIABES SIDI BEL ABBES
F AC U LTE DE S CIE NCE S E X AC TE S
DE P AR TE M E N T D ’IN FOR M ATI QUE
M AS TE R IS I R S S I WI C 1 E R AN NE E
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
DATA MINING JUIN 2021 DURÉE 1H30
Quelle conclusion en tirez-vous ?
Les méthodes (Ascendante, descendante) Wrapper sont des solutions approchées, non
Exhaustives. Chacune fournit une solution acceptable, pas nécessairement la meilleure,
généralement non identique. 6 points
Exercice 4 : Considérer les valeurs de l’attribut M du tableau de l’exercice 1, en utilisant la
méthode interquartile range (IQR) vue au cours, détecter les valeurs aberrantes. (3 points)
1 2 6 7 8 9 10 10 11 12 14 15 16 25
Q2 = 10
Q1 = 6.5
Q3 = 14.5
Q3 – Q1 = 8
8 x 1.5 = 12
Q1 – 12 = -5.5
Q3 + 12 = 26.5
Pas de valeurs aberrantes.
J’ai pris en considération les solutions avec Q1 = 7 ; Q2 = 14 ; et 25 valeur aberrante
Exercice n°5 : Pour une régression, en utilisant le MAE (Mean Absolut Error ) lequel des deux
modèles est meilleur. (3 points)
MAE(M1) = 7/9 = 0.77
MAE(M2) = 10.5/9 = 1.16
MAE(M1) < MAE(M2) M1 est un meilleur modele.
Downloaded by ABdelatif Boukabrine ([email protected])