0% ont trouvé ce document utile (0 vote)

95 vues5 pages

CTRL DM m2 2011

Ce document contient les corrections d'un examen de data mining et recherche d'information. Il présente cinq exercices portant sur des concepts comme le tf-idf, les algorithmes de classification hiérarchique, l'entropie, l'algorithme Apriori. Pour chaque exercice, la solution détaillée est fournie.

Transféré par

slim yaich

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

95 vues5 pages

CTRL DM m2 2011

Transféré par

slim yaich

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Med Boudiaf -M’sila M’sila, le 01/02/2011

Faculté des Mathématiques et d’Informatique

Département d’Informatique
Module : Data Mining et Recherche d’Information
Master 2/ S.I. Avancés
Durée : 1h 30
Examen Semestriel
Exercice 1 (2 points)
En utilisant Google, vous tapez le mot « souvenir » puis le mot « qouvenir ». Quelle est la réponse de Google
pour le premier et le 2ème mot ? Expliquez.

Exercice 2 (4 points)
Etant données les valeurs tf et df du tableau ci-contre, Terme df Doc1-tf Doc2-tf Doc3-tf
calculer pour chaque document, le tf*idf des termes Car 200 1 100 10
suivants: car, auto, assurance, bon. auto 20 1 10 1
assurance 2 000 100 10 1
Il y a au total 200 000 documents. On utilisera bon 20 000 100 1 000 10
le logarithme base 10.

Exercice 3 (4 points)
a b c d e
Considérer la matrice de dissimilarité suivante P.
0 4 9 6 5
Déterminer les dendrogrammes résultants de l’application du
« single link algorithm », puis du « complete link algorithm » sur 4 0 3 8 7
P et commentez. 9 3 0 3 2
6 8 3 0 1
5 7 2 1 0
Exercice 4 (5 points)
Soit le tableau de données suivant.
Les valeurs possibles des attributs du N° Humidité Climat Température Golf
tableau sont : 1 haute soleil chaud NePasJouer
Humidité : normale, haute 2 haute soleil chaud NePasJouer
Climat : soleil, couvert, pluie 3 haute couvert chaud Jouer
Température : chaud, bon, frais 4 haute pluie bon Jouer
5 normale pluie frais Jouer
La colonne « Golf » donne les classes : 6 normale pluie frais NePasJouer
Jouer, NePasJouer. 7 normale couvert frais Jouer
8 haute soleil bon NePasJouer
En utilisant l’entropie comme critère de sélection, 9 normale soleil frais Jouer
déterminer l’attribut qui sera la racine de l’arbre 10 normale pluie bon Jouer
de décision. 11 normale soleil bon Jouer
N.B. On pourra utiliser la formule : 12 haute couvert on Jouer
log2(x) = log10(x) / log10(2). 13 normale couvert chaud Jouer
14 haute pluie bon NePasJouer

Exercice 5 (5 points)

Soit la table suivante des transactions d’un magasin. Transaction ID Items

En utilisant l’algorithme Apriori, déterminer l’ensemble des 001 A, C, D
itemset fréquents et extraire les différentes règles possibles. 002 B, C, E
(Support Minimum=10%). 003 A, B, C, E
004 B, E

Bonne réussite
T. Mehenni
DATA MINING ET RECHERCHE D’INFORMATION Responsable du cours :
CORRECTION DE L’EXAMEN (2010/2011) T. Mehenni

Exercice 1 (2 points)

Le moteur Google affichera les résultats de recherche du mot « souvenir ».

Pour le mot « qouvenir », Google affichera un message que le mot correct est peut être « souvenir », et donne
les résultats du mot « souvenir » car il ne peut pas trouver des résultats correspondants au mot « qouvenir ».
Google est muni de cette fonctionnalité qui propose à l’utilisateur des mots proches du mot tapé, quand celui-
ci est incorrect, mal orthographié ou non familier. Pour le mot « qouvenir », Google estime qu’il y a eu peut
être une erreur de frappe et que l’utilisateur au lieu de taper le mot « souvenir », a tapé le mot « qouvenir » car
les deux lettres « s » et « q » sont proches sur le clavier.

Exercice 2 (4 points)

On a tf*idf=tf*log(d/df).
- Mot « car » : idf=log(200 000/200)=3 …………………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 1 * 3 = 3
- Doc2 : tf*idf = 100 * 3 = 300
- Doc3 : tf*idf = 10 * 3 = 30
- Mot « auto » : idf=log(200 000/20)=4 …………………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 1 * 4 = 4
- Doc2 : tf*idf = 10 * 4 = 40
- Doc3 : tf*idf = 1* 4 = 4
- Mot « assurance » : idf=log(200 000/2000)=2 ……………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 100 * 2 = 200
- Doc2 : tf*idf = 10 * 2 = 20
- Doc3 : tf*idf = 1 * 2 = 2
- Mot « bon » : idf=log(200 000/20 000)=1 …………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 100 * 1 =100
- Doc2 : tf*idf = 1000 * 1 = 1000
- Doc3 : tf*idf = 10 * 1 = 10

Exercice 3 (4 points)
- Simple link algorithm : ………………………………………………………….(4* 0.25 pt)

a b c d e
a 0 a b c de
b 4 0 a 0 a b Cde
c 9 3 0 b 4 0 a 0 a bcde
d 6 8 3 0 c 9 3 0 b 4 0 a 0
e 5 7 2 1 0 de 5 7 2 0 cde 5 3 0 bcde 4 0

grouper (a, b) grouper (c, de) grouper (b, cde) grouper(a, bcde)

- Complete link algorithm : ……………………………………………………….(4 * 0.25 pt)

a b c d e
a 0 a b c de
b 4 0 a 0 a b cde
c 9 3 0 b 4 0 a 0 ab cde
d 6 8 3 0 c 9 3 0 b 4 0 ab 0
e 5 7 2 1 0 de 6 8 3 0 cde 9 8 0 cde 9 0

grouper (a, b) grouper (c, de) grouper (a, b) grouper(a, bcde)

1/4
Les dendrogrammes : ……………………………………………………….(2 pts)

4 4
3 3
2
1 1

a b c d e a b c d e
single link complete link

Exercice 4 (5 points)

Entropie =-p(c1) log(p(c1)) - p(c1) log(p(c1))

Gain=Entropie-n1/n [p(c1) log(p(c1))] – n2/n [p(c1) log(p(c1))]

Calcul de l’entropie des données initiales :

C1 : 9 lignes concernant la classe « Jouer »
C2 : 5 lignes concernant la classe « NePasJouer »
Total=14
Entropie = -9/14 log(9/14) - 5/14 log(5/14) = 0.123 + 0.159 = 0.282 …………………..……….(1 pt)

Calcul du gain de l’attribut Humidité :

Répartition des classes selon les valeurs de l’attribut : ………………………………………….(0.5 pt)
Jouer NePasJouer ni/n
P1 (haute) 3 4 7/14
P2 (normale) 6 1 7/14

Entropie(P1)= - 3/7 log(3/7) - 4/7 log(4/7) = 0.157 + 0.138 = 0.259

Entropie(P2)= - 6/7 log(6/7) - 1/7 log(1/7) = 0.057 + 0.120 = 0.177

Gain(Humidité)= 0.282 – 7/14 * 0.259 – 7/14 * 0.177 = 0.046 ……………….……….……….(0.5 pt)

Calcul du gain de l’attribut Climat :

Répartition des classes selon les valeurs de l’attribut : ………………………………………….( 0.5 pt)
Jouer NePasJouer ni/n
P1 (soleil) 2 3 5/14
P2 (couvert 4 0 4/14
P3 (pluie) 3 2 5/14

Entropie(P1)= - 2/5 log(2/5) - 3/5 log(3/5) = 0.159 + 0.133 = 0.292

Entropie(P2)= - 4/4 log(4/4) = 0
Entropie(P3)= - 3/5 log(3/5) - 2/5 log(2/5) = 0.133 + 0.159 = 0.292

Gain(Climat)= 0.282 – 5/14 * 0.292 – 5/14 * 0.292 = 0.073 …………………………………….(0.5 pt)

Calcul du gain de l’attribut Température :

Répartition des classes selon les valeurs de l’attribut : ………………………………………….(0.5 pt)
Jouer NePasJouer ni/n
P1 (chaud) 2 2 4/14
P2 (bon) 4 2 6/14
P3(frais) 3 1 4/14
2/4
Entropie(P1)= - 2/4 log(2/4) - 2/4 log(2/4) = 0.301
Entropie(P2)= - 4/6 log(4/6) - 2/6 log(2/6) = 0.117 + 0.159 = 0.276
Entropie(P3)= - 3/4 log(3/4) - 1/4 log(1/4) = 0.093 + 0.150 = 0.243

Gain(Température)= 0.282 – 4/14 * 0.301 – 6/14 * 0.276 – 4/14 * 0.243 = 0.001 …………….(0.5 pt)

L’attribut choisi pour la racine de l’arbre de décision est donc « Climat ». …………………….(1 pt)

Exercice 5 (5 points)

1-Itemset : ………………………………………………………...........................................(0.5 pt)

Item Fréquence Support
A 2 2/5=0.5 (50%)
B 3 3/5=0.6 (60%)
C 3 0.6 (60%)
D 1 0.25 (25%)
E 3 0.6 (60%)

On garde tous les 1-itemset car ils ont un support > 10%.

2-Itemset : ………………………………………..…………………………….…………….(0.5 pt)

A B C D E
A X 1 2 1 1
B X X 2 0 2
C X X X 1 2
D X X X X 0

On garde les 2-itemset suivants : AB, AC,AD, AE, BC, BE, CD et CE (8 2-itemset).

3-Itemset : …………………………………………………………………………..………….(1 pt)

AB AC AD AE BC BE CD CE
AB X 1 0 1 Déjà vu Déjà vu X X
AC X X 1 1 Déjà vu X Déjà vu Déjà vu
AD X X X 0 X X Déjà vu X
AE X X X X X Déjà vu X Déjà vu
BC X X X X X 2 0 Déjà vu
BE X X X X X X X Déjà vu
CD X X X X X X X 0
On garde les 5 3-itemset suivants : ABC, ABE, ACD, ACE, BCE.

4- Itemset : …………………………………………………………………………………….(1 pt)

ABC ABE ACD ACE BCE
ABC X 1 0 Déjà vu Déjà vu
ABE X X X Déjà vu Déjà vu
ACD X X X 0 X
ACE X X X X Déjà vu

Un seul 4-itemset, ABCE.

3/4
Générations des règles :

1- Règles générées à partir des 2-itemset : il y a 8 * 2 = 16 règles au total. …………….(0.5 pt)

Si A Alors B Si B Alors A
Si A Alors C Si C Alors A
Si A Alors D Si D Alors A
Si A Alors E Si E Alors A
Si B Alors C Si C Alors B
Si B Alors E Si E Alors B
Si C Alors D Si D Alors C
Si C Alors E Si E Alors C

1- Règles générées à partir des 3-itemset : il y a 3 5 2 = 30 règles au total. ……..….(0.75 pt)

Si A Alors BC Si BC Alors A
Si A Alors BE Si BE Alors A
Si A Alors CD Si CD Alors A
Si A Alors CE Si CE Alors A
Si B Alors CE Si CE Alors B
Si B Alors AC Si AC Alors B
Si B Alors AE Si AE Alors B
Si C Alors AD Si AD Alors C
Si C Alors AE Si AE Alors C
Si C Alors BE Si BE Alors C
Si C Alors AB Si AB Alors C
Si E Alors AB Si AB Alors E
Si D Alors AC Si AC Alors D
Si E Alors AC Si AC Alors E
Si E Alors BC Si BC Alors E

2- Règles générées à partir du 4-itemset : il y a 14 règles au total. …………………….(0.75 pt)

Si A Alors BCE Si BCE Alors A

Si B Alors ACE Si ACE Alors B
Si C Alors ABE Si ABE Alors C
Si E Alors ABC Si ABC Alors E
Si AB Alors CE Si CE Alors AB
Si AC Alors BE Si BE Alors AC
Si AE Alors BC Si BC Alors AE

4/4

Vous aimerez peut-être aussi

Virtualisation avec VMware vSphere ESXi
Pas encore d'évaluation
Virtualisation avec VMware vSphere ESXi
3 pages
Commutation de contexte en systèmes d'exploitation
Pas encore d'évaluation
Commutation de contexte en systèmes d'exploitation
1 page
Programmation en Langage C
Pas encore d'évaluation
Programmation en Langage C
5 pages
Installation de Microstack sur Ubuntu
0% (1)
Installation de Microstack sur Ubuntu
5 pages
Output 4
Pas encore d'évaluation
Output 4
3 pages
Introduction à la virtualisation informatique
Pas encore d'évaluation
Introduction à la virtualisation informatique
88 pages
Exercices Corrigés en Langage C
0% (1)
Exercices Corrigés en Langage C
50 pages
Formation SSIS : Cours Pratique 2 Jours
Pas encore d'évaluation
Formation SSIS : Cours Pratique 2 Jours
2 pages
Supports de Transmission des Données
Pas encore d'évaluation
Supports de Transmission des Données
22 pages
Ordonnancement de processus FIFO et Priorité
Pas encore d'évaluation
Ordonnancement de processus FIFO et Priorité
6 pages
Ordonnancement des processus en informatique
Pas encore d'évaluation
Ordonnancement des processus en informatique
26 pages
Formation SQL Server BI en 5 jours
Pas encore d'évaluation
Formation SQL Server BI en 5 jours
3 pages
Atelier SSIS : Extraction et Transformation
Pas encore d'évaluation
Atelier SSIS : Extraction et Transformation
41 pages
Révision de fouille de données avec Python
Pas encore d'évaluation
Révision de fouille de données avec Python
6 pages
Formation SQL Server : Datawarehouse et SSIS
Pas encore d'évaluation
Formation SQL Server : Datawarehouse et SSIS
2 pages
Valeurs et Qualités Entrepreneuriales
Pas encore d'évaluation
Valeurs et Qualités Entrepreneuriales
37 pages
Entrepôt de Données
Pas encore d'évaluation
Entrepôt de Données
24 pages
Datamining : Exercices et Méthodes
50% (2)
Datamining : Exercices et Méthodes
5 pages
CTRL DM m2 2011
Pas encore d'évaluation
CTRL DM m2 2011
5 pages
Datamining : Théorie, Pratique et Exercices
100% (2)
Datamining : Théorie, Pratique et Exercices
8 pages
Datamining : Exercices et Corrigés Master
Pas encore d'évaluation
Datamining : Exercices et Corrigés Master
6 pages
Examen de Fouille de Données Avancée
Pas encore d'évaluation
Examen de Fouille de Données Avancée
6 pages
Corrigé Examen Master IDM 2013
Pas encore d'évaluation
Corrigé Examen Master IDM 2013
2 pages
Examen Master IDM : Fouille de Données
100% (1)
Examen Master IDM : Fouille de Données
2 pages
Interrogatoire sur le Datamining en ADN
100% (1)
Interrogatoire sur le Datamining en ADN
3 pages
Kmeans et ID3 : Examen Master ISIA 2018
100% (1)
Kmeans et ID3 : Examen Master ISIA 2018
2 pages
Données Analysées en TD Évaluation
Pas encore d'évaluation
Données Analysées en TD Évaluation
7 pages
Correction Exercices Angles Et Parallélisme + Comp 250305 162505
Pas encore d'évaluation
Correction Exercices Angles Et Parallélisme + Comp 250305 162505
6 pages
Certificat Medical Minsantecm V6ol0425017490
Pas encore d'évaluation
Certificat Medical Minsantecm V6ol0425017490
1 page
Projet Eps
100% (6)
Projet Eps
3 pages
Système de Balisage
Pas encore d'évaluation
Système de Balisage
5 pages
Comprendre le Planisphère et le Globe
Pas encore d'évaluation
Comprendre le Planisphère et le Globe
3 pages
Le Nom Propre dans le Cratyle de Platon
Pas encore d'évaluation
Le Nom Propre dans le Cratyle de Platon
456 pages
Introduction aux capteurs en automatisation
Pas encore d'évaluation
Introduction aux capteurs en automatisation
11 pages
Cours de Planification. Cfora PDF
100% (3)
Cours de Planification. Cfora PDF
12 pages
Dépannez Votre Circuit de Charge - Mécanique Moto
Pas encore d'évaluation
Dépannez Votre Circuit de Charge - Mécanique Moto
2 pages
Visual TOM : Automatisation et Orchestration IT
Pas encore d'évaluation
Visual TOM : Automatisation et Orchestration IT
4 pages
Chitra Sutra
100% (4)
Chitra Sutra
10 pages
Mon Cerveau A ENCORE Besoin de Lunettes
100% (3)
Mon Cerveau A ENCORE Besoin de Lunettes
192 pages
Plaquette IRM de Stress Cardiaque VDEF
Pas encore d'évaluation
Plaquette IRM de Stress Cardiaque VDEF
2 pages
Éducation chrétienne des enfants
Pas encore d'évaluation
Éducation chrétienne des enfants
4 pages
Groupe électrogène J88 Diesel 250 kVA
Pas encore d'évaluation
Groupe électrogène J88 Diesel 250 kVA
8 pages
Skirandomag Numero 58
Pas encore d'évaluation
Skirandomag Numero 58
67 pages
SWOT: Forces, Faiblesses, Opportunités, Menaces
Pas encore d'évaluation
SWOT: Forces, Faiblesses, Opportunités, Menaces
2 pages
Effectuer Des Calculs Sur Des Données de Type Heure
Pas encore d'évaluation
Effectuer Des Calculs Sur Des Données de Type Heure
2 pages
Info Sequence 4
Pas encore d'évaluation
Info Sequence 4
2 pages
Résumé Made in Germany
Pas encore d'évaluation
Résumé Made in Germany
6 pages
TP N B05 - Eclairage de La Cage D 27escalier Du Batiment A (Montage Minuterie) Ver 1.01
Pas encore d'évaluation
TP N B05 - Eclairage de La Cage D 27escalier Du Batiment A (Montage Minuterie) Ver 1.01
6 pages
Anatomie de l'appareil respiratoire
Pas encore d'évaluation
Anatomie de l'appareil respiratoire
5 pages
ADEME RCP SN-Référentiel RCP Services Numériques
Pas encore d'évaluation
ADEME RCP SN-Référentiel RCP Services Numériques
29 pages
No28 20 Sept 2022 Sujetexa - Com
Pas encore d'évaluation
No28 20 Sept 2022 Sujetexa - Com
1 page
Dépannage Des Transformateurs
Pas encore d'évaluation
Dépannage Des Transformateurs
24 pages
Maths 3ème Eval N°3 2024 2025
100% (1)
Maths 3ème Eval N°3 2024 2025
2 pages
David Harvey Et La Théorie de La Ville Capitaliste - Louis Gaudreau
Pas encore d'évaluation
David Harvey Et La Théorie de La Ville Capitaliste - Louis Gaudreau
11 pages
Document-Le Cercle Du SIRH - L Etat de L Art Du SIRH
Pas encore d'évaluation
Document-Le Cercle Du SIRH - L Etat de L Art Du SIRH
137 pages
Exercices de Parasitologie
Pas encore d'évaluation
Exercices de Parasitologie
22 pages

CTRL DM m2 2011

Transféré par

CTRL DM m2 2011

Transféré par

Université Med Boudiaf -M’sila M’sila, le 01/02/2011

Faculté des Mathématiques et d’Informatique

Soit la table suivante des transactions d’un magasin. Transaction ID Items

Le moteur Google affichera les résultats de recherche du mot « souvenir ».

- Complete link algorithm : ……………………………………………………….(4 * 0.25 pt)

grouper (a, b) grouper (c, de) grouper (a, b) grouper(a, bcde)

Entropie =-p(c1) log(p(c1)) - p(c1) log(p(c1))

Calcul de l’entropie des données initiales :

Calcul du gain de l’attribut Humidité :

Entropie(P1)= - 3/7 log(3/7) - 4/7 log(4/7) = 0.157 + 0.138 = 0.259

Gain(Humidité)= 0.282 – 7/14 * 0.259 – 7/14 * 0.177 = 0.046 ……………….……….……….(0.5 pt)

Calcul du gain de l’attribut Climat :

Entropie(P1)= - 2/5 log(2/5) - 3/5 log(3/5) = 0.159 + 0.133 = 0.292

Gain(Climat)= 0.282 – 5/14 * 0.292 – 5/14 * 0.292 = 0.073 …………………………………….(0.5 pt)

Calcul du gain de l’attribut Température :

1-Itemset : ………………………………………………………...........................................(0.5 pt)

2-Itemset : ………………………………………..…………………………….…………….(0.5 pt)

3-Itemset : …………………………………………………………………………..………….(1 pt)

4- Itemset : …………………………………………………………………………………….(1 pt)

Un seul 4-itemset, ABCE.

1- Règles générées à partir des 2-itemset : il y a 8 * 2 = 16 règles au total. …………….(0.5 pt)

1- Règles générées à partir des 3-itemset : il y a 3 *5 *2 = 30 règles au total. ……..….(0.75 pt)

2- Règles générées à partir du 4-itemset : il y a 14 règles au total. …………………….(0.75 pt)

Si A Alors BCE Si BCE Alors A

Vous aimerez peut-être aussi

1- Règles générées à partir des 3-itemset : il y a 3 5 2 = 30 règles au total. ……..….(0.75 pt)