Université de Carthage
Ecole Supérieure de la Statistique et de l’Analyse de l’Information
Devoir surveillé de data mining
2 ème année du cycle de formation d’ingénieurs
Durée de l’épreuve : 1h30 - Documents non autorisés
Nombre de pages : 2 - Date de l’épreuve : 4 mars 2023
Exercice 1 : On considère le jeu de données histovie extrait de l’enquête histoire de
vie réalisée par l’INSEE en 2003. Il contient 1886 individus et 9 variables. L’objectif
de cette enquête est de comprendre comment un individu s’intègre dans la société à
partir d’informations objectives (classe d’âge, sexe, niveau d’étude, centres d’intérêts,
etc.) mais aussi tenir compte d’éléments plus subjectifs tels que la lecture de bandes
dessinées. Un descriptif des variables est donné ci-dessous :
> summary(histovie)
classe.age sexe niv.etud peche.chasse
[16,25): 79 Homme: 845 Primaire :464 Non:1671
[25,45):687 Femme:1041 Secondaire :387 Oui: 215
[45,65):742 Technique/Professionnel:594
[65,93]:378 Supérieur :441
cinema cuisine bricolage sport lecture.bd
Non:1151 Non:1057 Non:1065 Non:1248 Non:1843
Oui: 735 Oui: 829 Oui: 821 Oui: 638 Oui: 43
1. On voudrait effectuer une classification des 1886 individus à l’aide de la méthode
des k-modes.
1.a Quel est l’intérêt d’utiliser la fonction fviz nbclust du package factoextra ?
1.b Indiquer les principaux paramètres de cette fonction.
2. On voudrait effectuer une classification des modalités des 9 variables. Indiquer la
démarche à suivre.
Exercice 2 : On considère le tableau de données ci-dessous contenant les valeurs
observées de deux variables quantitatives X 1 et X 2 , et d’une variable qualitative Y
possédant les deux modalités A et B, sur un échantillon I de huit individus notés
i1 , . . . , i 8 .
La variable Y définit une partition de I en deux classes notées IA et IB , i.e. IA =
{i1 , i2 , i3 , i4 } et IB = {i5 , i6 , i7 , i8 }. Chaque individu est muni du poids 1/8. Dans ce
qui suit l’analyse discriminante de ces données est réalisée à l’aide du logiciel R. On
note g, gA , gB les centres de gravité respectifs de I, IA et IB .
1
i1 i2 i3 i4 i5 i6 i7 i8
1
X 4 3 1 0 4 3 5 4
X2 5 4 2 1 4 3 3 2
Y A A A A B B B B
1. Calculer les centres de gravité g, gA , gB .
2. Sachant que les variances non corrigées 1 de X 1 et de X 2 sont égales respectivement
à 5/2 et 3/2, déterminer la matrice variance non corrigée du couple de variables X 1 et
X 2 . On notera V cette matrice.
3. Calculer la matrice variance interclasses (non corrigée) notée B du couple de va-
riables X 1 et X 2 .
4. On note W (resp. W c ) la matrice variance intraclasses non corrigée (resp. corrigée).
n
On rappelle que dans le cas de deux classes, on a W c = W (avec ici n = 8).
n −2
6 −5
Déduire des résultats précédents que (W c )−1 = 3/11 .
−5 6
5. Expliquer pourquoi il n’existe qu’un seul facteur discriminant (non trivial) pour
l’Analyse Factorielle Discriminante (AFD) des données. On notera b cet unique facteur.
6. Quelle est la commande de R qui permet d’appliquer une AFD linéaire aux données.
On notera ”don” le data.frame dans lequel sont enregistrées les données. On précisera
les arguments nécessaires pour cette fonction.
7. Sachant que R utlise la métrique (W c )−1 pour effectuer l’AFD (au lieu de la métrique
V −1 ), vérifier que le facteur discriminant a pour coordonnées :
X 1 1.279
X 2 -1.066
Par la suite, i désigne un point arbitraire du plan où l’axe des abscisses (resp. des
ordonnées) indique les valeurs de X 1 (resp. X 2 ). On note x = (x1 , x2 ) le vecteur des
coordonnées de i.
8. Pour tout point i du plan, exprimer le score z(i) en fonction de ses coordonnées x1
et x2 .
9. Sachant que la liste suivante indique les scores de chaque individu, déterminer les
affectations des individus i1 , ..., i8 aux classes A et B et en déduire le taux de bien
classés.
i1 -0.85 i3 -1.49 i5 0.21 i7 2.55
i2 -1.06 i4 -1.70 i6 0.00 i8 2.34
1. On rappelle que la variance estimée de façon non corrigée (resp. corrigée) d’une variable X est
n n
1X 1 X
égale à (xi − x)2 (resp. (xi − x)2 ), où n désigne la taille de l’échantillon. On définit de
n i=1 n − 1 i=1
même la covariance non corrigée (resp. corrigée) entre deux variables.