2019/2020 Data Mining TP n°5 ENIT
Enseignant : Walid Ayadi Génie Industriel
Les données :
1. Le fichier Faillite_entrep.txt est composé de variables caractérisant des entreprises qui ont
fait faillite et d’autre en bonne santé financière. Les variables des entreprises sont :
FD : flux de trésorerie / dette totale, RA : résultat net / actif,
AD : actif à court terme / dette à court terme, AV : actif à court terme / ventes,
ET : F si faillite et NF sinon. Variable cible : ET
2. On propose d’étudier la qualité du raisin en fonction de variables observées sur 34 années.
Les variables du fichier Cultures_raisin.txt sont TEMPERATURE : Somme des températures
moyennes journalières, SOLEIL : Durée d’insolation, CHALEUR : Nombre de jours de
grande chaleur, PLUIE : Hauteur des pluies, QUALITE DU RAISIN : Bon, Mauvais.
Variable cible : QUALITE DU RAISIN
Objectifs :
1. Construire les arbres de décision des deux fichiers de données via la commande rpart.
2. Comparer les résultats de l’arbre de décision aux résultats de la régression logistique et
l’analyse linéaire discriminante.
Fichier Faillite_entrep.txt
1. Lire les données
2. Construire un arbre de décision afin d’expliquer la variable cible en fixant le nombre
minimal d'exemples nécessaires à la création d'un nœud est 1. Interpréter les résultats obtenus.
#Arbre de décision
Travaux pratiques Data Mining Walid Ayadi
Travaux pratiques Data Mining Walid Ayadi
3. Prédire la variable cible en se basant sur le modèle construit.
#prediction on the training set
[Link]= predict(……………,newdata= ……………) ;
[Link]=ifelse(………,…….,…..) ;
4. Calculer les taux de bon classement du modèle en se basant sur la matrice de confusion
………………………………
5. Comparer les résultats de l’arbre de décision aux résultats de la régression logistique et
l’analyse discriminante.
…………………………
Fichier Cultures_raisin.txt
Refaire le même travail pour le fichier Culture_raisin.txt
Travaux pratiques Data Mining Walid Ayadi