2019/2020 Data Mining TP n°3 ENIT
Enseignant : Walid Ayadi Génie Industriel
Les données :
1. Le fichier Faillite_entrep.txt est composé de variables caractérisant des entreprises qui ont
fait faillite et d’autre en bonne santé financière. Les variables des entreprises sont :
FD : flux de trésorerie / dette totale, RA : résultat net / actif,
AD : actif à court terme / dette à court terme, AV : actif à court terme / ventes,
ET : F si faillite et NF sinon. Variable cible : ET
2. On propose d’étudier la qualité du raisin en fonction de variables observées sur 34 années.
Les variables du fichier Cultures_raisin.txt sont TEMPERATURE : Somme des températures
moyennes journalières, SOLEIL : Durée d’insolation, CHALEUR : Nombre de jours de
grande chaleur, PLUIE : Hauteur des pluies, QUALITE DU RAISIN : Bon, Mauvais.
Variable cible : QUALITE DU RAISIN
Modélisation des variables cibles des deux fichiers de données via la régression logistique
multiple :
Fichier Faillite_entrep.txt
1. Lire les données
don=[Link](‘…..’) ;
2. Utiliser la commande glm(…,family = binomial,…) afin de modéliser la variable cible en
fonction des autres variables disponibles.
[Link]= glm(…,family = binomial,…)
3. Générer les probabilités de prédiction via la commande
[Link]=predict(…., newdata=….., type=…..)
4. Transformer les probabilités trouvées en variable binaire avec la commande
[Link]<- factor(ifelse(….., “……”, “……”))
5. Utiliser la commande table() afin de générer le tableau de confusion et calculer le taux de
bon classement total et les taux de bon classement de chaque classe.
………………………..
6. Evaluer la qualité du modèle et la pertinence des variables explicatives en se basant sur les
résultats obtenus.
…………………….
Travaux pratiques Data Mining Walid Ayadi
Fichier Cultures_raisin.txt
1. Lire les données
don=[Link](‘…..’) ;
2. Utiliser la commande glm(…,family = binomial,…) afin de modéliser la variable cible en
fonction des autres variables disponibles.
[Link]= glm(…,family = binomial,…)
3. Générer les probabilités de prédiction via la commande
[Link]= predict(…., newdata=….., type=…..)
4. Transformer les probabilités trouvées en variable binaire avec la commande
[Link]<- factor(ifelse(….., “……”, “……”))
5. Utiliser la commande table() afin de générer le tableau de confusion et calculer le taux de
bon classement total et les taux de bon classement de chaque classe.
………………………..
6. Evaluer la qualité du modèle et la pertinence des variables explicatives en se basant sur les
résultats obtenus.
…………………….
Travaux pratiques Data Mining Walid Ayadi