La république Tunisienne North American Private university
Ministere de l’enseignments supérieur Institut International Technologie de Sfax
Et de la Recherche Scientifique Département De Génie Industriel
Département de Génie Industriel
PROJET INTELGENCE ARTIFFICIELLE
PROBLEME DE CALSSIFICATION DE
PATIENTS DIABETIQUE
j
j Par :
Elaborés
j
k
Oumaima BEN SALAH GI3
Spécialité : Génie industriel
Réalisé par : Aymen Gouiaa
Classe : Indus 3 - soir
Enseignant :
M. Sabeur Elkosantini
Année universitaire : 2022/2023
I. Introduction
Dans ce projet, nous allons explorer différents modèles d'apprentissage automatique pour
résoudre le problème de classification de patients diabétiques.
Le but de ce projet est de développer un système qui peut prédire si un patient est atteint
de diabète en utilisant des données de 9 variables. Nous allons utiliser un dataset contenant
768 données pour entraîner et tester les modèles.
II. Le démarche de travail
Dans ce projet, je vais commencer par explorer les données en les visualisant et en
vérifiant s'il y a des valeurs manquantes. Ensuite, je vais séparer les données en ensembles
d'entraînement et de test. Puis tester différents modèles de classification tels que la régression
linéaire, logistique, quadratique et l'arbre de décision. Enfin, je vais évaluer la performance de
ces modèles. Le but final de ce projet est de sélectionner le meilleur modèle pour prédire la
présence de diabète chez un patient.
III. Travail demandé
1. Affichage des 5 première ligne parmi 768 de la base de données par la fonction df.head (5)
On a 8 features (entrées) avec des Outcome (sortie) « 0 » ou « 1 » sont binaires
Généralement a régression linéaire est utilisée pour résoudre les problèmes de régression, dans
notre cas on a une variable cible binaire (Outcome) avec deux classes possibles (0 ou 1). Il est
donc possible d'utiliser la régression linéaire pour résoudre ce type de problème.
Mais Il existe d'autres modèles de classification qui peuvent également être utilisés pour
résoudre ce type de problème.
Il est donc important de tester plusieurs modèles et de comparer leurs performances pour
sélectionner le meilleur modèle pour notre ensemble de données.
Projet Intelligence Artificielle 1|Page
Question 1 : L’affichage des attributs
Cette étape permet d’afficher les noms de attributs de vérifier que les données sont
correctement importées et de connaître les variables disponibles pour la suite de l'analyse.
Question 2 : Vérification des attributs sans valeurs
Les résultats de tous les valeurs 0, cela signifie qu'il n'y a pas de valeurs manquantes dans
votre dataset. Les données sont complètes et ne nécessitent pas de nettoyage supplémentaire
pour gérer les valeurs manquantes. C'est une bonne chose car cela signifie que vous avez des
données complètes pour l'analyse et l'apprentissage automatique.
Projet Intelligence Artificielle 2|Page
Visualisation des donnés
Les points des variables sont dispersés de manière aléatoire, cela indique qu’il n’y a pas de
corrélation entre ces variables
Cela signifie que les valeurs des variables ne sont pas liées entre elles donc il n'y a donc pas de
lien direct entre les variables.
Question 3 : Affichage de la matrice heatmap
Projet Intelligence Artificielle 3|
La matrice heatmap permet de visualiser les corrélations entre les différentes
variables
Puisque les valeurs d’intersection entre les attributs ne sont pas proches de 1 (forte corrélation
positive) ou -1 (forte corrélation négative) donc il n y’a pas de forte corrélation entre eux donc
on n’a pas besoin d’éliminer certains attributs
Question 4 : Création des vecteurs X ("Pregnancies":" Age") et Y ("Outcome")
Cette fonction permet de séparer les variables d’entrée (X) et la variablr cible (Y) pour les
modèles.
• X est un vecteur qui contient les données des variables de "Pregnancies" à "Age"du
tableau de données.
• Y est un vecteur qui contient les données de la variable "Outcome" du tableau de
données
Projet Intelligence Artificielle 4|Page
Question 5 : Diviser le dataset en deux ensembles (70% pour l’apprentissage et 30%
pour le test). Utiliser la fonction train_test_split
Cette fonction permet de diviser les données en un ensemble d'entraînement et un ensemble de
test. Les paramètres de la fonction sont les suivants :
• X : les données d'entrée
• Y : les sorties
• test_size : la proportion des données à utiliser pour le test (0.3 signifie 30% des
données pour le test et 70% pour l'entraînement)
• random_state : pour reproduire les résultats
Question 6 : Afficher la taille des 4 ensembles obtenus
•
X_train représente les données d'entraînement pour les variables X, y_train représente
les données d'entraînement pour la variable cible y.
• X_test représente les données de test pour les variables X, y_test représente les données
de test pour la variable cible y
Question 7 : Tester les différents modèles
Dans cette étape on va tester les différents modèles pour résoudre notre problème de
classification
Projet Intelligence Artificielle 5|
Modèle 1 : Logistique
Dans notre cas la valeur de score égale à 0.77 . Ce qui indique que le modèle de régression
logistique a de bonnes performances pour prédire les résultats.
Ce score montre que les prédictions effectuées par le modèle sont assez proches de la réalité. Il
est donc possible d'utiliser ce modèle pour prédire les résultats dans des situations similaires à
celles utilisées pour l'entraînement.
Mais il faut continuer le test de plusieurs modèles pour trouver qui est le plus perforant.
Projet Intelligence Artificielle 6|Page
Modèle 2 : Réseau Neurones
La valeur de perte est égale à 0.51 et le 0 .068. cela signifie que le modèle a
une performance moyenne pour prédire les résultats. La perte de 0.51 signifie qu'il y a encore
de la marge pour améliorer les prédictions du modèle. Et le score de 0.68 indique que 68%
des résultats sont correctement prédits par le modèle, il y a donc encore de la marge pour
améliorer les performances
Modèle 3 : l’arbre de décision
Les arbres de décision sont souvent utilisés pour des taches de classification car ils
permettent de comprendre les relations entre les variables. La valeur de score est 0.74 cela
signifie que le modèle est performant pour prédire les résultats.
Modèle 4 : Le foret aléatoire
Projet Intelligence Artificielle 7|
la valeur de score est 0.77 cela signifie que le modèle de foret aléatoire est la performant
pour prédire les résultats.
Question 8 : Evaluer la performance des différents modèles
Le modèle La valeur su score
Logistique 0.77
Réseau de neurone 0.68
L’arbre de décision 0.74
Le foret aléatoire 0.77
Les modèles les plus performants sont :
Le modèle Régression logistque
Le foret aléatoire
IV. Conclusion
En résumé, nous avons testé différents modèles de classification pour résoudre le problème de
détection de diabète chez les patients. Les résultats ont montré que les modèle quadratique et
foret aléatoire ont été les plus performants. Nous pouvons donc les recommander pour des
applications similaires.
Projet Intelligence Artificielle 8|Page