0% ont trouvé ce document utile (0 vote)
82 vues9 pages

Classification des Patients Diabétiques

Transféré par

G . A
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
82 vues9 pages

Classification des Patients Diabétiques

Transféré par

G . A
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

La république Tunisienne North American Private university

Ministere de l’enseignments supérieur Institut International Technologie de Sfax

Et de la Recherche Scientifique Département De Génie Industriel

Département de Génie Industriel


PROJET INTELGENCE ARTIFFICIELLE
PROBLEME DE CALSSIFICATION DE
PATIENTS DIABETIQUE

j
j Par :
Elaborés
j
k
Oumaima BEN SALAH GI3

Spécialité : Génie industriel


Réalisé par : Aymen Gouiaa
Classe : Indus 3 - soir

Enseignant :

M. Sabeur Elkosantini

Année universitaire : 2022/2023


I. Introduction
Dans ce projet, nous allons explorer différents modèles d'apprentissage automatique pour
résoudre le problème de classification de patients diabétiques.

Le but de ce projet est de développer un système qui peut prédire si un patient est atteint
de diabète en utilisant des données de 9 variables. Nous allons utiliser un dataset contenant
768 données pour entraîner et tester les modèles.

II. Le démarche de travail


Dans ce projet, je vais commencer par explorer les données en les visualisant et en
vérifiant s'il y a des valeurs manquantes. Ensuite, je vais séparer les données en ensembles
d'entraînement et de test. Puis tester différents modèles de classification tels que la régression
linéaire, logistique, quadratique et l'arbre de décision. Enfin, je vais évaluer la performance de
ces modèles. Le but final de ce projet est de sélectionner le meilleur modèle pour prédire la
présence de diabète chez un patient.

III. Travail demandé


1. Affichage des 5 première ligne parmi 768 de la base de données par la fonction df.head (5)

On a 8 features (entrées) avec des Outcome (sortie) « 0 » ou « 1 » sont binaires

Généralement a régression linéaire est utilisée pour résoudre les problèmes de régression, dans
notre cas on a une variable cible binaire (Outcome) avec deux classes possibles (0 ou 1). Il est
donc possible d'utiliser la régression linéaire pour résoudre ce type de problème.

Mais Il existe d'autres modèles de classification qui peuvent également être utilisés pour
résoudre ce type de problème.

Il est donc important de tester plusieurs modèles et de comparer leurs performances pour
sélectionner le meilleur modèle pour notre ensemble de données.

Projet Intelligence Artificielle 1|Page


 Question 1 : L’affichage des attributs

Cette étape permet d’afficher les noms de attributs de vérifier que les données sont
correctement importées et de connaître les variables disponibles pour la suite de l'analyse.

 Question 2 : Vérification des attributs sans valeurs

Les résultats de tous les valeurs 0, cela signifie qu'il n'y a pas de valeurs manquantes dans
votre dataset. Les données sont complètes et ne nécessitent pas de nettoyage supplémentaire
pour gérer les valeurs manquantes. C'est une bonne chose car cela signifie que vous avez des
données complètes pour l'analyse et l'apprentissage automatique.

Projet Intelligence Artificielle 2|Page


 Visualisation des donnés

Les points des variables sont dispersés de manière aléatoire, cela indique qu’il n’y a pas de
corrélation entre ces variables

Cela signifie que les valeurs des variables ne sont pas liées entre elles donc il n'y a donc pas de
lien direct entre les variables.

Question 3 : Affichage de la matrice heatmap


Projet Intelligence Artificielle 3|
La matrice heatmap permet de visualiser les corrélations entre les différentes
variables

Puisque les valeurs d’intersection entre les attributs ne sont pas proches de 1 (forte corrélation
positive) ou -1 (forte corrélation négative) donc il n y’a pas de forte corrélation entre eux donc
on n’a pas besoin d’éliminer certains attributs

 Question 4 : Création des vecteurs X ("Pregnancies":" Age") et Y ("Outcome")

Cette fonction permet de séparer les variables d’entrée (X) et la variablr cible (Y) pour les
modèles.

• X est un vecteur qui contient les données des variables de "Pregnancies" à "Age"du
tableau de données.
• Y est un vecteur qui contient les données de la variable "Outcome" du tableau de
données

Projet Intelligence Artificielle 4|Page


Question 5 : Diviser le dataset en deux ensembles (70% pour l’apprentissage et 30%
pour le test). Utiliser la fonction train_test_split

Cette fonction permet de diviser les données en un ensemble d'entraînement et un ensemble de


test. Les paramètres de la fonction sont les suivants :

• X : les données d'entrée


• Y : les sorties
• test_size : la proportion des données à utiliser pour le test (0.3 signifie 30% des
données pour le test et 70% pour l'entraînement)
• random_state : pour reproduire les résultats

Question 6 : Afficher la taille des 4 ensembles obtenus


X_train représente les données d'entraînement pour les variables X, y_train représente
les données d'entraînement pour la variable cible y.
• X_test représente les données de test pour les variables X, y_test représente les données
de test pour la variable cible y
 Question 7 : Tester les différents modèles
Dans cette étape on va tester les différents modèles pour résoudre notre problème de
classification

Projet Intelligence Artificielle 5|


 Modèle 1 : Logistique

Dans notre cas la valeur de score égale à 0.77 . Ce qui indique que le modèle de régression
logistique a de bonnes performances pour prédire les résultats.

Ce score montre que les prédictions effectuées par le modèle sont assez proches de la réalité. Il
est donc possible d'utiliser ce modèle pour prédire les résultats dans des situations similaires à
celles utilisées pour l'entraînement.
Mais il faut continuer le test de plusieurs modèles pour trouver qui est le plus perforant.

Projet Intelligence Artificielle 6|Page


 Modèle 2 : Réseau Neurones

La valeur de perte est égale à 0.51 et le 0 .068. cela signifie que le modèle a
une performance moyenne pour prédire les résultats. La perte de 0.51 signifie qu'il y a encore
de la marge pour améliorer les prédictions du modèle. Et le score de 0.68 indique que 68%
des résultats sont correctement prédits par le modèle, il y a donc encore de la marge pour
améliorer les performances

 Modèle 3 : l’arbre de décision

Les arbres de décision sont souvent utilisés pour des taches de classification car ils
permettent de comprendre les relations entre les variables. La valeur de score est 0.74 cela
signifie que le modèle est performant pour prédire les résultats.
 Modèle 4 : Le foret aléatoire

Projet Intelligence Artificielle 7|


la valeur de score est 0.77 cela signifie que le modèle de foret aléatoire est la performant
pour prédire les résultats.

Question 8 : Evaluer la performance des différents modèles

Le modèle La valeur su score

Logistique 0.77

Réseau de neurone 0.68

L’arbre de décision 0.74

Le foret aléatoire 0.77

Les modèles les plus performants sont :

 Le modèle Régression logistque

 Le foret aléatoire

IV. Conclusion

En résumé, nous avons testé différents modèles de classification pour résoudre le problème de
détection de diabète chez les patients. Les résultats ont montré que les modèle quadratique et
foret aléatoire ont été les plus performants. Nous pouvons donc les recommander pour des
applications similaires.

Projet Intelligence Artificielle 8|Page

Vous aimerez peut-être aussi