1 IA et Machine Learning
Enseignante : Ilef Ben Slima ISMAI Kairouan
TP : Prédiction de la Survie des Passagers du Titanic
Objectif
Créer un modèle de Machine Learning pour prédire la survie des passagers du Titanic en
fonction de caractéristiques comme l’âge, le sexe, la classe de billet, etc.
Énoncé
Télécharger le fichier contenant les données des passagers du Titanic, incluant :
- **Caractéristiques** : âge, sexe, classe, nombre de frères/sœurs ou conjoints à bord, nombre
d’enfants ou parents à bord, tarif payé, lieu d’embarquement, etc.
- **Étiquette (target)** : indication binaire de survie (1 = survécu, 0 = non survécu)
Les attributs principaux incluent :
• PassengerId : Identifiant unique du passager
• Survived : Statut de survie (0 = Non, 1 = Oui)
• Pclass : Classe de voyage (1ère, 2ème, 3ème classe)
• Name : Nom du passager
• Sex : Sexe
• Age : Âge
• SibSp : Nombre de frères/sœurs ou conjoints à bord
• Parch : Nombre de parents/enfants à bord
• Ticket : Numéro de billet
• Fare : Tarif du billet
• Cabin : Numéro de cabine
• Embarked : Port d’embarquement (C = Cherbourg, Q = Queenstown, S = Southampton)
Suivre toutes les étapes nécessaires à la construction et à l'évaluation d'un modèle de Machine
Learning, en utilisant les techniques couvertes en cours.
Étapes à Suivre
1. Exploration et Analyse des Données
- Explorer et visualiser les données pour comprendre les distributions et les corrélations.
- Faire un résumé statistique des caractéristiques : taille de la base, type des attributs,
pourcentage de valeurs manquantes, données aberrantes (outliers), ….
1
2 IA et Machine Learning
Enseignante : Ilef Ben Slima ISMAI Kairouan
2. Prétraitement des Données
- Nettoyage des Données : gérer les valeurs manquantes (suppression ou remplissage selon les
données).
- Transformation des Variables (Encodage / discrétisation / ...)
- Normalisation/Standardisation : ajuster les échelles des caractéristiques si nécessaire
3. Sélection des Caractéristiques
- Identifier les caractéristiques les plus pertinentes pour la prédiction.
- Essayer de réduire les caractéristiques redondantes ou non significatives.
4. Choix des Modèles
- Créer et entraîner au moins trois modèles différents, comme :
- k plus proches voisins (k-NN)
- Arbre de décision
- Réseau de neurones
-…
5. Évaluation et Amélioration des Modèles
- Définir votre protocole d’évaluation (Train_test_split / Cross validation / …)
- Évaluer les modèles en utilisant des métriques de classification : accuracy, precision, recall,
F1_score, matrice de confusion.
- Analyser les erreurs pour mieux comprendre les points faibles du modèle.
- Ajuster les hyperparamètres des différents modèles (par exemple, le nombre de voisins dans k-
NN, la profondeur de l’arbre, …).
6. Visualisation et Interprétation des Résultats
- Présenter les résultats avec :
- des tableaux de comparaison
- des graphiques, comme la matrice de confusion, les courbes d’erreur si possible.
- Expliquer les insights tirés des caractéristiques les plus influentes dans les prédictions (ex. la
classe du billet ou le sexe).
2
3 IA et Machine Learning
Enseignante : Ilef Ben Slima ISMAI Kairouan
7. Rapport Final
- Rédiger un rapport expliquant les choix (basées sur les analyses effectuées), les méthodes et les
résultats obtenus.
Livrables attendus
1. Code bien documenté (notebook).
2. Rapport expliquant le processus suivi, les résultats obtenus, les interprétations des
caractéristiques, et les conclusions.