Module : Analyse et fouille de données
Responsable du Cours: Yosra Jarraya Auditoire: D-LBC BI
Enseignante TP: Yosra Jarraya A-U: 2024-2025
TP1 : Manipulation des matrices de données avec Pandas Python
Google colab :
Google Colaboratory ou colab est un outil Google simple et gratuit qui permet d’exécuter du
code python à travers un navigateur. Il est utilisé directement sur le web sans installation de
logiciel. C’est un environnement adapté à l’analyse de données et au machine learning. Il est
gratuit et ne nécessite aucune configuration.
La librairie Pandas :
Pandas est une bibliothèque du langage de programmation Python, entièrement dédiée à la
science de données. C’est un outil d’analyse et de manipulation de données très puissant. Les
fonctionnalités de la librairie pandas permettent d’extraire, préparer et éventuellement analyser
des données
Le type DataFrame :
Pandas introduit la classe DataFrame ou table de données indispensable en statistique. Un
DataFrame correspond à une matrice individus-variables où les lignes correspondent à des
observations et les colonnes à des attributs décrivant les individus. Il s’agit d’associer avec le
même index de lignes des colonnes ou variables de types différents (entier, réel, booléen,
caractère).
Ce TP présente les fonctionnalités principales utilisées pour la préparation et le nettoyage des
données à l’aide de Python Pandas et particulièrement d’un DataFrame.
Exercice 1 :
Soit la matrice de données suivante qui représente des informations concernant un ensemble
d’élèves. Chaque élève est caractérisé par 4 attributs :
Nom : nom de l’élève
Score : le score en moyenne accompli par l’élève dans l’examen
Tentatives : le nombre de tentatives de passage de l’examen
Qualification : représente la réussite ou non de l’élève dans l’examen
1
Nom Score Tentatives qualification
E1 Ahmed 12.5 1 oui
E2 Chaima 9 3 non
E3 Abir 16.5 2 oui
E4 Eya NaN 3 non
E5 Hassen 9 2 non
E6 Amine 20 3 oui
E7 Hajer 14.5 1 oui
E8 Amal NaN 1 non
E9 Karim 8 2 non
E10 Hanen 19 1 oui
1) Créer et afficher un DataFrame à partir des données décrites ci-dessus contenant les
étiquettes des élèves
2) Afficher les informations de base du DataFrame
3) Afficher les 3 premières lignes du DataFrame
4) Sélectionner les colonnes «Nom» et «Score»
5) Sélectionner les lignes pour lesquelles le nombre de tentatives à l'examen est supérieur à 2
6) Compter le nombre de lignes et de colonnes du DataFrame
7) Sélectionner les lignes pour lesquelles le score est une valeur manquante
8) Sélectionner les lignes pour lesquelles le nombre de tentatives à l'examen est inférieur à 2
et le score est supérieur à 15
9) Remplacer toutes les valeurs manquantes (NaN) par des Zéro
10) Changer la valeur du score de l’élève «E4» en 11,5
11) Ajouter une nouvelle ligne «E11» au DataFrame avec des valeurs données pour chaque
colonne
12) Supprimer la nouvelle ligne et afficher de nouveau le Dataframe