0% ont trouvé ce document utile (0 vote)
16 vues2 pages

TP1 DM

Le document présente un module sur l'analyse et la fouille de données, dirigé par Yosra Jarraya, avec un TP sur la manipulation de matrices de données utilisant Pandas Python dans Google Colab. Il décrit les fonctionnalités de Pandas, notamment la création et la manipulation de DataFrames, et propose une série d'exercices pratiques sur un ensemble de données d'élèves. Les exercices incluent la création de DataFrames, la sélection de données, le traitement des valeurs manquantes et l'ajout ou la suppression de lignes.

Transféré par

nourheneghouili
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
16 vues2 pages

TP1 DM

Le document présente un module sur l'analyse et la fouille de données, dirigé par Yosra Jarraya, avec un TP sur la manipulation de matrices de données utilisant Pandas Python dans Google Colab. Il décrit les fonctionnalités de Pandas, notamment la création et la manipulation de DataFrames, et propose une série d'exercices pratiques sur un ensemble de données d'élèves. Les exercices incluent la création de DataFrames, la sélection de données, le traitement des valeurs manquantes et l'ajout ou la suppression de lignes.

Transféré par

nourheneghouili
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Module : Analyse et fouille de données

Responsable du Cours: Yosra Jarraya Auditoire: D-LBC BI


Enseignante TP: Yosra Jarraya A-U: 2024-2025

TP1 : Manipulation des matrices de données avec Pandas Python

Google colab :
Google Colaboratory ou colab est un outil Google simple et gratuit qui permet d’exécuter du
code python à travers un navigateur. Il est utilisé directement sur le web sans installation de
logiciel. C’est un environnement adapté à l’analyse de données et au machine learning. Il est
gratuit et ne nécessite aucune configuration.

La librairie Pandas :
Pandas est une bibliothèque du langage de programmation Python, entièrement dédiée à la
science de données. C’est un outil d’analyse et de manipulation de données très puissant. Les
fonctionnalités de la librairie pandas permettent d’extraire, préparer et éventuellement analyser
des données

Le type DataFrame :
Pandas introduit la classe DataFrame ou table de données indispensable en statistique. Un
DataFrame correspond à une matrice individus-variables où les lignes correspondent à des
observations et les colonnes à des attributs décrivant les individus. Il s’agit d’associer avec le
même index de lignes des colonnes ou variables de types différents (entier, réel, booléen,
caractère).
Ce TP présente les fonctionnalités principales utilisées pour la préparation et le nettoyage des
données à l’aide de Python Pandas et particulièrement d’un DataFrame.

Exercice 1 :
Soit la matrice de données suivante qui représente des informations concernant un ensemble
d’élèves. Chaque élève est caractérisé par 4 attributs :
Nom : nom de l’élève
Score : le score en moyenne accompli par l’élève dans l’examen
Tentatives : le nombre de tentatives de passage de l’examen
Qualification : représente la réussite ou non de l’élève dans l’examen

1
Nom Score Tentatives qualification
E1 Ahmed 12.5 1 oui
E2 Chaima 9 3 non
E3 Abir 16.5 2 oui
E4 Eya NaN 3 non
E5 Hassen 9 2 non
E6 Amine 20 3 oui
E7 Hajer 14.5 1 oui
E8 Amal NaN 1 non
E9 Karim 8 2 non
E10 Hanen 19 1 oui

1) Créer et afficher un DataFrame à partir des données décrites ci-dessus contenant les
étiquettes des élèves
2) Afficher les informations de base du DataFrame
3) Afficher les 3 premières lignes du DataFrame
4) Sélectionner les colonnes «Nom» et «Score»
5) Sélectionner les lignes pour lesquelles le nombre de tentatives à l'examen est supérieur à 2
6) Compter le nombre de lignes et de colonnes du DataFrame
7) Sélectionner les lignes pour lesquelles le score est une valeur manquante
8) Sélectionner les lignes pour lesquelles le nombre de tentatives à l'examen est inférieur à 2
et le score est supérieur à 15
9) Remplacer toutes les valeurs manquantes (NaN) par des Zéro
10) Changer la valeur du score de l’élève «E4» en 11,5
11) Ajouter une nouvelle ligne «E11» au DataFrame avec des valeurs données pour chaque
colonne
12) Supprimer la nouvelle ligne et afficher de nouveau le Dataframe

Vous aimerez peut-être aussi