TP 2 : Manipulation des données
Cours : Principes et Techniques de Data Science
Responsable : Dr Ousmane KHOUMA
Année Académique 2021 - 2022
Université Amadou Mahtar MBOW (UAM)
Licence 2 Ingénierie Informatique
Exercice 1 :
1. Créer un Dataframe qui ressemble à ceci :
Nom Age Poids Paille Genre
0 Dodou 10 75 4.5 M
1 Amy 15 123 5.0 F
2 Mousa 20 239 6.1 M
2. Créez un DataFrame animaux qui correspond au diagramme ci-dessous :
Vaches Chevres
an 1 12 22
an 2 20 19
3. Enregistrer le DataFrame de la question 2 sur le disque dur en tant que fichier csv sous le
nom vache_chevre.csv.
4. Transformer le fichier de la question 3 en DataFrame pour obtenir le résultat suivant.
Vaches Chevres
an 1 12 22
an 2 20 19
1
Exercice 2 :
1. Importer le fichier boissons_evaluees.csv.
2. Quelle est la médiane de la colonne points dans le DataFrame boisson ?
3. Quels sont les pays représentés dans l’ensemble de données ? (Votre réponse ne doit pas
comporter de doublons).
4. À quelle fréquence chaque pays figure-t-il dans l’ensemble des données ? Créez une Series
de boisson_par_pays en faisant correspondre les pays au nombre de critiques de boisson de
ce pays.
5. Créez la variable prix_centre contenant une version de la colonne price avec le prix moyen
soustrait. (Remarque : cette transformation de « centrage » est une étape de prétraitement courante
avant l’application de divers algorithmes de Machine Learning).
6. Je suis un acheteur de boisson. Quelle boisson est la meilleure affaire ? Créez une variable
boisson_negociee avec le titre de la boisson ayant le meilleur rapport qualité/prix dans
l’ensemble de données.
Exercice 3 :
On considère le fichier boissons_evaluees.csv.
1. Quels sont les critiques de boisson les plus fréquentes dans l’ensemble des données ? Créez
une Series dont l’index est la catégorie taster_twitter_handle de l’ensemble de données, et
dont les valeurs comptent le nombre de critiques que chaque personne a rédigées.
2. Quelle est la meilleure boisson que je puisse acheter pour une somme donnée ? Créez une
Series dont l’indice est le prix de la boisson et dont la valeur est le nombre maximum de
points qu’une boisson coûtant le même prix a obtenu dans une critique. Trier les valeurs par
prix, en ordre croissant.
3. Quels sont les prix minimum et maximum pour chaque cépage (variety) de boisson ? Créez
un DataFrame dont l’indice est la catégorie variety de l’ensemble de données et dont les
valeurs sont les valeurs min et max de celui-ci.
4. Créer une Series dont l’indice est celui des « commentateurs » et dont la valeur est la note
moyenne de l’examen donné par ce « commentateur ». Astuce : vous aurez besoin des
colonnes taster_name et points.
5. Quel est le type de données de la colonne points dans l’ensemble de données ?
6. Parfois, la colonne price est nulle. A combien d’avis dans l’ensemble de données manque-t-il
un prix ?