0% ont trouvé ce document utile (0 vote)
149 vues2 pages

TP2 Data Science

Transféré par

Pape Moussa Diop
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
149 vues2 pages

TP2 Data Science

Transféré par

Pape Moussa Diop
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP 2 : Manipulation des données

Cours : Principes et Techniques de Data Science

Responsable : Dr Ousmane KHOUMA

Année Académique 2021 - 2022

Université Amadou Mahtar MBOW (UAM)

Licence 2 Ingénierie Informatique

Exercice 1 :
1. Créer un Dataframe qui ressemble à ceci :

Nom Age Poids Paille Genre


0 Dodou 10 75 4.5 M
1 Amy 15 123 5.0 F
2 Mousa 20 239 6.1 M

2. Créez un DataFrame animaux qui correspond au diagramme ci-dessous :

Vaches Chevres
an 1 12 22
an 2 20 19

3. Enregistrer le DataFrame de la question 2 sur le disque dur en tant que fichier csv sous le
nom vache_chevre.csv.
4. Transformer le fichier de la question 3 en DataFrame pour obtenir le résultat suivant.

Vaches Chevres
an 1 12 22
an 2 20 19

1
Exercice 2 :
1. Importer le fichier boissons_evaluees.csv.
2. Quelle est la médiane de la colonne points dans le DataFrame boisson ?
3. Quels sont les pays représentés dans l’ensemble de données ? (Votre réponse ne doit pas
comporter de doublons).
4. À quelle fréquence chaque pays figure-t-il dans l’ensemble des données ? Créez une Series
de boisson_par_pays en faisant correspondre les pays au nombre de critiques de boisson de
ce pays.
5. Créez la variable prix_centre contenant une version de la colonne price avec le prix moyen
soustrait. (Remarque : cette transformation de « centrage » est une étape de prétraitement courante
avant l’application de divers algorithmes de Machine Learning).
6. Je suis un acheteur de boisson. Quelle boisson est la meilleure affaire ? Créez une variable
boisson_negociee avec le titre de la boisson ayant le meilleur rapport qualité/prix dans
l’ensemble de données.
Exercice 3 :
On considère le fichier boissons_evaluees.csv.
1. Quels sont les critiques de boisson les plus fréquentes dans l’ensemble des données ? Créez
une Series dont l’index est la catégorie taster_twitter_handle de l’ensemble de données, et
dont les valeurs comptent le nombre de critiques que chaque personne a rédigées.
2. Quelle est la meilleure boisson que je puisse acheter pour une somme donnée ? Créez une
Series dont l’indice est le prix de la boisson et dont la valeur est le nombre maximum de
points qu’une boisson coûtant le même prix a obtenu dans une critique. Trier les valeurs par
prix, en ordre croissant.
3. Quels sont les prix minimum et maximum pour chaque cépage (variety) de boisson ? Créez
un DataFrame dont l’indice est la catégorie variety de l’ensemble de données et dont les
valeurs sont les valeurs min et max de celui-ci.
4. Créer une Series dont l’indice est celui des « commentateurs » et dont la valeur est la note
moyenne de l’examen donné par ce « commentateur ». Astuce : vous aurez besoin des
colonnes taster_name et points.
5. Quel est le type de données de la colonne points dans l’ensemble de données ?
6. Parfois, la colonne price est nulle. A combien d’avis dans l’ensemble de données manque-t-il
un prix ?

Vous aimerez peut-être aussi