TD3-Analyse de données en Python
Exercice 1
Concidérons dans ce TP des données de pourboire("tips") dont les informations sur
chaque pourboire, reçu par un serveur travaillant dans des fêtes, ont été enregistrés sur
une période de quelques mois. Ce dataset comporte 244 lignes et 7 variables, sa structure
est la suivante :
Variable (rubrique d’information du pourboire)
✓ total_bill : valeur de la facture en DH,
✓ tip : valeur de pourboire en DH,
✓ sex : sexe du payeur de factures,
✓ smoker: presence de fumeurs dans la fête,
✓ day : jour de la semaine,
✓ time : moment de la journée,
✓ size : taille de la fête.
1) Lire et placer dans un dataFrame les données de pourboire à partir du fichier
« [Link]».
2) Utiliser les differents attributs du dataframe pour afficher les différents informtions
relatives au dataset : Taille du dataset, type des variables, étiquette des variables.
3) Donner une statistique sommaire (count, mean, std : écart-type, min, max) et celle
associé aux différentes variables quantitatives du jeu de données.
4) Représenter séparément dans un graphique l’histogramme de distribution de «
total_bill », celui de « tip » et un graphique boxplot (boîte à moustaches) pour visualiser
et comparer les médianes associées aux variables « total_bill» et « tip ».
5) Déterminer la corrélation (utiliser la fonction « corr() » ) entre les variables « total_bill»
et « tip »
6) Afficher la somme de « total_bill» et « tip » par sex et par Time et par jour
7) Afficher la moyenne de « total_bill» et « tip » par sex et par Time et par jour
8) Exporter ces résultats en fichier Excel
9) Exporter votre dataframe vers une table SQL