TP 4 Magistère: Analyse des données du Titanic
2016-2017
La séance sera consacrée à la manipulation de données avec la librairie pandas, et utilisera comme jeux de
données la base de passagers du Titanic, et une petite base contenant des statistiques de pourboires dans un
restaurant.
Pour avoir accès aux fonctions graphiques, vous utiliserez aussi pylab (cf exemples du cours), le tout peut
etre importé comme suit :
import pandas as pds
import pylab
df_tips = pds.read_csv("[Link]
df_titanic = pds.read_excel("[Link]
Le fichier peut etre aussi sauvé localement avec vos programmes. La variable df xxx est alors un objet
DataFrame de la librairie pandas.
Rappel: vous avez la documentation d’une méthode en faisant help(nom de la méthode) dans l’interpréteur,
ou dans spyder avec l’onglet de documentation. Pour avoir l’aide sur la méthode x d’une classe il faut faire
référence à une instance y de la class, par exemple help(y.x).
N’hésitez pas à regarder les (nombreuses) options disponibles des méthodes utilisées.
Exploration basique
Rappel de méthodes et attributs utiles :
• les variables (= les noms des colonnes) sont obtenus via [Link]
• vous accédez aux valeurs d’une colonne avec son nom en indice par exemple df[”age”] donne une série
de donnée avec tous les ages.
• vous accédez à une ligne particulière avec l’attribut loc/iloc, à un ensemble de lignes avec des intervalles
d’index.
Pourboires (tip) Regardez les résultats de :
df_tips.head(10)
df_tips["sex"]
df_tips[df_tips["smoker"]=="No"]
df_tips["tip"].describe()
Ajoutez une colonne contenant le pourcentage du pourboire (en fonction de la note ’total bill’). Faites
une figure donnant la distribution des pourboires en pourcentage.
1
Titanic Regardez les résultats de :
[Link][3]
df[3:10]
df["age"][10:15]
• Regardez les distributions d’age, de sexe, de classe d’embarquement des survivants, et faites des figures
appropriées (histogrammes, moustaches, bâtons...).
Analyse des données
Pourboires
• faites une ou plusieurs figures comparant les moyennes des additions et des pourcentages de pourboire
en fonction des catégories des colonnes “sex” et “smoker”
• comparez les factures en fonction du jour; même question en fonction du repas (midi/soir)
Titanic
• En utilisant la fonction pivot table, analysez les pourcentages de survivants selon l’age, le sexe, et la
classe dans laquelle ils ont embarqué.
• Donnez le taux de survie des moins de 16 ans par classe
• On peut faire des paquets de données en coupant un ensemble de valeurs selon des intervalles avec la
méthode ”cut” de pandas.
Donnez les taux de survie par classe d’age, puis par classe d’embarquement, puis les deux ensembles
en utilisant la méthode groupby.