0% ont trouvé ce document utile (0 vote)
52 vues2 pages

TP4 2017

Ce document décrit un TP sur l'analyse de données du Titanic et de pourboires dans un restaurant à l'aide de la librairie pandas. Il présente des méthodes et attributs utiles pour l'exploration et l'analyse des données, ainsi que des exemples d'analyses à réaliser sur chaque jeu de données.

Transféré par

sportbullarigia
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
52 vues2 pages

TP4 2017

Ce document décrit un TP sur l'analyse de données du Titanic et de pourboires dans un restaurant à l'aide de la librairie pandas. Il présente des méthodes et attributs utiles pour l'exploration et l'analyse des données, ainsi que des exemples d'analyses à réaliser sur chaque jeu de données.

Transféré par

sportbullarigia
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP 4 Magistère: Analyse des données du Titanic

2016-2017

La séance sera consacrée à la manipulation de données avec la librairie pandas, et utilisera comme jeux de
données la base de passagers du Titanic, et une petite base contenant des statistiques de pourboires dans un
restaurant.
Pour avoir accès aux fonctions graphiques, vous utiliserez aussi pylab (cf exemples du cours), le tout peut
etre importé comme suit :
import pandas as pds
import pylab
df_tips = pds.read_csv("[Link]
df_titanic = pds.read_excel("[Link]

Le fichier peut etre aussi sauvé localement avec vos programmes. La variable df xxx est alors un objet
DataFrame de la librairie pandas.
Rappel: vous avez la documentation d’une méthode en faisant help(nom de la méthode) dans l’interpréteur,
ou dans spyder avec l’onglet de documentation. Pour avoir l’aide sur la méthode x d’une classe il faut faire
référence à une instance y de la class, par exemple help(y.x).
N’hésitez pas à regarder les (nombreuses) options disponibles des méthodes utilisées.

Exploration basique
Rappel de méthodes et attributs utiles :

• les variables (= les noms des colonnes) sont obtenus via [Link]

• vous accédez aux valeurs d’une colonne avec son nom en indice par exemple df[”age”] donne une série
de donnée avec tous les ages.
• vous accédez à une ligne particulière avec l’attribut loc/iloc, à un ensemble de lignes avec des intervalles
d’index.

Pourboires (tip) Regardez les résultats de :

df_tips.head(10)
df_tips["sex"]
df_tips[df_tips["smoker"]=="No"]
df_tips["tip"].describe()

Ajoutez une colonne contenant le pourcentage du pourboire (en fonction de la note ’total bill’). Faites
une figure donnant la distribution des pourboires en pourcentage.

1
Titanic Regardez les résultats de :

[Link][3]
df[3:10]
df["age"][10:15]

• Regardez les distributions d’age, de sexe, de classe d’embarquement des survivants, et faites des figures
appropriées (histogrammes, moustaches, bâtons...).

Analyse des données


Pourboires
• faites une ou plusieurs figures comparant les moyennes des additions et des pourcentages de pourboire
en fonction des catégories des colonnes “sex” et “smoker”
• comparez les factures en fonction du jour; même question en fonction du repas (midi/soir)

Titanic

• En utilisant la fonction pivot table, analysez les pourcentages de survivants selon l’age, le sexe, et la
classe dans laquelle ils ont embarqué.
• Donnez le taux de survie des moins de 16 ans par classe
• On peut faire des paquets de données en coupant un ensemble de valeurs selon des intervalles avec la
méthode ”cut” de pandas.
Donnez les taux de survie par classe d’age, puis par classe d’embarquement, puis les deux ensembles
en utilisant la méthode groupby.

Vous aimerez peut-être aussi