0% ont trouvé ce document utile (0 vote)

136 vues13 pages

Module 5 Python-Utilisation Pour La Data Science - Week4

Ce document décrit diverses fonctionnalités de Pandas pour le traitement des données. Il présente des fonctions de résumé, de mappage et d'application pour transformer les données. Il montre également comment regrouper, trier et fusionner des données.

Transféré par

syslinux2000

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

136 vues13 pages

Module 5 Python-Utilisation Pour La Data Science - Week4

Transféré par

syslinux2000

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

4 Traitement des données avec Pandas

4.1 Summary functions

Toute les méthodes dans cette section sont applicables à la fois pour une série et une dataframe

samples.points.describe()

Output:

count 129971.000000
mean 88.447138
...
75% 91.000000
max 100.000000
Name: points, Length: 8, dtype: float64

Par exemple, pour voir la moyenne des points attribués, nous pouvons utiliser la fonction mean ():

samples.points.mean()

Output:

88.44713820775404

Pour voir une liste de valeurs uniques, nous pouvons utiliser la fonction unique ():

samples.taster_name.unique()

Output:

array(['Kerin O’Keefe', 'Roger Voss', 'Paul Gregutt',

'Alexander Peartree', 'Michael Schachner', 'Anna Lee C. Iijima',
'Virginie Boone', 'Matt Kettmann', nan, 'Sean P. Sullivan',
'Jim Gordon', 'Joe Czerwinski', 'Anne Krebiehl\xa0MW',
'Lauren Buzzeo', 'Mike DeSimone', 'Jeff Jenssen',
'Susan Kostrzewa', 'Carrie Dykes', 'Fiona Adams',
'Christina Pickard'], dtype=object)
Pour voir une liste de valeurs uniques et leur fréquence d'apparition dans l'ensemble de données, nous
pouvons utiliser la méthode value_counts ():

samples.taster_name.value_counts()

Output:

Roger Voss 25514

Michael Schachner 15134
...
Fiona Adams 27
Christina Pickard 6
Name: taster_name, Length: 19, dtype: int64

4.2 Map() et apply()

Map est un terme, emprunté aux mathématiques, pour une fonction qui prend un ensemble de valeurs et
les «mappe» à un autre ensemble de valeurs. En science des données, nous avons souvent besoin de créer
de nouvelles représentations à partir de données existantes ou de transformer des données. Maps sont ce
qui gère ce travail, ce qui les rend extrêmement importantes pour faire votre travail!

Il existe deux façon de mappage que vous utiliserez souvent.

Par exemple, supposons que nous voulions remanier les scores moyens des vins reçus à 0. Nous pouvons le
faire comme suit:

sample_points_mean = samples.points.mean()
samples.points.map(lambda p: p - sample_points_mean)

Output:

0 -1.447138
1 -1.447138
...
129969 1.552862
129970 1.552862
Name: points, Length: 129971, dtype: float64

La fonction que vous transmettez à map () doit attendre une valeur unique de la série et renvoyer une
version transformée de cette valeur. Map () renvoie une nouvelle série dans laquelle toutes les valeurs ont
été transformées par votre fonction.
apply () est la méthode équivalente si nous voulons transformer un DataFrame entier en appelant une
méthode personnalisée sur chaque ligne(avec axis='columns' sinon axis='index' pour transformer chaque
colonne).

sample_points_mean = samples.points.mean()
def remean_points(row):
row.points = row.points - review_points_mean
return row

samples.apply(remean_points, axis='columns')

“
Notez que map () et apply () renvoient respectivement de nouveaux Series et DataFrames
transformés. Ils ne modifient pas les données d'origine sur lesquelles ils sont appelés

Nous pouvons aussi proposer une solution comme la façon du traitement de matrice dans Numpy :

Avec le built-in opération, nous avons:

sample_points_mean = samples.points.mean()
samples.points - sample_points_mean

Output:
0 -1.447138
1 -1.447138
...
129969 1.552862
129970 1.552862
Name: points, Length: 129971, dtype: float64

Dans ce code, nous effectuons une opération entre plusieurs valeurs sur le côté gauche (tout dans la série)
et une seule valeur sur le côté droit (la valeur moyenne). Pandas regarde cette expression et comprend que
nous devons vouloir soustraire cette valeur moyenne de chaque valeur de l'ensemble de données.

NOUS POUVONS DONC EFFECTUER DES OPERATION ENTRE COLONNES, QUI SONT DES SERIES DE LA
MEME LONGUEUR

samples.price / samples.points

4.3 Grouping & Sorting

4.3.1 grouping &aggregation

Prenons un dataframe qui s'appelle df

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',

'foo', 'bar', 'foo', 'foo'],
'B': ['one', 'one', 'two', 'three',
'two', 'two', 'one', 'three'],
'C': np.random.randn(8),
'D': np.random.randn(8)})

A B C D
0 foo one 1.346061 -1.577585
1 bar one 1.511763 0.396823
2 foo two 1.627081 -0.105381
3 bar three -0.990582 -0.532532
4 foo two -0.441652 1.453749
5 bar two 1.211526 1.208843
6 foo one 0.268520 -0.080952
7 foo three 0.024580 -0.264610

Sur un DataFrame, nous obtenons un objet GroupBy en appelant groupby (). Nous pourrions naturellement
regrouper par les colonnes A ou B, ou les deux. Et si on applique sum() aux résultants GroupBy :
df.groupby('A').sum()

C D
A
bar 1.732707 1.073134
foo 2.824590 -0.574779

df.groupby(['A', 'B']).sum()

C D
A B
bar one 1.511763 0.396823
three -0.990582 -0.532532
two 1.211526 1.208843
foo one 1.614581 -1.658537
three 0.024580 -0.264610
two 1.185429 1.348368

Les fonctions d'agrégation sont celles qui réduisent la dimension des objets renvoyés. Certaines fonctions
d'agrégation courantes sont présentées ci-dessous:
Function Description

mean() Compute mean of groups

sum() Compute sum of group values

size() Compute group sizes

count() Compute count of group

std() Standard deviation of groups

var() Compute variance of groups

sem() Standard error of the mean of groups

describe() Generates descriptive statistics

first() Compute first of group values

last() Compute last of group values

nth() Take nth value, or a subset if n is a list

min() Compute min of group values

max() Compute max of group values

4.3.2 sorting

dates = pd.date_range('20130101', periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

output:

A B C D
2013-01-01 0.469112 -0.282863 -1.509059 -1.135632
2013-01-02 1.212112 -0.173215 0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929 1.071804
2013-01-04 0.721555 -0.706771 -1.039575 0.271860
2013-01-05 -0.424972 0.567020 0.276232 -1.087401
2013-01-06 -0.673690 0.113648 -1.478427 0.524988

Sorting by an axis:

#Sorting par colonne avec axis=1, dans l'ordre décroissant

df.sort_index(axis=1, ascending=False)
D C B A
2013-01-01 -1.135632 -1.509059 -0.282863 0.469112
2013-01-02 -1.044236 0.119209 -0.173215 1.212112
2013-01-03 1.071804 -0.494929 -2.104569 -0.861849
2013-01-04 0.271860 -1.039575 -0.706771 0.721555
2013-01-05 -1.087401 0.276232 0.567020 -0.424972
2013-01-06 0.524988 -1.478427 0.113648 -0.673690

Sorting by values:

#sorting par la valeur croissante de B

df.sort_values(by='B')

A B C D
2013-01-03 -0.861849 -2.104569 -0.494929 1.071804
2013-01-04 0.721555 -0.706771 -1.039575 0.271860
2013-01-01 0.469112 -0.282863 -1.509059 -1.135632
2013-01-02 1.212112 -0.173215 0.119209 -1.044236
2013-01-06 -0.673690 0.113648 -1.478427 0.524988
2013-01-05 -0.424972 0.567020 0.276232 -1.087401

5 Merge

5.1 Concat

pandas fournit diverses fonctionnalités pour combiner facilement des objets Series et DataFrame avec
divers types de logique d'ensemble pour les index et la fonctionnalité d'algèbre relationnelle dans le cas
d'opérations de type jointure / fusion.

df = pd.DataFrame(np.random.randn(10, 4))
df

0 1 2 3
0 -0.548702 1.467327 -1.015962 -0.483075
1 1.637550 -1.217659 -0.291519 -1.745505
2 -0.263952 0.991460 -0.919069 0.266046
3 -0.709661 1.669052 1.037882 -1.705775
4 -0.919854 -0.042379 1.247642 -0.009920
5 0.290213 0.495767 0.362949 1.548106
6 -1.131345 -0.089329 0.337863 -0.945867
7 -0.932132 1.956030 0.017587 -0.016692
8 -0.575247 0.254161 -1.143704 0.215897
9 1.193555 -0.077118 -0.408530 -0.862495

# break it into pieces

pieces = [df[:3], df[3:7], df[7:]]
pd.concat(pieces)

5.2 Join

SQL style merges

left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})

right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

left

key lval
0 foo 1
1 foo 2

right

key rval
0 foo 4
1 foo 5

pd.merge(left, right, on='key')

key lval rval

0 foo 1 4
1 foo 1 5
2 foo 2 4
3 foo 2 5

6 Plotting
6.1 Basic plottin

Nous utilisons la convention standard pour référencer l'API matplotlib:

import matplotlib.pyplot as plt

ts = pd.Series(np.random.randn(1000),
index=pd.date_range('1/1/2000', periods=1000))

ts = ts.cumsum() #somme cumulative

ts.plot()

6.2 Bar plots

df2 = pd.DataFrame(np.random.rand(10, 4), columns=['a', 'b', 'c', 'd'])

df2.plot.bar()
df2.plot.bar(stacked=True)
6.3 Scatter plot

Le nuage de points nécessite des colonnes numériques pour les axes x et y. Celles-ci peuvent être spécifiées
par les mots clés «x» et «y».

df = pd.DataFrame(np.random.rand(50, 4), columns=['a', 'b', 'c', 'd'])

df.plot.scatter(x='a', y='b');

7 CSV & Excel

Ecriture dans un fichier csv

df.to_csv('foo.csv')

Lecture à partir d'un fichier csv.

pd.read_csv('foo.csv')

Unnamed: 0 A B C D
0 2000-01-01 0.350262 0.843315 1.798556 0.782234
1 2000-01-02 -0.586873 0.034907 1.923792 -0.562651
2 2000-01-03 -1.245477 -0.963406 2.269575 -1.612566
3 2000-01-04 -0.252830 -0.498066 3.176886 -1.275581
4 2000-01-05 -1.044057 0.118042 2.768571 0.386039
.. ... ... ... ... ...
995 2002-09-22 -48.017654 31.474551 69.146374 -47.541670
996 2002-09-23 -47.207912 32.627390 68.505254 -48.828331
997 2002-09-24 -48.907133 31.990402 67.310924 -49.391051
998 2002-09-25 -50.146062 33.716770 67.717434 -49.037577
999 2002-09-26 -49.724318 33.479952 68.108014 -48.822030

[1000 rows x 5 columns]

Ecrire dans un fichier Excel.

df.to_excel('foo.xlsx', sheet_name='Sheet1')

Reading from an excel file.

pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

[1000 rows x 5 columns]

Vous aimerez peut-être aussi

tp2 ML
Pas encore d'évaluation
tp2 ML
7 pages
TP 4 Analyse Exploratoire de Données AED
Pas encore d'évaluation
TP 4 Analyse Exploratoire de Données AED
5 pages
TP2 - Python
Pas encore d'évaluation
TP2 - Python
4 pages
Optimisation et Évaluation des Modèles
100% (1)
Optimisation et Évaluation des Modèles
47 pages
Questions clés en Machine Learning
Pas encore d'évaluation
Questions clés en Machine Learning
8 pages
TP - Matplotlib
Pas encore d'évaluation
TP - Matplotlib
2 pages
TalkFile - Introduction Au Deep Learning Avec Pytorc - 250411 - 131528
Pas encore d'évaluation
TalkFile - Introduction Au Deep Learning Avec Pytorc - 250411 - 131528
68 pages
Controle 2
Pas encore d'évaluation
Controle 2
2 pages
Arbres de Décision: Concepts et Algorithmes
100% (1)
Arbres de Décision: Concepts et Algorithmes
28 pages
TD N°1 Apprentissage M1-IA 2022-2023 CORR
Pas encore d'évaluation
TD N°1 Apprentissage M1-IA 2022-2023 CORR
7 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
16 pages
Cours Analyse de Données
Pas encore d'évaluation
Cours Analyse de Données
177 pages
Analyse Et Fouille Des Donnees
Pas encore d'évaluation
Analyse Et Fouille Des Donnees
9 pages
Rapport of Machine Learning
Pas encore d'évaluation
Rapport of Machine Learning
63 pages
Cours de Strategie D'entreprise Licence Mop 2025 Premiere Partie
Pas encore d'évaluation
Cours de Strategie D'entreprise Licence Mop 2025 Premiere Partie
25 pages
2-Cours Sécurité 2 (ACL) VF
Pas encore d'évaluation
2-Cours Sécurité 2 (ACL) VF
35 pages
Modèles de recherche d'information
Pas encore d'évaluation
Modèles de recherche d'information
16 pages
Polycopie SEP 2021-Converti
Pas encore d'évaluation
Polycopie SEP 2021-Converti
46 pages
Memoire Byemba Kayembe Josué
Pas encore d'évaluation
Memoire Byemba Kayembe Josué
86 pages
7-Analyse de Reseaux
Pas encore d'évaluation
7-Analyse de Reseaux
28 pages
Machine Learning Python Guide
100% (1)
Machine Learning Python Guide
6 pages
La Data Science de A À Z Pour Les Débutants
Pas encore d'évaluation
La Data Science de A À Z Pour Les Débutants
115 pages
Trafic de données avec Python Pandas
100% (1)
Trafic de données avec Python Pandas
11 pages
1-Simple - Linear - Regression - Jupyter Notebook
Pas encore d'évaluation
1-Simple - Linear - Regression - Jupyter Notebook
9 pages
Introduction à la Data Science
Pas encore d'évaluation
Introduction à la Data Science
23 pages
Machine Learning Regression Logistique
Pas encore d'évaluation
Machine Learning Regression Logistique
22 pages
TP: Arbres de Décision en ML
Pas encore d'évaluation
TP: Arbres de Décision en ML
6 pages
Cours de Statistique Descriptive PDF
Pas encore d'évaluation
Cours de Statistique Descriptive PDF
68 pages
Notes de Cours Ensemble Learning
Pas encore d'évaluation
Notes de Cours Ensemble Learning
6 pages
Cours Complet
Pas encore d'évaluation
Cours Complet
290 pages
Tp8 K-meansHaoop
Pas encore d'évaluation
Tp8 K-meansHaoop
11 pages
TP1: Python et Machine Learning
Pas encore d'évaluation
TP1: Python et Machine Learning
2 pages
Réseaux Neuronaux Convolutifs
Pas encore d'évaluation
Réseaux Neuronaux Convolutifs
52 pages
Techniques de L'ingénieur - Protocole de Routage BGP-IV
Pas encore d'évaluation
Techniques de L'ingénieur - Protocole de Routage BGP-IV
17 pages
SVM Slides
Pas encore d'évaluation
SVM Slides
39 pages
Rapport de Projet DATAMINING
Pas encore d'évaluation
Rapport de Projet DATAMINING
16 pages
Cours Complet sur les Réseaux de Capteurs
Pas encore d'évaluation
Cours Complet sur les Réseaux de Capteurs
84 pages
Étude sur SonarQube et qualité de code
Pas encore d'évaluation
Étude sur SonarQube et qualité de code
5 pages
Bentahar Atef Boukhalfa Hanane Cheval de Troie
Pas encore d'évaluation
Bentahar Atef Boukhalfa Hanane Cheval de Troie
6 pages
Performances des Processeurs MIPS
Pas encore d'évaluation
Performances des Processeurs MIPS
1 page
ACP : Guide d'Analyse Multivariée et Visualisation
Pas encore d'évaluation
ACP : Guide d'Analyse Multivariée et Visualisation
18 pages
TP - Analyse, La Prédiction Et La Visualisation Des Données
Pas encore d'évaluation
TP - Analyse, La Prédiction Et La Visualisation Des Données
2 pages
Workshop Advanced Big Data
Pas encore d'évaluation
Workshop Advanced Big Data
7 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
61 pages
Capture D'écran . 2024-08-15 À 15.18.20
Pas encore d'évaluation
Capture D'écran . 2024-08-15 À 15.18.20
178 pages
Exercices Analyse de Données
Pas encore d'évaluation
Exercices Analyse de Données
13 pages
Perceptrons: Concepts et Pratique
Pas encore d'évaluation
Perceptrons: Concepts et Pratique
41 pages
Cours Apprentissage Renforcement
Pas encore d'évaluation
Cours Apprentissage Renforcement
2 pages
Atelier Python IA pour Débutants
Pas encore d'évaluation
Atelier Python IA pour Débutants
3 pages
Apprentissage Supervisé par Ricco Rakotomalala
Pas encore d'évaluation
Apprentissage Supervisé par Ricco Rakotomalala
13 pages
Exemple K Means Et HCA PDF
Pas encore d'évaluation
Exemple K Means Et HCA PDF
4 pages
Cours sur la Reconnaissance de Formes
Pas encore d'évaluation
Cours sur la Reconnaissance de Formes
42 pages
Analyse des relations et méthodes statistiques
Pas encore d'évaluation
Analyse des relations et méthodes statistiques
5 pages
Réseaux Neurones : Histoire et Applications
Pas encore d'évaluation
Réseaux Neurones : Histoire et Applications
56 pages
24.introduction À Powershell
Pas encore d'évaluation
24.introduction À Powershell
3 pages
Classification KNN en Science des Données
Pas encore d'évaluation
Classification KNN en Science des Données
19 pages
Exercices d'Optimisation Combinatoire
0% (1)
Exercices d'Optimisation Combinatoire
2 pages
Python Pour Les Économistes
Pas encore d'évaluation
Python Pour Les Économistes
93 pages
Python Pour Les Economistes-Pandas
Pas encore d'évaluation
Python Pour Les Economistes-Pandas
43 pages
Les Fonction en Pandas
Pas encore d'évaluation
Les Fonction en Pandas
34 pages
MySQL: Exploitation de Données Libres
Pas encore d'évaluation
MySQL: Exploitation de Données Libres
9 pages
Concepts et Modèles de Merise 2
Pas encore d'évaluation
Concepts et Modèles de Merise 2
83 pages
Les Systemes D Information Nouvel Outil
Pas encore d'évaluation
Les Systemes D Information Nouvel Outil
10 pages
Installer un Contrôleur de Domaine
Pas encore d'évaluation
Installer un Contrôleur de Domaine
15 pages
WINDOWS SERVEUR 2019 (Module 1)
Pas encore d'évaluation
WINDOWS SERVEUR 2019 (Module 1)
41 pages
GLENAZ Margot
Pas encore d'évaluation
GLENAZ Margot
69 pages
Administration Système Windows 2012 R2 - CH1 2021
Pas encore d'évaluation
Administration Système Windows 2012 R2 - CH1 2021
35 pages
Installation de serveurs DNS redondants
Pas encore d'évaluation
Installation de serveurs DNS redondants
31 pages
Introduction au Big Data et ses principes
Pas encore d'évaluation
Introduction au Big Data et ses principes
45 pages
Architectures CNN : LeNet, AlexNet, VGGNet
100% (1)
Architectures CNN : LeNet, AlexNet, VGGNet
16 pages
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
100% (1)
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
9 pages
Presentation Pfe 180722163008
100% (1)
Presentation Pfe 180722163008
46 pages
Product Spec DS923+ Fre
Pas encore d'évaluation
Product Spec DS923+ Fre
14 pages
Tp3 - TP Sqoop
Pas encore d'évaluation
Tp3 - TP Sqoop
7 pages
Évaluation des algorithmes de mémoire
100% (1)
Évaluation des algorithmes de mémoire
12 pages
Délimitation des trames en réseaux
0% (1)
Délimitation des trames en réseaux
14 pages
Installation et Mise à Jour de GLPI sur CentOS
Pas encore d'évaluation
Installation et Mise à Jour de GLPI sur CentOS
9 pages
Modèle Relationnel des Bases de Données
Pas encore d'évaluation
Modèle Relationnel des Bases de Données
51 pages
Big Data GR2
Pas encore d'évaluation
Big Data GR2
14 pages
Formation Access 2007 : Guide Complet
100% (1)
Formation Access 2007 : Guide Complet
27 pages
Récupérer des données avec Toutou Linux
Pas encore d'évaluation
Récupérer des données avec Toutou Linux
6 pages
LA TELEINFORMATIQUE: Notions de Base
Pas encore d'évaluation
LA TELEINFORMATIQUE: Notions de Base
22 pages
Types et opérations sur les listes chaînées
Pas encore d'évaluation
Types et opérations sur les listes chaînées
25 pages
TD Liste Simplement Chainée & Correction
Pas encore d'évaluation
TD Liste Simplement Chainée & Correction
3 pages
Codage Des Images Matricielles
Pas encore d'évaluation
Codage Des Images Matricielles
16 pages
Introduction à CouchDB pour le Web
Pas encore d'évaluation
Introduction à CouchDB pour le Web
8 pages
Exercices sur l'adressage réseau
Pas encore d'évaluation
Exercices sur l'adressage réseau
4 pages
Insertion de Medias en HTML
Pas encore d'évaluation
Insertion de Medias en HTML
4 pages
Fi Chier
Pas encore d'évaluation
Fi Chier
2 pages
Programmation Assembleur 8086
100% (2)
Programmation Assembleur 8086
12 pages
4algo Controle4-Pratique
Pas encore d'évaluation
4algo Controle4-Pratique
3 pages
Solutions de Stockage d'Entreprise : DAS, NAS, SAN
Pas encore d'évaluation
Solutions de Stockage d'Entreprise : DAS, NAS, SAN
56 pages
Contrôle d'erreurs par bits de parité
Pas encore d'évaluation
Contrôle d'erreurs par bits de parité
2 pages
Examen TRO 2017
100% (2)
Examen TRO 2017
3 pages
Corrigé Examen Algo2 13/14
Pas encore d'évaluation
Corrigé Examen Algo2 13/14
6 pages
Introduction aux réseaux ATM et leurs fonctionnalités
Pas encore d'évaluation
Introduction aux réseaux ATM et leurs fonctionnalités
17 pages
Comment Cracker Un Document PDF
Pas encore d'évaluation
Comment Cracker Un Document PDF
2 pages
Examen Master en Sécurité Informatique
Pas encore d'évaluation
Examen Master en Sécurité Informatique
11 pages
Série 1
Pas encore d'évaluation
Série 1
2 pages
Cours Chaine Caracteres
Pas encore d'évaluation
Cours Chaine Caracteres
4 pages
Introduction aux Microcontrôleurs PIC
Pas encore d'évaluation
Introduction aux Microcontrôleurs PIC
46 pages
E-COM2 Forme Normal Et Dependance Fonctionel
Pas encore d'évaluation
E-COM2 Forme Normal Et Dependance Fonctionel
4 pages