0% ont trouvé ce document utile (0 vote)
20 vues24 pages

Pandas Et Python

Ce document décrit comment utiliser la bibliothèque Pandas de Python pour manipuler et analyser des données. Pandas permet d'importer des données de plusieurs sources telles que des fichiers Excel, CSV et des bases de données SQL, et de les représenter sous forme de DataFrames. Les DataFrames permettent de sélectionner des lignes et des colonnes, de trier et de filtrer des données, d'appliquer des fonctions aux colonnes, et de supprimer des lignes et des colonnes dupliquées.

Transféré par

ScribdTranslations
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
20 vues24 pages

Pandas Et Python

Ce document décrit comment utiliser la bibliothèque Pandas de Python pour manipuler et analyser des données. Pandas permet d'importer des données de plusieurs sources telles que des fichiers Excel, CSV et des bases de données SQL, et de les représenter sous forme de DataFrames. Les DataFrames permettent de sélectionner des lignes et des colonnes, de trier et de filtrer des données, d'appliquer des fonctions aux colonnes, et de supprimer des lignes et des colonnes dupliquées.

Transféré par

ScribdTranslations
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Pandas et Python

Pandas est une bibliothèque open source de Python qui fournit des analyses et
manipulation de données dansla programmation en Python.
C'est une bibliothèque très prometteuse pour la représentation des données, le filtrage et la programmation
statistique. La pièce la plus importante dans pandas est le DataFrame où il stocke et joue
avec les données.

Dans ce tutoriel, vous apprendrez ce qu'est un DataFrame, comment le créer à partir de différentes sources,
comment l'exporter vers différents résultats et comment manipuler ses données.

Installer pandas
Pouvez-vous installer pandas dans Pythonen utilisant pip. Exécutez la commande suivante dans cmd :
pipinstallerpandas

De plus, vous pouvez installer pandas en utilisant conda comme ceci :

condainstallpandas

Lire un fichier Excel


Vous pouvez lire à partir d'un fichier Excel en utilisant la méthode read_excel() de pandas. Pour cela,
vous devez importer un module supplémentaire appelé xlrd.

Installez xlrd en utilisant pip :


pipinstallerxlrd

L'exemple suivant montre comment lire à partir d'une feuille Excel :

1. Nous créons une feuille Excel avec les contenus suivants :

2. Importe le module pandas.


importer pandas
3. Nous passerons le nom du fichier Excel et le numéro de la feuille dont nous avons besoin
lire les données avec la méthode read_excel().
pandas.read_excel('[Link]', 'Feuille1')
Le fragment précédent générera le résultat suivant :
Si vous vérifiez le type de sortie en utilisant le mot-clé de type, vous obtiendrez le résultat suivant :

<classe '[Link]'>
Ce résultat s'appelle DataFrame ! C'est l'unité de base de pandas avec laquelle nous allons
à traiter jusqu'à la fin du tutoriel.
Le DataFrame est une structure à 2 dimensions étiquetée où nous pouvons stocker
données de différents types. DataFrame est similaire à une table SQL ou à une feuille de calcul de
Excel.

Importer un fichier CSV


Pour lire un fichier CSV, vous pouvez utiliser la méthode read_csv() de pandas.

Importez le module pandas :

importer pandas
Maintenant, appelez la méthode read_csv() de la manière suivante :

pandas.read_csv('[Link]')
[Link] a le contenu suivant :
Le code générera le DataFrame suivant :

Lire un fichier texte


Nous pouvons également utiliser la méthode read_csv de pandas pour lire à partir d'un fichier texte ;
Considérez l'exemple suivant :

importpandas

pandas.lire_csv('[Link]')
Le fichier [Link] a le format suivant :
La sortie du code précédent sera :

Ce fichier texte est traité comme un fichier CSV car nous avons des éléments séparés
par des virgules. Le fichier peut également utiliser un autre délimiteur, comme un point-virgule, un
tabulateur, etc.

Supposons que nous avons un délimiteur de tabulation et que le fichier ressemble à ceci :
Lorsque le délimiteur est une tabulation, nous obtiendrons le résultat suivant :

Comme pandas n'a pas d'idée du délimiteur, traduisez la tabulation par \ t.

Pour définir le caractère de tabulation comme un délimiteur, passez l'argument delimiter de


cette manière :

pandas.read_csv('[Link]', delimiter='\t')
Maintenant la sortie sera :

Ça semble correct maintenant.


Lire SQL
Vous pouvez utiliser la méthode read_sql () de pandas pour lire à partir d'une base de données SQL. Cela se
démontre dans l'exemple suivant :

importersqlite3

importer pandas

con = [Link]('[Link]')

pandas.read_sql('sélectionner * de Employee', con)


Dans cet exemple, nous nous connectons à unebase de données SQLite3qui a une table appelée
«Employé». En utilisant la méthode read_sql() de pandas, nous passons une requête et un objet de
connexion à la méthode read_sql(). La requête récupère toutes les données de la table.
Notre tableau des employés ressemble à ce qui suit :

Lorsque vous exécuterez le code précédent, la sortie sera comme suit :


Sélectionner des colonnes
Supposons que nous avons trois colonnes dans la table Employé de cette manière :

Pour sélectionner des colonnes de la table, nous passerons la requête suivante :

sélectionner Nom, Métier de Employé


La déclaration du code de pandas sera la suivante :
pandas.read_sql('sélectionner Nom, MétierDeLEmployé', con)

Nous pouvons également sélectionner une colonne d'une table en accédant au DataFrame a.
Considère l'exemple suivant :

x = pandas.read_sql('sélectionner * de Employé', con)

Nom
Le résultat sera le suivant :

Sélectionner des lignes par valeur


Tout d'abord, nous créerons un DataFrame à partir duquel nous sélectionnerons des lignes.

Pour créer un DataFrame, considère le code suivant :

importer pandas

frame_data = {'name': ['James','Jason','Rogers'],'age': [18,20,22],'job': ['Assistant','Manager',


Clerk

df = [Link](frame_data)
Dans ce code, nous créons un DataFrame avec trois colonnes et trois lignes en utilisant la méthode
DataFrame () de pandas. Le résultat sera le suivant :

Pour sélectionner une ligne en fonction de sa valeur, exécutez la commande suivante

[Link][df['name'] =='Jason']
[Link] [] ou [Link] [] est un tableau booléen qui peut être utilisé pour accéder à des lignes ou
colonnes par valeurs ou étiquettes. Dans le code précédent, on recherchera la ligne où le
le nom est égal à Jason.

La sortie sera:

Sélectionner une ligne par index


Pour sélectionner une ligne par son index, nous pouvons utiliser l'opérateur de découpage (:) ou le
ajuster [Link] [].

Considérez le code suivant :

>>> frame_data = {'name': ['James','Jason','Rogers'],'age': [18,20,22],'job': ['Assistant','Manager',


Comptable

>>> df = [Link](frame_data)
Nous créons un DataFrame. Maintenant, nous allons accéder à une ligne en utilisant [Link] []:

>>> [Link][1]
Comme vous pouvez le voir, nous avons récupéré une ligne. Nous pouvons faire la même chose en utilisant l'opérateur de
segmenter de la manière suivante :

>>> df[1:2]

Changer le type de colonne


Le type de données d'une colonne peut être changé en utilisant l'attribut astype()
DataFrame. Pour vérifier le type de données des colonnes, nous utilisons l'attribut dtypes de
DataFrame.

>>> df.types_données
La sortie sera :

Maintenant pour convertir le type de données d'un à l'autre :

>>> [Link] = [Link](str)


Nous cherchons la colonne 'name' de notre DataFrame et changeons son type de données d'objet.
une chaîne de caractères.

Appliquer une fonction aux colonnes / lignes


Pour appliquer une fonction à une colonne ou une ligne, vous pouvez utiliser la méthode apply() de
DataFrame.

Considérez l'exemple suivant :

>>> frame_data = {'A': [1,2,3],'B': [18,20,22],'C': [54,12,13]}


>>> df = [Link](frame_data)
Nous créons un DataFrame et ajoutons des valeurs de type entier dans les lignes. Pour appliquer une
fonction, par exemple, la racine carrée dans les valeurs, nous importerons le modulenumpypour
utiliser la fonction sqrt de cette manière :
>>>importer numpy comme np

>>>[Link]([Link])
La sortie sera la suivante :

Pour appliquer une fonction de somme, le code sera :

>>> [Link]([Link])

Pour appliquer la fonction à une colonne spécifique, vous pouvez spécifier la colonne de la
la forme suivante :

>>>df['A'].apply([Link])

Trier les valeurs / trier par colonne


Pour trier les valeurs dans un DataFrame, utilise la méthode sort_values() du DataFrame.

Créez un DataFrame avec des valeurs entières :

>>> frame_data = {'A': [23,12,30],'B': [18,20,22],'C': [54,112,13]}

>>> df = [Link](frame_data)
Maintenant pour trier les valeurs :

>>> df.trier_values(par=['A'])
La sortie sera :
La méthode sort_values() a un attribut "by" qui est nécessaire. Dans le code précédent, les
les valeurs sont triées par la colonne A. Pour trier par plusieurs colonnes, le code est le
suivant :

>>> df.sort_values(par=['A','B'])
Si vous souhaitez trier par ordre décroissant, définissez l'attribut ascending de set_values sur
Faux de la manière suivante :

>>>df.sort_values(par=['A'], ascending=False)
La sortie sera :

Supprimer / Éliminer les doublons


Pour supprimer les lignes dupliquées d'un DataFrame, utilisez la méthode drop_duplicates() du
DataFrame.

Considérez l'exemple suivant :

>>> frame_data = {'name': ['James','Jason','Rogers','Jason'],'age': [18,20,22,20],'job': ['Assistant',


'Manager','Clerk','Manager']}

>>> df = [Link](donnees_du_cadre)
Ici, nous créons un DataFrame avec une ligne dupliquée. Pour vérifier s'il y a des lignes dupliquées dans
le DataFrame, utilise la méthode duplicated() du DataFrame.

>>> [Link]()
Le résultat sera :

On peut voir que la dernière ligne est un duplicata. Pour supprimer cette ligne, exécutez la suivante
ligne de code :

>>> df.drop_duplicates()
Maintenant, le résultat sera :

Supprimer les doublons par colonne


Parfois, nous avons des données où les valeurs des colonnes sont identiques et nous souhaitons
les éliminer. Nous pouvons éliminer une ligne par colonne en passant le nom de la colonne qui
nous devons éliminer.

Par exemple, nous avons le DataFrame suivant :

>>> frame_data = {'name': ['James','Jason','Rogers','Jason'],'age': [18,20,22,21],'job': ['Assistant',


'Manager','Clerk','Employee']}

>>> df = [Link](frame_data)
Ici, vous pouvez voir que Jason apparaît deux fois. Si vous souhaitez supprimer les doublons par colonne,
il suffit de passer le nom de la colonne de la manière suivante :

>>> df.drop_duplicates(['nom'])
Le résultat sera comme suit :

Supprimer une colonne


Pour supprimer une colonne ou une ligne entière, nous pouvons utiliser la méthode drop() du DataFrame.
en spécifiant le nom de la colonne ou de la ligne.

Considérez l'exemple suivant :

>>> [Link](['emploi'], axis=1)


Dans cette ligne de code, nous supprimons la colonne appelée "job". L'argument du
l'axe est nécessaire ici. Si la valeur de l'axe est 1, cela signifie que nous voulons supprimer des colonnes, si le
La valeur de l'axe est 0 signifie que la ligne sera supprimée. Dans les valeurs d'axe, 0 est pour l'index et 1
pour les colonnes.

Le résultat sera :
Supprimer des lignes
Nous pouvons utiliser la méthode drop() pour supprimer une ligne en passant l'indice de la ligne.

Supposons que nous avons le DataFrame suivant :

>>> frame_data = {'name': ['James','Jason','Rogers'],'age': [18,20,22],'job': ['Assistant','Manager',


Commis

>>> df = [Link](frame_data)
Pour supprimer une ligne avec l'indice 0 où le nom est James, l'âge est 18 et le travail
vous êtes un assistant, utilisez le code suivant :

>>> [Link]([0])

Nous allons créer un DataFrame où les indices sont les noms :

>>> frame_data = {'name': ['James','Jason','Rogers'],'age': [18,20,22],'job': ['Assistant','Manager',


Comptable

>>> df = [Link](frame_data, index = ['James','Jason','Rogers'])

Nous pouvons maintenant supprimer une ligne avec une certaine valeur. Par exemple, si nous voulons supprimer une
fila où le nom est Rogers, alors le code sera :

>>> [Link](['Rogers'])
La sortie sera :

Vous pouvez également supprimer une plage de lignes de la manière suivante :


>>>[Link]([Link][[0, 1]])
Cela supprimera les lignes de l'indice 0 à 1 et il ne restera qu'une seule ligne car notre DataFrame est
composé de 3 rangées :

Si vous souhaitez supprimer la dernière ligne du DataFrame et que vous ne savez pas quel est le nombre total de lignes,
vous pouvez utiliser l'indexation négative comme indiqué ci-dessous :

>>>[Link]([Link][-1])
-1 supprime la dernière ligne. De même, -2 supprimera les deux dernières lignes et ainsi de suite.

Additionner une colonne


Vous pouvez utiliser la méthode sum() du DataFrame pour additionner les éléments de la colonne.

Supposons que nous avons le DataFrame suivant :

>>> frame_data = {'A': [23,12,12],'B': [18,18,22],'C': [13,112,13]}

>>> df = [Link](données_du_frame)
Maintenant, pour additionner les éléments de la colonne A, utilise la ligne de code suivante :

>>> df['A'].somme()

Vous pouvez également utiliser la méthode apply() du DataFrame et passer la méthode de somme de
numpy pour additionner les valeurs.

Compter les valeurs uniques


Pour compter les valeurs uniques dans une colonne, vous pouvez utiliser la méthode nunique() du
DataFrame.

Supposons que nous ayons un DataFrame comme suit :


>>> frame_data = {'A': [23,12,12],'B': [18,18,22],'C': [13,112,13]}

>>> df = [Link](frame_data)
Pour compter les valeurs uniques dans la colonne A :

>>> df['A'].nunique()

Comme vous pouvez le voir, la colonne A n'a que 2 valeurs uniques 23 et 12 et l'autre 12 est un
dupliqué, c'est pourquoi nous en avons 2 à la sortie.

Si vous souhaitez compter toutes les valeurs d'une colonne, vous pouvez utiliser la méthode count() de la
de la manière suivante :

>>> df['A'].count()

Files de sous-ensembles
Pour sélectionner un sous-ensemble d'un DataFrame, vous pouvez utiliser des crochets.

Par exemple, nous avons un DataFrame qui contient quelques entiers. Nous pouvons sélectionner ou
chercher le sous-ensemble d'une ligne de cette manière :

df.[début:compte]
Le point de départ sera inclus dans le sous-ensemble, mais le point d'arrêt n'est pas inclus.
exemple, pour sélectionner 3 lignes à partir de la première ligne, vous écrirez :

>>> df[0:3]
La sortie sera :

Ce code signifie commencer à partir de la première ligne qui est 0 et sélectionner 3 lignes.

De la même manière, pour sélectionner les 2 premières lignes, vous écrirez :


>>> df[0:2]

Pour sélectionner ou rechercher un sous-ensemble avec la dernière ligne, utilise l'indexation négative :

>>> df[-1:]

Écrire dans un Excel


Pour écrire un DataFrame dans une feuille Excel, nous pouvons utiliser la méthode to_excel().

Pour écrire dans une feuille Excel, vous devez ouvrir la feuille et pour ouvrir une feuille Excel,
nous devrons importer le module openpyxl.

Installez openpyxl en utilisant pip :

pip installer openpyxl

Considérez l'exemple suivant :

>>> importer openpyxl


>>> frame_data = {'name': ['James','Jason','Rogers'],'age': [18,20,22],'job': ['Assistant','Manager',
Employé

>>> df = [Link](frame_data)

>>> df.to_excel("[Link]","Feuille1")
Le fichier Excel ressemblera à ce qui suit :

Écrire dans un fichier CSV


De manière similaire, pour écrire un DataFrame en CSV, vous pouvez utiliser la méthode to_csv()
comme montré dans la ligne de code suivante.

>>> df.to_csv("[Link]")
Le fichier de sortie sera comme suit :
Écrire en SQL
Pour écrire des données en SQL, nous pouvons utiliser la méthode to_sql().

Considérez l'exemple suivant :

importer sqlite3

importer pandas

con = [Link]('[Link]')

frame_data = {'name': ['James','Jason','Rogers'],'age': [18,20,22],'job': ['Assistant','Manager',


Employé

df = [Link](données_cadres)

df.to_sql('utilisateurs', con)
Dans ce code, nous établissons une connexion avec une base de données sqlite3. Ensuite, nous créons un
DataFrame avec trois lignes et trois colonnes.

Enfin, nous utilisons la méthode to_sql de notre DataFrame (df) et passons le nom de
la table où les données seront stockées avec l'objet de connexion.
La base de données SQL se présentera de la manière suivante :

Écrire en JSON
Vous pouvez utiliser la méthode to_json() du DataFrame pour écrire dans un fichier JSON.

Cela se démontre dans l'exemple suivant :

>>> df.to_json("[Link]")
Dans cette ligne de code, le nom du fichier JSON est passé comme argument. Le
Le DataFrame sera stocké dans le fichier JSON. Le fichier contiendra le contenu suivant :
Écrire dans un fichier HTML
Vous pouvez utiliser la méthode to_html() du DataFrame pour créer un fichier HTML avec le
contenu du DataFrame.

Considérez l'exemple suivant :

>>> df.to_html("[Link]")
Le fichier de résultats aura le contenu suivant :

Lorsque vous ouvrirez le fichier HTML dans le navigateur, il apparaîtra ainsi :


Travailler avec pandas est très facile. C'est comme travailler avec des feuilles Excel ! Pandas DataFrame
c'est une bibliothèque très flexible que vous pouvez utiliser.

Vous aimerez peut-être aussi