Pandas Et Python
Pandas Et Python
Pandas est une bibliothèque open source de Python qui fournit des analyses et
manipulation de données dansla programmation en Python.
C'est une bibliothèque très prometteuse pour la représentation des données, le filtrage et la programmation
statistique. La pièce la plus importante dans pandas est le DataFrame où il stocke et joue
avec les données.
Dans ce tutoriel, vous apprendrez ce qu'est un DataFrame, comment le créer à partir de différentes sources,
comment l'exporter vers différents résultats et comment manipuler ses données.
Installer pandas
Pouvez-vous installer pandas dans Pythonen utilisant pip. Exécutez la commande suivante dans cmd :
pipinstallerpandas
condainstallpandas
<classe '[Link]'>
Ce résultat s'appelle DataFrame ! C'est l'unité de base de pandas avec laquelle nous allons
à traiter jusqu'à la fin du tutoriel.
Le DataFrame est une structure à 2 dimensions étiquetée où nous pouvons stocker
données de différents types. DataFrame est similaire à une table SQL ou à une feuille de calcul de
Excel.
importer pandas
Maintenant, appelez la méthode read_csv() de la manière suivante :
pandas.read_csv('[Link]')
[Link] a le contenu suivant :
Le code générera le DataFrame suivant :
importpandas
pandas.lire_csv('[Link]')
Le fichier [Link] a le format suivant :
La sortie du code précédent sera :
Ce fichier texte est traité comme un fichier CSV car nous avons des éléments séparés
par des virgules. Le fichier peut également utiliser un autre délimiteur, comme un point-virgule, un
tabulateur, etc.
Supposons que nous avons un délimiteur de tabulation et que le fichier ressemble à ceci :
Lorsque le délimiteur est une tabulation, nous obtiendrons le résultat suivant :
pandas.read_csv('[Link]', delimiter='\t')
Maintenant la sortie sera :
importersqlite3
importer pandas
con = [Link]('[Link]')
Nous pouvons également sélectionner une colonne d'une table en accédant au DataFrame a.
Considère l'exemple suivant :
Nom
Le résultat sera le suivant :
importer pandas
df = [Link](frame_data)
Dans ce code, nous créons un DataFrame avec trois colonnes et trois lignes en utilisant la méthode
DataFrame () de pandas. Le résultat sera le suivant :
[Link][df['name'] =='Jason']
[Link] [] ou [Link] [] est un tableau booléen qui peut être utilisé pour accéder à des lignes ou
colonnes par valeurs ou étiquettes. Dans le code précédent, on recherchera la ligne où le
le nom est égal à Jason.
La sortie sera:
>>> df = [Link](frame_data)
Nous créons un DataFrame. Maintenant, nous allons accéder à une ligne en utilisant [Link] []:
>>> [Link][1]
Comme vous pouvez le voir, nous avons récupéré une ligne. Nous pouvons faire la même chose en utilisant l'opérateur de
segmenter de la manière suivante :
>>> df[1:2]
>>> df.types_données
La sortie sera :
>>>[Link]([Link])
La sortie sera la suivante :
>>> [Link]([Link])
Pour appliquer la fonction à une colonne spécifique, vous pouvez spécifier la colonne de la
la forme suivante :
>>>df['A'].apply([Link])
>>> df = [Link](frame_data)
Maintenant pour trier les valeurs :
>>> df.trier_values(par=['A'])
La sortie sera :
La méthode sort_values() a un attribut "by" qui est nécessaire. Dans le code précédent, les
les valeurs sont triées par la colonne A. Pour trier par plusieurs colonnes, le code est le
suivant :
>>> df.sort_values(par=['A','B'])
Si vous souhaitez trier par ordre décroissant, définissez l'attribut ascending de set_values sur
Faux de la manière suivante :
>>>df.sort_values(par=['A'], ascending=False)
La sortie sera :
>>> df = [Link](donnees_du_cadre)
Ici, nous créons un DataFrame avec une ligne dupliquée. Pour vérifier s'il y a des lignes dupliquées dans
le DataFrame, utilise la méthode duplicated() du DataFrame.
>>> [Link]()
Le résultat sera :
On peut voir que la dernière ligne est un duplicata. Pour supprimer cette ligne, exécutez la suivante
ligne de code :
>>> df.drop_duplicates()
Maintenant, le résultat sera :
>>> df = [Link](frame_data)
Ici, vous pouvez voir que Jason apparaît deux fois. Si vous souhaitez supprimer les doublons par colonne,
il suffit de passer le nom de la colonne de la manière suivante :
>>> df.drop_duplicates(['nom'])
Le résultat sera comme suit :
Le résultat sera :
Supprimer des lignes
Nous pouvons utiliser la méthode drop() pour supprimer une ligne en passant l'indice de la ligne.
>>> df = [Link](frame_data)
Pour supprimer une ligne avec l'indice 0 où le nom est James, l'âge est 18 et le travail
vous êtes un assistant, utilisez le code suivant :
>>> [Link]([0])
Nous pouvons maintenant supprimer une ligne avec une certaine valeur. Par exemple, si nous voulons supprimer une
fila où le nom est Rogers, alors le code sera :
>>> [Link](['Rogers'])
La sortie sera :
Si vous souhaitez supprimer la dernière ligne du DataFrame et que vous ne savez pas quel est le nombre total de lignes,
vous pouvez utiliser l'indexation négative comme indiqué ci-dessous :
>>>[Link]([Link][-1])
-1 supprime la dernière ligne. De même, -2 supprimera les deux dernières lignes et ainsi de suite.
>>> df = [Link](données_du_frame)
Maintenant, pour additionner les éléments de la colonne A, utilise la ligne de code suivante :
>>> df['A'].somme()
Vous pouvez également utiliser la méthode apply() du DataFrame et passer la méthode de somme de
numpy pour additionner les valeurs.
>>> df = [Link](frame_data)
Pour compter les valeurs uniques dans la colonne A :
>>> df['A'].nunique()
Comme vous pouvez le voir, la colonne A n'a que 2 valeurs uniques 23 et 12 et l'autre 12 est un
dupliqué, c'est pourquoi nous en avons 2 à la sortie.
Si vous souhaitez compter toutes les valeurs d'une colonne, vous pouvez utiliser la méthode count() de la
de la manière suivante :
>>> df['A'].count()
Files de sous-ensembles
Pour sélectionner un sous-ensemble d'un DataFrame, vous pouvez utiliser des crochets.
Par exemple, nous avons un DataFrame qui contient quelques entiers. Nous pouvons sélectionner ou
chercher le sous-ensemble d'une ligne de cette manière :
df.[début:compte]
Le point de départ sera inclus dans le sous-ensemble, mais le point d'arrêt n'est pas inclus.
exemple, pour sélectionner 3 lignes à partir de la première ligne, vous écrirez :
>>> df[0:3]
La sortie sera :
Ce code signifie commencer à partir de la première ligne qui est 0 et sélectionner 3 lignes.
Pour sélectionner ou rechercher un sous-ensemble avec la dernière ligne, utilise l'indexation négative :
>>> df[-1:]
Pour écrire dans une feuille Excel, vous devez ouvrir la feuille et pour ouvrir une feuille Excel,
nous devrons importer le module openpyxl.
>>> df = [Link](frame_data)
>>> df.to_excel("[Link]","Feuille1")
Le fichier Excel ressemblera à ce qui suit :
>>> df.to_csv("[Link]")
Le fichier de sortie sera comme suit :
Écrire en SQL
Pour écrire des données en SQL, nous pouvons utiliser la méthode to_sql().
importer sqlite3
importer pandas
con = [Link]('[Link]')
df = [Link](données_cadres)
df.to_sql('utilisateurs', con)
Dans ce code, nous établissons une connexion avec une base de données sqlite3. Ensuite, nous créons un
DataFrame avec trois lignes et trois colonnes.
Enfin, nous utilisons la méthode to_sql de notre DataFrame (df) et passons le nom de
la table où les données seront stockées avec l'objet de connexion.
La base de données SQL se présentera de la manière suivante :
Écrire en JSON
Vous pouvez utiliser la méthode to_json() du DataFrame pour écrire dans un fichier JSON.
>>> df.to_json("[Link]")
Dans cette ligne de code, le nom du fichier JSON est passé comme argument. Le
Le DataFrame sera stocké dans le fichier JSON. Le fichier contiendra le contenu suivant :
Écrire dans un fichier HTML
Vous pouvez utiliser la méthode to_html() du DataFrame pour créer un fichier HTML avec le
contenu du DataFrame.
>>> df.to_html("[Link]")
Le fichier de résultats aura le contenu suivant :