0% ont trouvé ce document utile (0 vote)
44 vues3 pages

Guide d'analyse de données pandas

Transféré par

Sanad Zhioua
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
44 vues3 pages

Guide d'analyse de données pandas

Transféré par

Sanad Zhioua
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Création d'une série

 pd.Series : Crée une série, une structure 1D avec des étiquettes d'indices.

Chargement des données

 pd.read_csv(filepath, delimiter=',') : Charger un fichier CSV.

Description des données

 df.head() : Premières lignes.


 df.columns : Liste des colonnes.
 df.dtypes : Types des colonnes.
 df.info() : Informations générales.
 df.describe() : Résumé statistique.
 df.shape : Dimensions du DataFrame

Accès aux colonnes

1. df['colonne']

o Accède à une colonne spécifique.

o Exemple : df['age'] renvoie les valeurs de la colonne age.

2. df[['colonne1', 'colonne2']]

o Accède à plusieurs colonnes.

o Exemple : df[['age', 'skin']] renvoie ces deux colonnes.

3. df['colonne'].head()

o Affiche les premières valeurs d'une colonne.

4. df['colonne'].tail()

o Affiche les dernières valeurs d'une colonne.

Statistiques descriptives

5. df['colonne'].describe()

o Fournit des statistiques descriptives d'une colonne (moyenne, min, max, etc.).

6. df['colonne'].mean()

o Calcule la moyenne des valeurs dans une colonne.


Analyse et comptage

7. df['colonne'].value_counts()

o Compte les occurrences uniques dans une colonne.

8. df['colonne'].sort_values()

o Trie les valeurs d'une colonne dans l'ordre croissant.

9. df['colonne'].argsort()

o Récupère les indices des valeurs triées d'une colonne.

Accès par indices

10. df['colonne'][index]

o Accède à une valeur spécifique dans une colonne via son index.

o Exemple : df['mass'][0] accède à la première valeur de la colonne mass.

11. df['colonne'][start:end]

o Accède à une plage de valeurs dans une colonne.

o Exemple : df['mass'][0:3] renvoie les trois premières valeurs.

Itération sur les variables

 for col in df.columns : Itère sur chaque colonne pour accéder à son contenu.

 df.apply(func, axis=0/1) : Applique une fonction à chaque colonne (ou ligne).

Accès aux données

 df.iloc : Accède aux données par indices (position des lignes et colonnes).

 df.loc : Accède aux données par conditions ou noms d’indices.

Accès avec condition

 df.loc[df['colonne'] == valeur, :] : Sélectionne les lignes où une colonne respecte une


condition.

 df['colonne'].isin([valeur1, valeur2]) : Sélectionne les lignes où une colonne prend certaines


valeurs spécifiques.

 df.loc[(cond1) & (cond2), :] : Combine des conditions avec des opérateurs logiques (&, |, ~).
Regroupement des données

 df.groupby('colonne') : Regroupe les données selon une colonne.

 g.get_group(valeur) : Accède à un sous-ensemble de données pour une valeur donnée d'un


groupe.

 g.agg([func1, func2]) : Applique plusieurs fonctions d'agrégation (ex. moyenne, écart-type)


sur des groupes.

Graphiques

 df.plot : Trace des graphiques génériques.

 df.hist(column='colonne') : Affiche un histogramme pour une colonne.

 df['colonne'].plot.kde() : Trace une courbe de densité.

 df.plot.scatter(x='col1', y='col2') : Crée un nuage de points.

 df.plot.hexbin(x='col1', y='col2', gridsize=20) : Affiche une carte de densité hexagonale.

 df['colonne'].value_counts().plot.pie() : Crée un diagramme à secteurs.

Vous aimerez peut-être aussi