0% ont trouvé ce document utile (0 vote)
55 vues2 pages

Analyse des ventes avec Pandas

Ce travail pratique utilise Pandas pour préparer et visualiser des données de ventes de produits dans un magasin. Les étapes incluent le chargement, la préparation, et la visualisation des données à l'aide de divers graphiques, ainsi que la gestion des valeurs manquantes. Les bibliothèques nécessaires pour ce TP sont Pandas, Matplotlib, Seaborn, faker et openpyxl.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
55 vues2 pages

Analyse des ventes avec Pandas

Ce travail pratique utilise Pandas pour préparer et visualiser des données de ventes de produits dans un magasin. Les étapes incluent le chargement, la préparation, et la visualisation des données à l'aide de divers graphiques, ainsi que la gestion des valeurs manquantes. Les bibliothèques nécessaires pour ce TP sont Pandas, Matplotlib, Seaborn, faker et openpyxl.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

6/3/24, 9:02 AM TP datascience INF142

Pour ce travail pratique, nous allons utiliser Pandas pour préparer et visualiser des données
en utilisant des graphiques variés. Nous allons travailler avec un jeu de données sur les
ventes de produits dans un magasin. Ce TP sera structuré comme suit :

Chargement et préparation des données. Visualisation des données. Création


d'histogrammes. Création de diagrammes en bande. Création de diagrammes en bâtons.
Pré-requis Assurez-vous d'avoir les bibliothèques suivantes installées :

Pandas Matplotlib Seaborn faker openpyxl Vous pouvez les installer avec la commande
suivante :

In [28]: import pandas as pd


import numpy as np
from faker import Faker
import random

# Initialiser Faker
fake = Faker()

# Définir les produits disponibles


products = ['Produit A', 'Produit B', 'Produit C', 'Produit D', 'Produit E']

# Générer des données


data = []
for _ in range(1000):
date = fake.date_between(start_date='-1y', end_date='today')
product = [Link](products)
quantity = [Link](1, 20)
price = round([Link](5.0, 100.0), 2)
[Link]([date, product, quantity, price])

# Introduire des valeurs manquantes et des formats incorrects


for i in range(50):
idx = [Link](0, 999)
col = [Link](['Date', 'Produit', 'Quantité', 'Prix'])
if col == 'Date':
data[idx][0] = 'invalid_date'
elif col == 'Produit':
data[idx][1] = None
elif col == 'Quantité':
data[idx][2] = 'invalid_quantity'
elif col == 'Prix':
data[idx][3] = 'invalid_price'

# Créer un DataFrame
df = [Link](data, columns=['Date', 'Produit', 'Quantité', 'Prix'])

# Sauvegarder dans un fichier Excel


df.to_excel('sales_data.xlsx', index=False)

# Afficher les premières lignes du DataFrame


print([Link](10))

localhost:8888/nbconvert/html/Documents/TP datascience [Link]?download=false 1/2


6/3/24, 9:02 AM TP datascience INF142
Date Produit Quantité Prix
0 2023-08-14 None 3 89.12
1 2024-05-14 Produit E 4 75.79
2 2023-11-16 Produit C 15 79.76
3 2023-09-11 Produit E 13 19.73
4 2023-10-17 Produit A 14 29.38
5 2023-10-10 Produit B 4 27.62
6 2023-07-26 Produit D 3 7.45
7 2023-07-18 Produit C 14 62.17
8 2024-03-31 Produit E invalid_quantity 22.47
9 2023-08-22 Produit C 1 58.4

localhost:8888/nbconvert/html/Documents/TP datascience [Link]?download=false 2/2

Vous aimerez peut-être aussi