6/3/24, 9:02 AM TP datascience INF142
Pour ce travail pratique, nous allons utiliser Pandas pour préparer et visualiser des données
en utilisant des graphiques variés. Nous allons travailler avec un jeu de données sur les
ventes de produits dans un magasin. Ce TP sera structuré comme suit :
Chargement et préparation des données. Visualisation des données. Création
d'histogrammes. Création de diagrammes en bande. Création de diagrammes en bâtons.
Pré-requis Assurez-vous d'avoir les bibliothèques suivantes installées :
Pandas Matplotlib Seaborn faker openpyxl Vous pouvez les installer avec la commande
suivante :
In [28]: import pandas as pd
import numpy as np
from faker import Faker
import random
# Initialiser Faker
fake = Faker()
# Définir les produits disponibles
products = ['Produit A', 'Produit B', 'Produit C', 'Produit D', 'Produit E']
# Générer des données
data = []
for _ in range(1000):
date = fake.date_between(start_date='-1y', end_date='today')
product = [Link](products)
quantity = [Link](1, 20)
price = round([Link](5.0, 100.0), 2)
[Link]([date, product, quantity, price])
# Introduire des valeurs manquantes et des formats incorrects
for i in range(50):
idx = [Link](0, 999)
col = [Link](['Date', 'Produit', 'Quantité', 'Prix'])
if col == 'Date':
data[idx][0] = 'invalid_date'
elif col == 'Produit':
data[idx][1] = None
elif col == 'Quantité':
data[idx][2] = 'invalid_quantity'
elif col == 'Prix':
data[idx][3] = 'invalid_price'
# Créer un DataFrame
df = [Link](data, columns=['Date', 'Produit', 'Quantité', 'Prix'])
# Sauvegarder dans un fichier Excel
df.to_excel('sales_data.xlsx', index=False)
# Afficher les premières lignes du DataFrame
print([Link](10))
localhost:8888/nbconvert/html/Documents/TP datascience [Link]?download=false 1/2
6/3/24, 9:02 AM TP datascience INF142
Date Produit Quantité Prix
0 2023-08-14 None 3 89.12
1 2024-05-14 Produit E 4 75.79
2 2023-11-16 Produit C 15 79.76
3 2023-09-11 Produit E 13 19.73
4 2023-10-17 Produit A 14 29.38
5 2023-10-10 Produit B 4 27.62
6 2023-07-26 Produit D 3 7.45
7 2023-07-18 Produit C 14 62.17
8 2024-03-31 Produit E invalid_quantity 22.47
9 2023-08-22 Produit C 1 58.4
localhost:8888/nbconvert/html/Documents/TP datascience [Link]?download=false 2/2