0% ont trouvé ce document utile (0 vote)

66 vues8 pages

TD Apprentissage

pçpo

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

66 vues8 pages

TD Apprentissage

pçpo

Transféré par

benhallalsamir

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Université de Tamanrasset

Faculté des Sciences et de la Technologie

Département de Mathématique et Informatique
Master1 : Intelligence Artificielle et Science des Données
Module : Apprentissage Automatique

Mini Projet Machine Learning

Walmart Store Sales Forecasting

Réalisée par : Prof :

- Belhain Hamza Lacheheub Mohammed
Nassim
- Bouallag Abdelhalim
Sommaire
1. Introduction...................................................................................................3
2. Description des Données...............................................................................3
3. Résultats de l'Analyse Statistique avec Discussion.......................................4
3.1. Exploration des Données :..........................................................................4
3.2. Nettoyage et préparation des Données :.....................................................4
3.3. Visualisation :.............................................................................................4
3.4. Discussion..................................................................................................5
4. Modèle Utilisé...............................................................................................5
4.1. Sélection du Modèle...................................................................................5
4.2. Entraînement du Modèle............................................................................5
4.3. Implémentation...........................................................................................5
5. Résultats Obtenus..........................................................................................5
5.1. Métriques de Performance..........................................................................5
5.2. Comparaison...............................................................................................6
6. Conclusion.....................................................................................................6

[2]
1. Introduction
Dans cette projet, on dispose de données historiques de ventes pour 45
magasins Walmart situés dans différentes régions. Chaque magasin contient
plusieurs départements. Le dataset inclut également des événements de réductions
de prix pendant certaines fêtes, ce qui complique la tâche car il est difficile de
prévoir quels départements seront affectés et dans quelle mesure.
Notre objectif est de prédire les ventes hebdomadaires pour chaque
département dans chaque magasin.
2. Description des Données
stores.csv : Ce fichier contient des informations sur les 45 magasins.
train.csv : Il s'agit des données historiques d'entraînement, couvrant la période du
05/02/2010 au 01/11/2012. Il contient les champs suivants : Store : le numéro du
magasin ; Dept : le numéro du département ; Date : la semaine ; Weekly_Sales :
les ventes hebdomadaires pour le département donné dans le magasin donné ;
IsHoliday : indique si la semaine est une semaine de fête spéciale.
test.csv : Ce fichier est identique à train.csv, sauf les ventes hebdomadaires.
features.csv : Ce fichier contient des données supplémentaires liées à l'activité du
magasin, du département et de la région pour les dates données. Il contient les
champs suivants : Store : le numéro du magasin ; Date : la semaine ;
Temperature : température moyenne dans la région ; Fuel_Price : coût du
carburant dans la région ; MarkDown1-5 : données relatives aux réductions
promotionnelles que Walmart organise. CPI : indice des prix à la consommation ;
Unemployment : taux de chômage ; IsHoliday : indique si la semaine est une
semaine de fête spéciale ; les quatre fêtes tombent dans les semaines suivantes dans
l'ensemble de données (toutes les fêtes ne sont pas présentes dans les données) :
Super Bowl : 12-fév-10, 11-fév-11, 10-fév-12, 8-fév-13
Fête du Travail : 10-sept-10, 9-sept-11, 7-sept-12, 6-sept-13
Thanksgiving: 26-nov-10, 25-nov-11, 23-nov-12, 29-nov-13
Noël : 31-déc-10, 30-déc-11, 28-déc-12, 27-déc-13
Variable Cible : prédiction des ventes hebdomadaires.
Toute valeur manquante est marquée par NAN.
[3]
3. Analyse Statistique
3.1. Exploration des Données
Charger l'ensemble de données avec Pandas.
train = pd.read_csv('train.csv')

test = pd.read_csv(‘test.csv')

features = pd.read_csv('features.csv')

stores = pd.read_csv(‘stores.csv')

Afficher les premières lignes pour comprendre la structure :

display(train.head())

Résumer l'ensemble de données :

train.describe(),train.dtypes ,train.info()

3.2. Nettoyage et préparation des Données :

Fusionner les tables (train, features et stores)et (test, features et stores) pour
obtenir plus de variables.
Gérer les valeurs manquantes et les doublons :
test.isnull().sum()
test.duplicated().sum()
test.shape

test['CPI'] = test['CPI'].fillna(test['CPI'].mean())
test['Unemployment'] =
test['Unemployment'].fillna(test['Unemployment'].mean())

3.3. Visualisation :
Utiliser des bibliothèques comme Matplotlib ou Seaborn pour créer des
graphiques visualisant la distribution des données, les corrélations et tout modèle
notable.
Inclure des graphiques tels que des histogrammes, des box plots, des scatter
plots et des heatmaps.
3.4. Discussion

[4]
Interpréter les résumés statistiques et les visualisations.
Mettre en évidence les résultats intéressants ou les problèmes potentiels dans
l'ensemble de données.
4. Modèle Utilisé
4.1. Sélection du Modèle
Discuter des critères de sélection de votre ou vos modèles (par exemple,
précision, interprétabilité).
Introduire le ou les modèles choisis (par exemple, Régression Linéaire,
Arbres de Décision, Forêt Aléatoire, etc.).
4.2. Entraînement du Modèle
Diviser l'ensemble de données en ensembles d'entraînement et de test.
Entraîner le modèle en utilisant les données d'entraînement.
Ajuster les hyperparamètres en utilisant des techniques comme Grid Search
ou Random Search si applicable.
4.3. Implémentation
Fournir une brève explication de la manière dont le modèle est implémenté en
code en utilisant scikit-learn.
Montrer des extraits de code démontrant le processus d'entraînement.
5. Résultats Obtenus
5.1. Métriques de Performance
Évaluer la performance du modèle en utilisant des métriques appropriées (par
exemple, précision, précision, rappel, F1-score).
Discuter des résultats sur l'ensemble de test.
5.2. Comparaison
Si plusieurs modèles ont été utilisés, comparer leurs performances.
Discuter des compromis observés (par exemple, entre précision et
interprétabilité).

[5]
6. Conclusion
Résumer les principales conclusions de votre analyse et de l'évaluation du
modèle.
Limites :
Discuter des limites rencontrées durant le projet (par exemple, qualité des
données, hypothèses du modèle).
Directions Futures :
Suggérer des améliorations possibles ou des travaux futurs (par exemple,
utilisation de modèles plus complexes, obtention de plus de données).
Leçons Apprises :
Réfléchir à ce que vous avez appris durant le projet, à la fois en termes de
compétences techniques et de compréhension des concepts de machine learning.
Livrables
Code : Assurez-vous que votre code est bien documenté et organisé. Il devrait
inclure :
Chargement et prétraitement des données
Analyse statistique et visualisations
Entraînement et évaluation du modèle
Rapport : Respectez les directives (pas plus de 6 pages, simple interligne, 12-
pt Times New Roman). Assurez-vous qu'il soit clair, concis et bien structuré.
En suivant ce plan structuré, vous serez en mesure d'aborder
systématiquement votre projet de machine learning, en assurant une analyse
approfondie, une sélection réfléchie des modèles, et une présentation claire de vos
résultats.

Data Exploration
df_stores = pd.read_csv('/kaggle/input/walmart-recruiting-store-sales-
forecasting/stores.csv')

[6]
display(df_stores.head())
df_features = pd.read_csv('/kaggle/input/walmart-recruiting-store-sales-
forecasting/features.csv.zip')
display(df_features.head())

# Do needed data merges and get df

df = df_raw.merge(df_stores, on='Store')
feature_cols_to_use = ['Store', 'Date', 'Temperature', 'Fuel_Price', 'CPI',
'Unemployment']
df = df.merge(df_features[feature_cols_to_use], on=['Store', 'Date'])
display(df.head())

df.describe()

df.dtypes

Creation des Variables (Week)

Fix the data types for columns and create new columns
df[['Store', 'Dept']] = df[['Store', 'Dept']].astype(str)
df['Date'] = pd.to_datetime(df['Date'])
df['Month'] = df['Date'].dt.month

Traitement des données

numeric_preprocessor = Pipeline(
steps =[
("imputation_mean", SimpleImputer(missing_values=np.nan,
strategy="mean")),
("scaler", StandardScaler()),
]
)

categorical_preprocessor = Pipeline(
steps=[
("imputation_most_frequent", SimpleImputer(fill_value="missing",
strategy="most_frequent")),
("onehot", OneHotEncoder(handle_unknown="ignore", max_categories=12,
drop='first')),
]
)
categorical_col = ['Store', 'Dept', 'Type', 'IsHoliday', 'Month']
numerical_col = ['Size', 'Temperature', 'Fuel_Price', 'CPI', 'Unemployment']
preprocessor = ColumnTransformer(
[
("categorical", categorical_preprocessor, categorical_col),
("numerical", numeric_preprocessor, numerical_col),
]

[7]
)
preprocessor

Comparer les Vents normal et promo

T test
Correlation entre (Weekly_Sales , Temp, Feul price, Unemployement, cpi)
Split data
df_sample = df.sample(5000, random_state=4)
X = df_sample[categorical_col+numerical_col]
y = df_sample[['Date','Weekly_Sales']].set_index('Date')

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.1,

random_state = 10)
X_train.head(), y_train.head()

Models
ds = DecisionTreeRegressor(random_state=4, max_depth=4)
ls = Lasso(random_state=4, selection='random', tol=1e-3)
rd = Ridge(random_state=4, tol=1e-3)
models_to_try = [ds, ls, rd]

all_pipelines = {}
for m in models_to_try:
# Create a scikit-learn pipeline
all_pipelines[m] = pipeline = make_pipeline(preprocessor, m)
# Perform cross-validation on the training data
cross_val_scores = cross_val_score(pipeline, X_train, y_train, cv=4,
scoring='r2')
print(m)
print(f"Cross-Validation Scores: {cross_val_scores}")
print(f"Mean Cross-Validation Score: {np.mean(cross_val_scores)}\n")

[8]

Vous aimerez peut-être aussi

Final Ahmed
Pas encore d'évaluation
Final Ahmed
20 pages
Prévision des ventes hebdomadaires Walmart
Pas encore d'évaluation
Prévision des ventes hebdomadaires Walmart
30 pages
Rapport
Pas encore d'évaluation
Rapport
4 pages
Feature Engineering.: Importation Des Bibliothèques
Pas encore d'évaluation
Feature Engineering.: Importation Des Bibliothèques
5 pages
Cours - Python - Bases 2
Pas encore d'évaluation
Cours - Python - Bases 2
3 pages
Mini Projet ML
Pas encore d'évaluation
Mini Projet ML
1 page
Rapport Fatma MANNAI VF Latex
Pas encore d'évaluation
Rapport Fatma MANNAI VF Latex
60 pages
Documentation
Pas encore d'évaluation
Documentation
13 pages
TP Poly Regres 24 25
Pas encore d'évaluation
TP Poly Regres 24 25
3 pages
Configuration Spark pour ML avec PySpark
Pas encore d'évaluation
Configuration Spark pour ML avec PySpark
4 pages
Voix Off Lab02 Detaillee
Pas encore d'évaluation
Voix Off Lab02 Detaillee
3 pages
Test de Préselection MCS - Développeur Data Projet Sourcing
Pas encore d'évaluation
Test de Préselection MCS - Développeur Data Projet Sourcing
3 pages
Automatisation des Ventes avec BI et ML
Pas encore d'évaluation
Automatisation des Ventes avec BI et ML
94 pages
Intro Au Machine Learning
Pas encore d'évaluation
Intro Au Machine Learning
12 pages
Comment Faire Une Prédiction Avec Python
100% (1)
Comment Faire Une Prédiction Avec Python
2 pages
Analyse Prédictive E-commerce IA
Pas encore d'évaluation
Analyse Prédictive E-commerce IA
14 pages
Machine Learning (ML) : Scikit-Learn
Pas encore d'évaluation
Machine Learning (ML) : Scikit-Learn
7 pages
Projet de Data Mining : RUL et Musique
Pas encore d'évaluation
Projet de Data Mining : RUL et Musique
3 pages
Dossier Competence
Pas encore d'évaluation
Dossier Competence
4 pages
Mini Projet Modele de Regression
Pas encore d'évaluation
Mini Projet Modele de Regression
3 pages
00 Intro Machine Learning 15 05 2025 OLYMPIADE 2025
Pas encore d'évaluation
00 Intro Machine Learning 15 05 2025 OLYMPIADE 2025
9 pages
Mini Projet ML
Pas encore d'évaluation
Mini Projet ML
3 pages
Chapitre 7 Resume
Pas encore d'évaluation
Chapitre 7 Resume
6 pages
Prédiction de Crédit avec IA
Pas encore d'évaluation
Prédiction de Crédit avec IA
29 pages
Rapport Machine Learning
100% (1)
Rapport Machine Learning
61 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
15 pages
Différentes Phases de L' Analyse
Pas encore d'évaluation
Différentes Phases de L' Analyse
3 pages
Intitule Projets Version 2
Pas encore d'évaluation
Intitule Projets Version 2
4 pages
Campagne Marketing Optimisée par ML
Pas encore d'évaluation
Campagne Marketing Optimisée par ML
2 pages
TTT
Pas encore d'évaluation
TTT
5 pages
Segmentation et prédiction en e-commerce
Pas encore d'évaluation
Segmentation et prédiction en e-commerce
18 pages
Rapport PFA Khayi Siham 2025 Complet
Pas encore d'évaluation
Rapport PFA Khayi Siham 2025 Complet
7 pages
Ames Housing Price Prediction Et Réalisation Du Projet ML Avec Python
Pas encore d'évaluation
Ames Housing Price Prediction Et Réalisation Du Projet ML Avec Python
12 pages
Big Data Et Analyse Prédictive
Pas encore d'évaluation
Big Data Et Analyse Prédictive
44 pages
Cahier Des Charges ML
Pas encore d'évaluation
Cahier Des Charges ML
3 pages
Data Science-2
Pas encore d'évaluation
Data Science-2
6 pages
Prévoir Ventes et Rétention Clients
Pas encore d'évaluation
Prévoir Ventes et Rétention Clients
4 pages
Implementation
Pas encore d'évaluation
Implementation
10 pages
Modélisation des Prix Immobiliers en Californie
Pas encore d'évaluation
Modélisation des Prix Immobiliers en Californie
10 pages
Projet Python : Analyse de données viticoles
Pas encore d'évaluation
Projet Python : Analyse de données viticoles
2 pages
Atelier 2 Machine Learning
Pas encore d'évaluation
Atelier 2 Machine Learning
5 pages
eMBI Generation Des Donnees 26 06 2021
Pas encore d'évaluation
eMBI Generation Des Donnees 26 06 2021
86 pages
Pfa 1
Pas encore d'évaluation
Pfa 1
22 pages
Rapport Complet Campagne Marketing
Pas encore d'évaluation
Rapport Complet Campagne Marketing
6 pages
Formation Python Pour La Data Science - 5 - Le Machine Learning
100% (1)
Formation Python Pour La Data Science - 5 - Le Machine Learning
23 pages
Resume Machine Learning
Pas encore d'évaluation
Resume Machine Learning
2 pages
Data Mining
Pas encore d'évaluation
Data Mining
15 pages
Détection Pneumonie par IA
Pas encore d'évaluation
Détection Pneumonie par IA
10 pages
Présentation Du Mini-Projet - Prédiction Des Prix Des Ordinateurs Portables
Pas encore d'évaluation
Présentation Du Mini-Projet - Prédiction Des Prix Des Ordinateurs Portables
13 pages
10 Projets Pour Un Portfolio Data Science Réussi
Pas encore d'évaluation
10 Projets Pour Un Portfolio Data Science Réussi
18 pages
Iml Project Description
Pas encore d'évaluation
Iml Project Description
41 pages
TP Classification
Pas encore d'évaluation
TP Classification
3 pages
Optimisation Des Campagnes Marketing & IA
Pas encore d'évaluation
Optimisation Des Campagnes Marketing & IA
155 pages
K-Means Clustering pour Clients et Revenus
Pas encore d'évaluation
K-Means Clustering pour Clients et Revenus
4 pages
TP - Régression Logistique ...
Pas encore d'évaluation
TP - Régression Logistique ...
20 pages
Partie
Pas encore d'évaluation
Partie
4 pages
K-Means : Modélisation et Évaluation
Pas encore d'évaluation
K-Means : Modélisation et Évaluation
5 pages
I. Comprendre Le Problème Et Les Données
Pas encore d'évaluation
I. Comprendre Le Problème Et Les Données
7 pages
AD Issue 32
Pas encore d'évaluation
AD Issue 32
30 pages
Suspension du Wi-Fi sur B737MAX-8
Pas encore d'évaluation
Suspension du Wi-Fi sur B737MAX-8
7 pages
Lignes Directrices Pour La Prévention, Les Soins Et Le Traitement en Faveur Des Personnes Atteintes D'une Infection À Hépatite B Chronique
Pas encore d'évaluation
Lignes Directrices Pour La Prévention, Les Soins Et Le Traitement en Faveur Des Personnes Atteintes D'une Infection À Hépatite B Chronique
176 pages
Phytodiversité de Tamesguida en Algérie
Pas encore d'évaluation
Phytodiversité de Tamesguida en Algérie
69 pages
Soutien à la Recherche en Inclusion Sociale
Pas encore d'évaluation
Soutien à la Recherche en Inclusion Sociale
11 pages
Techniques de complétion des puits
Pas encore d'évaluation
Techniques de complétion des puits
28 pages
TD5 Correction
Pas encore d'évaluation
TD5 Correction
4 pages
Racines carrées : définitions, propriétés et exercices
Pas encore d'évaluation
Racines carrées : définitions, propriétés et exercices
12 pages
Cours - Informatique - 2007
Pas encore d'évaluation
Cours - Informatique - 2007
231 pages
Sanogo Uqac 0862D 10901
Pas encore d'évaluation
Sanogo Uqac 0862D 10901
231 pages
Complémentation minérale chèvres laitières
Pas encore d'évaluation
Complémentation minérale chèvres laitières
7 pages
Protection des matériels électriques en STI2D
Pas encore d'évaluation
Protection des matériels électriques en STI2D
6 pages
Plan de Rédaction de Mémoire
Pas encore d'évaluation
Plan de Rédaction de Mémoire
124 pages
Référentiel Photographie Professionnelle
Pas encore d'évaluation
Référentiel Photographie Professionnelle
32 pages
Modalitesde Fixationdu Prixd Offredes OPRROCorradetti Michineau 2002
Pas encore d'évaluation
Modalitesde Fixationdu Prixd Offredes OPRROCorradetti Michineau 2002
110 pages
Acte de Vente D
Pas encore d'évaluation
Acte de Vente D
1 page
Arts de La Scène, Arts Graphiques Et Plastiques
Pas encore d'évaluation
Arts de La Scène, Arts Graphiques Et Plastiques
17 pages
Travaux Dirigés Mathématiques TLE C
Pas encore d'évaluation
Travaux Dirigés Mathématiques TLE C
3 pages
G4 Analyse 2-1
Pas encore d'évaluation
G4 Analyse 2-1
7 pages
Master 1 Bibliographie Du Cours Flux Reseaux Et Territoires 1
Pas encore d'évaluation
Master 1 Bibliographie Du Cours Flux Reseaux Et Territoires 1
4 pages
RIME Version Definitive - Amendée
100% (1)
RIME Version Definitive - Amendée
13 pages
2.2 Synchronisation Duratorque
Pas encore d'évaluation
2.2 Synchronisation Duratorque
9 pages
Masse volumique et sécurité du sirop de menthe
Pas encore d'évaluation
Masse volumique et sécurité du sirop de menthe
3 pages
Guide sur les systèmes informatiques et réseaux
Pas encore d'évaluation
Guide sur les systèmes informatiques et réseaux
10 pages
Guide Imagerie Anomalies Surrénaliennes
100% (1)
Guide Imagerie Anomalies Surrénaliennes
109 pages
Génération électrique pour industries et bâtiments
Pas encore d'évaluation
Génération électrique pour industries et bâtiments
28 pages
Contrôle SVT : Échanges gazeux et milieu naturel
100% (1)
Contrôle SVT : Échanges gazeux et milieu naturel
2 pages
Le Style Gothique PDF
Pas encore d'évaluation
Le Style Gothique PDF
33 pages
Chapitre 2 Méthode Couts Cibles
Pas encore d'évaluation
Chapitre 2 Méthode Couts Cibles
24 pages
Commande Automatique des Systèmes Linéaires
Pas encore d'évaluation
Commande Automatique des Systèmes Linéaires
3 pages