Projet de prédiction
météorologique
Basé sur Machine Learning
Réalisé par :
Rihabe Kharkhach
Ahlam Et-Touaty
Wiam Mazzour
Sara Kassimi
Plan
01 02 03
Exploration des Pré-traitement Feature
données des données Engineering
04 05
Modélisation Test &
Basé sur 2 modèles
du Machine Resultats
Learning
Introduction
Le projet consiste à explorer et analyser les
données météorologiques, puis à modéliser en
s'appuyant sur deux algorithmes de Machine
Learning pour améliorer la précision des
prédictions
01
Exploration
des données
Exploration du dataset
Missing Values Outliers
- Le Dataset Precip type 517 -
comporte 96 453 temperature - 44
lignes et 12 Arraprent - 22
temperature
colonnes.
- Le Dataset Humidity - 46
Contient 24 lignes Wind Speed - 3082
dupliquées Pressure - 4400
Visualisation des données
02
Pré-traitement
des données
Nettoyage du Dataset
- Conversion des dates ( Ligne FormattedDate est convetir en datetime )
- Suppression des colonnes inutiles (non pertinentes, comme Loud
Cover et Daily Summary)
- Suppression des doublons
Imputation des valeurs manquantes
Imputation Imputation
des valeurs des
quantitativ variables
es avec catégorielles
avec
KNNImpute
RandomFore
r
stClassifier
Traitement des Outliers
Identification Traitement
Pressure 870 - 1085
Entraînement
Wind Bearing 0 - 360 Entraînement du modèle
Random Forest
Wind Speed 0 – 400 Regression
Temperature (-90) – 60 Prédiction
Humidity 0–1
Remplacement
Visibility 1 – 100
03
Feature
Engineering
Feature Engineering
1. Transformation des données
temporelles
Formatted
Year Month Day Hour
Date
Pourquoi Capturer des schémas
?
temporels
Réduction de la complexité
Feature Engineering
2. Encodage des variables catégorielles
Summary Precip type
Pourquoi Compatibilité avec les algorithmes
?
ML
Conservation de l’information
catégorielle
Impact sur les performances
Feature Engineering
3. Normalisation des variables
quantitatives
Standardisation des variables
quantitatives en utilisant
StandardScaler
Pourquoi Améliore la stabilité et la précision des
?
modèles
Harmonisation des échelles
04
Modélisation
Random Forest Regression
Random Forest
Regression est un
modèle
d'apprentissage
supervisé qui utilise
une combinaison de
plusieurs arbres de
décision pour prédire
une variable continue.
Il améliore la précision
en moyennant les
prédictions des arbres,
tout en réduisant le
risque de
surapprentissage
CatBoost
CatBoost (Categorical
Boosting) est un
algorithme de gradient
boosting développé
pour gérer
efficacement les
données catégorielles.
Il est rapide, réduit les
besoins en
prétraitement et offre
d'excellentes
performances pour des
problèmes de
régression et de
classification.
05
Test &
Résultats
Test de performances
MSE (Mean Squared Error)
RMSE (Root Mean Squared Error)
Métrique de
performances R² (d'entraînement et de validation)
Overfitting
Comparaison des résultats
MSE RMSE R² (Validation)
2.64 x 0.0051 0.0129 0.99997 0.99983
0.000167
10^−5
Random & CatBoost Random & CatBoost
Random & CatBoost
R² (Entraînement) Overfitting
0.99999 0.99991 Non Non
Random & CatBoost Random & CatBoost
Visualisation des résultats
Merci Pour votre
Attention !