0% ont trouvé ce document utile (0 vote)
139 vues23 pages

Weather Prediction Project

Transféré par

kharkhach.rihabe
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
139 vues23 pages

Weather Prediction Project

Transféré par

kharkhach.rihabe
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Projet de prédiction

météorologique
Basé sur Machine Learning

Réalisé par :
Rihabe Kharkhach

Ahlam Et-Touaty

Wiam Mazzour

Sara Kassimi
Encadré par :
Mme. BENTALEB Asmae

Année : 2025/2024
TABLE DES MATIERES

1. Introduction
Contexte
Objectifs du projet

2. Exploratory Data Analysis (EDA)


2.1. Exploration des données
A. Présentation du jeu de données
B. Statistiques descriptives
2.2. Visualisation des données
2.3. Pré-traitement des données
A. Nettoyage des données
B. Transformation des données
C. Séparation des données

3. Modélisation
3.1. Choix des algorithmes
A. Présentation des algorithmes utilisés
B. Pourquoi ces algorithmes ?
3.2. Implémentation des modèles
A. Métriques de performance
B. Analyse comparative des modèles
3.3. Évaluation des modèles
4. Conclusion

1
INTRODUCTION

Contexte

Ce projet fait partie du programme d’études et vise à appliquer


les concepts et techniques du machine learning à un problème réel, en
l’occurrence la prédiction des conditions météorologiques. Dans un
monde de plus en plus dépendant des données, l'utilisation des
algorithmes d'apprentissage automatique pour prédire la météo est
devenue une approche prometteuse pour améliorer la précision et
l'efficacité des prévisions par rapport aux méthodes traditionnelles.
Ce projet permet ainsi d'explorer et de mettre en pratique les
connaissances théoriques acquises tout au long du cursus, tout en
abordant une problématique qui présente une importance directe dans
plusieurs secteurs, tels que la gestion des ressources naturelles et la
planification des activités humaines.

2
INTRODUCTION

Objectif du projet

Ce projet a pour objectif principal de développer un modèle de


prédiction météorologique de haute précision, capable de fournir des
prévisions fiables et robustes. L’objectif est de créer un modèle
performant qui puisse traiter efficacement les données tout en
minimisant les erreurs de prédiction, afin de garantir des résultats
pertinents pour les utilisateurs.

Le projet vise à développer un modèle de machine learning


capable de prédire des conditions météorologiques en se basant sur
deux algorithmes distincts. En parallèle, ce projet vise également à
renforcer nos compétences pratiques et théoriques acquises durant le
module de machine learning, notamment en appliquant des concepts
clés tels que l'Exploratory Data Analysis (EDA).

En travaillant sur ce projet, nous explorons non seulement la


mise en œuvre technique des algorithmes, mais également l’analyse et
la manipulation des données, des étapes fondamentales dans tout
projet de science des données. Ce processus permet de consolider
notre compréhension des approches théoriques tout en acquérant une
expérience concrète sur un sujet réel et pertinent.

3
II. EXPLORATORY DATA
ANALYSIS (EDA)

4
1. EXPLORATION DES DONNEES
A. Présentation du jeu de données
Le jeu de données analysé dans ce projet contient des informations
détaillées sur les conditions météorologiques à différents moments. Il est
structuré sous forme de tableau, où chaque ligne représente une observation
individuelle et chaque colonne correspond à une variable spécifique. Ces variables
permettent de décrire précisément les conditions climatiques.

Ce jeu de données couvre une période allant du 1er janvier 2006 au 31


décembre 2016.

Le jeu de données comporte 96 453 lignes et 12 colonnes. Voici la


description des colonnes :

o Formatted Date : Date et heure des relevés.


o Summary : Description des conditions météorologiques.
o Precip Type : Type de précipitations (pluie, neige, etc.).
o Temperature (C) : Température mesurée en degrés Celsius.
o Apparent Temperature (C) : Température ressentie en degrés Celsius.
o Humidity : Taux d'humidité (entre 0 et 1).
o Wind Speed (km/h) : Vitesse du vent en kilomètres par heure.
o Wind Bearing (degrees) : Orientation du vent en degrés.
o Visibility (km) : Visibilité en kilomètres.
o Loud Cover : Couverture nuageuse (semble être constant à 0).
o Pressure (millibars) : Pression atmosphérique en millibars.
o Daily Summary : Résumé des conditions météorologiques de la journée.

B. Statistiques descriptives

Les statistiques descriptives permettent de résumer et d’analyser les


principales caractéristiques des données présentes dans le dataset. Elles incluent
des mesures comme la moyenne, l'écart-type, les valeurs minimales et maximales,
ainsi que les quartiles (25 %, 50 % ou médiane, et 75 %). Ces indicateurs offrent
une vue d'ensemble sur la distribution des variables, leur dispersion et leurs
valeurs extrêmes. Dans ce contexte, ces statistiques descriptives aident à
comprendre les tendances climatiques, telles que les variations de température

5
réelle, de température ressentie, et d'humidité dans les observations. Elles
constituent une étape essentielle dans l’analyse exploratoire des données (EDA)
et servent de base pour des modélisations ultérieures.

Ce tableau résume les mesures descriptives essentielles pour chaque


paramètre du dataset, offrant une vue d’ensemble des tendances, dispersions et
valeurs extrêmes des données climatiques analysées.

Temperature Apparent temperature Humidity Loud Cover

Count 96453.000000 96453.000000 96453.000000 96453.0

Mean 11.932678 10.855029 0.734899 0.0

Std 9.551546 10.696847 0.195473 0.0

Min -21.822222 -27.716667 0.000000 0.0

25% 4.688889 2.311111 0.600000 0.0

50% 12.000000 12.000000 0.780000 0.0

75% 18.838889 18.838889 0.890000 0.0

Max 39.905556 39.344444 1.000000 0.0

Wind Speed Wind Bearing Visibility Pressure

Count 96453.000000 96453.000000 96453.000000 96453.000000

Mean 10.810640 187.509232 10.347325 1003.235956

Std 6.913571 107.383428 4.192123 116.969906

Min 0.000000 0.000000 0.000000 0.000000

25% 5.828200 116.000000 8.339800 1011.900000

50% 9.965900 180.000000 10.046400 1016.450000

75% 14.135800 290.000000 14.812000 1021.090000

Max 63.852600 359.000000 16.100000 1046.380000

6
Missing values Outliers

Formatted date 0 -

Summary 0 -

Precip type 517 -

Temperature 0 44

Apparent temperature 0 22

Humidity 0 46

Wind speed 0 3082

Wind Bearing 0 0

Visibility 0 0

Loud Cover 0 0

Pressure 0 4400

Daily Summary 0 -

Le dataset contient aussi 24 lignes dupliquées.

7
2. VISUALISATION DES DONNEES
L'analyse des données météorologiques est essentielle pour comprendre les
tendances climatiques et les relations entre les différentes variables. Ce rapport
présente une exploration visuelle des colonnes principales du jeu de données
météorologiques, incluant les distributions des températures, de l'humidité, de la
vitesse du vent, et d'autres facteurs environnementaux. Des histogrammes ont
été utilisés pour représenter les variables numériques afin de mettre en évidence
leurs distributions, tandis qu'un graphique en barres illustre la répartition des
types de précipitations. Ces visualisations fournissent une vue d'ensemble des
caractéristiques climatiques observées dans l'ensemble des données.

8
3. PRE-TRAITEMENT DES DONNEES
A. Nettoyage du dataset

Le nettoyage des données est une étape cruciale dans tout projet de machine
learning, car il garantit la qualité, la cohérence et la fiabilité des données utilisées
pour entraîner et tester les modèles. Cette étape consiste à identifier et corriger
les anomalies présentes dans le dataset, telles que les valeurs manquantes, les
doublons, les outliers et les incohérences.

a. Transformation et extraction des caractéristiques temporelles

Conversion des dates:

La colonne Formatted Date a été convertie en format datetime, ce qui est


essentiel pour pouvoir manipuler efficacement les données temporelles. Travailler
avec des dates au format datetime permet d'appliquer des méthodes et des
calculs spécifiques (comme l'extraction de l'année, du mois, etc.), facilitant ainsi
les analyses temporelles et la modélisation. En outre, l'utilisation de
errors='coerce' pour gérer les valeurs incorrectes garantit que les données
erronées ne faussent pas les analyses, et les remplace par des valeurs manquantes
(NaT) qui seront traitées ultérieurement.

Extraction des caractéristiques temporelles

L'extraction des caractéristiques temporelles, telles que l'Année, le Mois,


le Jour, l'Heure, le Jour de la semaine et l'Indicateur de week-end, permet de
mieux saisir les tendances saisonnières, hebdomadaires ou horaires dans les
données. Ces variables peuvent avoir une influence importante sur les prévisions
météorologiques. Par exemple, certaines conditions climatiques peuvent varier en
fonction de la période de l'année (ex : plus de précipitations en hiver) ou du jour
de la semaine. De plus, l’indicateur de week-end peut aider à capturer les
comportements ou événements spécifiques, ce qui est souvent pertinent dans des
études météorologiques dépendantes de l’activité humaine.

Suppression des colonnes inutiles

La suppression de colonnes jugées non pertinentes, comme Loud Cover et


Daily Summary, est cruciale pour alléger le dataset et éviter des distractions
inutiles dans la modélisation. En effet, des données superflues peuvent introduire
du bruit et rendre les modèles plus complexes sans ajout de valeur informative.
Cela améliore l'efficacité et la précision du modèle

9
b. Traitement des doublons

Le traitement des doublons est crucial pour éviter les biais et redondances
dans le dataset.

Dans notre projet, un total de 24 lignes dupliquées a été identifié dans le dataset.
Ces doublons ont été supprimés afin d’éliminer toute redondance et de s'assurer
que chaque enregistrement contribue de manière unique à l'apprentissage du
modèle. Cette étape permet d'améliorer la fiabilité et la représentativité des
données, tout en préservant la validité des analyses et des prédictions futures.

c. Imputation des valeurs manquantes

Variables quantitatives

L'imputation des valeurs manquantes dans les variables quantitatives (telles


que la Température, Vitesse du vent, Humidité, etc.) est effectuée à l'aide du
KNNImputer. Cette méthode est particulièrement efficace pour estimer les
valeurs manquantes en se basant sur la similarité entre les observations (ici, en
utilisant 5 voisins). Cela permet de maintenir l'intégrité des relations entre les
variables sans introduire de valeurs arbitraires. L’imputation évite la perte
d'information précieuse, ce qui est fondamental pour les modèles prédictifs qui
nécessitent des ensembles de données complets.

Variables catégoriques

Les valeurs manquantes dans les variables catégoriques, comme Precip Type
(type de précipitations), ont été imputées en utilisant un modèle de Random Forest
Classifier. Cette approche est particulièrement adaptée pour les variables
catégoriques, car elle prend en compte les relations complexes entre les
différentes variables pour prédire les catégories manquantes. Le modèle est
entraîné sur les autres variables explicatives, comme l'humidité, la température,
la vitesse du vent, etc. Cette méthode garantit que l'imputation est cohérente
avec le reste des données, évitant ainsi d'introduire des biais.

d. Traitement des Outliers

Identification et détection des outliers


Des limites acceptables ont été définies pour chaque variable quantitative en
fonction des connaissances du domaine :
▪ Pressure (millibars) : [870, 1085]
▪ Wind Speed (km/h) : [0, 400]
▪ Temperature (C) : [-90, 60]

10
▪ Apparent temperature (C) : [-90, 60]
▪ Humidity : [0, 1]
▪ Visibility (km) : [0, 100]
▪ Wind Bearing (degreed) : [0, 360]
Les valeurs situées en dehors de ces plages ont été détectées comme outliers.
Traitement
Pour chaque variable contenant des outliers, les données normales ont été
utilisées pour entraîner un modèle RandomForestRegressor. Ce modèle a prédit
les valeurs aberrantes en se basant sur les autres variables quantitatives. Les
valeurs aberrantes ont ensuite été remplacées par les prédictions pour préserver
la cohérence des données sans les supprimer.

11
B. Transformation des données

La transformation des données est un processus consistant à modifier,


restructurer ou convertir les données brutes en un format adapté à l’analyse ou à
la modélisation. Cette étape est essentielle dans les projets de machine learning,
car elle permet d'améliorer la qualité des données, d'éliminer les incohérences et
de faciliter l'application des algorithmes.

a. Encodage des variables catégoriques

Dans le cadre de ce projet, certaines colonnes du dataset contiennent des


variables catégoriques, telles que Summary (description des conditions
météorologiques) et Precip Type (type de précipitations). Les modèles de machine
learning nécessitent que les données soient numériques pour pouvoir effectuer
des calculs. Par conséquent, un encodage des variables catégoriques a été
effectué pour convertir ces données textuelles en représentations numériques.

Pour ce faire, nous avons utilisé la méthode LabelEncoder, qui attribue un entier
unique à chaque catégorie présente dans les colonnes :

• Summary : Cette colonne, contenant des descriptions textuelles des


conditions météorologiques (par exemple, "Partly Cloudy", "Rain", "Snow"),
a été transformée en une série d'entiers uniques, où chaque entier
représente une catégorie distincte.
• Precip Type : Cette colonne, indiquant le type de précipitations ("rain",
"snow", ou NaN pour les valeurs manquantes), a également été encodée en
entiers pour simplifier son utilisation dans les modèles.

b. Normalisation des variables quantitatives

La normalisation des variables quantitatives est une étape essentielle dans


le pré-traitement des données pour les projets de machine learning. Elle consiste
à transformer les données de manière à ce qu'elles aient des propriétés
statistiques comparables, notamment une moyenne de 0 et un écart-type de 1.
Cette standardisation est particulièrement importante pour les algorithmes
sensibles à l'échelle des variables, comme les modèles linéaires ou ceux basés sur
les distances (e.g., k-plus proches voisins), car elle garantit une performance
optimale en équilibrant les contributions des différentes variables.

12
Dans ce projet, nous avons utilisé la classe StandardScaler de la
bibliothèque sklearn pour effectuer la normalisation. Cette méthode centre les
données autour de 0 et les réduit à une échelle uniforme avec un écart-type de 1.
Ce processus assure que toutes les variables quantitatives, telles que la
température, l'humidité, la vitesse du vent, et la pression atmosphérique, soient
sur une échelle comparable, éliminant ainsi les biais liés à leurs amplitudes
différentes.

C. Séparation des données

La séparation des données est une étape fondamentale dans les projets de
machine learning. Elle consiste à diviser les données disponibles en deux
ensembles distincts : un jeu d'entraînement (train) et un jeu de test (test ou
validation). Cette démarche permet d'entraîner le modèle sur une partie des
données tout en réservant une autre partie pour évaluer ses performances sur
des données jamais vues auparavant, garantissant ainsi une évaluation plus fiable
et objective.

Dans ce projet, nous avons divisé les données comme suit :

• X : Ensemble des caractéristiques (features), obtenu en excluant la colonne


cible Temperature (C) et d'autres colonnes non pertinentes (comme
Formatted Date).
• y : Colonne cible, représentant la variable que nous cherchons à prédire, ici
Temperature (C).

Méthode utilisée :

Nous avons utilisé la fonction train_test_split de la bibliothèque sklearn


pour effectuer la séparation des données. Un pourcentage de 15 % des données
a été réservé pour le jeu de test, tandis que les 85 % restants ont été utilisés
pour entraîner le modèle. La valeur de random_state a été fixée à 42 pour garantir
la reproductibilité des résultats.

13
III. MODELISATION

14
1. CHOIX DES ALGORITHMES

A. Présentation des algorithmes utilisés


Random Forest Regression

Random Forest est une méthode d'apprentissage automatique basée sur


l'ensemble, qui combine plusieurs arbres de décision pour améliorer les
performances de prédiction et réduire les risques de surapprentissage
(overfitting). Cette technique repose sur le principe suivant :

❖ Construction de plusieurs arbres de décision : Random Forest construit


un grand nombre d'arbres de décision indépendants. Chaque arbre est
entraîné sur un échantillon aléatoire du jeu de données (technique de
"bootstrap"), avec des sous-ensembles aléatoires de variables (features).
❖ Combinaison des prédictions :
▪ Pour un problème de régression, la prédiction finale est obtenue en
faisant la moyenne des prédictions de tous les arbres.
▪ Pour un problème de classification, la classe prédite est celle ayant le
plus de votes parmi les arbres.
❖ Réduction de la variance : La construction de multiples arbres réduit la
variance par rapport à un arbre de décision unique. Les arbres indépendants
corrigent les erreurs des autres, ce qui améliore la robustesse et limite le
surapprentissage.
❖ Importance des variables : Random Forest calcule l'importance de chaque
variable en mesurant son impact sur la réduction de l'erreur dans les arbres.
Cela aide à comprendre quelles variables sont les plus significatives pour le
modèle.

CatBoost :

CatBoost (Categorical Boosting) est un algorithme de boosting basé sur des arbres,
conçu pour résoudre efficacement des problèmes de régression et de
classification. Bien qu'il soit optimisé pour des données contenant des variables
catégoriques, il est également performant avec des données numériques. il repose
sur le principe suivant :

❖ Boosting des erreurs résiduelles : CatBoost suit le principe de base du


boosting, qui consiste à construire successivement des modèles faibles
(arbres de décision) pour corriger les erreurs des modèles précédents. À
chaque itération, l’algorithme ajuste ses prédictions pour minimiser les
erreurs résiduelles (différence entre les valeurs observées et prédites).

15
❖ Construction des arbres ordonnés : Contrairement aux algorithmes de
boosting classiques (comme XGBoost ou LightGBM), CatBoost utilise une
méthode unique appelée "bootstrap ordonné". Cette technique crée les
arbres en préservant l'ordre des données, réduisant ainsi les biais
introduits par l’utilisation répétée des mêmes données pour l’entraînement
et l’évaluation.
❖ Fonction de perte personnalisée : CatBoost optimise une fonction de perte
spécifique au problème (par exemple, l'erreur quadratique moyenne pour la
régression). Cette optimisation assure que l'algorithme se concentre sur les
points critiques pour améliorer les prédictions.
❖ Régularisation intégrée : L'algorithme intègre des mécanismes de
régularisation pour éviter le surapprentissage. Cela inclut des techniques
comme le contrôle de la profondeur des arbres, l'ajustement des taux
d'apprentissage, et le choix optimal des sous-échantillons.
❖ Support des interactions entre variables : CatBoost détecte
automatiquement les interactions complexes entre variables, ce qui améliore
la qualité des prédictions, particulièrement dans des jeux de données
numériques où les relations entre les variables sont souvent non linéaires.

B. Pourquoi ces algorithmes ?

Pour ce projet de prédiction météorologique, Random Forest et CatBoost ont


été retenus en raison de leurs capacités éprouvées à gérer des jeux de données
volumineux et complexes, tout en produisant des modèles robustes et précis. Ces
deux algorithmes offrent des approches complémentaires pour modéliser les
relations entre les variables climatiques et fournir des prédictions fiables.

Random Forest, en combinant les prédictions de multiples arbres de décision


indépendants, excelle dans la gestion des données bruitées et des variables
corrélées. Sa capacité à réduire la variance et son insensibilité aux outliers en
font un choix idéal pour des données comportant des anomalies ou des variations
extrêmes. De plus, il est simple à paramétrer et offre une interprétation intuitive
grâce à l’importance des variables, ce qui permet d’identifier les facteurs
climatiques les plus influents, tels que l’humidité ou la pression.

CatBoost, quant à lui, apporte une précision élevée grâce à ses mécanismes de
boosting avancés. Sa construction ordonnée des arbres, combinée à des
techniques de régularisation innovantes, limite le surapprentissage et améliore la
généralisation des modèles, même sur des données bruitées ou complexes. Bien
qu’optimisé pour les variables catégoriques, il s'adapte parfaitement à des
données numériques comme celles utilisées dans ce projet. CatBoost est
particulièrement performant pour capturer les relations non linéaires entre les

16
variables climatiques et fournit des résultats stables et cohérents, même sur des
ensembles de test jamais vus.

En utilisant ces deux algorithmes, le projet bénéficie à la fois de la robustesse


et de la simplicité de Random Forest, ainsi que de la précision et de l’adaptabilité
de CatBoost. Cette combinaison garantit un modèle performant et fiable,
répondant aux exigences de prédiction météorologique avec une grande efficacité.

17
2. IMPLEMENTATION DES MODELES

A. Métriques de performance

Dans ce projet, plusieurs métriques ont été utilisées pour évaluer la


performance des modèles de régression. Le Mean Squared Error (MSE)
mesure l'écart moyen au carré entre les valeurs réelles et les valeurs prédites,
avec des valeurs plus faibles indiquant une meilleure précision des prédictions.
Le Root Mean Squared Error (RMSE), qui est la racine carrée du MSE, permet
de mesurer cet écart dans les mêmes unités que la variable cible, facilitant
ainsi son interprétation. Enfin, le R² (coefficient de détermination) évalue la
proportion de la variance des données expliquée par le modèle, un R² proche
de 1 signifiant une bonne adéquation entre les prédictions et les valeurs réelles.

Une vérification du sur-apprentissage a également été réalisée, en


comparant les performances du modèle sur les ensembles d'entraînement et
de validation. Si la performance sur l'ensemble d'entraînement est nettement
meilleure que sur l'ensemble de validation, cela peut indiquer un sur-
apprentissage, où le modèle s'adapte trop aux données d'entraînement et perd
sa capacité à généraliser. Cette étape permet de s'assurer que les modèles ne
sont pas trop spécialisés et restent efficaces sur de nouvelles données.

Random Forest Regression :

o Performance : Random Forest affiche une MSE très faible de \(2.64


\times 10^{-5}\), associée à une RMSE de 0.0051, ce qui indique des
erreurs de prédiction quasi négligeables.
o Précision : Le \(R^2\) pour l’ensemble de validation atteint \(0.99997\),
témoignant d’une excellente correspondance entre les valeurs réelles et
prédites. De plus, le \(R^2\) sur l’ensemble d’entraînement est
légèrement supérieur (\(0.99999\)), suggérant une généralisation
optimale sans surapprentissage.

CatBoost :

o Performance : Bien que CatBoost obtienne une MSE légèrement plus


élevée (\(0.000167\)) et une RMSE de 0.0129, ses résultats restent
globalement bons, mais moins précis que ceux de Random Forest.
o Précision : Le \(R^2\) sur l’ensemble de validation est de \(0.99983\),
légèrement inférieur à celui de Random Forest. Le \(R^2\) sur l’ensemble
d’entraînement (\(0.99991\)) reste très élevé, montrant que le modèle
généralise correctement sans surapprentissage.

18
B. Analyse comparative des modèles

L'évaluation des performances des modèles Random Forest et CatBoost repose


sur plusieurs métriques, notamment la MSE (Mean Squared Error), la RMSE (Root
Mean Squared Error), et le coefficient de détermination \(R^2\) pour les
ensembles d'entraînement et de validation. Ces résultats, accompagnés d'une
analyse graphique, permettent d’identifier les forces et faiblesses de chaque
modèle. Voici La visualisation graphique des résultats de chaque modèle :

Pour Random Forest, les points bleus sont presque parfaitement alignés avec la
diagonale noire, même pour les valeurs extrêmes, ce qui souligne une précision
remarquable sur l’ensemble des données.

Pour CatBoost, les points rouges montrent une dispersion notable, surtout aux
extrémités, indiquant que CatBoost est légèrement moins performant pour
modéliser les valeurs extrêmes.

19
Les métriques de performance sont résumées dans le tableau suivant :

Modèle MSE RMSE R² (Validation) R² (Entraînement) Overfitting

Random 2.64 x 0.0051 0.99997 0.99999 Non

Forest 10^−5

CatBoost 0.000167 0.0129 0.99983 0.99991 Non

D’après cette analyse, les deux modèles présentent des performances


remarquables avec un haut niveau de précision et aucune détection de
surapprentissage. Cependant, Random Forest se distingue par une MSE et une
RMSE plus faibles, ainsi qu’un 𝑅² légèrement supérieur sur les ensembles
d’entraînement et de validation. CatBoost, bien qu’efficace, montre une légère
faiblesse dans la gestion des valeurs extrêmes, le rendant moins performant dans
ce contexte. Ainsi, Random Forest constitue le choix optimal pour cette tâche
spécifique.

20
3. EVALUATION DES MODELES
Les modèles Random Forest et CatBoost présentent des performances
globalement excellentes, mais des différences subtiles en termes de précision et
de généralisation. Random Forest se distingue par une capacité légèrement
supérieure à prédire avec précision, offrant une meilleure adéquation entre les
valeurs réelles et les valeurs prédites, sans montrer de surapprentissage. De son
côté, CatBoost, bien qu'efficace, présente une légère différence en termes de
gestion des erreurs, notamment pour des valeurs extrêmes, ce qui peut affecter
sa précision dans certains cas. Toutefois, les deux modèles montrent une forte
capacité à généraliser, avec des performances similaires sur les ensembles
d'entraînement et de validation, ce qui n’indique qu’aucun d'entre eux ne
surapprend. En résumé, même si CatBoost reste performant, Random Forest
semble être le modèle optimal pour cette tâche, en raison de sa meilleure précision
et de son ajustement légèrement plus robuste aux données.

21
CONCLUSION

Ce projet de prédiction météorologique a permis de démontrer


l'efficacité des algorithmes de machine learning dans la modélisation
des données climatiques. Grâce à une approche méthodique,
comprenant une exploration approfondie des données (EDA), un
prétraitement rigoureux et une modélisation optimisée, deux
algorithmes ont été testés : Random Forest et CatBoost. Random
Forest s'est distingué par ses performances exceptionnelles, avec une
précision remarquable et une robustesse face aux valeurs extrêmes.
CatBoost, bien qu'efficace, a montré des limites sur ces mêmes
valeurs. En conclusion, le projet a confirmé la pertinence de
l'application des méthodes d'apprentissage automatique pour
améliorer la fiabilité des prévisions météorologiques.

22

Vous aimerez peut-être aussi