0% ont trouvé ce document utile (0 vote)

139 vues23 pages

Weather Prediction Project

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

139 vues23 pages

Weather Prediction Project

Transféré par

kharkhach.rihabe

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Projet de prédiction

météorologique
Basé sur Machine Learning

Réalisé par :
Rihabe Kharkhach

Ahlam Et-Touaty

Wiam Mazzour

Sara Kassimi
Encadré par :
Mme. BENTALEB Asmae

Année : 2025/2024
TABLE DES MATIERES

1. Introduction
Contexte
Objectifs du projet

2. Exploratory Data Analysis (EDA)

2.1. Exploration des données
A. Présentation du jeu de données
B. Statistiques descriptives
2.2. Visualisation des données
2.3. Pré-traitement des données
A. Nettoyage des données
B. Transformation des données
C. Séparation des données

3. Modélisation
3.1. Choix des algorithmes
A. Présentation des algorithmes utilisés
B. Pourquoi ces algorithmes ?
3.2. Implémentation des modèles
A. Métriques de performance
B. Analyse comparative des modèles
3.3. Évaluation des modèles
4. Conclusion

1
INTRODUCTION

Contexte

Ce projet fait partie du programme d’études et vise à appliquer

les concepts et techniques du machine learning à un problème réel, en
l’occurrence la prédiction des conditions météorologiques. Dans un
monde de plus en plus dépendant des données, l'utilisation des
algorithmes d'apprentissage automatique pour prédire la météo est
devenue une approche prometteuse pour améliorer la précision et
l'efficacité des prévisions par rapport aux méthodes traditionnelles.
Ce projet permet ainsi d'explorer et de mettre en pratique les
connaissances théoriques acquises tout au long du cursus, tout en
abordant une problématique qui présente une importance directe dans
plusieurs secteurs, tels que la gestion des ressources naturelles et la
planification des activités humaines.

2
INTRODUCTION

Objectif du projet

Ce projet a pour objectif principal de développer un modèle de

prédiction météorologique de haute précision, capable de fournir des
prévisions fiables et robustes. L’objectif est de créer un modèle
performant qui puisse traiter efficacement les données tout en
minimisant les erreurs de prédiction, afin de garantir des résultats
pertinents pour les utilisateurs.

Le projet vise à développer un modèle de machine learning

capable de prédire des conditions météorologiques en se basant sur
deux algorithmes distincts. En parallèle, ce projet vise également à
renforcer nos compétences pratiques et théoriques acquises durant le
module de machine learning, notamment en appliquant des concepts
clés tels que l'Exploratory Data Analysis (EDA).

En travaillant sur ce projet, nous explorons non seulement la

mise en œuvre technique des algorithmes, mais également l’analyse et
la manipulation des données, des étapes fondamentales dans tout
projet de science des données. Ce processus permet de consolider
notre compréhension des approches théoriques tout en acquérant une
expérience concrète sur un sujet réel et pertinent.

3
II. EXPLORATORY DATA
ANALYSIS (EDA)

4
1. EXPLORATION DES DONNEES
A. Présentation du jeu de données
Le jeu de données analysé dans ce projet contient des informations
détaillées sur les conditions météorologiques à différents moments. Il est
structuré sous forme de tableau, où chaque ligne représente une observation
individuelle et chaque colonne correspond à une variable spécifique. Ces variables
permettent de décrire précisément les conditions climatiques.

Ce jeu de données couvre une période allant du 1er janvier 2006 au 31

décembre 2016.

Le jeu de données comporte 96 453 lignes et 12 colonnes. Voici la

description des colonnes :

o Formatted Date : Date et heure des relevés.

o Summary : Description des conditions météorologiques.
o Precip Type : Type de précipitations (pluie, neige, etc.).
o Temperature (C) : Température mesurée en degrés Celsius.
o Apparent Temperature (C) : Température ressentie en degrés Celsius.
o Humidity : Taux d'humidité (entre 0 et 1).
o Wind Speed (km/h) : Vitesse du vent en kilomètres par heure.
o Wind Bearing (degrees) : Orientation du vent en degrés.
o Visibility (km) : Visibilité en kilomètres.
o Loud Cover : Couverture nuageuse (semble être constant à 0).
o Pressure (millibars) : Pression atmosphérique en millibars.
o Daily Summary : Résumé des conditions météorologiques de la journée.

B. Statistiques descriptives

Les statistiques descriptives permettent de résumer et d’analyser les

principales caractéristiques des données présentes dans le dataset. Elles incluent
des mesures comme la moyenne, l'écart-type, les valeurs minimales et maximales,
ainsi que les quartiles (25 %, 50 % ou médiane, et 75 %). Ces indicateurs offrent
une vue d'ensemble sur la distribution des variables, leur dispersion et leurs
valeurs extrêmes. Dans ce contexte, ces statistiques descriptives aident à
comprendre les tendances climatiques, telles que les variations de température

5
réelle, de température ressentie, et d'humidité dans les observations. Elles
constituent une étape essentielle dans l’analyse exploratoire des données (EDA)
et servent de base pour des modélisations ultérieures.

Ce tableau résume les mesures descriptives essentielles pour chaque

paramètre du dataset, offrant une vue d’ensemble des tendances, dispersions et
valeurs extrêmes des données climatiques analysées.

Temperature Apparent temperature Humidity Loud Cover

Count 96453.000000 96453.000000 96453.000000 96453.0

Mean 11.932678 10.855029 0.734899 0.0

Std 9.551546 10.696847 0.195473 0.0

Min -21.822222 -27.716667 0.000000 0.0

25% 4.688889 2.311111 0.600000 0.0

50% 12.000000 12.000000 0.780000 0.0

75% 18.838889 18.838889 0.890000 0.0

Max 39.905556 39.344444 1.000000 0.0

Wind Speed Wind Bearing Visibility Pressure

Count 96453.000000 96453.000000 96453.000000 96453.000000

Mean 10.810640 187.509232 10.347325 1003.235956

Std 6.913571 107.383428 4.192123 116.969906

Min 0.000000 0.000000 0.000000 0.000000

25% 5.828200 116.000000 8.339800 1011.900000

50% 9.965900 180.000000 10.046400 1016.450000

75% 14.135800 290.000000 14.812000 1021.090000

Max 63.852600 359.000000 16.100000 1046.380000

6
Missing values Outliers

Formatted date 0 -

Summary 0 -

Precip type 517 -

Temperature 0 44

Apparent temperature 0 22

Humidity 0 46

Wind speed 0 3082

Wind Bearing 0 0

Visibility 0 0

Loud Cover 0 0

Pressure 0 4400

Daily Summary 0 -

Le dataset contient aussi 24 lignes dupliquées.

7
2. VISUALISATION DES DONNEES
L'analyse des données météorologiques est essentielle pour comprendre les
tendances climatiques et les relations entre les différentes variables. Ce rapport
présente une exploration visuelle des colonnes principales du jeu de données
météorologiques, incluant les distributions des températures, de l'humidité, de la
vitesse du vent, et d'autres facteurs environnementaux. Des histogrammes ont
été utilisés pour représenter les variables numériques afin de mettre en évidence
leurs distributions, tandis qu'un graphique en barres illustre la répartition des
types de précipitations. Ces visualisations fournissent une vue d'ensemble des
caractéristiques climatiques observées dans l'ensemble des données.

8
3. PRE-TRAITEMENT DES DONNEES
A. Nettoyage du dataset

Le nettoyage des données est une étape cruciale dans tout projet de machine
learning, car il garantit la qualité, la cohérence et la fiabilité des données utilisées
pour entraîner et tester les modèles. Cette étape consiste à identifier et corriger
les anomalies présentes dans le dataset, telles que les valeurs manquantes, les
doublons, les outliers et les incohérences.

a. Transformation et extraction des caractéristiques temporelles

Conversion des dates:

La colonne Formatted Date a été convertie en format datetime, ce qui est

essentiel pour pouvoir manipuler efficacement les données temporelles. Travailler
avec des dates au format datetime permet d'appliquer des méthodes et des
calculs spécifiques (comme l'extraction de l'année, du mois, etc.), facilitant ainsi
les analyses temporelles et la modélisation. En outre, l'utilisation de
errors='coerce' pour gérer les valeurs incorrectes garantit que les données
erronées ne faussent pas les analyses, et les remplace par des valeurs manquantes
(NaT) qui seront traitées ultérieurement.

Extraction des caractéristiques temporelles

L'extraction des caractéristiques temporelles, telles que l'Année, le Mois,

le Jour, l'Heure, le Jour de la semaine et l'Indicateur de week-end, permet de
mieux saisir les tendances saisonnières, hebdomadaires ou horaires dans les
données. Ces variables peuvent avoir une influence importante sur les prévisions
météorologiques. Par exemple, certaines conditions climatiques peuvent varier en
fonction de la période de l'année (ex : plus de précipitations en hiver) ou du jour
de la semaine. De plus, l’indicateur de week-end peut aider à capturer les
comportements ou événements spécifiques, ce qui est souvent pertinent dans des
études météorologiques dépendantes de l’activité humaine.

Suppression des colonnes inutiles

La suppression de colonnes jugées non pertinentes, comme Loud Cover et

Daily Summary, est cruciale pour alléger le dataset et éviter des distractions
inutiles dans la modélisation. En effet, des données superflues peuvent introduire
du bruit et rendre les modèles plus complexes sans ajout de valeur informative.
Cela améliore l'efficacité et la précision du modèle

9
b. Traitement des doublons

Le traitement des doublons est crucial pour éviter les biais et redondances
dans le dataset.

Dans notre projet, un total de 24 lignes dupliquées a été identifié dans le dataset.
Ces doublons ont été supprimés afin d’éliminer toute redondance et de s'assurer
que chaque enregistrement contribue de manière unique à l'apprentissage du
modèle. Cette étape permet d'améliorer la fiabilité et la représentativité des
données, tout en préservant la validité des analyses et des prédictions futures.

c. Imputation des valeurs manquantes

Variables quantitatives

L'imputation des valeurs manquantes dans les variables quantitatives (telles

que la Température, Vitesse du vent, Humidité, etc.) est effectuée à l'aide du
KNNImputer. Cette méthode est particulièrement efficace pour estimer les
valeurs manquantes en se basant sur la similarité entre les observations (ici, en
utilisant 5 voisins). Cela permet de maintenir l'intégrité des relations entre les
variables sans introduire de valeurs arbitraires. L’imputation évite la perte
d'information précieuse, ce qui est fondamental pour les modèles prédictifs qui
nécessitent des ensembles de données complets.

Variables catégoriques

Les valeurs manquantes dans les variables catégoriques, comme Precip Type
(type de précipitations), ont été imputées en utilisant un modèle de Random Forest
Classifier. Cette approche est particulièrement adaptée pour les variables
catégoriques, car elle prend en compte les relations complexes entre les
différentes variables pour prédire les catégories manquantes. Le modèle est
entraîné sur les autres variables explicatives, comme l'humidité, la température,
la vitesse du vent, etc. Cette méthode garantit que l'imputation est cohérente
avec le reste des données, évitant ainsi d'introduire des biais.

d. Traitement des Outliers

Identification et détection des outliers

Des limites acceptables ont été définies pour chaque variable quantitative en
fonction des connaissances du domaine :
▪ Pressure (millibars) : [870, 1085]
▪ Wind Speed (km/h) : [0, 400]
▪ Temperature (C) : [-90, 60]

10
▪ Apparent temperature (C) : [-90, 60]
▪ Humidity : [0, 1]
▪ Visibility (km) : [0, 100]
▪ Wind Bearing (degreed) : [0, 360]
Les valeurs situées en dehors de ces plages ont été détectées comme outliers.
Traitement
Pour chaque variable contenant des outliers, les données normales ont été
utilisées pour entraîner un modèle RandomForestRegressor. Ce modèle a prédit
les valeurs aberrantes en se basant sur les autres variables quantitatives. Les
valeurs aberrantes ont ensuite été remplacées par les prédictions pour préserver
la cohérence des données sans les supprimer.

11
B. Transformation des données

La transformation des données est un processus consistant à modifier,

restructurer ou convertir les données brutes en un format adapté à l’analyse ou à
la modélisation. Cette étape est essentielle dans les projets de machine learning,
car elle permet d'améliorer la qualité des données, d'éliminer les incohérences et
de faciliter l'application des algorithmes.

a. Encodage des variables catégoriques

Dans le cadre de ce projet, certaines colonnes du dataset contiennent des

variables catégoriques, telles que Summary (description des conditions
météorologiques) et Precip Type (type de précipitations). Les modèles de machine
learning nécessitent que les données soient numériques pour pouvoir effectuer
des calculs. Par conséquent, un encodage des variables catégoriques a été
effectué pour convertir ces données textuelles en représentations numériques.

Pour ce faire, nous avons utilisé la méthode LabelEncoder, qui attribue un entier
unique à chaque catégorie présente dans les colonnes :

• Summary : Cette colonne, contenant des descriptions textuelles des

conditions météorologiques (par exemple, "Partly Cloudy", "Rain", "Snow"),
a été transformée en une série d'entiers uniques, où chaque entier
représente une catégorie distincte.
• Precip Type : Cette colonne, indiquant le type de précipitations ("rain",
"snow", ou NaN pour les valeurs manquantes), a également été encodée en
entiers pour simplifier son utilisation dans les modèles.

b. Normalisation des variables quantitatives

La normalisation des variables quantitatives est une étape essentielle dans

le pré-traitement des données pour les projets de machine learning. Elle consiste
à transformer les données de manière à ce qu'elles aient des propriétés
statistiques comparables, notamment une moyenne de 0 et un écart-type de 1.
Cette standardisation est particulièrement importante pour les algorithmes
sensibles à l'échelle des variables, comme les modèles linéaires ou ceux basés sur
les distances (e.g., k-plus proches voisins), car elle garantit une performance
optimale en équilibrant les contributions des différentes variables.

12
Dans ce projet, nous avons utilisé la classe StandardScaler de la
bibliothèque sklearn pour effectuer la normalisation. Cette méthode centre les
données autour de 0 et les réduit à une échelle uniforme avec un écart-type de 1.
Ce processus assure que toutes les variables quantitatives, telles que la
température, l'humidité, la vitesse du vent, et la pression atmosphérique, soient
sur une échelle comparable, éliminant ainsi les biais liés à leurs amplitudes
différentes.

C. Séparation des données

La séparation des données est une étape fondamentale dans les projets de
machine learning. Elle consiste à diviser les données disponibles en deux
ensembles distincts : un jeu d'entraînement (train) et un jeu de test (test ou
validation). Cette démarche permet d'entraîner le modèle sur une partie des
données tout en réservant une autre partie pour évaluer ses performances sur
des données jamais vues auparavant, garantissant ainsi une évaluation plus fiable
et objective.

Dans ce projet, nous avons divisé les données comme suit :

• X : Ensemble des caractéristiques (features), obtenu en excluant la colonne

cible Temperature (C) et d'autres colonnes non pertinentes (comme
Formatted Date).
• y : Colonne cible, représentant la variable que nous cherchons à prédire, ici
Temperature (C).

Méthode utilisée :

Nous avons utilisé la fonction train_test_split de la bibliothèque sklearn

pour effectuer la séparation des données. Un pourcentage de 15 % des données
a été réservé pour le jeu de test, tandis que les 85 % restants ont été utilisés
pour entraîner le modèle. La valeur de random_state a été fixée à 42 pour garantir
la reproductibilité des résultats.

13
III. MODELISATION

14
1. CHOIX DES ALGORITHMES

A. Présentation des algorithmes utilisés

Random Forest Regression

Random Forest est une méthode d'apprentissage automatique basée sur

l'ensemble, qui combine plusieurs arbres de décision pour améliorer les
performances de prédiction et réduire les risques de surapprentissage
(overfitting). Cette technique repose sur le principe suivant :

❖ Construction de plusieurs arbres de décision : Random Forest construit

un grand nombre d'arbres de décision indépendants. Chaque arbre est
entraîné sur un échantillon aléatoire du jeu de données (technique de
"bootstrap"), avec des sous-ensembles aléatoires de variables (features).
❖ Combinaison des prédictions :
▪ Pour un problème de régression, la prédiction finale est obtenue en
faisant la moyenne des prédictions de tous les arbres.
▪ Pour un problème de classification, la classe prédite est celle ayant le
plus de votes parmi les arbres.
❖ Réduction de la variance : La construction de multiples arbres réduit la
variance par rapport à un arbre de décision unique. Les arbres indépendants
corrigent les erreurs des autres, ce qui améliore la robustesse et limite le
surapprentissage.
❖ Importance des variables : Random Forest calcule l'importance de chaque
variable en mesurant son impact sur la réduction de l'erreur dans les arbres.
Cela aide à comprendre quelles variables sont les plus significatives pour le
modèle.

CatBoost :

CatBoost (Categorical Boosting) est un algorithme de boosting basé sur des arbres,
conçu pour résoudre efficacement des problèmes de régression et de
classification. Bien qu'il soit optimisé pour des données contenant des variables
catégoriques, il est également performant avec des données numériques. il repose
sur le principe suivant :

❖ Boosting des erreurs résiduelles : CatBoost suit le principe de base du

boosting, qui consiste à construire successivement des modèles faibles
(arbres de décision) pour corriger les erreurs des modèles précédents. À
chaque itération, l’algorithme ajuste ses prédictions pour minimiser les
erreurs résiduelles (différence entre les valeurs observées et prédites).

15
❖ Construction des arbres ordonnés : Contrairement aux algorithmes de
boosting classiques (comme XGBoost ou LightGBM), CatBoost utilise une
méthode unique appelée "bootstrap ordonné". Cette technique crée les
arbres en préservant l'ordre des données, réduisant ainsi les biais
introduits par l’utilisation répétée des mêmes données pour l’entraînement
et l’évaluation.
❖ Fonction de perte personnalisée : CatBoost optimise une fonction de perte
spécifique au problème (par exemple, l'erreur quadratique moyenne pour la
régression). Cette optimisation assure que l'algorithme se concentre sur les
points critiques pour améliorer les prédictions.
❖ Régularisation intégrée : L'algorithme intègre des mécanismes de
régularisation pour éviter le surapprentissage. Cela inclut des techniques
comme le contrôle de la profondeur des arbres, l'ajustement des taux
d'apprentissage, et le choix optimal des sous-échantillons.
❖ Support des interactions entre variables : CatBoost détecte
automatiquement les interactions complexes entre variables, ce qui améliore
la qualité des prédictions, particulièrement dans des jeux de données
numériques où les relations entre les variables sont souvent non linéaires.

B. Pourquoi ces algorithmes ?

Pour ce projet de prédiction météorologique, Random Forest et CatBoost ont

été retenus en raison de leurs capacités éprouvées à gérer des jeux de données
volumineux et complexes, tout en produisant des modèles robustes et précis. Ces
deux algorithmes offrent des approches complémentaires pour modéliser les
relations entre les variables climatiques et fournir des prédictions fiables.

Random Forest, en combinant les prédictions de multiples arbres de décision

indépendants, excelle dans la gestion des données bruitées et des variables
corrélées. Sa capacité à réduire la variance et son insensibilité aux outliers en
font un choix idéal pour des données comportant des anomalies ou des variations
extrêmes. De plus, il est simple à paramétrer et offre une interprétation intuitive
grâce à l’importance des variables, ce qui permet d’identifier les facteurs
climatiques les plus influents, tels que l’humidité ou la pression.

CatBoost, quant à lui, apporte une précision élevée grâce à ses mécanismes de
boosting avancés. Sa construction ordonnée des arbres, combinée à des
techniques de régularisation innovantes, limite le surapprentissage et améliore la
généralisation des modèles, même sur des données bruitées ou complexes. Bien
qu’optimisé pour les variables catégoriques, il s'adapte parfaitement à des
données numériques comme celles utilisées dans ce projet. CatBoost est
particulièrement performant pour capturer les relations non linéaires entre les

16
variables climatiques et fournit des résultats stables et cohérents, même sur des
ensembles de test jamais vus.

En utilisant ces deux algorithmes, le projet bénéficie à la fois de la robustesse

et de la simplicité de Random Forest, ainsi que de la précision et de l’adaptabilité
de CatBoost. Cette combinaison garantit un modèle performant et fiable,
répondant aux exigences de prédiction météorologique avec une grande efficacité.

17
2. IMPLEMENTATION DES MODELES

A. Métriques de performance

Dans ce projet, plusieurs métriques ont été utilisées pour évaluer la

performance des modèles de régression. Le Mean Squared Error (MSE)
mesure l'écart moyen au carré entre les valeurs réelles et les valeurs prédites,
avec des valeurs plus faibles indiquant une meilleure précision des prédictions.
Le Root Mean Squared Error (RMSE), qui est la racine carrée du MSE, permet
de mesurer cet écart dans les mêmes unités que la variable cible, facilitant
ainsi son interprétation. Enfin, le R² (coefficient de détermination) évalue la
proportion de la variance des données expliquée par le modèle, un R² proche
de 1 signifiant une bonne adéquation entre les prédictions et les valeurs réelles.

Une vérification du sur-apprentissage a également été réalisée, en

comparant les performances du modèle sur les ensembles d'entraînement et
de validation. Si la performance sur l'ensemble d'entraînement est nettement
meilleure que sur l'ensemble de validation, cela peut indiquer un sur-
apprentissage, où le modèle s'adapte trop aux données d'entraînement et perd
sa capacité à généraliser. Cette étape permet de s'assurer que les modèles ne
sont pas trop spécialisés et restent efficaces sur de nouvelles données.

Random Forest Regression :

o Performance : Random Forest affiche une MSE très faible de \(2.64

\times 10^{-5}\), associée à une RMSE de 0.0051, ce qui indique des
erreurs de prédiction quasi négligeables.
o Précision : Le \(R^2\) pour l’ensemble de validation atteint \(0.99997\),
témoignant d’une excellente correspondance entre les valeurs réelles et
prédites. De plus, le \(R^2\) sur l’ensemble d’entraînement est
légèrement supérieur (\(0.99999\)), suggérant une généralisation
optimale sans surapprentissage.

CatBoost :

o Performance : Bien que CatBoost obtienne une MSE légèrement plus

élevée (\(0.000167\)) et une RMSE de 0.0129, ses résultats restent
globalement bons, mais moins précis que ceux de Random Forest.
o Précision : Le \(R^2\) sur l’ensemble de validation est de \(0.99983\),
légèrement inférieur à celui de Random Forest. Le \(R^2\) sur l’ensemble
d’entraînement (\(0.99991\)) reste très élevé, montrant que le modèle
généralise correctement sans surapprentissage.

18
B. Analyse comparative des modèles

L'évaluation des performances des modèles Random Forest et CatBoost repose

sur plusieurs métriques, notamment la MSE (Mean Squared Error), la RMSE (Root
Mean Squared Error), et le coefficient de détermination \(R^2\) pour les
ensembles d'entraînement et de validation. Ces résultats, accompagnés d'une
analyse graphique, permettent d’identifier les forces et faiblesses de chaque
modèle. Voici La visualisation graphique des résultats de chaque modèle :

Pour Random Forest, les points bleus sont presque parfaitement alignés avec la
diagonale noire, même pour les valeurs extrêmes, ce qui souligne une précision
remarquable sur l’ensemble des données.

Pour CatBoost, les points rouges montrent une dispersion notable, surtout aux
extrémités, indiquant que CatBoost est légèrement moins performant pour
modéliser les valeurs extrêmes.

19
Les métriques de performance sont résumées dans le tableau suivant :

Modèle MSE RMSE R² (Validation) R² (Entraînement) Overfitting

Random 2.64 x 0.0051 0.99997 0.99999 Non

Forest 10^−5

CatBoost 0.000167 0.0129 0.99983 0.99991 Non

D’après cette analyse, les deux modèles présentent des performances

remarquables avec un haut niveau de précision et aucune détection de
surapprentissage. Cependant, Random Forest se distingue par une MSE et une
RMSE plus faibles, ainsi qu’un 𝑅² légèrement supérieur sur les ensembles
d’entraînement et de validation. CatBoost, bien qu’efficace, montre une légère
faiblesse dans la gestion des valeurs extrêmes, le rendant moins performant dans
ce contexte. Ainsi, Random Forest constitue le choix optimal pour cette tâche
spécifique.

20
3. EVALUATION DES MODELES
Les modèles Random Forest et CatBoost présentent des performances
globalement excellentes, mais des différences subtiles en termes de précision et
de généralisation. Random Forest se distingue par une capacité légèrement
supérieure à prédire avec précision, offrant une meilleure adéquation entre les
valeurs réelles et les valeurs prédites, sans montrer de surapprentissage. De son
côté, CatBoost, bien qu'efficace, présente une légère différence en termes de
gestion des erreurs, notamment pour des valeurs extrêmes, ce qui peut affecter
sa précision dans certains cas. Toutefois, les deux modèles montrent une forte
capacité à généraliser, avec des performances similaires sur les ensembles
d'entraînement et de validation, ce qui n’indique qu’aucun d'entre eux ne
surapprend. En résumé, même si CatBoost reste performant, Random Forest
semble être le modèle optimal pour cette tâche, en raison de sa meilleure précision
et de son ajustement légèrement plus robuste aux données.

21
CONCLUSION

Ce projet de prédiction météorologique a permis de démontrer

l'efficacité des algorithmes de machine learning dans la modélisation
des données climatiques. Grâce à une approche méthodique,
comprenant une exploration approfondie des données (EDA), un
prétraitement rigoureux et une modélisation optimisée, deux
algorithmes ont été testés : Random Forest et CatBoost. Random
Forest s'est distingué par ses performances exceptionnelles, avec une
précision remarquable et une robustesse face aux valeurs extrêmes.
CatBoost, bien qu'efficace, a montré des limites sur ces mêmes
valeurs. En conclusion, le projet a confirmé la pertinence de
l'application des méthodes d'apprentissage automatique pour
améliorer la fiabilité des prévisions météorologiques.

Vous aimerez peut-être aussi

Implémentation Des Techniques de Binarisation D'image. Application Aux Vieux Documents
100% (1)
Implémentation Des Techniques de Binarisation D'image. Application Aux Vieux Documents
50 pages
Deep Learning pour l'imagerie satellitaire
Pas encore d'évaluation
Deep Learning pour l'imagerie satellitaire
111 pages
IA Et ML
Pas encore d'évaluation
IA Et ML
12 pages
Segmentation Et Valuation Des Images Seg 20150525100744 406916
Pas encore d'évaluation
Segmentation Et Valuation Des Images Seg 20150525100744 406916
172 pages
Détection de Contours et Hough en Matlab
100% (1)
Détection de Contours et Hough en Matlab
6 pages
Analyse Et Prédiction Des Crises Cardiaques
Pas encore d'évaluation
Analyse Et Prédiction Des Crises Cardiaques
30 pages
Introduction à la reconnaissance de formes
Pas encore d'évaluation
Introduction à la reconnaissance de formes
5 pages
Classification d'opinions par apprentissage profond
Pas encore d'évaluation
Classification d'opinions par apprentissage profond
91 pages
Systèmes Multiagents : Questions et Exercices
Pas encore d'évaluation
Systèmes Multiagents : Questions et Exercices
2 pages
Introduction au logiciel R et ses fonctionnalités
Pas encore d'évaluation
Introduction au logiciel R et ses fonctionnalités
157 pages
Optimisation des Graphes en Mathématiques
Pas encore d'évaluation
Optimisation des Graphes en Mathématiques
31 pages
Exercices de programmation en C
Pas encore d'évaluation
Exercices de programmation en C
2 pages
Python pour Mathématiques PCSI
Pas encore d'évaluation
Python pour Mathématiques PCSI
20 pages
Processus Stochastiques et Markov
Pas encore d'évaluation
Processus Stochastiques et Markov
90 pages
Prédiction - Churn - Enock - NKINSI 12
Pas encore d'évaluation
Prédiction - Churn - Enock - NKINSI 12
65 pages
Classification d'images par apprentissage supervisé
Pas encore d'évaluation
Classification d'images par apprentissage supervisé
2 pages
Analyse Factorielle des Correspondances
Pas encore d'évaluation
Analyse Factorielle des Correspondances
4 pages
Compte Rendu: Mini Projet Compression & Stockage
Pas encore d'évaluation
Compte Rendu: Mini Projet Compression & Stockage
14 pages
Cour ML UT SET
Pas encore d'évaluation
Cour ML UT SET
39 pages
Prédiction des défauts photovoltaïques par IA
Pas encore d'évaluation
Prédiction des défauts photovoltaïques par IA
6 pages
Master2-Info-reconnaissance de Caracteres
Pas encore d'évaluation
Master2-Info-reconnaissance de Caracteres
88 pages
These Bakkari
100% (1)
These Bakkari
174 pages
Rapport Pfe
Pas encore d'évaluation
Rapport Pfe
36 pages
Analyse des votes présidentiels 2012
Pas encore d'évaluation
Analyse des votes présidentiels 2012
36 pages
Classifieurs en Classification Supervisée
Pas encore d'évaluation
Classifieurs en Classification Supervisée
32 pages
TP Data Mining : KNN et Arbres
Pas encore d'évaluation
TP Data Mining : KNN et Arbres
8 pages
Système de Détection D'intrusion A Base D'apprentissage Automatique (IDS)
Pas encore d'évaluation
Système de Détection D'intrusion A Base D'apprentissage Automatique (IDS)
2 pages
Analyse des Températures en Europe
Pas encore d'évaluation
Analyse des Températures en Europe
34 pages
Chapitre 6 Clustering Hi-Rarchique
Pas encore d'évaluation
Chapitre 6 Clustering Hi-Rarchique
62 pages
Introduction aux Réseaux CNN
Pas encore d'évaluation
Introduction aux Réseaux CNN
8 pages
Optimisation et Modélisation IA
Pas encore d'évaluation
Optimisation et Modélisation IA
82 pages
Modélisation - Mathématiques
Pas encore d'évaluation
Modélisation - Mathématiques
57 pages
Résolution du Voyageur de Commerce par Métaheuristiques
Pas encore d'évaluation
Résolution du Voyageur de Commerce par Métaheuristiques
42 pages
TP 4 - Object Detection YOLO
Pas encore d'évaluation
TP 4 - Object Detection YOLO
3 pages
Systèmes d'Information Décisionnels et BI
Pas encore d'évaluation
Systèmes d'Information Décisionnels et BI
175 pages
Diagnostic du Cancer du Poumon par Deep Learning
Pas encore d'évaluation
Diagnostic du Cancer du Poumon par Deep Learning
84 pages
Le Processus de Science Des Donnees
Pas encore d'évaluation
Le Processus de Science Des Donnees
16 pages
Mémoire sur la Vision Artificielle et Traitement d'Images
Pas encore d'évaluation
Mémoire sur la Vision Artificielle et Traitement d'Images
138 pages
Réseaux Bayésiens et Apprentissage
Pas encore d'évaluation
Réseaux Bayésiens et Apprentissage
38 pages
Cours NN
Pas encore d'évaluation
Cours NN
79 pages
Cours CNN
Pas encore d'évaluation
Cours CNN
57 pages
TP: Arbres de Décision en ML
Pas encore d'évaluation
TP: Arbres de Décision en ML
6 pages
Introduction aux vecteurs aléatoires
Pas encore d'évaluation
Introduction aux vecteurs aléatoires
32 pages
Data Science avec Python : Guide Complet
Pas encore d'évaluation
Data Science avec Python : Guide Complet
135 pages
Examen IA 22-23 - Master
Pas encore d'évaluation
Examen IA 22-23 - Master
2 pages
Segmentation d'Images par Contours Actifs
Pas encore d'évaluation
Segmentation d'Images par Contours Actifs
90 pages
Modele de Recherche Operationnele
Pas encore d'évaluation
Modele de Recherche Operationnele
113 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Reconnaissance de caractères arabes
Pas encore d'évaluation
Reconnaissance de caractères arabes
71 pages
Logistic Regression
Pas encore d'évaluation
Logistic Regression
23 pages
Introduction aux Algorithmes Génétiques
Pas encore d'évaluation
Introduction aux Algorithmes Génétiques
72 pages
Analyse BTS IG/SIO : Merise et UML
Pas encore d'évaluation
Analyse BTS IG/SIO : Merise et UML
32 pages
Corrigé Théorie des Graphes L2 MI
Pas encore d'évaluation
Corrigé Théorie des Graphes L2 MI
3 pages
Manipulation des données avec R
Pas encore d'évaluation
Manipulation des données avec R
5 pages
Master IAFA à Toulouse : Syllabus 2023
Pas encore d'évaluation
Master IAFA à Toulouse : Syllabus 2023
54 pages
Intelligence Artificielle: Prédiction Avancée de La Météo
Pas encore d'évaluation
Intelligence Artificielle: Prédiction Avancée de La Météo
19 pages
Prédiction Météo par Data Mining
Pas encore d'évaluation
Prédiction Météo par Data Mining
15 pages
Prédiction des Précipitations par Deep Learning
Pas encore d'évaluation
Prédiction des Précipitations par Deep Learning
24 pages
Modele Climatique
Pas encore d'évaluation
Modele Climatique
4 pages
Projet Fin D'annee3
Pas encore d'évaluation
Projet Fin D'annee3
24 pages
Support Machine Learning
Pas encore d'évaluation
Support Machine Learning
156 pages
Classification - Decision-Tree - Copie
Pas encore d'évaluation
Classification - Decision-Tree - Copie
5 pages
Présentation Cours ACP
Pas encore d'évaluation
Présentation Cours ACP
21 pages
Algorithme Bellman-Ford et variantes
Pas encore d'évaluation
Algorithme Bellman-Ford et variantes
7 pages
Transformées de Fourier et Z
Pas encore d'évaluation
Transformées de Fourier et Z
26 pages
CORRIGE Du DS Etat Stable 2-3 Etats Version 1
Pas encore d'évaluation
CORRIGE Du DS Etat Stable 2-3 Etats Version 1
2 pages
Exercices Résolus Dalgorithmique Et Structures de Données
Pas encore d'évaluation
Exercices Résolus Dalgorithmique Et Structures de Données
36 pages
Exponetielle Matrice
Pas encore d'évaluation
Exponetielle Matrice
16 pages
Espace tangent en géométrie différentielle
Pas encore d'évaluation
Espace tangent en géométrie différentielle
2 pages
Stabilité des Systèmes Asservis en SLI
Pas encore d'évaluation
Stabilité des Systèmes Asservis en SLI
6 pages
Analyse de signaux et échantillonnage
Pas encore d'évaluation
Analyse de signaux et échantillonnage
1 page
Analyse de structure : approche hyperstatique
Pas encore d'évaluation
Analyse de structure : approche hyperstatique
2 pages
Énoncé CCP Maths 2 MP 2017
Pas encore d'évaluation
Énoncé CCP Maths 2 MP 2017
7 pages
Algorithmes et Programmation en C++
Pas encore d'évaluation
Algorithmes et Programmation en C++
8 pages
Résolution numérique des EDP linéaires
Pas encore d'évaluation
Résolution numérique des EDP linéaires
60 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
2 pages
Chapitre 2-Transformer en Z
Pas encore d'évaluation
Chapitre 2-Transformer en Z
23 pages
Gestion des clés de chiffrement 2023-2024
Pas encore d'évaluation
Gestion des clés de chiffrement 2023-2024
16 pages
Cours 4
Pas encore d'évaluation
Cours 4
6 pages
Analyse Multiniveaux : Concepts et Applications
Pas encore d'évaluation
Analyse Multiniveaux : Concepts et Applications
16 pages
1ère P1 Cours Conditionnement Et Indépendance-2
Pas encore d'évaluation
1ère P1 Cours Conditionnement Et Indépendance-2
5 pages
Introduction à la recherche opérationnelle
Pas encore d'évaluation
Introduction à la recherche opérationnelle
41 pages
Article
Pas encore d'évaluation
Article
3 pages
Problème d'Affectation et Résolutions
Pas encore d'évaluation
Problème d'Affectation et Résolutions
23 pages
Optimisation par théorie des graphes
Pas encore d'évaluation
Optimisation par théorie des graphes
10 pages
Mef Lecture 1 2
Pas encore d'évaluation
Mef Lecture 1 2
6 pages
Semaine 11
Pas encore d'évaluation
Semaine 11
14 pages
Prédiction des risques d'inondation au Lac Nokoué
Pas encore d'évaluation
Prédiction des risques d'inondation au Lac Nokoué
61 pages
TD3 Cmecanal
Pas encore d'évaluation
TD3 Cmecanal
2 pages
Optimisation linéaire : Analyse et solutions
Pas encore d'évaluation
Optimisation linéaire : Analyse et solutions
4 pages