0% ont trouvé ce document utile (0 vote)
27 vues10 pages

Implementation

Ce rapport présente l'implémentation de modèles d'apprentissage automatique pour prédire la température et les précipitations au Cameroun, en utilisant K-Means, SVR et MLP. La méthodologie inclut le prétraitement des données, la réduction de dimensionnalité, et l'évaluation des performances des modèles. Les résultats montrent que SVR et MLP surpassent K-Means, particulièrement pour les variables de température.

Transféré par

Rivoire Dossivil
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
27 vues10 pages

Implementation

Ce rapport présente l'implémentation de modèles d'apprentissage automatique pour prédire la température et les précipitations au Cameroun, en utilisant K-Means, SVR et MLP. La méthodologie inclut le prétraitement des données, la réduction de dimensionnalité, et l'évaluation des performances des modèles. Les résultats montrent que SVR et MLP surpassent K-Means, particulièrement pour les variables de température.

Transféré par

Rivoire Dossivil
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UNIVERSITÉ DE UNIVERSITY OF

YAOUNDÉ 1 YAOUNDÉ 1

FACULTÉ DES FACULTY OF


SCIENCES SCIENCE

DÉPARTEMENT DEPARTMENT OF
D’INFORMATIQUE COMPUTER
SCIENCE

RAPPORT D’IMPLÉMENTATION

Prédiction de la température au Cameroun


GROUPE 6
Apprentissage supervisé et non supervisé – INF372

NOMS ET MATRICULES DES MEMBRES DU GROUPE 6 :

NOMS MATRICULES
DONGMO KENFACK Ousmel Douma 22Y1025
DOSSIVIL RIVOIRE VIANEY 22U2116
KIARI EMBE FRANCK ALEXIS 16T2912
NGAH ABANDA STEVE JORDAN 19M2348
TAPAH NGASSA CLAUDIA 20V2342
TEGUIA YVES 19M2389

Sous la supervision du Professeur Melatagia Paulin.


27 juin 2025
Table des matières

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Contexte et Enjeux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objectifs du Projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Variables Cibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Méthodologie d’Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.1 Architecture Générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.2 Chargement et Prétraitement des Données . . . . . . . . . . . . . . . . . 1
2.3 Séparation des Caractéristiques et Cibles . . . . . . . . . . . . . . . . . . 2
2.4 Division en Ensembles d’Entraînement et de Test . . . . . . . . . . . . . 2
2.5 Standardisation et Réduction de Dimensionnalité avec PCA . . . . . . . 2
3 Modèles Implémentés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
3.1 K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
3.2 Support Vector Regression (SVR) . . . . . . . . . . . . . . . . . . . . . . 3
3.3 Multi-Layer Perceptron (MLP) . . . . . . . . . . . . . . . . . . . . . . . 3
4 Évaluation des Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4.1 Métriques de Régression . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4.2 Classification et Matrice de Confusion . . . . . . . . . . . . . . . . . . . 3
4.3 Prédictions vs Réalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
5 Sauvegarde et Réutilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
6 Analyse des Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6.1 Performance Comparative . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6.2 Spécificités par Variable . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
7 Conclusion et Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
7.1 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
7.2 Applications Pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
7.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1
Résumé

Ce rapport présente l’implémentation détaillée de trois modèles d’apprentissage automatique


— K-Means, SVR (Support Vector Regression), et MLP (Multi-Layer Perceptron) — pour
prédire la température maximale (tmax), la température minimale (tmin), et les précipitations
(prcp) à partir de données météorologiques du Cameroun. L’approche méthodologique com-
prend le prétraitement des données, la réduction de dimensionnalité avec PCA, l’entraînement
des modèles, leur évaluation avec des métriques standards, et une comparaison avec Random
Forest. Ce rapport détaille uniquement la méthodologie d’implémentation sans présenter de
code source.
1 Introduction
1.1 Contexte et Enjeux
La prédiction météorologique constitue un défi scientifique et technologique majeur pour
le Cameroun, pays dont l’économie repose largement sur l’agriculture et les ressources na-
turelles. Les variations climatiques impactent directement la production agricole, la gestion
des ressources en eau, et la planification des activités économiques. Dans ce contexte, le dé-
veloppement de modèles de prédiction fiables devient essentiel pour anticiper les conditions
météorologiques et optimiser la prise de décision.

1.2 Objectifs du Projet


Ce projet vise à implémenter et évaluer trois approches d’apprentissage automatique dis-
tinctes pour la prédiction de variables météorologiques clés. Les objectifs spécifiques incluent
le développement de modèles robustes pour prédire la température maximale, la température
minimale et les précipitations, l’évaluation comparative de leurs performances, et la création
d’outils réutilisables pour des prédictions futures.

1.3 Variables Cibles


L’étude se concentre sur trois variables météorologiques fondamentales :
— Température maximale (tmax) : Température la plus élevée enregistrée quotidienne-
ment
— Température minimale (tmin) : Température la plus basse enregistrée quotidienne-
ment
— Précipitations (prcp) : Quantité de pluie quotidienne mesurée

2 Méthodologie d’Implémentation
2.1 Architecture Générale
L’implémentation suit une architecture pipeline structurée en six phases principales, garan-
tissant une approche méthodique et reproductible. Cette architecture modulaire permet une
évaluation comparative rigoureuse des différents modèles tout en maintenant la cohérence des
prétraitements appliqués.

2.2 Chargement et Prétraitement des Données


Le processus débute par l’importation des données depuis le fichier donnees_pretraitees.csv
contenant les observations météorologiques. La phase de prétraitement comprend plusieurs
étapes critiques : la conversion de la colonne temporelle time au format datetime pour extraire
les caractéristiques saisonnières (mois et jour), la suppression des colonnes non numériques
incompatibles avec les algorithmes d’apprentissage, et la gestion des valeurs manquantes par
imputation avec la moyenne des colonnes respectives.

1
2.3 Séparation des Caractéristiques et Cibles
La séparation des données s’effectue selon la structure suivante :

Type Variables
Caractéristiques (X) tavg, wspd, pres, month, day
Cible 1 (y_tmax) tmax
Cible 2 (y_tmin) tmin
Cible 3 (y_prcp) prcp

Table 1 – Structure de séparation des données

Cette séparation permet d’isoler les variables explicatives des variables à prédire, facilitant
l’entraînement indépendant de modèles spécialisés pour chaque cible météorologique.

2.4 Division en Ensembles d’Entraînement et de Test


La division des données respecte la proportion standard de 80% pour l’entraînement et
20% pour les tests. Cette répartition garantit un volume suffisant de données pour l’apprentis-
sage tout en conservant un ensemble de test représentatif pour l’évaluation. L’utilisation d’un
random_state fixe assure la reproductibilité des résultats lors des expérimentations successives.

2.5 Standardisation et Réduction de Dimensionnalité avec PCA


La standardisation des caractéristiques s’effectue via une normalisation Z-score, centrant les
données sur zéro avec un écart-type unitaire. Cette étape prévient la domination de variables
ayant des ordres de grandeur différents. L’Analyse en Composantes Principales (PCA) réduit
ensuite la dimensionnalité en conservant 95% de la variance originale, optimisant la performance
des modèles tout en préservant l’information essentielle.

3 Modèles Implémentés
3.1 K-Means
L’algorithme K-Means, traditionnellement utilisé pour le clustering, a été adapté pour la
régression. L’implémentation configure 5 clusters et utilise la moyenne des valeurs cibles par
cluster comme mécanisme de prédiction. Cette approche transforme un problème de régression
en tâche de classification suivie d’une assignation de valeurs moyennes.

2
3.2 Support Vector Regression (SVR)
Le modèle SVR utilise un noyau radial (RBF) avec des hyperparamètres optimisés : C=100
pour le contrôle de la régularisation et epsilon=0.1 pour la tolérance des erreurs. Trois modèles
SVR indépendants sont entraînés, chacun spécialisé dans la prédiction d’une variable cible
spécifique.

3.3 Multi-Layer Perceptron (MLP)


L’architecture MLP comprend une couche cachée de 100 neurones avec activation ReLU.
La configuration limite l’entraînement à 1000 itérations maximum pour prévenir le surappren-
tissage. Comme pour SVR, trois réseaux MLP distincts sont développés pour chaque variable
météorologique.

4 Évaluation des Performances


4.1 Métriques de Régression
Les performances des modèles sont quantifiées via trois métriques complémentaires :
— MAE (Mean Absolute Error) : Erreur absolue moyenne
— RMSE (Root Mean Square Error) : Racine de l’erreur quadratique moyenne
— R² (Coefficient de détermination) : Proportion de variance expliquée

Résultats K-Means

Variable MAE RMSE R²


tmax (température max) 1.84 2.35 0.46
tmin (température min) 2.34 2.87 0.25
prcp (précipitations) 2.18 2.64 0.07

Résultats SVR

Variable MAE RMSE R²


tmax (température max) 0.96 1.29 0.84
tmin (température min) 0.97 1.40 0.82
prcp (précipitations) 1.67 2.44 0.21

Résultats MLP

Variable MAE RMSE R²


tmax (température max) 0.98 1.29 0.84
tmin (température min) 1.03 1.41 0.82
prcp (précipitations) 1.81 2.37 0.25

4.2 Classification et Matrice de Confusion


Pour compléter l’évaluation, les variables continues sont transformées en classes binaires :
températures supérieures/inférieures à la moyenne pour tmax et tmin, présence/absence de

3
précipitations pour prcp. Cette approche permet d’évaluer la capacité des modèles à distinguer
les conditions météorologiques extrêmes.

Matrices de Confusion K-Means

Matrices de Confusion SVR

Matrices de Confusion MLP

Table 2 – Matrices de confusion et précisions pour les variables prédites

Variable Matrice
 de confusion
 Précision (Accuracy)
1337 135
tmax 0.89
 203 1300
1126 207
tmin 0.87
183 1459
209 721
prcp 0.75
35 2010

4
4.3 Prédictions vs Réalité
Les graphiques de dispersion comparent les valeurs prédites aux observations réelles, révélant
la qualité de l’ajustement des modèles. La proximité des points à la droite de régression idéale
(y=x) indique la précision des prédictions.

Visualisations K-Means

Visualisations SVR

Visualisations MLP

5 Sauvegarde et Réutilisation
Tous les modèles entraînés, ainsi que les objets de prétraitement (StandardScaler et PCA),
sont sauvegardés via joblib pour permettre leur réutilisation future. Cette approche garantit
la reproductibilité des prédictions et facilite le déploiement opérationnel des modèles.

5
6 Analyse des Résultats
6.1 Performance Comparative
L’analyse révèle des performances variables selon les modèles et les variables cibles. K-Means,
bien qu’inadapté à la régression par nature, fournit une baseline intéressante. SVR démontre
une efficacité particulière pour les variables de température grâce à sa capacité à capturer les
relations non-linéaires. MLP présente des performances compétitives mais nécessite un réglage
fin des hyperparamètres.

6.2 Spécificités par Variable


Les températures (tmax, tmin) présentent généralement une meilleure prédictibilité que
les précipitations, reflétant leur caractère plus régulier et leurs dépendances temporelles plus
marquées. Les précipitations, de nature plus stochastique, constituent un défi plus complexe
pour tous les modèles.

7 Conclusion et Perspectives
7.1 Synthèse
Cette implémentation démontre la faisabilité de l’application de différentes approches d’ap-
prentissage automatique à la prédiction météorologique. Chaque modèle présente des avantages
spécifiques : SVR pour sa robustesse, MLP pour sa flexibilité, et Random Forest pour sa per-
formance globale.

7.2 Applications Pratiques


Les modèles développés peuvent être intégrés dans des systèmes d’aide à la décision pour
l’agriculture, la gestion des ressources hydriques, et la planification d’activités sensibles aux
conditions météorologiques au Cameroun.

6
7.3 Conclusion
Dans ce rapport, nous avons présenté l’implémentation et l’évaluation comparative de plu-
sieurs modèles d’apprentissage automatique pour la prédiction de variables météorologiques
clés au Cameroun. Les résultats obtenus montrent que les modèles SVR et MLP offrent de
bonnes performances pour la prédiction des températures maximales et minimales, tandis que
la prédiction des précipitations reste un défi en raison de leur forte variabilité.
Cette étude met en évidence l’importance du prétraitement rigoureux des données et du choix
des modèles en fonction des spécificités des variables cibles. Elle ouvre également des perspec-
tives intéressantes pour le développement de systèmes de prévision météorologique destinés à
l’agriculture, à la gestion des ressources naturelles et à la planification des activités économiques.
Pour de futurs travaux, l’intégration de sources de données supplémentaires (telles que des
indices climatiques régionaux) et l’exploration de modèles plus complexes (comme les réseaux
de neurones récurrents) pourraient permettre d’améliorer encore la précision des prédictions,
notamment pour les précipitations.
En conclusion, l’implémentation de ces modèles constitue une étape prometteuse vers l’amélio-
ration de la résilience face aux aléas climatiques au Cameroun.

Vous aimerez peut-être aussi