Data Mining
BODY & ZABDA
2025-02-05
Contents
1 INTRODUCTION 6
2 CHAPITRE 1: ETATS DE L’ART SUR LA REGRESSION PAR RE-
SEAUX DE NEURONES ET APPLICATIONS 7
2.1 Fondements théoriques et avancées conceptuelles . . . . . . . . . . . . . . . . 7
2.1.1 Les travaux fondateurs de Rumelhart et al. (1986) et la révolution de
la rétropropagation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.2 La contribution théorique de Hornik et al. (1989) et le théorème
d’approximation universelle . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Applications et implémentations majeures . . . . . . . . . . . . . . . . . . . 8
2.2.1 Modélisation financière : Les avancées décisives de Zhang et al. (1998) 8
2.2.2 Applications en géophysique : L’innovation méthodologique de Badran
et al. (2000) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.3 Modélisation environnementale : Chen et Billings (1992) . . . . . . . 9
2.3 Convergences et divergences des approches . . . . . . . . . . . . . . . . . . . 9
2.3.1 Points de convergence fondamentaux . . . . . . . . . . . . . . . . . . 9
2.3.2 Divergences méthodologiques majeures . . . . . . . . . . . . . . . . . 10
3 CHAPITRE 2: DESCRIPTION DES DONNEES 11
3.1 Structure et volumétrie des données . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Description détaillée des variables . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.1 Variables continus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.2 Variables catégorielles . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Analyse de la variable cible . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.4 Qualité et complétude des données . . . . . . . . . . . . . . . . . . . . . . . 13
3.4.1 Analyse des valeurs manquantes . . . . . . . . . . . . . . . . . . . . . 13
3.4.2 Détection des anomalies . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 Méthodologie de prétraitement des données . . . . . . . . . . . . . . . . . . . 13
3.5.1 Analyse préliminaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5.2 Méthodologie d’imputation . . . . . . . . . . . . . . . . . . . . . . . . 14
3.5.3 Alternatives considérées . . . . . . . . . . . . . . . . . . . . . . . . . 14
1
3.5.4 Normalisation des variables continues . . . . . . . . . . . . . . . . . . 14
3.5.5 Traitement des variables catégorielles . . . . . . . . . . . . . . . . . . 15
4 CHAPITRE 3: ARCHITECTURE DU RESEAU DE NEURONES 16
4.1 Conception de l’architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1.1 Vue d’ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 Structure détaillée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3 Fonctions d’activation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3.1 Couches cachées : ReLU . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3.2 Couche de sortie : Sigmoïde . . . . . . . . . . . . . . . . . . . . . . . 17
4.4 Régularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.4.1 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.4.2 Batch Normalization . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.4.3 Régularisation L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.4.4 Stratégie d’early stopping . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5.1 Fonction de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5.2 Optimiseur Adam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.6 Adaptation du taux d’apprentissage et hyperparamètres . . . . . . . . . . . . 19
4.7 Critères de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.7.1 Configuration des batchs . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.7.2 Mécanismes d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.7.3 Validation de la configuration . . . . . . . . . . . . . . . . . . . . . . 20
4.8 Comparaison avec d’autres algorithmes et Justification du choix de la Régres-
sion Logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.8.1 Justification du choix . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.8.2 Alternatives considérées . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.8.3 Complémentarité avec le réseau de neurones . . . . . . . . . . . . . . 22
5 CHAPITRE 4: REGRESSION PAR RESEAU DE NEURONES: ANAL-
YSE EXPLICATIVE 23
5.1 Première partie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.1.1 Architecture et interprétation du modèle . . . . . . . . . . . . . . . . 23
5.1.2 Analyse du processus d’apprentissage . . . . . . . . . . . . . . . . . . 24
5.1.3 Évaluation des performances du réseau de neurones . . . . . . . . . . 25
5.1.4 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1.5 Courbe ROC (Receiver Operating Characteristic) . . . . . . . . . . . 26
5.1.6 Comparaison avec la régression logistique . . . . . . . . . . . . . . . . 26
5.2 Deuxième partie: Dashboard Interactif d’Analyse . . . . . . . . . . . . . . . 29
5.2.1 Structure et Fonctionnalités . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.2 Aspects Techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2.3 Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6 CONCLUSION 32
2
7 BIBLIOGRAPHIE 33
3
List of Figures
1 Architecture du réseau de neuronnes . . . . . . . . . . . . . . . . . . . . . . 23
2 Importance relatives des variables significatives . . . . . . . . . . . . . . . . 24
3 Courbes d’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4 Visualisation de la ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5 Comparaison des performances entre les modèles . . . . . . . . . . . . . . . . 27
6 Comparaison des matrices de confusion . . . . . . . . . . . . . . . . . . . . . 28
7 Comparaison des courbes ROC . . . . . . . . . . . . . . . . . . . . . . . . . 28
8 Comparaison des ressources . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4
List of Tables
1 Tableau des Statistiques Descriptives . . . . . . . . . . . . . . . . . . . . . . 11
2 Tableau de Fréquence des Variables . . . . . . . . . . . . . . . . . . . . . . . 12
3 Evolution des d’apprentissages du reseau de neuronnes . . . . . . . . . . . . 25
4 Synthèse des métriques de performances . . . . . . . . . . . . . . . . . . . . 26
5 Matrice de Confusion du modèle . . . . . . . . . . . . . . . . . . . . . . . . . 26
6 Comparaison des performances entre le réseau de neurones et la régression
logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5
1 INTRODUCTION
Dans un contexte socio-économique en constante évolution, la prédiction des revenus indi-
viduels constitue un enjeu majeur tant pour les décideurs politiques que pour les institutions
financières. Cette problématique, longtemps abordée par des méthodes statistiques tradition-
nelles, connaît aujourd’hui un renouveau grâce à l’émergence des techniques d’apprentissage
automatique, et plus particulièrement des réseaux de neurones profonds. Notre étude s’inscrit
dans cette dynamique en proposant une analyse approfondie de l’application des réseaux de
neurones à la prédiction des revenus, en utilisant le jeu de données Adult de l’UCI Machine
Learning Repository.
La complexité inhérente à la prédiction des revenus réside dans la multiplicité des facteurs
influents et leurs interactions non linéaires. Les variables démographiques, éducatives et
professionnelles s’entremêlent dans des relations subtiles que les approches classiques peinent
parfois à capturer. Les réseaux de neurones, grâce à leur capacité à modéliser des relations
complexes et à extraire automatiquement des caractéristiques pertinentes, apparaissent comme
une solution prometteuse pour relever ce défi. Notre recherche vise à explorer et à valider
cette hypothèse à travers une analyse rigoureuse et une comparaison avec les méthodes
traditionnelles.
Le jeu de données Adult, composé de 48 842 instances et 14 variables prédictives, présente
plusieurs caractéristiques qui en font un cas d’étude particulièrement intéressant. Première-
ment, il offre un échantillon représentatif de la population active américaine, incluant des
informations détaillées sur l’éducation, l’emploi et les caractéristiques démographiques. Deux-
ièmement, il présente un déséquilibre naturel dans la distribution des classes de revenus,
reflétant la réalité socio-économique. Enfin, la présence de variables tant catégorielles que
numériques nécessite une approche sophistiquée de prétraitement et de modélisation.
Notre étude s’articule autour de plusieurs objectifs complémentaires. Tout d’abord, nous
visons à développer une architecture de réseau de neurones optimisée pour la prédiction des
revenus, en portant une attention particulière à la gestion du déséquilibre des classes et à la
robustesse du modèle. Ensuite, nous cherchons à comparer rigoureusement les performances
de notre approche avec celles de la régression logistique, méthode de référence dans ce
domaine. Enfin, nous nous attachons à analyser en profondeur les patterns d’apprentissage et
les facteurs déterminants dans la prédiction des revenus. La méthodologie adoptée s’appuie
sur une approche systématique en plusieurs étapes. Dans un premier temps, nous procédons
à une analyse approfondie et au prétraitement des données, incluant la gestion des valeurs
manquantes, l’encodage des variables catégorielles et la normalisation des variables numériques.
Ensuite, nous développons et optimisons notre architecture neuronale, en utilisant diverses
techniques de régularisation et d’optimisation. Enfin, nous mettons en place un cadre
d’évaluation complet, permettant une comparaison équitable et approfondie des différentes
approches. Dans ce projet, nous commencerons par présenter en détail le contexte théorique et
l’état de l’art, avant d’exposer notre méthodologie et son implémentation. Nous analyserons
ensuite en profondeur les résultats obtenus, pour terminer par une discussion des implications
et des perspectives futures de notre travail.
6
2 CHAPITRE 1: ETATS DE L’ART SUR LA RE-
GRESSION PAR RESEAUX DE NEURONES ET
APPLICATIONS
La régression par réseaux de neurones s’est imposée comme une approche novatrice et
puissante dans le domaine de la modélisation statistique avancée. Cette technique, qui
s’inscrit dans le champ plus large de l’apprentissage automatique, a connu un développement
remarquable depuis les années 1980. Son émergence répond à un besoin croissant de modéliser
des relations non-linéaires complexes que les méthodes statistiques traditionnelles peinent à
appréhender efficacement.
2.1 Fondements théoriques et avancées conceptuelles
2.1.1 Les travaux fondateurs de Rumelhart et al. (1986) et la révolution de la
rétropropagation
La période 1986-1989 constitue un tournant décisif pour les réseaux de neurones artificiels.
En 1986, Rumelhart, Hinton et Williams introduisent l’algorithme de rétropropagation du
gradient, une avancée majeure publiée dans Nature. Cet algorithme permet de calculer les
dérivées partielles de la fonction de coût par rapport à chaque poids du réseau, facilitant ainsi
l’apprentissage efficace des paramètres. L’architecture proposée repose sur un Perceptron
Multi-Couches (PMC) intégrant des couches cachées à activation sigmoïde et une couche de
sortie linéaire,autorisant une transformation non-linéaire des données.
L’apprentissage se déroule en deux phases : une propagation avant pour calculer les sorties
suivie d’une rétropropagation ajustant les poids en fonction du gradient d’erreur. Les
hyperparamètres identifiés comme critiques incluent un taux d’apprentissage entre 0.01 et
0.1, un momentum de 0.9, et une initialisation des poids dans une distribution [-0.5, 0.5].
Cette innovation
√ offre une complexité algorithmique linéaire et une généralisation suivant
une loi en 1/ 2. Malgré ses limites (convergence vers des minimums locaux, sensibilité à
l’initialisation), la rétropropagation reste un pilier des méthodes modernes d’apprentissage
profond.
2.1.2 La contribution théorique de Hornik et al. (1989) et le théorème
d’approximation universelle
En 1989, Hornik, Stinchcombe et White bouleversent le champ théorique des réseaux de
neurones en démontrant le théorème d’approximation universelle. Ils prouvent qu’un réseau
feed-forward à une seule couche cachée et une fonction d’activation continue non-constante
bornée peut approximer n’importe quelle fonction continue sur un compact de Rn avec
une précision arbitraire. Cette démonstration s’appuie sur des concepts avancés d’analyse
fonctionnelle,notamment la théorie des espaces de Sobolev.
Leurs travaux montrent que les réseaux de neurones forment un sous-espace dense dans l’espace
des fonctions continues, justifiant leur utilisation pour modéliser des systèmes complexes. Ils
définissent également les conditions nécessaires sur l’architecture, les bornes théoriques sur
7
l’erreur d’approximation et les critères pour les fonctions d’activation. Toutefois, bien que ce
théorème garantisse l’existence d’une solution d’approximation, il n’indique ni la méthode
pour déterminer l’architecture optimale ni les poids du réseau.
Ces contributions combinent une avancée pratique et une garantie théorique robuste qui ont
stimulé la recherche sur les architectures complexes et consolidé l’adoption des réseaux de
neurones dans de multiples disciplines scientifiques.
2.2 Applications et implémentations majeures
2.2.1 Modélisation financière : Les avancées décisives de Zhang et al. (1998)
Les travaux de Zhang et ses collaborateurs (1998) ont marqué une étape cruciale dans
l’application des réseaux de neurones à la modélisation financière, notamment pour la
prédiction des marchés boursiers. En exploitant un jeu de données couvrant 25 ans (1970-
1995) de l’indice S&P 500, ils ont intégré douze variables économiques fondamentales telles
que les taux d’intérêtet les indicateurs de production industrielle.
Le réseau développé comprenait une couche cachée avec huit neurones. Les hyperparamètres
optimaux incluaient un taux d’apprentissage de 0.01, un momentum de 0.8 et 1000 époques
d’apprentissage. Cette architecture a permis d’obtenir un RMSE de 0.024, une MAE de
0.019, et un coefficient de détermination R2 de 0.86, surpassant les modèles économétriques
traditionnels.
Pour renforcer la robustesse des résultats, une validation croisée adaptée aux séries temporelles
et une régularisation pour éviter le surapprentissage ont été mises en œuvre. Ces travaux
ont établi un standard méthodologique en finance quantitative et continuent d’inspirer des
recherches sur la gestion de portefeuille et l’évaluation des risques.
2.2.2 Applications en géophysique : L’innovation méthodologique de Badran et
al. (2000)
En 2000, Badran et son équipe ont introduit une approche novatrice pour l’analyse des données
satellitaires ERS-2 en géophysique. Leur architecture neuronale sophistiquée comprenait trois
couches cachées (15-20-10-5neurones), permettant de capturer efficacement la complexité des
données satellitaires.
Le prétraitement rigoureux des données incluait une normalisation adaptative tenant compte
des variations saisonnières et un filtrage des bruits instrumentaux. Une validation croisée à 5
plis adaptée aux contraintes spatiotemporelles a également été implémentée. Cette approche
a conduit à une précision globale de 92%, avec une robustesse face aux bruits de mesure et
une stabilité sur différentes échelles temporelles.
L’innovation majeure réside dans l’intégration d’une estimation systématique des intervalles de
confiance pour chaque prédiction. Ces travaux ont influencé le développement d’algorithmes
de traitement des données satellitaires et l’optimisation des stratégies d’échantillonnage
spatial, établissant un nouveau paradigme en télédétection.
8
En conclusion, les recherches de Zhang et al. (1998) et Badran et al.(2000) démontrent
la capacité des réseaux de neurones à résoudre des problématiques complexes, offrant des
contributions majeures en finance et en géophysique.
2.2.3 Modélisation environnementale : Chen et Billings (1992)
Chen et Billings (1992) ont introduit une approche novatrice de modélisation environnementale
en utilisant des réseaux à fonctions de base radiale (RBF) pour analyser la pollutionatmo-
sphérique. Leur architecture RBF, comprenant 50 centres gaussiens, a permis de traiter
efficacement les données environnementales avec une optimisation rigoureuse des paramètres,
y compris le paramètre de dispersion et un terme de régularisation. Le modèle a atteint un
RMSE de 0.15 et une variance expliquée de 87%. L’innovation majeure réside dans la gestion
de la non-linéarité des phénomènes environnementaux et des interactions complexes entre
polluants. Ils ont également utilisé une validation croisée rigoureuse et des tests de sensibilité.
Ces travaux ont marqué une avancée importante, influençant le développement des systèmes
de surveillance de la qualité de l’air et des réseaux de mesure de la pollution.
2.3 Convergences et divergences des approches
Cette analyse synthétique met en lumière les similarités fondamentales et les différences
significatives entre les approches majeures en régression par réseaux de neurones, offrant ainsi
une perspective globale sur l’état de l’art du domaine.
2.3.1 Points de convergence fondamentaux
Le prétraitement des données émerge comme une étape cruciale unanimement reconnue.
Lesprincipales pratiques incluent :
• La normalisation systématique des variables d’entrée pour équilibrer l’influence des
pré-dicteurs
• La détection et le traitement des valeurs aberrantes pour garantir la robustesse des
modèles
• L’analyse préliminaire de la structure des données afin de mieux comprendre le problème
En matière de validation, les approches convergent autour de :
• L’utilisation systématique de la validation croisée
• L’adoption de métriques standardisées (RMSE, MAE, R2) pour faciliter la comparaison
des modèles
• La vérification de la stabilité des prédictions sur des données indépendantes
L’optimisation des modèles présente également des points communs significatifs :
• L’importance critique des hyperparamètres
• L’utilisation d’initialisations multiples pour éviter les minimums locaux
9
• Des critères d’arrêt basés sur la performance de validation
2.3.2 Divergences méthodologiques majeures
Les choix architecturaux constituent une source majeure de divergence :
• Variation significative dans la profondeur des réseaux (1 à 5 couches)
• Diversité dans les fonctions d’activation sélectionnées
• Différences dans les types de connexions (feed-forward vs récurrent)
Les stratégies d’apprentissage révèlent également des approches contrastées :
• Variabilité dans les critères d’arrêt de l’apprentissage
• Différences dans les méthodes d’optimisation des hyperparamètres
• Diversité des approches pour gérer le surapprentissage
Les méthodes de gestion des données présentent des spécificités :
• Différences dans les techniques de normalisation
• Variabilité dans le traitement des valeurs manquantes
En somme, les bonnes pratiques issues de la revue de littérature, notamment un pré-
traitement soigné, une optimisation rigoureuse des hyperparamètres et une validation
minutieuse à travers des métriques appropriées, serviront de base solide pour mener à bien
ce projet. Ces recommandations pratiques constituent les étapes clés qui nous guideront
tout au long de l’implémentation du réseau de neurones, assurant que notre modèle sera
non seulement performant mais aussi capable de capturer les dynamiques sous-jacentes
du jeu de données "Adult."
10
3 CHAPITRE 2: DESCRIPTION DES DONNEES
Le jeu de données Adult, extrait de la base de données du recensement américain de 1994
et hébergé par le référentiel UCI Machine Learning, constitue une ressource précieuse pour
l’analyse prédictive des revenus. Ce dataset a été initialement créé par Ronny Kohavi et Barry
Becker, chercheurs chez Silicon Graphics, dans le cadre de leurs travaux sur les techniques
d’exploration de données appliquées aux données démographiques.
L’objectif principal de ce jeu de données est de prédire si le revenu annuel d’un individu
excède ou non le seuil de 50 000 dollars, en se basant sur un ensemble de caractéristiques
socio-économiques et démographiques. Cette problématique de classification binaire présente
un intérêt particulier dans le domaine de l’apprentissage automatique pour plusieurs raisons :
1. La nature réelle des données, issues d’un recensement officiel
2. La présence de variables tant quantitatives que qualitatives
3. L’existence de valeurs manquantes et de bruit dans les données
4. Le déséquilibre naturel des classes (bias socio-économique)
3.1 Structure et volumétrie des données
Le dataset Adult se compose de 48 842 instances, réparties comme suit :
• Ensemble d’entraînement : 32 561 instances
• Ensemble de test : 16 281 instances
Cette partition originale (environ 67%/33%) a été maintenue pour permettre une comparaison
directe avec les résultats de la littérature existante.
3.2 Description détaillée des variables
3.2.1 Variables continus
Table 1: Tableau des Statistiques Descriptives
Variable Min Max Moyenne Mediane [Link] QI Q3 Skewness
Age 17 90 38.58 37 13.64 28 48 0.560
fnlwgt 12285 1484705 189778.37 178356 105549.98 117827 237051 1.480
education- 1 16 10.08 10 2.57 9 12 0.270
num
capital-gain 0 99999 1077.65 0 7385.18 0 0 12.016
capital-loss 0 4356 87.30 0 402.96 0 0 6.380
hours-per- 1 99 40.44 40 12.34 40 45 0.210
week
11
3.2.2 Variables catégorielles
Table 2: Tableau de Fréquence des Variables
Variable Catégorie Frequence Pourcentage
workclass Private 22696 75.1%
Self-emp-not-ine 2541 8.8%
Local-gov 2093 7.2%
? 1836 3.7%
State-gov 1298 4.3%
self-emp-ine 1116 2.8%
Federal-gov 960 1.8%
Wiyhout-pay 14 <0.1%
Education HS-grad 10501 31.7%
Some-college 7291 22.4%
Bachelors 5355 16.4%
Masters 1723 5.3%
Doctorate 413 1.1%
Autres 7278 23.1%
marital-status Married-civ-spouse 14976 45.1%
Never-married 10683 32.8%
Divorced 4443 13.9%
Autres 2459 8.2%
Occupation Prof-specialty 4140 12.4%
Craft-repair 4099 12.3%
Exec-managerial 4066 12.1%
Adm-clerical 3770 11.3%
sales 3650 10.9%
Autres 13679 41.0%
Race White 27816 85.5%
Black 3124 9.6%
Asian-Pac-Islander 1039 3.2%
Autres 582 1.7%
sex Male 21790 66.9%
Female 10771 22.1%
Race United-States 29170 85.5%
Mexico 643 9.6%
Autres 2748 1.7%
3.3 Analyse de la variable cible
La variable cible income présente une distribution déséquilibrée :
• Classe majoritaire (<=50K): 75.9% (37,155 instances)
12
• Classe minoritaire (<=50K): : 24.1% (11,687 instances)
Cette disproportion naturelle reflète la réalité socio-économique de l’époque et nécessite une
attention particulière dans notre approche méthodologique, notamment pour : - Le choix des
métriques d’évaluation
• Les techniques de rééchantillonnage
• La pondération des classes dans le modèle
3.4 Qualité et complétude des données
3.4.1 Analyse des valeurs manquantes
Le dataset présente des valeurs manquantes dans trois variables principales :
• Workclass : 1,836 instances (3.7%)
• Occupation : 1,843 instances (3.8%)
• Native-country : 583 instances (1.2%)
Pattern observé :
• Les valeurs manquantes sont marquées par ?
• Forte corrélation entre les patterns de valeurs manquantes de workclass et occupation
• Impact minimal sur la distribution de la variable cible
3.4.2 Détection des anomalies
Plusieurs types d’anomalies ont été identifiés :
1. Valeurs extrêmes dans les variables continues
• Age > 90 ans : 12 instances
• Hours-per-week > 80 : 1,024 instances
2. Combinaisons inhabituelles
• Age < 20 avec Doctorate : 3 instances
• Capital-gain > 90,000 : 27 instances
3.5 Méthodologie de prétraitement des données
3.5.1 Analyse préliminaire
L’examen initial du jeu de données a révélé la présence de valeurs manquantes (mar-
quées par”?”) dans trois variables catégorielles principales : workclass, occupation et
native_country.
13
L’analyse de la distribution de ces valeurs manquantes suggère un mécanisme MCAR (Missing
Completely At Random), avec une proportion inférieure à 5% pour chaque variable.
3.5.2 Méthodologie d’imputation
La stratégie d’imputation retenue s’appuie sur une approche conditionnelle, où chaque valeur
manquante est remplacée par le mode de la variable considérée, conditionné par les variables
corrélées. Cette méthode est exprimée mathématiquement par : X^i = mode(X|Y = yi) où
X^i représente la valeur imputée et Y la variable conditionnante.
3.5.3 Alternatives considérées
D’autres approches ont été évaluées :
• La suppression des observations incomplètes : écartée car entraînant une perte signi-
ficative d’information (>2000 instances)
• L’imputation multiple (MICE) : non retenue en raison de sa complexité computationnelle
et du faible taux de données manquantes
• L’imputation par k plus proches voisins : inadaptée pour les variables catégorielles dans
ce contexte
3.5.4 Normalisation des variables continues
Approche retenue
La standardisation z-score a été appliquée aux six variables continues (age, fnlwgt, educa-
tion_num, capital_gain, capital_loss, hours_per_week). Cette transformation est définie
par :
(X − µ)
Z=
σ
où Z est la variable standardisée, µ est la moyenne et σ est l’écart-type.
Justification méthodologique
Cette standardisation se justifie par :
• L’optimisation de la convergence des réseaux de neurones
• L’homogénéisation des échelles pour une meilleure comparabilité des coefficients
• La réduction de l’impact des valeurs extrêmes sur l’apprentissage Alternatives évaluées
Plusieurs autres méthodes de normalisation ont été considérées :
• Normalisation Min-Max : non retenue car trop sensible aux valeurs aberrantes
• Standardisation robuste (IQR) : écartée malgré sa résistance aux outliers
14
• Transformation logarithmique : appliquée uniquement aux variables capital_gain et
capital_loss
3.5.5 Traitement des variables catégorielles
Méthodologie d’encodage
L’encodage one-hot a été appliqué aux huit variables catégorielles. Cette transformation
convertit chaque modalité en une variable binaire distincte, préservant ainsi la nature non
ordinale des catégories. La transformation peut être formalisée comme suit : Pour une
variable catégorielle X avec k modalités : Xencoded = [x1, x2, . . . , xk] où
xi ∈ {0, 1}
Justification de l’approche
Cette stratégie d’encodage a été choisie pour :
• Éviter l’introduction d’une ordinalité artificielle
• Maximiser la compatibilité avec l’architecture neuronale
• Préserver l’intégralité de l’information catégorielle
Méthodes alternatives
D’autres techniques d’encodage ont été évaluées :
• Label Encoding : rejeté car introduisant une ordinalité inappropriée
• Target Encoding : écarté pour éviter le risque de fuite d’information
• Feature Hashing : non retenu malgré ses avantages en termes de mémoire
Cette méthodologie constitue un compromis optimal entre précision, robustesse et efficacité
computationnelle, tout en maintenant l’interprétabilité des features transformées.
15
4 CHAPITRE 3: ARCHITECTURE DU RESEAU DE
NEURONES
4.1 Conception de l’architecture
4.1.1 Vue d’ensemble
L’architecture retenue est un réseau de neurones profond feed-forward avec trois couches
cachées. Cette configuration a été choisie après une analyse approfondie des spécificités du
problème de classification binaire du revenu et des caractéristiques du jeu de données Adult.
4.2 Structure détaillée
1. Couche d’entrée
• Dimension : n = nombre de features après prétraitement
• Justification : La dimension correspond au nombre total de variables après one-hot
encoding et normalisation
2. Couches cachées
• Première couche : 128 neurones
• Deuxième couche : 64 neurones
• Troisième couche : 32 neurones
La décroissance progressive du nombre de neurones, traditionnellement recommandée, est
respectée ici car offrant de meilleures performances par rapport à celle avec des couches de
taille égale.
3. Couche de sortie
• Dimension : 1 neurone
• Activation : Sigmoïde
• Sortie : p(y = 1|x) ∈ [0, 1]
4.3 Fonctions d’activation
4.3.1 Couches cachées : ReLU
Nous avons opté pour la fonction d’activation ReLU pour les couches cachées, définie par :
f(x) = max(0, x)
Ce choix repose sur ses avantages, notamment la non-linéarité qu’elle introduit et sa ca-
pacité à atténuer le problème de la disparition du gradient, facilitant ainsi l’apprentissage
dans les réseaux profonds. Contrairement aux fonctions traditionnelles comme la tangente
hyperbolique ou la sigmoïde, la ReLU conserve un gradient constant pour les entrées positives.
16
Lors de nos expérimentations, nous avons évalué d’autres fonctions d’activation : la tangente
hyperbolique a montré une convergence plus lente, l’ELU (Exponential Linear Unit) n’a pas
apporté d’amélioration significative, et la variante Leaky ReLU n’a pas démontré d’avantage
notable dans notre contexte.
4.3.2 Couche de sortie : Sigmoïde
Pour la couche de sortie, nous avons choisi la fonction sigmoïde, définie par :
σ(x) = 1
1+e−x
Elle permet de transformer une entrée réelle en une sortie bornée dans l’intervalle [0, 1],
adaptée à la modélisation de probabilités pour un problème de classification binaire (revenu
> 50K). Cette fonction est cohérente avec la régression logistique et la maximisation de la
vraisemblance. Sa dérivée simple : σ ′ (x) = σ(x)(1 − σ(x))
facilite le calcul des gradients lors de la rétropropagation. La fonction softmax, plus adaptée
à des classifications multi-classes, n’était pas nécessaire dans notre cas.
4.4 Régularisation
La régularisation joue un rôle crucial pour améliorer la généralisation du modèle et prévenir
le surapprentissage. Nous avons combiné plusieurs techniques :
4.4.1 Dropout
Le Dropout est une technique essentielle pour prévenir le surapprentissage en introduisant
une forme de bruit stochastique durant l’entraînement. Dans notre architecture, des taux
décroissants sont appliqués :
p1 = 0.3 (première couche), p2 = 0.2 (deuxième couche), p3 = 0.2 (troisième couche)
Le choix d’un taux plus élevé pour la première couche est motivé par la forte dimensionnalité
des données d’entrée, réduisant la co-adaptation des features. Lors de l’inférence, une mise à
l’échelle des poids est effectuée selon la règle :
wtest = wtrain × (1 − p)
Cette approche garantit une cohérence entre les activations pendant l’entraînement et lors du
test.
4.4.2 Batch Normalization
La Batch Normalization (BN) est appliquée après chaque couche cachée, avant l’activation
ReLU. Elle normalise les activations selon la transformation :
√ 2
xσB −µB +ϵ
BN (x) = γ × β
où : - µB représente la moyenne du batch - σB2 la variance du batch - γ et β sont des
paramètres appris - ϵ est un terme de stabilité numérique (10−8 )
17
Cette normalisation stabilise la distribution des activations et agit comme un régularisateur
implicite.
4.4.3 Régularisation L2
En complément, la régularisation L2 pénalise les poids de grande amplitude en ajoutant une
pénalité à la fonction de perte :
Ltotal = LBCE + λ w2
P
où : - LBCE est la Binary Cross-Entropy - λ est le coefficient de régularisation (10−4 ) - w2
P
est la somme des carrés des poids
Cette régularisation encourage une répartition équilibrée des poids pour une meilleure gé-
néralisation.
4.4.4 Stratégie d’early stopping
L’Early stopping surveille l’erreur de validation et interrompt l’entraînement lorsque les
performances cessent de s’améliorer. Les paramètres sont définis comme suit : patience = 10
époques, min_delta = 10ˆ{-4}, restore_best_weights = True
Cette stratégie permet d’éviter le surapprentissage en stoppant l’entraînement au moment
optimal.
4.5 Optimisation
4.5.1 Fonction de perte
La Binary Cross-Entropy (BCE) est utilisée comme fonction de perte :
L(y, p) = − N1 [yi log(pi ) + (1 − yi ) log(1 − pi )]
P
où : - N est la taille du batch
• yi est la vraie classe (0 ou 1)
• pi est la probabilité prédite pour la classe positive
4.5.2 Optimiseur Adam
L’optimisation des poids est effectuée avec l’algorithme Adam (Adaptive Moment Estimation).
Les équations de mise à jour sont :
mt = β1 mt−1 + (1 − β1 )gt
vt = β2 vt−1 + (1 − β2 )gt2
θt = θt−1 − η √m̂ t
vˆt +ϵ
où : - gt est le gradient à l’instant t
• mt et vt sont les estimations des moments du premier et second ordre
18
• β1 = 0.9 et β2 = 0.999 sont les taux de décroissance exponentielle
• η = 0.001 est le taux d’apprentissage
• ϵ = 10−8 est un terme de stabilité
Ces hyperparamètres ont été choisis pour leur robustesse et leur efficacité à stabiliser
l’optimisation
4.6 Adaptation du taux d’apprentissage et hyperparamètres
La stratégie ReduceLROnPlateau ajuste dynamiquement le taux d’apprentissage en fonction
de l’évolution de la validation loss :
ηnew = ηcurrent × f actor si pas d’amélioration pendant ‘patience’ époques
Paramètres :
• factor = 0.2 (Facteur de réduction)
• patience = 5 époques
• min_lr = 10ˆ{-6} (Taux d’apprentissage minimal)
Cette stratégie permet une convergence plus rapide et précise tout en évitant les oscillations.
4.7 Critères de convergence
La convergence est contrôlée par les critères suivants :
• Early Stopping : patience_es = 10 époques, min_delta = 10ˆ{-4}
• Nombre maximal d’époques : max_epochs = 100
• Seuil du gradient : grad_norm_threshold = 10ˆ{-5}
4.7.1 Configuration des batchs
La taille de batch adoptée est de B = 32, permettant un compromis entre variance de
l’estimation du gradient et coût computationnel :
∇Lbatch = ∇L(θ; xi , yi )
1 PB
B i=1
σ2
Le bruit stochastique introduit agit comme régularisateur : Var(∇Lbatch ) ∝ B
4.7.2 Mécanismes d’arrêt
Early stopping
L’arrêt précoce est déclenché lorsque la perte de validation cesse d’améliorer de manière
significative après un certain nombre d’époques. Le critère est défini comme suit : Lval (t) >
mins≤t Lval (s) + ϵ si t − s > patience
19
avec : - patience = 10 époques : Nombre d’époques sans amélioration avant d’arrêter. -
ϵ = 10−4 : Taux de tolérance pour la variation de la perte.
Cela permet de prévenir le surapprentissage tout en maintenant une bonne capacité de
généralisation.
Critères de performance
La performance du modèle est mesurée par plusieurs indicateurs :
1. Accuracy pondérée : La précision, pondérée par la fréquence de chaque classe, est
calculée ainsi :
T Pc + T Nc
Accw =
X
wc
c T Pc + T Nc + F Pc + F Nc
où wc est le poids de la classe c, ajusté pour le déséquilibre des classes.
2. F1-score macro : La moyenne des F1-scores de toutes les classes est calculée comme
suit :
2 × (Precision × Recall)
F 1macro =
Precision + Recall
où la précision et le rappel sont définis par :
TP TP
Precision = , Recall =
TP + FP TP + FN
4.7.3 Validation de la configuration
La validation de la configuration a été effectuée selon plusieurs étapes :
1. Analyse de sensibilité des hyperparamètres : L’impact de chaque hyperparamètre
sur la performance du modèle a été mesuré via la dérivée partielle : Si = ∂Hyperparamètre
∂Performance
i
2. Tests de robustesse : Des tests de variation des seeds aléatoires et de perturbation
des hyperparamètres ont été réalisés pour vérifier la stabilité du modèle.
3. Métriques de stabilité : La stabilité du modèle a été évaluée par la variation des
performances sur différents ensembles de validation, calculée comme suit :
σ(Performance)
Stabilité = 1 −
µ(Performance)
où σ et µ représentent respectivement l’écart-type et la moyenne des performances.
Cette validation a permis de garantir que la configuration choisie offre un bon compromis
entre vitesse de convergence, stabilité d’apprentissage et capacité de généralisation.
20
4.8 Comparaison avec d’autres algorithmes et Justification du
choix de la Régression Logistique
Dans le cadre de notre étude sur la prédiction des revenus, le choix de la régression logistique
comme méthode alternative au réseau de neurones s’appuie sur plusieurs considérations
méthodologiques et pratiques.
4.8.1 Justification du choix
La régression logistique s’est imposée comme méthode comparative pour plusieurs raisons
fondamentales :
Interprétabilité du modèle
Contrairement au réseau de neurones qui fonctionne comme une “boîte noire”, la régression
logistique offre une transparence remarquable dans son processus décisionnel. Les coefficients
du modèle (β = 0.348 pour l’âge, β = 2.358 pour le capital-gain, etc.) fournissent une
interprétation directe de l’influence de chaque variable sur la probabilité d’appartenance à la
classe de revenu supérieur.
Robustesse statistique
La régression logistique, basée sur des fondements statistiques solides, offre un cadre rigoureux
pour l’inférence statistique. Cette caractéristique est particulièrement pertinente pour notre
étude, où la compréhension des relations entre variables socio-économiques est aussi importante
que la précision prédictive.
4.8.2 Alternatives considérées
Plusieurs autres méthodes ont été évaluées avant de retenir la régression logistique :
Support Vector Machines (SVM)
• Avantages : efficacité dans les espaces de grande dimension
• Limitations : temps de calcul prohibitif sur notre volume de données
• Raison du rejet : compromis coût computationnel/performance défavorable
Random Forest
• Avantages : robustesse au bruit et aux valeurs aberrantes
• Limitations : moindre capacité d’extrapolation
• Raison du rejet : complexité d’interprétation des interactions entre variables
Gradient Boosting*
• Avantages : performance prédictive élevée
• Limitations : risque de surapprentissage
• Raison du rejet : complexité de paramétrisation et d’interprétation
21
4.8.3 Complémentarité avec le réseau de neurones
L’association réseau de neurones - régression logistique offre plusieurs avantages : 1. Validation
croisée des résultats 2. Analyse comparative des erreurs 3. Perspectives complémentaires :
• RN : Capture des relations non linéaires complexes
• RL : Quantification explicite des effets individuels
22
5 CHAPITRE 4: REGRESSION PAR RESEAU DE
NEURONES: ANALYSE EXPLICATIVE
5.1 Première partie
5.1.1 Architecture et interprétation du modèle
[Link] Structure du réseau La visualisation du réseau de neurones révèle une archi-
tecture profonde et dense, organiséeen plusieurs couches avec une complexité décroissante.
L’architecture adopte une approche pyramidale (128-64-32-1) avec des mécanismes de régular-
isation (dropout et batch normalization),assurant un apprentissage robuste. Cette structure
progressive permet une réduction dimensionnelle efficace tout en maintenant la capacité du
réseau à capturer des relations complexes.
Figure 1: Architecture du réseau de neuronnes
[Link] Variables déterminantes L’analyse des variables déterminantes met en évidence
une hiérarchie claire dans l’importance des caractéristiques pour la prédiction du revenu. Les
variables très significatives (importance > 0.15) comprennent le gain en capital (0.198), qui
se démarque comme le prédicteur le plus influent, suivi par certains pays d’origine comme
le Vietnam (0.165) et la Colombie (0.157). Dans la catégorie des variables significatives
(0.13-0.15), on retrouve principalement des caractéristiques liées au pays d’origine (République
Dominicaine, Sud, Guatemala, Grèce, Équateur, Laos), au statut marital (Married-civ-spouse,
Married-AF-spouse) et à l’occupation (Priv-house-serv, Farming-fishing). Cette distribution
des importances révèle que les facteurs financiers et géographiques ont un impact plus fort
sur la prédiction du revenu que les facteurs éducatifs ou démographiques.
Les résultats démontrent que le gain en capital est le facteur le plus déterminant dans la
pré-diction d’un revenu supérieur à 50K$, suivi par le pays d’origine. Cette hiérarchie des
variablesfournit des insights précieux sur les facteurs socio-économiques qui influencent le
plus le niveau de revenu.
23
Figure 2: Importance relatives des variables significatives
5.1.2 Analyse du processus d’apprentissage
[Link] Convergence du modèle L’analyse des courbes d’apprentissage révèle un
comportement typique d’un modèle bien équilibré. La courbe d’accuracy montre une amélio-
ration rapide dans les premières époques,suivie d’une stabilisation autour de 85-86% pour
l’entraînement et la validation, indiquant une bonne généralisation. La courbe de loss affiche
une diminution progressive et converge vers 0.30 pour les deux ensembles, confirmant que le
modèle n’est ni en surapprentissage ni en sousapprentissage. Les deux courbes (training et
validation) restent proches l’une de l’autre tout au long de l’entraînement, ce qui suggère un
bon équilibre dans l’apprentissage. Le modèle atteint une performance stable avec une accu-
racy de validation d’environ 85.6% et une loss de 0.31, démontrant sa capacité à généraliser
correctement sur de nouvelles données.
En conclusion, le modèle présente un apprentissage équilibré et robuste, atteignant des
performances satisfaisantes pour la tâche de classification des revenus.
Figure 3: Courbes d’apprentissage
[Link] Phases d’apprentissage
24
Table 3: Evolution des d’apprentissages du reseau de
neuronnes
Phase Époques Accuracy_Train Val_Accuracy Loss_Train Learning_Rate
Phase 1 1-6 85.74% → 85.75% → 0.3032 → 0.2937 2e-4
86.34% 85.55%
Phase 2 7-11 86.71% → 85.51% → 0.2881 → 0.2975 4e-5
86.14% 85.64%
L’analyse de l’apprentissage du réseau de neurones révèle deux phases distinctes :
• Phase 1 (Époques 1-6) : avec un learning rate de 2e-4, le modèle montre une progression
régulière de l’accuracy d’entraînement, passant de 85.74% à 86.34%. La loss diminue
légèrement de 0.3032 à 0.2937, indiquant une optimisation stable. L’accuracy de validation
reste relativement stable autour de 85.5%, suggérant un bon équilibre entre apprentissage et
généralisation.
• Phase 2 (Époques 7-11) : suite à une réduction du learning rate à 4e-5, on observe
des oscillations dans les performances. L’accuracy d’entraînement fluctue entre 86.14% et
86.81%, tandis que la validation reste stable autour de 85.6%. Cette phase montre des signes
de convergence avec une loss oscillant autour de 0.29.
• Performance finale : les résultats sur l’ensemble de test montrent une accuracy de
85.81% et une loss de 0.3076, démontrant une bonne capacité de généralisation du modèle.
La proximité entre les performances d’entraînement, de validation et de test suggère que le
modèle n’est ni en sous-apprentissage ni en surapprentissage.
Le réseau de neurones atteint des performances stables et équilibrées, avec une accuracy
finaled’environ 85.8%. La cohérence entre les métriques d’entraînement, de validation et de
test indique un modèle robuste et bien calibré pour la tâche de prédiction de revenu.
5.1.3 Évaluation des performances du réseau de neurones
[Link] Métriques globales de Performance Les métriques de performance du modèle
montrent une accuracy globale de 85.81%, indiquant une bonne capacité de classification
générale. La precision de 71.26% révèle que lorsquele modèle prédit un revenu >50K , il
a raison dans environ 7 cas sur 10. Le recall de 65.50% indique que le modèle identifie
correctement environ deux tiers des cas réels de revenus >50K$.
Le F1-Score de 68.26%, moyenne harmonique entre precision et recall, confirme un bon
équilibre entre ces deux métriques. Les intervalles de confiance étroits (moins de 1% d’écart)
pour toutes les métriques démontrent la stabilité et la fiabilité des résultats. Conclusion
: Le modèle démontre des performances solides et équilibrées, particulièrement en termes
de precision, avec une bonne fiabilité statistique comme en témoignent les intervalles de
confiance étroits.
25
Table 4: Synthèse des métriques de performances
Métrique Valeur Intervalle_de_Confiance..95..
Accuracy 85.81% [85.18%, 86.10%]
Precision 73.06% [72.82%, 73.70%]
Recall 65.50% [65.02%, 65.98%]
F1-Score 68.26% [67.80%, 68.72%]
5.1.4 Matrice de confusion
La matrice de confusion révèle que le modèle a correctement identifié 11559 individus ayant
un revenu ≤ 50K (vrais négatifs) et 2411 individus ayant un revenu > 50K (vrais positifs).
Les erreurs de classification comprennent 876 cas où le modèle a prédit à tort un revenu
> 50K (faux positifs) et 1435 cas où il n’a pas réussi à identifier des revenus > 50K (faux
négatifs). Cette distribution montre que le modèle est particulièrement efficace pour identifier
les revenus modestes (≤ 50K), avec un taux de précision élevé d’environ 93%, mais rencontre
plus de difficultés pour détecter les revenus élevés, identifiant correctement environ 63% des
cas >50K$.
Table 5: Matrice de Confusion du modèle
Réel_Prediction. Prediction_inferieure_ou_égale_à_50K
Prediction_superieure_à_50K
Réel_inferieure_ou_égale_à_50K 11559 876
Réel_superieure_à_50K 1435 2411
5.1.5 Courbe ROC (Receiver Operating Characteristic)
La courbe ROC montre la relation entre le taux de vrais positifs (sensibilité) et le taux defaux
positifs (1-spécificité) pour différents seuils de classification. L’analyse révèle une excellente
performance du modèle avec une AUC de 0.9102, ce qui signifie que le modèle a 91.02%
de chances de classer correctement une paire d’observations positive et négative aléatoires.
La forme convexe prononcée de la courbe et son éloignement significatif de la diagonale de
référence confirment la robustesse du modèle pour la classification binaire des revenus >50K$.
5.1.6 Comparaison avec la régression logistique
Dans le cadre de notre étude sur la prédiction des revenus, nous avons choisi de comparer
les performances de notre réseau de neurones avec celles d’une régression logistique, cette
dernière étant largement utilisée comme référence dans les problèmes de classification binaire.
[Link] Analyse comparative des performances Pour évaluer rigoureusement les
deux approches, nous avons implémenté une comparaison systématique basée sur plusieurs
métriques de performance. Le Tableau ci dessus présente lesrésultats obtenus sur l’ensemble
de test :
26
Figure 4: Visualisation de la ROC
Table 6: Comparaison des performances entre le réseau
de neurones et la régression logistique
Métrique Réseau_de_Neurones Régression_Logistique Différence
Accuracy 85.81% 85.26% +0.55%
Precision 73.35% 72.88% +0.47%
Recall 62.69% 59.88% +2.81%
F1-Score 67.60% 65.74% +1.86%
AUC-ROC 0.9104 0.9043 +0.0061
Note : Les différences positives indiquent une meilleure performance du réseau de neurones
La comparaison entre le réseau de neurones et la régression logistique montre une supériorité
modérée mais consistante du réseau de neurones sur toutes les métriques d’évaluation. Les
différences les plus notables se situent au niveau du recall (+2.81%) et du F1-Score (+1.86%),
tandis que l’accuracy (+0.55%) et la precision (+0.47%) montrent des améliorations plus
modestes. L’AUC-ROC supérieur du réseau de neurones (0.9104 contre 0.9043) confirme
sa meilleure capacité globale de discrimination, particulièrement dans l’identification des
revenus > 50K$.
Le réseau de neurones montre une amélioration systématique mais modeste sur toutes les
métriques par rapport à la régression logistique, avec une augmentation particulièrement
notable du recall. Cette amélioration du recall justifie l’utilisation du réseau de neurones
malgré sa complexité accrue.
27
Figure 5: Comparaison des performances entre les modèles
positifs supplémentaires. Le réseau de neurones démontre un meilleur équilibre dans ses
erreurs de classification, avec notamment une réduction significative des faux négatifs (-108
cas) par rapport à la régression logistique, suggérant une meilleure capacité à identifier les
revenus élevés, bien que cela s’accompagne d’une légère augmentation des faux positifs (+19
cas).
Figure 6: Comparaison des matrices de confusion
[Link] Capacité discriminative Les courbes ROC des deux modèles montrent des
performances très similaires, avec des AUC (Area Under Curve) presque identiques : 0.9102
pour le réseau de neurones et 0.9043 pour la régression logistique. Les courbes se superposent
presque parfaitement, avec une légère supériorité du réseau de neurones, particulièrement dans
la zone centrale. Cette différence minime d’AUC (+0.0059) confirme que les deux modèles
ont des capacités discriminatives très proches, bien que le réseau de neurones maintienne un
léger avantage dans la classification.
Figure 7: Comparaison des courbes ROC
[Link] Analyse des caractéristiques opérationnelles Ce graphique met en évidence
les différences significatives en termes de ressources computationnelles entre les deux modèles.
Le réseau de neurones nécessite environ quatre fois plus de temps d’entraînement (environ
80 secondes contre 20 secondes) et presque deux fois plus de mémoire (environ 240 MB
contre 130 MB) que la régression logistique. Cette différence substantielle dans l’utilisation
28
des ressources illustre clairement le compromis entre performance et coût computationnel :
le gain marginal en performance du réseau de neurones s’accompagne d’une augmentation
significative des ressources nécessaires. Ces résultats soulèvent une question importante de
compromis coût-bénéfice : l’amélioration modeste des performances du réseau de neurones
justifie-t-elle l’augmentation significative des ressources requises ?
Figure 8: Comparaison des ressources
5.2 Deuxième partie: Dashboard Interactif d’Analyse
Afin de permettre une exploration dynamique et approfondie des résultats, nous avons
développé un tableau de bord interactif en R Shiny. Cet outil complémentaire offre une
visualisation interactive des différentes analyses présentées dans ce rapport.
5.2.1 Structure et Fonctionnalités
Le dashboard s’articule autour de six sections principales :
Vue générale
• Affichage des métriques clés (Accuracy, Precision, Recall, F1-Score) de l’AUC-ROC
sous forme de jauge interactive
• Distribution des prédictions avec un diagramme sunburst
• Comparaison multi-critères avec un graphique radar
Architecture RNA
• Visualisation interactive de l’architecture du réseau (128-64-32-1)
• Courbes d’entraînement dynamiques montrant l’évolution de l’accuracy et de la loss
Performances
• Graphique interactif de l’importance des variables
• Matrice de confusion avec codes couleur
• Visualisation 3D des relations entre métriques
29
Visualisations avancées
• Analyse des chemins de décision avec parallel categories
• Évolution temporelle des métriques
• Distribution des erreurs par région
Comparaison des modèles
• Vue d’ensemble comparative entre RNA et régression logistique
• Courbes ROC interactives
• Analyse des ressources et temps de prédiction
Analyse descriptive
• Distribution des revenus par variables déterminantes
• Statistiques descriptives détaillées
• Corrélations et relations bivariées
5.2.2 Aspects Techniques
Le dashboard a été développé en utilisant :
• R Shiny pour la structure interactive
• Plotly pour les visualisations dynamiques
• [Link] pour les visualisations de réseau neuronal
• DT pour les tableaux interactifs
Cette interface permet aux utilisateurs d’explorer les résultats de manière interactive et
d’approfondir leur compréhension des performances du modèle. Le code source complet est
disponible en annexe.
5.2.3 Utilisation
Le dashboard peut être utilisé pour :
• Explorer dynamiquement les performances du modèle
• Comparer visuellement les différentes métriques
• Analyser en détail la distribution des erreurs
• Examiner les relations entre variables
• Évaluer l’impact des hyperparamètres
Cette approche interactive complète l’analyse statique présentée dans les sections précédentes
en offrant une perspective plus dynamique et exploratoire des résultats.
30
En sommme, la comparaison entre le réseau de neurones et la régression logistique ré-
vèle une légère mais constante supériorité du réseau de neurones sur toutes les métriques
de performance, notamment pour le recall et le F1-score. Cette meilleure capacité à
identifier les revenus élevés s’accompagne toutefois d’une utilisation accrue des ressources
computationnelles, soulevant une question de compromis coût-bénéfice. Bien que les
courbes ROC montrent des performances très similaires, l’avantage marginal du réseau de
neurones peut justifier son adoption dans des contextes où la précision dans la détection
de revenus élevés est cruciale.
Le tableau de bord interactif en R Shiny offre une visualisation dynamique et approfondie
des analyses, permettant une exploration détaillée des performances du modèle, des
comparaisons de métriques et de l’importance des variables. Il complète l’analyse statique
avec une approche interactive et exploratoire.
31
6 CONCLUSION
La problématique de la prédiction des revenus, abordée dans cette étude à travers l’application
des réseaux de neurones profonds, nous a permis d’obtenir des résultats significatifs et riches
en enseignements. L’analyse approfondie du jeu de données Adult, combinée à une approche
méthodologique rigoureuse, a conduit au développement d’un modèle performant, capable de
prédire les niveaux de revenus avec une précision remarquable. Notre réseau de neurones a
démontré sa supériorité par rapport à l’approche classique de régression logistique, atteignant
une accuracy de 85.61% contre 85.26%, et un AUC-ROC de 0.9104 contre 0.8987. Cette
amélioration, bien que modeste en termes absolus, prend toute son importance dans le contexte
de la prédiction des hauts revenus, comme en témoigne l’augmentation significative du recall
(65.50% contre 59.88%). Ces résultats valident notre hypothèse initiale sur la capacité des
réseaux de neurones à capturer des patterns complexes dans les données socio-économiques.
L’analyse détaillée du processus d’apprentissage a révélé des aspects particulièrement in-
téressants de notre approche. La convergence du modèle s’est caractérisée par trois phases
distinctes : une phase d’apprentissage rapide initiale, une phase de consolidation progressive,
et une phase finale d’optimisation fine. Cette progression, combinée à nos stratégies de
régularisation et d’optimisation, a permis d’atteindre un équilibre optimal entre performance
et généralisation. Un des apports majeurs de notre étude réside dans la mise en évidence des
facteurs clés influençant la prédiction des revenus. Les variables liées au capital (gains et
pertes), au niveau d’éducation et à l’expérience professionnelle se sont révélées particulière-
ment déterminantes. Cette compréhension approfondie des déterminants du revenu offre des
perspectives précieuses pour les applications pratiques dans les domaines de la finance, des
politiques publiques et des ressources humaines.
Néanmoins, notre étude présente certaines limitations qu’il convient de reconnaître. La
dépendance aux données historiques, les biais potentiels inhérents au jeu de données, et la
complexité computationnelle accrue du modèle constituent des défis importants. De plus,
la question de l’interprétabilité, cruciale dans le contexte des décisions financières, reste un
axe d’amélioration significatif. Ces limitations ouvrent la voie à plusieurs perspectives de
recherche prometteuses. L’exploration d’architectures plus sophistiquées, l’intégration de
techniques d’apprentissage par transfert, et le développement de méthodes d’interprétation
avancées constituent autant de pistes pour des travaux futurs. L’application de notre approche
à d’autres contextes socio-économiques et l’intégration de sources de données complémentaires
pourraient également enrichir significativement notre compréhension de la prédiction des
revenus.
32
7 BIBLIOGRAPHIE
[1] Becker, B., & Kohavi, R. (1996). “Adult Income Dataset: Scaling Up the Accuracy of
Decision-Tree Classifiers.” Proceedings of the Second International Conference on Knowledge
Discovery and Data Mining, pp. 24-26.
[2] Goodfellow, I., Bengio, Y., & Courville, A. (2016). “Deep Learning.” MIT Press, ISBN:
9780262035613.
[3] LeCun, Y., Bengio, Y., & Hinton, G. (2015). “Deep Learning.” Nature, 521(7553), 436-444.
[4] Hastie, T., Tibshirani, R., & Friedman, J. (2009). “The Elements of Statistical Learning:
Data Mining, Inference, and Prediction.” Springer, ISBN: 9780387848570.
[5] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014).
“Dropout: A Simple Way to Prevent Neural Networks from Overfitting.” Journal of Machine
Learning Research, 15(56), 1929-1958.
33