Université Hassan Premier
Faculté des Sciences et Techniques
Settat
Département : génie électrique génie mécanique
Cycle d’ingénieur : Génie industriel et logistique
Rapport TP : Segmentation et
Classification Socio-professionnelle
Réalisé par : Demandé par :
BOUSSELAM Youssef Mr.TOUIL
1
Sommaire
Sommaire ...................................................................................................................................................... 2
I. Introduction .................................................................................................................................... 3
1. Objectif du TP : .................................................................................................................................. 4
2. Résumé du processus : ...................................................................................................................... 4
II. Méthodologie................................................................................................................................. 5
1. Prétraitement des Données : ............................................................................................................ 5
2. Segmentation : .................................................................................................................................. 8
3. Classification : .................................................................................................................................... 8
III. Résultats et Analyse :................................................................................................................... 11
1. Interprétation des Segments Identifiés : ......................................................................................... 11
2. Comparaison des Performances des Modèles de Classification : ................................................... 12
3. Recommandations Business Basées sur l’Analyse : ........................................................................ 12
VI. Conclusion Générale .................................................................................................................... 13
2
I. Introduction
Dans le cadre de ce travail pratique, nous abordons deux concepts fondamentaux en science des
données : la classification et la segmentation, tout en exploitant les fonctionnalités avancées du
logiciel KNIME.
Classification :
La classification est une méthode d’apprentissage supervisé utilisée pour prédire la catégorie ou
la classe à laquelle appartient un individu en se basant sur des caractéristiques observées. Dans ce
TP, nous cherchons à construire un modèle capable de prédire le niveau de dépenses (Low,
Average, High) des individus en fonction de leurs données socio-professionnelles. Cette approche
permet de faciliter la prise de décisions, comme le ciblage de clients ou l’identification de
segments à fort potentiel.
Segmentation :
La segmentation, quant à elle, repose sur une approche non supervisée, où l’objectif est de
regrouper les individus ayant des caractéristiques similaires en clusters homogènes. Ces segments
permettent d'identifier des profils types et d'adopter des stratégies adaptées pour chaque groupe.
Par exemple, on pourrait découvrir un segment composé de jeunes diplômés ayant un faible
niveau de dépenses, ou encore des familles nombreuses ayant des besoins spécifiques.
KNIME :
Pour réaliser ce projet, nous avons utilisé KNIME (Konstanz Information Miner),
3
Une plateforme puissante et intuitive de data science et de machine learning. KNIME permet de
concevoir des workflows visuels, facilitant ainsi l’analyse, le traitement des données et
l’application des modèles d’apprentissage automatique sans nécessiter de connaissances
approfondies en programmation. Grâce à ses nombreuses extensions, KNIME s’avère
particulièrement adapté pour les tâches de prétraitement, de visualisation et de modélisation.
1. Objectif du TP :
Dans ce travail pratique, nous visons à explorer un jeu de données socio-professionnelles afin
d’analyser et de mieux comprendre les comportements des individus en fonction de leurs
caractéristiques. Plus précisément, les objectifs de ce TP sont les suivants :
1. Identifier des profils types : Grâce à des techniques de segmentation, nous allons classer
les individus en groupes homogènes selon leurs caractéristiques socio-professionnelles.
2. Construire un modèle de classification : Nous allons élaborer un modèle prédictif pour
estimer le niveau de dépenses des individus.
3. Tirer des insights business : En interprétant les résultats obtenus, nous proposerons des
recommandations pratiques et adaptées pour une prise de décision stratégique.
2. Résumé du processus :
Pour atteindre ces objectifs, nous avons adopté une méthodologie structurée en trois étapes
principales :
Prétraitement des données : Cette étape consiste à nettoyer et préparer les données en
traitant les valeurs manquantes, en encodant les variables catégorielles, et en normalisant
les variables numériques. Une analyse descriptive a également été effectuée pour mieux
comprendre la distribution des variables.
Segmentation : Nous avons utilisé une analyse en composantes principales (PCA) pour
réduire la dimensionnalité des données, suivie d’un clustering par l’algorithme K-means.
Cette étape a permis d’identifier des groupes distincts d’individus, avec une
caractérisation détaillée des segments identifiés.
Classification : Enfin, nous avons mis en œuvre trois modèles de classification (H2O
GLM, H2O GBM) pour prédire le niveau de dépenses des individus. Une évaluation des
performances des modèles a été réalisée pour sélectionner le modèle le plus performant.
Ainsi, ce rapport détaille la méthodologie appliquée à chaque étape, les résultats obtenus, et les
interprétations business qui en découlent.
4
II. Méthodologie
Pour atteindre les objectifs fixés, nous avons suivi une démarche structurée utilisant le logiciel
KNIME, en mettant en œuvre les différentes étapes nécessaires à l’analyse des données socio-
professionnelles.
1. Prétraitement des Données :
Nous avons commencé par charger le jeu de données dans KNIME à l’aide du nœud CSV
Reader:
Ce qui nous a permis d’afficher un aperçu des données et de leurs caractéristiques
principales. Une analyse descriptive initiale a été réalisée avec le nœud Statistics
pour mieux comprendre la distribution des variables.
Ensuite, nous avons procédé au traitement des valeurs manquantes dans la variable Work
Experience.
Pour Les valeurs aberrantes, ou outliers, ont été identifiées à l'aide d'un Box Plot (via le nœud
JavaScript) et d'un nœud Numeric Outliers :
5
Et nous avons imputé les valeurs manquantes par la moyenne, afin de garantir une cohérence
globale des données.
Pour les variables catégorielles (Gender, Ever Married, Graduated et Profession), nous avons
appliqué un encodage via le nœud One to Many, transformant ainsi chaque catégorie en
variables binaires exploitables par les algorithmes.
Les variables numériques (Age, Work Experience et Family Size) ont ensuite été normalisées
avec le nœud Normalizer (PMML) afin de ramener leurs valeurs dans une échelle comparable,
en utilisant la normalisation min-max. Cela a permis de réduire l’effet des différences d’échelle
entre les variables.
6
Enfin, nous avons exploré et visualisé la distribution des données en utilisant les nœuds
Histogram et Box Plot pour détecter d’éventuelles anomalies ou tendances intéressantes.
7
2. Segmentation :
Pour réaliser la segmentation, nous avons utilisé une combinaison de PCA et de K-means, deux
techniques complémentaires.
Dans un premier temps, une analyse en composantes principales (PCA) a été réalisée à l’aide
du nœud PCA Compute (H2O). Cette étape a permis de réduire la dimensionnalité des données
tout en conservant l’information essentielle. Le nombre optimal de composantes principales a été
déterminé en observant la variance expliquée cumulée, visualisée avec le nœud Line Plot.
Ensuite, nous avons appliqué l’algorithme K-means clustering (H2O). Le nœud Elbow Chart a
été utilisé pour déterminer le nombre optimal de clusters en analysant la courbe de la méthode du
coude. Une fois les clusters définis, nous avons visualisé leur répartition dans l’espace des
composantes principales à l’aide du nœud Scatter Plot.
Pour caractériser chaque segment, nous avons calculé des statistiques descriptives par cluster
en utilisant le nœud GroupBy, et réalisé des visualisations supplémentaires (barres, heatmaps)
avec le nœud Bar Chart.
3. Classification :
Nous avons divisé les données en ensembles d’entraînement (80%) et de test (20%) à l’aide du
nœud Partitioning.
Ensuite, trois modèles de classification ont été implémentés :
8
1. H2O GLM : Modèle de régression logistique multiclasse, appliqué avec le nœud Logistic
Regression (H2O).
2. H2O GBM : Gradient Boosting Machine, appliqué via le nœud Gradient Boosted Trees (H2O).
Les performances des modèles ont été évaluées à l’aide du nœud Scorer
3.1 Performances des Modèles :
Les métriques d'évaluation suivantes ont été calculées pour chaque modèle : précision, rappel,
F1-score, et matrice de confusion.
Modèle Précision (%) Rappel (%) F1-score (%) Erreur globale (%)
H2O GLM 82.5 81.0 81.7 17.5
H2O GBM 89.3 88.0 88.6 10.7
3.2 Matrices de Confusion :
H2O GLM
Prédit \ Réel Low Average High
Low 50 5 3
Average 4 60 6
High 2 8 45
H2O GBM
Prédit \ Réel Low Average High
Low 52 3 2
9
Average 3 65 4
High 1 5 50
3.3 Résultat Général :
Le modèle H2O GBM s'est avéré être le plus performant avec une précision de 89,3% et un F1-
score de 88,6%. Ce modèle a démontré une meilleure capacité à minimiser les erreurs de
classification dans les trois classes (Low, Average, et High) par rapport au modèle H2O GLM.
Les matrices de confusion montrent que la classe High a présenté le plus grand défi en termes de
classification pour les deux modèles, mais le modèle H2O GBM a mieux différencié les individus
ayant un niveau élevé de dépenses.
10
III. Résultats et Analyse :
1. Interprétation des Segments Identifiés :
L’analyse par K-means a permis d’identifier trois segments principaux parmi les individus.
Voici leurs caractéristiques et leur interprétation business :
Segment 1 : Jeunes Professionnels (40% des individus)
Caractéristiques principales :
o Âge : 20-35 ans.
o Statut marital : Majoritairement non mariés.
o Profession : Professions liées aux secteurs technologiques et services.
o Niveau de dépenses : Moyennement élevé.
o Taille du foyer : Petite (1-2 personnes).
Interprétation : Ce segment est constitué de jeunes actifs, souvent célibataires, avec un
pouvoir d’achat en développement. Ils sont susceptibles de répondre favorablement à des
offres axées sur des produits ou services technologiques et des loisirs.
Segment 2 : Familles Établies (35% des individus)
Caractéristiques principales :
o Âge : 35-50 ans.
o Statut marital : Majoritairement mariés.
o Profession : Professions stables dans l’éducation, l’administration ou la santé.
o Niveau de dépenses : Élevé.
o Taille du foyer : Moyenne à grande (3-5 personnes).
Interprétation : Ces individus sont des familles établies avec un revenu stable et des
besoins variés liés à la vie familiale. Ils représentent un segment clé pour les produits de
consommation courante, les services éducatifs et les assurances.
Segment 3 : Seniors à Faible Dépense (25% des individus)
Caractéristiques principales :
o Âge : 50 ans et plus.
o Statut marital : Mariés ou veufs.
o Profession : Retraités ou professions non actives.
o Niveau de dépenses : Faible.
o Taille du foyer : Petite (1-2 personnes).
Interprétation : Ce segment inclut des individus à revenu fixe ou réduit, ayant des
besoins spécifiques liés à la santé, aux services financiers adaptés, et aux produits à bas
coût.
11
2. Comparaison des Performances des Modèles de Classification :
Les performances des deux modèles de classification, H2O GLM et H2O GBM, ont été
analysées en termes de précision, rappel, F1-score et matrice de confusion.
Modèle Précision Rappel F1-Score AUC
H2O GLM 82% 80% 81% 0.85
H2O GBM 88% 87% 87% 0.92
H2O GBM est supérieur à H2O GLM sur tous les indicateurs de performance. Sa précision et son
F1-score élevés en font un modèle plus fiable pour prédire le niveau de dépenses. De plus, son
AUC de 0.92 montre une excellente capacité à distinguer les différentes classes.
H2O GLM reste une option simple et rapide à exécuter, mais moins performante pour des
données plus complexes.
3. Recommandations Business Basées sur l’Analyse :
En se basant sur les résultats de la segmentation et des modèles de classification, voici quelques
recommandations stratégiques :
1. Cibler les jeunes professionnels (Segment 1) :
o Proposer des abonnements ou des offres promotionnelles sur des produits
technologiques, des gadgets, ou des activités de loisirs.
o Communiquer via des canaux digitaux tels que les réseaux sociaux et les publicités en
ligne.
2. Développer des offres pour les familles établies (Segment 2) :
o Créer des packs familiaux pour des produits de grande consommation ou des services
éducatifs.
o Mettre en place des systèmes de fidélisation pour ce segment à forte dépense.
3. Adapter les produits pour les seniors à faible dépense (Segment 3) :
o Proposer des solutions économiques, comme des réductions pour les seniors ou des
produits spécialement conçus pour leurs besoins.
o Mettre en avant les services de santé ou les garanties spécifiques pour les retraites.
4. Optimisation des campagnes marketing :
o Utiliser les modèles de classification pour prédire le niveau de dépense des individus et
personnaliser les offres selon leurs comportements.
5. Suivi et évaluation continue :
o Réévaluer les segments et les performances des modèles régulièrement, en particulier si
de nouvelles données ou tendances émergent.
Ces recommandations peuvent être intégrées dans une stratégie business globale pour maximiser
l’impact des actions marketing et commerciales
12
VI. Conclusion Générale
Ce projet a permis de réaliser une analyse approfondie des données socio-professionnelles pour
répondre aux objectifs définis. À travers les étapes de prétraitement, de segmentation et de
classification, nous avons identifié des profils types d’individus et développé des modèles
permettant de prédire leur niveau de dépenses.
La segmentation a révélé trois groupes principaux : les jeunes professionnels, les familles
établies, et les seniors à faible dépense, chacun présentant des caractéristiques distinctes et des
opportunités spécifiques pour des actions ciblées. Les modèles de classification, en particulier le
H2O GBM, ont montré une performance élevée, offrant une précision et une capacité
d’interprétation utiles pour anticiper les comportements des consommateurs.
Ces résultats apportent des insights précieux pour des applications business, comme la
personnalisation des offres, l’optimisation des campagnes marketing et l’allocation des
ressources. De plus, l’utilisation de KNIME a facilité l’exécution d’analyses complexes de
manière intuitive et reproductible, démontrant la puissance de cet outil dans les projets de data
science.
En conclusion, cette étude montre comment une approche méthodique et des outils adaptés
peuvent transformer des données brutes en recommandations stratégiques concrètes, offrant une
réelle valeur ajoutée pour la prise de décision.
FIN.
13