Chapitre 2
Méthodologie
2.1 Architecture générale
1. Extraction des emails → Collecte des messages bruts à partir du Enron Email Dataset,
incluant le corps des emails et les métadonnées (expéditeur, destinataires, date, sujet).
2. Prétraitement des textes → Nettoyage linguistique (suppression des HTML, ponctuations,
stopwords), lemmatisation, normalisation temporelle et standardisation du contenu pour
une analyse cohérente.
3. Extraction des caractéristiques → Génération de scores émotionnels à partir du NRC
Emotion Lexicon, extraction de variables comportementales telles que la longueur du
message, l’heure d’envoi, le volume quotidien, et le nombre de destinataires.
4. Clustering non supervisé → Application de l’algorithme K-Means pour segmenter les emails
en profils émotionnels et comportementaux, sans besoin de labels.
5. Classification supervisée → Prédiction des emails à risque de burnout à l’aide de Random
Forest (modèle principal), comparée à XGBoost et à la régression logistique pour évaluer la
robustesse des résultats.
6. Visualisation et interprétation des résultats → Analyse des clusters, évaluation des
performances des modèles (précision, rappel, F1-score) et identification des signaux faibles
liés au stress ou au burnout.
2.2 Prétraitement des données
a) Jeu de données : Enron Email Dataset
Le corpus utilisé est le Enron Email Dataset, un ensemble public contenant plus de 500 000 courriels
internes échangés entre les employés de la société Enron, principalement des cadres. Publié à la suite
du scandale financier de 2001, ce jeu de données constitue une source précieuse pour l’analyse des
communications professionnelles, de la dynamique organisationnelle, et des signaux émotionnels liés
au stress ou au burnout.
Caractéristiques principales :
Format : corps des messages au format texte brut, non structuré
Langue : anglais
Utilisateurs : environ 150 employés, majoritairement des cadres dirigeants
Métadonnées : expéditeur, destinataires (To, Cc, Bcc), date, heure, objet
Ce dataset est fréquemment mobilisé dans les travaux de traitement automatique du langage (NLP),
de détection de surcharge mentale, et d’analyse comportementale en contexte professionnel.
b) Chargement et Extraction des Emails Bruts
Cette étape vise à transformer le fichier brut [Link] (issu du Enron Dataset) en un format
structuré et exploitable pour l’analyse. Voici les opérations effectuées par le script :
1. Chargement du fichier CSV contenant les emails bruts :
Le fichier [Link] est lu avec la bibliothèque pandas. Il contient deux colonnes :
file : le nom du fichier d’origine de l’email
message : le contenu brut de l’email, tel qu’extrait du jeu de données.
2. Transformation du contenu en objet email structuré :
Pour chaque ligne du fichier, la chaîne de texte représentant l’email est transformée en un
objet [Link] grâce à la fonction message_from_string. Cela permet
d’accéder facilement aux champs standards d’un email, comme le sujet, l’expéditeur ou la
date.
3. Extraction des métadonnées :
Le script récupère les principaux champs d’en-tête présents dans les emails, notamment :
Message-ID, From, To, cc, bcc, Subject, Date
ainsi que les champs spécifiques à Enron : X-From, X-To, X-Folder, X-Origin, X-FileName.
4. Extraction du corps du message (body) :
Une fonction dédiée (extract_body) est utilisée pour récupérer le contenu textuel réel de
l’email. Elle gère les cas d’emails multipart (texte + HTML, pièces jointes, etc.) et extrait
uniquement la partie lisible de type text/plain. Elle applique aussi un décodage robuste pour
éviter les erreurs liées à l’encodage.
5. Construction d’un enregistrement par email :
Chaque email est transformé en dictionnaire contenant toutes les informations extraites
(métadonnées + contenu). Ces dictionnaires sont accumulés dans une liste emails_data.
6. Export final dans un nouveau fichier CSV structuré :
Une fois tous les emails traités, la liste est convertie en DataFrame pandas, puis sauvegardée
dans un fichier emails_enron_extraits_complets.csv. Ce fichier propre constitue la base de
données prête pour les étapes suivantes, comme le nettoyage NLP ou l’analyse de contenu.
c) Nettoyage & Prétraitement du Texte (NLP)
Cette étape a pour but de transformer les corps d’emails (body) extraits en un format textuel propre,
standardisé et exploitable pour des analyses NLP ultérieures (classification, clustering, détection de
burnout, etc.). Voici les opérations réalisées par le script :
1. Chargement des emails extraits précédemment :
Le script commence par charger le fichier emails_enron_extraits_complets.csv, qui contient
les emails structurés, incluant notamment la colonne body contenant le texte brut.
2. Initialisation des outils de traitement NLP :
Avant le nettoyage, plusieurs ressources de la bibliothèque NLTK sont téléchargées :
Les stopwords (mots fréquents et peu informatifs comme "the", "is", "and"),
Le tokenizer (outil pour découper le texte en mots),
Et le lemmatizer (outil qui réduit un mot à sa forme de base, ex. "running" → "run").
3. Définition de la fonction clean_and_lemmatize :
Cette fonction applique un pipeline complet de nettoyage à chaque email :
Passage en minuscules pour homogénéiser le texte,
Suppression des URLs et des balises HTML,
Suppression de toute la ponctuation et des chiffres,
Tokenisation du texte pour le découper en mots,
Suppression des stopwords,
Application de la lemmatisation sur les mots restants.
4. Application du nettoyage à tous les emails :
La fonction de nettoyage est appliquée à chaque ligne de la colonne body via progress_apply,
ce qui permet de suivre l’avancement grâce à une barre de progression tqdm. Le résultat est
enregistré dans une nouvelle colonne body_cleaned.
5. Filtrage des emails non informatifs :
Une fois le nettoyage effectué, les emails dont le texte nettoyé est vide ou trop court (moins
de 10 caractères) sont supprimés, car ils n’apportent aucune information utile à l’analyse.
6. Sauvegarde du fichier nettoyé :
Le DataFrame final est enregistré dans un nouveau fichier emails_enron_cleaned.csv, qui
contient uniquement les emails propres et prêts pour l’analyse.
Approches utilisées
Le projet repose sur une combinaison d’algorithmes d’analyse lexicale, de segmentation non
supervisée et de classification supervisée, afin d’identifier et prédire les signaux émotionnels associés
au burnout. Les choix algorithmiques ont été faits en fonction de la nature des données, des objectifs
analytiques et des contraintes de robustesse et d’interprétabilité.
Analyse émotionnelle et comportementale des emails
Afin d’identifier des signaux faibles liés au stress ou au burnout dans les échanges d’emails, nous
avons enrichi le jeu de données à travers deux axes complémentaires : une analyse émotionnelle
fondée sur le contenu des messages, et une analyse comportementale exploitant les métadonnées
associées aux emails.
1. Analyse émotionnelle (Lexique NRC)
Nous avons utilisé le NRC Emotion Lexicon, un dictionnaire reconnu en NLP, développé par
Mohammad & Turney (2013), qui associe plus de 14 000 mots à huit émotions de base : anger, fear,
sadness, disgust, joy, trust, anticipation et surprise. Ce lexique permet de convertir un texte en
vecteur d’émotions, basé sur la fréquence des mots associés à chaque émotion.
Chaque email, une fois nettoyé, a été analysé mot par mot. Un compteur d’occurrences a été établi
pour chaque émotion, permettant de caractériser le climat émotionnel global du message. Ces
valeurs ont ensuite été intégrées sous forme de variables numériques (ex. : anger = 2, joy = 0, etc.),
facilitant ainsi leur utilisation dans les algorithmes de classification et de clustering.
Le lexique NRC a été privilégié par rapport à d’autres approches comme VADER, car il offre une
granularité émotionnelle plus fine, permettant de distinguer des émotions spécifiques plutôt qu’une
simple polarité positive ou négative. Cette richesse s’avère plus adaptée à l’analyse d’emails
professionnels dans un contexte de détection de burnout.
2. Analyse comportementale
En complément du contenu, nous avons extrait plusieurs indicateurs comportementaux à partir des
métadonnées des emails (date, destinataires, longueur du message). Ces features permettent de
capturer des schémas d’usage inhabituels ou intenses de la messagerie pouvant révéler une
surcharge, un stress chronique, une pression hiérarchique ou un déséquilibre entre vie
professionnelle et personnelle.
Feature comportementale Justification
Travailler en dehors des horaires standards (tard le soir ou tôt le matin) peut
Heure d’envoi (hour_sent)
indiquer une surcharge ou une difficulté à déconnecter du travail.
Des messages excessivement longs peuvent signaler un débordement
Longueur du message
émotionnel ; des messages très courts peuvent refléter de l’irritation ou du
(message_length)
stress.
Nombre de destinataires Copier plusieurs collègues ou supérieurs peut traduire un besoin de
(nb_recipients) justification, une pression hiérarchique ou un climat de méfiance.
Volume quotidien d’emails Une augmentation soudaine ou chronique du volume d’envois peut révéler
(daily_volume) une intensification de la charge de travail.
Le choix de ces features repose sur des hypothèses psychologiques et organisationnelles issues de la
littérature en psychologie du travail, ainsi que sur des indicateurs fréquemment mobilisés dans les
études portant sur le burnout professionnel et la surveillance des comportements numériques (Derks
& Bakker, 2014 ; Sonnentag, 2018). Elles sont :
Indépendantes du contenu textuel, ce qui les rend exploitables même dans des contextes
anonymisés ;
Facilement calculables à partir des champs standard des emails (horodatage, nombre de
mots, destinataires) ;
Compatibles avec les modèles de machine learning (features numériques), notamment pour
des approches non supervisées (clustering) ou supervisées (classification).
Clustering non-supervisé
Après l’enrichissement des emails à l’aide du NRC Emotion Lexicon pour détecter les émotions
dominantes, ainsi que l’extraction de variables comportementales telles que l’heure d’envoi, la
longueur du message ou le volume d’envois quotidien, une approche de clustering non supervisée à
l’aide de l’algorithme K-Means a été entreprise afin d’identifier des profils distincts d’emails
potentiellement liés au burnout.
K-Means a été retenu dans ce projet pour plusieurs raisons :
Il est simple à implémenter et rapide à exécuter, même sur des volumes de données
importants comme les emails Enron ;
Il est bien adapté aux données numériques, comme les variables comportementales (heure
d’envoi, longueur, volume) et les scores émotionnels issus du NRC Lexicon ;
Il permet d’identifier des profils typiques d’emails, facilitant l’interprétation des
comportements associés au burnout.
Définition
K-Means est un algorithme de clustering non supervisé visant à partitionner un ensemble de
données en K groupes (ou clusters), en minimisant la variance intra-cluster. Il s’agit d’une méthode
itérative qui permet de regrouper les observations similaires en fonction de leur proximité dans
l’espace des variables.
Fonctionnement
L’algorithme K-Means repose sur un processus itératif en quatre étapes principales, visant à
regrouper des observations similaires en K clusters distincts. Son fonctionnement peut être résumé
comme suit :
1. Initialisation des centroïdes
L’algorithme commence par sélectionner K centroïdes initiaux. Ces centroïdes peuvent être
choisis aléatoirement parmi les observations du jeu de données, ou déterminés selon des
techniques plus avancées comme K-Means++, qui visent à améliorer la stabilité du résultat.
2. Affectation des points aux clusters
Chaque observation est ensuite affectée au cluster dont le centroïde est le plus proche, en
utilisant généralement la distance euclidienne comme mesure de similarité. Cela permet de
regrouper les points similaires autour d’un même centre.
3. Mise à jour des centroïdes
Une fois tous les points assignés, le centroïde de chaque cluster est recalculé. Il correspond
désormais au centre de gravité (moyenne) de toutes les observations appartenant à ce
cluster.
4. Itération jusqu’à convergence
Les étapes d’affectation et de mise à jour sont répétées jusqu’à ce que les centroïdes ne
changent plus significativement d’une itération à l’autre, ou qu’un nombre maximum
d’itérations soit atteint. Cette phase de convergence marque la stabilité des clusters.
À la fin de l’algorithme, chaque observation appartient à un cluster bien défini, et la dispersion
interne des groupes est minimisée.
Avantages
Efficacité computationnelle : rapide même sur de grands ensembles de données ;
Simplicité : facile à comprendre, à implémenter et à interpréter ;
Bonne compatibilité avec les données numériques standardisées.
Limites
Besoin de définir le nombre de clusters (K) à l’avance ;
Sensibilité à l’initialisation des centroïdes (peut conduire à des solutions différentes) ;
Moins adapté aux clusters de forme non convexe ou de densité inégale ;
Influence des outliers, qui peuvent perturber les regroupements.
Classification supervisée
Dans la continuité de l’analyse exploratoire, une phase de classification supervisée a été mise en
place afin de prédire si un email présente des signes potentiels de burnout. Pour cela, nous avons
entraîné plusieurs modèles sur les variables émotionnelles et comportementales extraites
précédemment.
L’algorithme Random Forest a été retenu comme modèle principal en raison de sa robustesse, de sa
capacité à gérer des variables hétérogènes et de ses bonnes performances générales sans réglages
complexes. Afin d’évaluer la pertinence de ce choix, nous avons comparé ses résultats à ceux de deux
autres modèles : XGBoost et la régression logistique.
1. Random Forest
Définition
Random Forest est un algorithme d’apprentissage supervisé basé sur une méthode d’ensemble, qui
combine plusieurs arbres de décision pour améliorer la précision et la stabilité du modèle. Il repose
sur la technique du bagging (Bootstrap Aggregating), qui consiste à entraîner plusieurs modèles
indépendants à partir d’échantillons aléatoires du jeu de données, puis à agréger leurs prédictions.
L’idée centrale est que l’agrégation de plusieurs prédicteurs faibles (arbres individuels) permet de
construire un modèle global plus robuste et plus performant.
Fonctionnement
Le fonctionnement de Random Forest peut être résumé en plusieurs étapes :
1. Création d’échantillons bootstrap : à partir du jeu de données initial, l’algorithme génère
plusieurs sous-échantillons aléatoires avec remplacement.
2. Construction des arbres : pour chaque échantillon, un arbre de décision est construit. À
chaque nœud, seule une sous-partie aléatoire des variables est utilisée pour déterminer la
meilleure séparation. Cela introduit de la diversité entre les arbres.
3. Agrégation des prédictions : une fois tous les arbres construits, les prédictions sont agrégées :
En classification, par vote majoritaire (classe la plus prédite) ;
En régression, par moyenne des prédictions.
Cette approche permet de réduire la variance du modèle sans augmenter significativement le biais.
Avantages
Robuste à l’overfitting : la diversité introduite entre les arbres évite que le modèle
surapprenne les données d'entraînement.
Résistant au bruit et aux outliers : les arbres étant construits sur des échantillons différents,
l’impact des valeurs extrêmes est limité.
Adapté aux jeux de données complexes : il peut capturer des relations non linéaires et gérer
des interactions entre variables.
Aucune normalisation requise : il fonctionne directement sur les données brutes, y compris
celles avec des échelles différentes.
Supporte les données manquantes (via certaines implémentations) et les variables
catégorielles.
Limites
Moins interprétable qu’un arbre de décision unique : il est difficile d’expliquer précisément
une décision individuelle en raison de l’ensemble d’arbres sous-jacents.
Temps de calcul plus élevé : surtout lorsque le nombre d’arbres est important ou que les
données sont volumineuses.
Moins performant que certains algorithmes optimisés (ex. : XGBoost) dans des contextes très
compétitifs, sauf tuning avancé.
2. XGBoost (Extreme Gradient Boosting)
Définition
XGBoost est un algorithme d’ensemble basé sur la technique du boosting. Contrairement au bagging
utilisé dans Random Forest, le boosting construit les arbres de manière séquentielle : chaque nouvel
arbre apprend à corriger les erreurs du précédent. Développé pour optimiser la vitesse et les
performances, XGBoost est devenu l’un des algorithmes les plus utilisés dans les compétitions de
machine learning.
Fonctionnement
L’algorithme suit un principe de gradient boosting, avec les étapes suivantes :
1. Initialisation : le modèle commence par une prédiction de base (souvent une moyenne pour
la régression, ou un score de log-loss pour la classification).
2. Apprentissage itératif : à chaque itération, un nouvel arbre est construit pour prédire les
résidus (erreurs) du modèle précédent.
3. Mise à jour du modèle : la prédiction finale est une somme pondérée des arbres précédents,
chaque arbre étant ajusté selon un gradient de la fonction de perte.
4. Régularisation : XGBoost intègre des termes de régularisation L1 et L2 dans sa fonction
objectif, pour éviter le surapprentissage.
Avantages
Très performant sur des jeux de données complexes ou déséquilibrés.
Contrôle précis de l’apprentissage via des hyperparamètres (learning rate, max depth,
subsample, etc.).
Régularisation intégrée, ce qui améliore la capacité de généralisation du modèle.
Gère les données manquantes et capture les interactions non linéaires.
Optimisé pour la vitesse et la mémoire (parallélisation, gestion fine des ressources).
Limites
Tuning complexe : nécessite un réglage fin des hyperparamètres pour obtenir de bonnes
performances.
Moins interprétable : comme Random Forest, il devient difficile d’expliquer la prédiction d’un
individu.
Temps d’entraînement plus élevé, surtout avec de nombreux arbres ou de grands datasets.
3. Régression logistique
Définition
La régression logistique est un algorithme de classification binaire appartenant à la famille des
modèles linéaires. Elle permet de prédire la probabilité d’appartenance à une classe à partir d’une
combinaison linéaire des variables explicatives, en utilisant une fonction sigmoïde.
Fonctionnement
1. Calcul de la combinaison linéaire : chaque observation est transformée selon une équation
de la forme :
𝑧 = 𝛽0 + 𝛽1𝑥1 + ⋯ + 𝛽𝑛𝑥𝑛
𝛽₀ est l'ordonnée à l’origine (ou biais).
𝛽₁, 𝛽₂, ..., 𝛽ₙ sont les coefficients associés à chaque variable explicative (x₁, x₂, ...,
xₙ).
Chaque 𝛽 indique l’influence d’une variable sur la probabilité prédite :
Si 𝛽ᵢ > 0, l’augmentation de xᵢ augmente la probabilité de l’événement.
Si 𝛽ᵢ < 0, l’augmentation de xᵢ la diminue.
2. Application de la fonction sigmoïde : la probabilité est obtenue via :
1
𝑃(𝑦 = 1|𝑥 ) =
1 + 𝑒 −𝑧
3. Optimisation : les coefficients β sont appris par minimisation d’une fonction de coût (log-
loss), en général via une descente de gradient.
Avantages
Simple, rapide et efficace sur des jeux de données linéairement séparables.
Facile à interpréter : les coefficients ont une signification explicite.
Moins sensible au surapprentissage, surtout avec régularisation (L1/L2).
Bon point de départ comme modèle de base (baseline) dans un pipeline de classification.
Limites
Suppose une relation linéaire entre les variables et la log-odds de la sortie.
Moins performant sur des données complexes ou non linéaires.
Peu robuste aux outliers, sauf en cas de prétraitement adapté.
Sensibilité à la multicolinéarité, nécessitant une sélection ou transformation des variables.
Chapitre 3
Résultats et Analyse
Analyse émotionnelle et comportementale des emails
Dans cette section, nous présentons une analyse croisée des variables émotionnelles (issues du
lexique NRC) et comportementales (métadonnées des emails) afin d’identifier des indicateurs
pertinents liés à des situations de burnout.
L’analyse repose sur la variable burnout_flag, un indicateur composite défini comme positif lorsqu’un
email présente soit une combinaison d’émotions négatives (par exemple anger, sadness, fear) et de
mots-clés liés au stress, soit un comportement atypique (envoi tardif et message long).
Ce choix permet de capturer des cas potentiels de burnout en tenant compte à la fois de la charge
émotionnelle, du contenu lexical explicite, et du comportement d’envoi, offrant ainsi une vision plus
complète que l’analyse par mots-clés seule.
a. Émotions moyennes selon le burnout_flag
Cette figure compare les scores émotionnels moyens entre les emails flaggés comme à risque de
burnout (burnout_flag = 1) et ceux qui ne le sont pas (burnout_flag = 0). On observe une hausse
marquée des émotions négatives dans les messages à risque, notamment anger, fear, sadness, et
disgust, ce qui confirme l’hypothèse d’un climat émotionnel tendu dans ces échanges.
Cependant, deux émotions traditionnellement perçues comme positives, trust et joy, présentent
également des scores plus élevés chez les emails burnout. Cela peut sembler paradoxal, mais
plusieurs éléments d’interprétation permettent d’éclairer ce phénomène :
Trust : cette émotion apparaît souvent dans des formulations où l’expéditeur cherche à
déléguer une tâche ou à insister sur la fiabilité d’un collègue (“I trust you will manage this”,
“Please take over…”). Dans un contexte de surcharge ou de tension, ce type de message
traduit non pas un état émotionnel serein, mais plutôt une recherche de soulagement, de
soutien ou de relais. L’usage fréquent de trust peut ainsi refléter un appel implicite à l’aide
ou un mécanisme de coping.
Joy : bien que présente de manière plus modérée, cette émotion peut s’expliquer par l’usage
de formules de politesse, d’humour ou de reconnaissance même dans des situations
stressantes (“Thanks again!”, “It was a pleasure…”). Les employés en situation de stress
conservent souvent une communication professionnelle positive en surface, ce qui
augmente mécaniquement la fréquence de termes associés à joy sans qu’il reflète un
véritable bien-être émotionnel.
Ainsi, la présence de trust et joy dans les emails à risque ne doit pas être interprétée comme un signe
de bien-être, mais plutôt comme un signal contextuel : dans un environnement émotionnel
globalement négatif, ces émotions traduisent une tentative de régulation, de résilience apparente,
ou d’effort relationnel pour maintenir un cadre de travail acceptable malgré la surcharge.
b. Top 10 expéditeurs liés à des signes de burnout
Ce graphique met en évidence les dix expéditeurs les plus fréquemment associés à des emails flaggés
comme à risque de burnout. Certains noms, tels que Kay Mann, Jeff Dasovich ou Vince Kaminski,
apparaissent comme des profils particulièrement exposés. Ces individus pourraient occuper des rôles
stratégiques ou sensibles dans l’organisation (management, communication interne, RH), engendrant
une charge communicationnelle importante. L’analyse suggère que certains employés agissent
comme nœuds de stress ou de surcharge, ce qui justifie une attention particulière dans une
perspective de prévention des risques psychosociaux.
c. Longueur des messages selon burnout_flag
La boxplot ci-dessus compare la longueur des messages (en nombre de mots) selon le flag burnout.
Les emails associés au burnout présentent une médiane plus élevée et une concentration
importante d’outliers, parfois au-delà de 20 000 mots. Cela indique que les messages à risque sont
souvent plus détaillés, longs ou émotionnellement denses, possiblement en lien avec une volonté de
justification, de plainte ou de déchargement émotionnel. Cette variable comportementale s’avère
donc particulièrement pertinente pour la détection de signaux faibles de burnout.
d. Taux de burnout par heure d’envoi (UTC)
L’analyse du taux de burnout en fonction de l’heure d’envoi révèle des tendances significatives. On
observe un pic notable entre 2h et 5h du matin (UTC), avec un taux dépassant les 40 %, indiquant un
niveau élevé d’épuisement chez les personnes actives à ces heures. Un second pic apparaît en soirée,
à partir de 20h, atteignant un maximum à 21h avec un taux supérieur à 47 %, ce qui suggère un
important niveau de fatigue mentale en fin de journée.
À l’inverse, la période située entre 9h et 16h présente les taux de burnout les plus bas, inférieurs à 30
%, ce qui pourrait correspondre à une plage horaire plus propice à la productivité et à la
concentration, probablement grâce à un meilleur état de récupération.
Ces observations soulignent l’importance d’une gestion optimisée des horaires de travail. Il est
recommandé de limiter les sollicitations professionnelles tard le soir ou en pleine nuit, et de
privilégier les interactions et tâches à forte charge cognitive durant les heures de la matinée, afin de
réduire les risques liés au burnout.
Clustering
Afin d’identifier des groupes d’emails similaires sur le plan émotionnel et comportemental, une
analyse de clustering non supervisé a été menée à l’aide de l’algorithme K-Means. Cette méthode a
permis de segmenter les données sans connaissance préalable des étiquettes, en regroupant les
observations partageant des caractéristiques proches.
a. Sélection des variables
Les variables utilisées pour le clustering incluent les émotions principales (anger, fear, sadness,
disgust, joy, trust, surprise) ainsi que des métriques comportementales (message_length, hour_sent,
nb_recipients, daily_volume). Toutes les données ont été normalisées via StandardScaler.
b. Détermination du nombre optimal de clusters (Méthode du coude)
Cette figure illustre la courbe de l’inertie intra-cluster (Within-Cluster Sum of Squares - WCSS) en
fonction du nombre de clusters k, selon l’algorithme KMeans. On observe une forte diminution de
l’inertie entre k=1 et k=2, puis un ralentissement du gain à partir de k=3. Ce point d’inflexion
caractéristique, également appelé « coude », suggère que k=2 est un choix optimal pour partitionner
les données de manière efficace, sans sur-segmenter les groupes.
c. Visualisation des clusters avec réduction de dimension (PCA)
Cette figure présente la visualisation des données après réduction dimensionnelle par Analyse en
Composantes Principales (PCA). Elle se compose de deux sous-graphes :
A gauche (Unlabeled data) : la distribution des données initiales sans information de cluster.
On observe une concentration dense des points autour de l’origine, avec une dispersion
progressive le long de l’axe PCA 1.
A droite (Clustered data) : les données sont colorées selon les deux clusters identifiés par
l’algorithme K-Means (Cluster 0 en rose, Cluster 1 en bleu-vert). Une séparation nette entre
les deux groupes est visible, en particulier sur l’axe horizontal (PCA 1), ce qui indique que les
observations ont été efficacement regroupées en fonction de leur structure latente.
Interprétation :
Le Cluster 0 (rose) regroupe majoritairement les points les plus concentrés autour de faibles
valeurs en PCA 1 → cela pourrait correspondre à un profil d’emails plus neutres ou
émotionnellement modérés.
Le Cluster 1 (bleu-vert) s’étend davantage vers les valeurs élevées de PCA 1 →
potentiellement des emails avec intensité émotionnelle plus marquée ou comportements
spécifiques (longueur, heure, etc.).
Les deux groupes obtenus apparaissent bien séparés visuellement, ce qui confirme la capacité du
modèle à capturer une structure latente dans les données émotionnelles et comportementales.
d. Évaluation de la qualité du clustering
Les performances du clustering avec k=2 ont été évaluées par trois métriques standards :
Silhouette Score : 0.9587
Ce score élevé indique une forte cohésion intra-cluster et une bonne séparation inter-cluster,
ce qui valide la qualité du partitionnement.
Davies-Bouldin Index : 0.4334
Un indice faible suggère que les clusters sont bien séparés et compacts, renforçant la
robustesse de la segmentation.
Calinski-Harabasz Score : 339628.30
Une valeur élevée de ce score confirme également que la variance intra-cluster est faible par
rapport à la variance inter-cluster.
Ces résultats traduisent une structure de regroupement bien définie et justifient la stabilité du choix
K=2.
Classification
Dans cette étape, nous avons appliqué des algorithmes de classification supervisée afin de prédire la
présence de signes de burnout dans les emails, en se basant sur les variables émotionnelles et
comportementales extraites.
Le jeu de données a été divisé selon une répartition classique :
80 % des données pour l’entraînement du modèle,
20 % pour le test, permettant une évaluation rigoureuse sur des données non vues.
La variable cible utilisée est le champ burnout_flag_keywords_only, indiquant si un email contient au
moins un mot-clé directement lié au burnout. Ce choix permet de s’appuyer sur des indicateurs
lexicaux explicites, tout en étant robuste pour l’apprentissage automatique.
Ce champ a été construit en identifiant dans chaque email la présence d’au moins un mot-clé
explicitement lié au burnout (par exemple : tired, stressed, overwhelmed, fatigue, etc.).
Nous avons choisi de ne pas utiliser la variable burnout_flag, car elle combine à la fois des indicateurs
émotionnels et des mots-clés, ce qui la rend plus subjective et potentiellement bruitée. À l’inverse,
burnout_flag_keywords_only repose uniquement sur des critères lexicaux clairs et vérifiables, ce qui
en fait une cible plus fiable et mieux adaptée à l’entraînement d’un modèle supervisé.
a. Résultats des performances
L’évaluation comparative des modèles de classification met en évidence la supériorité du modèle
Random Forest sur les autres approches testées. Ce modèle affiche les meilleures performances sur
l’ensemble des métriques clés, avec une précision de 0.9730, un rappel de 0.7906, un F1-score de
0.8724, et une AUC de 0.9809. Ces résultats traduisent une excellente capacité du modèle à identifier
correctement les cas de burnout, tout en limitant les erreurs de classification.
À l’inverse, le modèle de régression logistique présente les performances les plus faibles, notamment
un rappel très bas (0.1805), indiquant une forte proportion de cas de burnout non détectés. Son F1-
score de 0.2856 confirme cette faible efficacité globale, malgré une précision modérée (0.6831).
Le modèle XGBoost se situe dans une position intermédiaire. Il obtient une précision correcte
(0.8449) et une AUC respectable (0.8914), mais son rappel reste insuffisant (0.3177), limitant ainsi sa
capacité à identifier efficacement les individus en situation de burnout.
En résumé, le modèle Random Forest se distingue nettement comme le plus adapté pour cette tâche
de classification. Il offre un bon équilibre entre précision et sensibilité, et constitue une solution
robuste pour la détection automatique du burnout.
b. Matrice de confusion
Les matrices de confusion permettent de visualiser les performances de chaque modèle en termes
de classification correcte et d’erreurs :
Random Forest :
5776 vrais positifs (emails à burnout bien détectés),
1530 faux négatifs, soit un bon rappel (≈79 %).
Très faible taux de faux positifs (160).
C’est le modèle le plus équilibré : peu d’emails à risque sont manqués, tout en gardant une bonne
précision.
XGBoost :
Moins performant avec seulement 2321 vrais positifs,
4985 faux négatifs, ce qui dégrade fortement son rappel.
Acceptable en précision, mais trop de cas à risque non détectés.
Logistic Regression :
Performances encore plus faibles : seulement 1319 vrais positifs, 5987 faux négatifs.
Montre une forte difficulté à capter les cas de burnout, avec un biais vers la classe
majoritaire (non-burnout).
c. Courbe ROC des modèles
La courbe ROC compare les modèles sur leur capacité à discriminer les classes à différents seuils :
Random Forest affiche une courbe très proche du coin supérieur gauche, avec un AUC = 0.98,
signe d’une excellente performance globale.
XGBoost (AUC = 0.89) a une courbe correcte mais moins précise.
Logistic Regression (AUC = 0.84) a la courbe la plus éloignée, confirmant sa performance
modeste.
Le Random Forest domine clairement en termes de sensibilité et spécificité combinées.
d. Importance des variables (Random Forest)
Cette figure présente l’importance relative des variables utilisées par le modèle Random Forest dans
la prédiction des emails à risque de burnout. Chaque barre reflète la contribution d’une variable à la
décision du modèle, mesurée par la réduction moyenne de l’impureté (Gini).
Variables les plus influentes :
message_length est de loin la variable la plus déterminante, avec un poids proche de 20 %.
Cela confirme que les emails longs sont un indicateur fort de surcharge ou d’expression
émotionnelle intense (justification, plainte, stress).
trust et daily_volume suivent en importance.
La présence du mot trust (souvent utilisé dans les formulations de délégation ou de
soulagement) indique un appel implicite à l’aide.
Un volume quotidien élevé d’emails envoyés peut refléter une activité excessive, souvent
corrélée au burnout.
Variables émotionnelles contributives :
fear, anger, sadness, joy sont toutes bien représentées dans le top 10.
Cela valide l’intérêt de l’analyse émotionnelle : ces émotions négatives (et parfois
ambivalentes) enrichissent la lecture comportementale pure.
Variables comportementales secondaires mais utiles :
hour_sent (heure d’envoi) reste significative : des envois en horaires nocturnes ou irréguliers
peuvent signaler une désynchronisation travail/vie personnelle.
nb_recipients (nombre de destinataires) peut suggérer une pression de communication
formelle ou hiérarchique.
Le modèle Random Forest exploite efficacement à la fois les signaux comportementaux (quantitatifs
et temporels) et les signaux émotionnels pour détecter les cas de burnout. La dominance de
message_length, trust et daily_volume souligne l’importance de comportements d’écriture et
d’usage de la messagerie, bien au-delà du contenu lexical brut.
e. Analyse des expéditeurs prédits comme liés au burnout
Cette figure présente les 10 expéditeurs ayant envoyé le plus d’emails prédits comme contenant des
signes de burnout, selon le modèle Random Forest entraîné sur les variables émotionnelles et
comportementales.
Vince J Kaminski apparaît en tête, avec plus de 1 090 emails prédits à risque, ce qui en fait un
profil central à surveiller dans l'organisation.
D'autres noms comme Jeff Dasovich, Kay Mann, Steven J Kean, et Sara Shackleton se
démarquent également par un volume élevé de messages concernés.
Ces résultats sont cohérents avec ceux identifiés lors de l’analyse comportementale et du
clustering, ce qui renforce leur crédibilité.
Interprétation :
Ces utilisateurs pourraient être en situation de surcharge professionnelle, occuper des rôles à
forte responsabilité, ou se retrouver fréquemment dans des contextes de tension ou
d’urgence.
Le volume d’emails flagués indique une pression potentielle constante dans leur activité, et
pourrait justifier une vigilance organisationnelle spécifique à leur égard (accompagnement,
suivi RH, analyse du service concerné).
Cette visualisation offre une perspective utile pour cibler des interventions préventives au sein de
l’entreprise, en identifiant les profils les plus exposés selon le modèle. Elle constitue un outil
complémentaire aux analyses globales, en mettant en évidence les nœuds humains du risque de
burnout.
Validation
Afin d’évaluer la robustesse du modèle Random Forest et d’éviter les biais liés à une simple
séparation train/test, une validation croisée à 5 plis (5-fold cross-validation) a été mise en œuvre.
Le choix d’une validation croisée à 5 folds repose sur des considérations méthodologiques
essentielles pour garantir la fiabilité des résultats :
Elle permet de mieux exploiter l’ensemble du jeu de données, en s’assurant que chaque
observation soit utilisée à la fois pour l'entraînement et pour le test.
C’est particulièrement pertinent dans notre cas, car la classe positive (emails à burnout) est
minoritaire : la validation croisée permet de répartir équitablement ces cas rares dans chaque
pli, évitant ainsi les biais d’échantillonnage.
Le choix de 5 plis constitue un équilibre optimal entre :
Une stabilité statistique suffisante (meilleure estimation moyenne des
performances),
Et un temps de calcul raisonnable, compatible avec des modèles complexes comme
Random Forest.
Le F1-score élevé (≈ 0.87) indique un excellent équilibre entre précision (éviter les faux
positifs) et rappel (ne pas manquer les vrais cas de burnout).
La précision moyenne de 97 % montre que très peu de faux positifs sont générés, ce qui
limite les alertes injustifiées.
Le rappel de près de 80 % confirme que la majorité des emails à risque sont bien détectés.
L’AUC supérieur à 0.98 témoigne d’une très forte capacité du modèle à distinguer les deux
classes, quelle que soit la probabilité seuil choisie.
Cette phase de validation croisée confirme que le modèle Random Forest est à la fois performant,
stable et fiable pour la détection d’emails associés à un état de burnout. Son excellent score en AUC
et en F1 en fait un candidat idéal pour une mise en production dans un contexte de prévention des
risques psychosociaux.
Conclusion et Perspectives
Résumé des apports de l’étude
Ce travail a permis de démontrer la faisabilité d’une détection automatisée des signaux de burnout
à partir d’emails professionnels, en combinant des analyses lexicales, émotionnelles et
comportementales. Les contributions majeures de l’étude sont les suivantes :
Identification de profils à risque de burnout à travers les messages échangés dans
l’environnement professionnel (Enron).
Validation d’un modèle supervisé performant, en particulier l’algorithme Random Forest,
atteignant un F1-score supérieur à 0.87.
Mise en évidence de la pertinence du lexique NRC pour la représentation des émotions dans
les emails.
Confirmation d’une corrélation forte entre certains comportements d’envoi (heures
tardives, longueur des messages, volume quotidien) et les indicateurs de stress émotionnel.
Limites rencontrées
Malgré ces résultats encourageants, certaines limites doivent être soulignées :
L’étude ne repose pas sur des diagnostics cliniques réels de burnout, mais sur des
approximations textuelles (mots-clés et scores émotionnels).
Le jeu de données est spécifique à Enron, une entreprise en situation de crise, ce qui peut
biaiser la généralisation des résultats.
Les emails sont uniquement en anglais, et dans un format professionnel structuré, ce qui
limite l’adaptation immédiate à d’autres contextes.
Perspectives
Plusieurs pistes d’évolution sont envisageables pour prolonger ce travail :
Appliquer la même approche à d’autres environnements de communication professionnelle,
comme Slack, Microsoft Teams ou des emails internes d’entreprises actuelles.
Intégrer le modèle dans des outils RH de monitoring émotionnel, à des fins de prévention
des risques psychosociaux.
Croiser les résultats avec des données de bien-être réel ou de performance individuelle,
pour valider la pertinence opérationnelle des signaux détectés.
Améliorer la détection en s’appuyant sur des techniques avancées d’IA, telles que les
modèles temporels (ex. : LSTM) ou des approches d’IA explicable (XAI) permettant de mieux
interpréter les alertes générées.