100% ont trouvé ce document utile (1 vote)

579 vues91 pages

Automatisation du Recrutement

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

579 vues91 pages

Automatisation du Recrutement

Transféré par

Akermi Safa

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

2021 / 2022

SPÉCIALITÉ : Data Science

Mise en place d’un système
de rapprochement des compétences
Et d’automatisation du processus de recrutement

Réalisé par : Amal Essid

Encadré par:

Encadrant ESPRIT: Mme Zaineb Laabidi

Encadrant Entreprise: M Makrem Jannadi

Encadrement professionnel

Makrem JANNADI
Signature :

Encadrement académique

Zaineb LABIDI
Signature:
:
Dédicace

“ À mes très chers parents, auxquels je dois ce que je suis,

À Ma chère madame Sihem, la plus merveilleuse des

enseignantes, qu’elle garde le courage et retrouve très
rapidement une santé de fer !

À tous mes professeurs du primaire à aujourd’hui,

À mes très chères grand mères, que dieu me les protège,

À mes sœurs, amis et collègues, auxquels je souhaite le plus

grand succès ,

À tous ceux qui me sont chers,

Merci.

”
- Amal

IV
Remerciements

Tout d’abord, Merci à Dieu tout-puissant d’avoir répondu à mes prières, de m’avoir soutenu
dans ce dur voyage, et de m’avoir guidé et béni pour réussir.
Chers Maman et Papa, merci pour vos innombrables sacrifices qui m’ont ouvert de nom-
breuses portes pour grandir et réussir, d’avoir suscité en moi la confiance et la passion pour
travailler dur et poursuivre mes rêves sans limites. J’espère que je vous rendrai aussi fiers que
vous me rendez fière.
Chères grand-mères, merci pour vos prières, le soutien le plus incroyable pour moi, dont
j’en ai encore besoin toute ma vie.
Chères sœurs, merci d’avoir toléré mon stress et mes tensions dans les moments difficiles,
d’avoir toujours écouté mes plaintes lorsque la vie me met le plus à l’épreuve, et d’avoir toujours
cru en moi et m’avoir encouragée à aller jusqu’au bout.
Chers superviseurs, M. Makrem JANNADI et Mme Zaineb LABIDI, merci pour votre
engagement tout au long de ce stage, pour la qualité de votre encadrement, pour votre rigueur
et disponibilité pour assurer l’avancement de mon projet, et pour toutes les petites et grandes
choses que vous m’avez apprises.
Ce stage n’aurait pas été réalisable sans votre soutien et vos précieux conseils.
Chers amis, merci de m’avoir toujours souhaité le meilleur, d’avoir cru en moi pendant mes
moments de faiblesse, et de m’avoir toujours poussé à donner le meilleur de moi-même.

V
Table des matières

Dédicace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV

Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V

1 CADRE GÉNÉRAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1 Présentation de l’organisme d’accueil . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Présentation générale . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Domaines d’activité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.3 Organisation de l’entreprise . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.4 Département d’accueil . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Présentation du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Étude de l’existant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Description de l’existant . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Critique de l’existant . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Solution proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Méthodologie de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.2 CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.3 Choix de la méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Spécification de besoins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6.1 Objectifs métiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6.2 Objectifs data science . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Fondement théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1 Traitement du langage naturel (NLP) . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Cas concrets de l’utilisation de NLP . . . . . . . . . . . . . . . . . . . 13
2.1.2 Vectorisation du texte . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2.1 Bag of words(BOW) . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2.2 TF-IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2.3 Comparaison ente BOW et TF-IDF . . . . . . . . . . . . . . 15
2.2 Topic modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Latent Dirichlet Allocation (LDA) . . . . . . . . . . . . . . . . . . . . 16
2.2.1.1 Principe de LDA . . . . . . . . . . . . . . . . . . . . . . . . 17

VI
Table des matières

2.2.1.2 Les paramètres de LDA . . . . . . . . . . . . . . . . . . . . 18

2.2.1.3 Algorithme LDA . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Non-negative Matrix Factorization(NMF) . . . . . . . . . . . . . . . . 20
2.2.2.1 Principe de NMF . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2.2 Explication mathématique du NMF . . . . . . . . . . . . . . 21
2.2.2.3 Algorithme NMF . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.3 Evaluation du topic modeling . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.3.1 Score de cohérence . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.3.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.3.3 Pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Pré-traitement des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1 Nettoyage des données textuelles . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Suppression des StopWords . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.2 Suppression des retours à la ligne et des tabulations . . . . . . . . . . . 30
3.1.3 Suppression des emojis . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.4 Traitement des ponctuations . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Rapprochement des données textuelles . . . . . . . . . . . . . . . . . . . . . . 31
3.2.1 Normalisation de la case et élimination des accents . . . . . . . . . . . 32
3.2.2 Traitement des versions . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.3 Traitement des abréviations . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.3.1 Méthode1 : Expressions régulières (REGEX) . . . . . . . . . 33
3.2.3.2 Méthode2 : Spacy Abbreviation Detector . . . . . . . . . . . 35
3.2.3.3 Choix de la méthode appropriée . . . . . . . . . . . . . . . . 35
3.2.4 Traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Ingénierie des caractéristiques (feature engineering) . . . . . . . . . . . . . . . 38
3.3.1 Création de caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1.1 Years of study . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1.2 Seniority . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Transformation de caractéristiques . . . . . . . . . . . . . . . . . . . . 39
3.3.3 Extraction d’informations . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.3.1 Modèle d Named entity recognition (NER) . . . . . . . . . . 39
3.3.3.2 Introduction au NER . . . . . . . . . . . . . . . . . . . . . 39
3.3.3.3 Nécessité d’un modèle NER personnalisé . . . . . . . . . . . 40
3.3.3.4 Labélisation des données . . . . . . . . . . . . . . . . . . . . 40
3.3.3.5 Entrainement du modèle NER . . . . . . . . . . . . . . . . . 41
3.3.3.6 Evaluation et Choix du modèle NER . . . . . . . . . . . . . 42

4 Modélisation et Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1 Clustering des profils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.1 Besoin du clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

VII
Table des matières

4.1.2 Choix entre le ”Hard clustering” et le ”Soft clustering” . . . . . . . . . 48

4.1.3 Application du modèle LDA . . . . . . . . . . . . . . . . . . . . . . . 49
4.1.3.1 Création de la matrice Document-Mot . . . . . . . . . . . . . 49
4.1.3.2 Construction d’un modèle LDA avec sklearn . . . . . . . . . 49
4.1.3.3 Diagnostique de la performance du modèle . . . . . . . . . . 50
4.1.3.4 Réglage des hyperparamètres . . . . . . . . . . . . . . . . . 52
4.1.3.5 Interprétation des résultats . . . . . . . . . . . . . . . . . . . 54
4.1.4 Application du modèle NMF . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.4.1 Création de la matrice Document-mot . . . . . . . . . . . . . 55
4.1.4.2 Construction du modèle . . . . . . . . . . . . . . . . . . . . 55
4.1.4.3 Évaluation du modèle . . . . . . . . . . . . . . . . . . . . . 56
4.1.5 Comparaison et choix entre LDA et NMF . . . . . . . . . . . . . . . . 59
4.1.6 Distribution de documents sur les thèmes . . . . . . . . . . . . . . . . 59
4.2 Appariement d’offres d’emploi . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.1 Prétraitement de l’offre d’emploi . . . . . . . . . . . . . . . . . . . . 60
4.2.2 Recommandation des profiles pour une offre de travail . . . . . . . . . 61
4.3 Rapprochement des profiles similaires . . . . . . . . . . . . . . . . . . . . . . 61
4.3.1 Identification des caractéristiques de chaque profile . . . . . . . . . . . 61
4.3.2 Identification des profils similaires . . . . . . . . . . . . . . . . . . . . 62

5 Réalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1 Environnement du travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.1.1 Technologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.1.2 Relation entre les technologies : FARM stack . . . . . . . . . . . . . . 66
5.1.3 Bibliothèques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2 Déploiement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2.1 Coté FastAPI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2.2 Coté Front-end : React . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2.1 Page de Login . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2.2 Dashboard . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2.3 Affichage de la liste des profils . . . . . . . . . . . . . . . . 71
5.2.2.4 Page profil détaillé . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.2.5 Outil de rapprochement des compétences . . . . . . . . . . . 74
5.2.2.6 Correspondance offre d’emploi/profils . . . . . . . . . . . . 75

Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

VIII
Table des figures

1.1 Logo Wevioo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Organigramme de WEVIOO . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Phases de la méthodologie Semma . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Phases de la méthodologie CRISP-DM . . . . . . . . . . . . . . . . . . . . . 8

2.1 Princie du topic modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2 Distribution de probabilié discrète d’un document sur les topics . . . . . . . . 17
2.3 Distribution de probabilité discrète d’un topis sur les mots . . . . . . . . . . . 18
2.4 Représentation graphique du modèle LDA . . . . . . . . . . . . . . . . . . . . 19
2.5 Factorisation non négative . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6 Structure générale des mesures de cohérence . . . . . . . . . . . . . . . . . . . 24
2.7 Exemple d’aggrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.8 Score de cohérence final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.9 Un exemple détaillé du calcul d’un score de cohérence d’un sujet . . . . . . . . 28

3.1 Nombre d’abréviations colléctées . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.2 Dictionnaire des abréviations . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Taille du dictionnaire des traductions . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Extrait du dictionnaire des traductions . . . . . . . . . . . . . . . . . . . . . . 37
3.5 Exemple de données d’entrainement de NER . . . . . . . . . . . . . . . . . . . 41
3.6 Exemple de labélisation de l’éntité ”Skill” par Label Studio . . . . . . . . . . 41
3.7 Extraction des compétences par le modèle NER . . . . . . . . . . . . . . . . . 43
3.8 Extrait de la section SKILLs d’un profil avant prétraitement . . . . . . . . . . 44
3.9 Résultat de l’application du pipeline de prétraitement. . . . . . . . . . . . . . . 44

4.1 Illustration du clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.2 Illustration de la différence entre le hard et le soft clustering . . . . . . . . . . 48
4.3 Présentation graphique par LDAviz de la distribution des thèmes . . . . . . . . 50
4.4 Présentation graphique des Top-30 mots caractérisant le topic 6 . . . . . . . . 51
4.5 Présentation graphique des Top-30 mots caractérisant le topic 2 . . . . . . . . 52
4.6 Représentation graphique des résultats des combinaisons de modèles entrainés 53
4.7 Présentation graphique des Top-30 mots caractérisant le topic 2 après réglage
des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.8 Résultat de GridSearch avec NMF . . . . . . . . . . . . . . . . . . . . . . . . 56
4.9 Distribution des mots sur les sujets NMF . . . . . . . . . . . . . . . . . . . . 57
4.10 Matrice de distribution des spécialités (topics) sur les profils (documents) . . . 60

IX
Table des figures

4.11 Formule de calcul de la similarité en Cosinus (Cosine similarity . . . . . . . . 61

4.12 Caractéristiques choisies pour modéliser les profils sous forme vectorielle . . . 62
4.13 Matrice de similarité en cosinus entre les profils . . . . . . . . . . . . . . . . . 62

5.1 React contre Angular et Vue . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.2 Technologies de la pile FARM stack . . . . . . . . . . . . . . . . . . . . . . . 66
5.3 Relation entre les composants de la pile FARM stack . . . . . . . . . . . . . . 66
5.4 Interface de l’api d’entrainement et de selection du meilleur modèle NER . . . 68
5.5 Api de normalisation et extraction des compétences . . . . . . . . . . . . . . . 69
5.6 Api de recommandation de profils similaires . . . . . . . . . . . . . . . . . . . 69
5.7 Login . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.8 Tableau de bord PowerBi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.9 Liste des profils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.10 Exemple d’un profil détaillé d’un senior en Data science . . . . . . . . . . . . 72
5.11 Exemple d’un profil détaillé d’un senior dévelopeur Spring . . . . . . . . . . . 73
5.12 Exemple d’un profil détaillé d’un senior dévelopeur Web . . . . . . . . . . . . 73
5.13 Démonstration du rapprochement des compétences . . . . . . . . . . . . . . . 74
5.14 Démonstration de la recommandation des profils adéquats à une offre d’embauche 75
5.15 Page Linkedin du premier profil suggéré à l’offre de data scientist . . . . . . . 76
5.16 Page détaillée du premier candidat proposé au poste . . . . . . . . . . . . . . . 76

X
Liste des tableaux

1.1 Tableau récapitulatif des méthodes Data Science. . . . . . . . . . . . . . . . . 9

3.1 Seniority category . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Explication des symboles de la formule F1-score . . . . . . . . . . . . . . . . . . . . . 42
3.3 Réesultat des indicateurs de performance pour le modèle NER . . . . . . . . . . . . . . . 43

4.1 Scores de cohérence des différents modèles NMF . . . . . . . . . . . . . . . . 56

4.2 Les mots fréquents pour chaque topic (Méthode NMF) . . . . . . . . . . . . . . . . . . 58

5.1 Outils utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

XI
Introduction Générale

Introduction Générale

En raison de la croissance technologique exponentielle que le monde actuel subit, nous

sommes en contact avec différentes nouvelles technologies jour après jour.
Parmi ces technologies effervescentes, figure l’intelligence artificielle (IA), un domaine
fascinant et universel de l’informatique qui a un impact considérable sur l’avenir.
Cette technologie en plein boom est sur le point de déclencher une nouvelle révolution dans le
monde, en élaborant des machines intelligentes dotées de capacités et de comportements hu-
mains tels que l’apprentissage, le raisonnement et la prise de décision.
Avec l’intelligence artificielle, il n’est plus nécessaire de pré programmer une machine pour
qu’elle effectue un travail, mais plutôt pour qu’elle soit capable d’effectuer en toute autonomie
des tâches qui lui sont propres comme conduire une voiture, jouer aux échecs, prouver des théo-
rèmes, faire de la musique, peindre, etc. Et c’est là ou réside la puissance de l’IA, qui le classifie
à l’un des plus grands bouleversements de notre époque.
Ce qui est encore fascinant dans les systèmes d’IA, c’est qu’ils sont même en mesure de
fournir de meilleures solutions que les humains eux-mêmes.
D’une part, ces systèmes sont sujets à moins d’erreurs et à une grande précision, car ils
prennent des décisions sur la base de l’expérience ou d’informations antérieures.
D’autre part, les systèmes d’IA peuvent prendre des décisions très rapidement, chose qui
peut se révéler fastidieuse et très lente pour les humains.
Émerveillé par ces machines intelligentes, l’homme se contente de plus en plus d’implanter
l’intelligence artificielle dans tous les domaines et secteurs, afin de jouir de ses facultés.
Dans le cadre de ce projet, nous nous intéressons à l’un des domaines qui peuvent être
confrontés à l’IA, à savoir le domaine du recrutement.
Dans un premier chapitre, nous introduisons le cadre général du projet, à savoir la présenta-
tion de l’entreprise d’accueil, la présentation du projet ainsi que la méthodologie adoptée pour
sa gestion.
Nous avons consacré le deuxième chapitre à des explications théoriques et mathématiques
des algorithmes et des concepts qui seront appliqués tout au long de la réalisation de ce projet
Le troisième chapitre, expose en détail les différentes approches utilisées pour le pré trai-
tement des données.
Le quatrième chapitre, dévoile les différents modèles et algorithmes adoptés pour répondre
aux objectifs du projet.
Enfin, le cinquième chapitre se focalise sur la réalisation et la mise en œuvre de la solution
sous forme d’une application.

1
Chapitre 1

CADRE GÉNÉRAL

Plan
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1 Présentation de l’organisme d’accueil . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Présentation générale . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Domaines d’activité . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.3 Organisation de l’entreprise . . . . . . . . . . . . . . . . . . . . . . 4
1.1.4 Département d’accueil . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Présentation du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Étude de l’existant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Description de l’existant . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Critique de l’existant . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Solution proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Méthodologie de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.2 CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.3 Choix de la méthodologie . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Spécification de besoins . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6.1 Objectifs métiers . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6.2 Objectifs data science . . . . . . . . . . . . . . . . . . . . . . . . . 10

2
Chapitre 1. CADRE GÉNÉRAL

Introduction
Ce chapitre introductif est consacré pour la présentation de l’organisme d’accueil, le cadre
général du projet, à savoir l’étude et la critique de l’existant, la présentation de la probléma-
tique ainsi que la solution proposée, et finalement nous relevons la méthodologie optée pour la
planification de ce projet.

1.1 Présentation de l’organisme d’accueil

1.1.1 Présentation générale

Wevioo est un groupe de conseil et de services informatiques tunisien, fondé en 1998 par son
président Mehdi Tekaya. A sa création le groupe était sous le nom OXIA, et en 2016 son nom
a changé à Wevioo. Le groupe d’origine tunisienne s’est développé pour devenir un groupe
international, présent dans plus de 30 pays d’ Europe, d’ Amérique du Nord, d’ Afrique et
du Moyen-Orient, regroupant plus de 300 collaborateurs, répartis sur cinq bureaux à Tunis,
Alger, Paris, Dubai et Abidjan.

Figure 1.1. Logo Wevioo

[1]

1.1.2 Domaines d’activité

Wevioo apporte son expertise et son savoir faire en trois domaines :

— Le consulting : Qui s’intérèsse prinicpalement à la relation client, la gestion des projets
et à la performance opérationnelle.
— Le digital : Ce domaine traite la stratégie digitale, le développement web et mobile ainsi
que l’intégration des données Big Data.
— L’IOT (Internet Of Things) : Ce domaine gère les communications sans fils, et le déve-
loppement des systèmes embarqués.

3
Chapitre 1. CADRE GÉNÉRAL

1.1.3 Organisation de l’entreprise

Wevioo est divisée en deux branches :

— Wevioo qui est l’entreprise principale.
— Adactim qui gère les services d’infogérance.
Wevioo comporte quatre grands départements qui sont :
— EBSYS (Embedded Systems Technology)
— MC (Management Consulting)
— SE (Software Engineering)
— SSC (Security System Consulting)
L’organigramme de la figure ci dessous représente l’hiérarchie détaillée du groupe Wevioo.

Figure 1.2. Organigramme de WEVIOO

[1]

1.1.4 Département d’accueil

Ce projet à été effectué au sein du département ”Innovation” qui est une sous branche du
département Software Engineering.
Le département Innovation s’intéresse à la réalisation des solutions intelligentes et automa-
tisées en utilisant les technologies digitales les plus innovantes dont nous citons l’intelligence
artificielle, le deep learning ,et la robotique.

4
Chapitre 1. CADRE GÉNÉRAL

1.2 Présentation du projet

Wevioo est une entreprise qui s’efforce d’être toujours à la pointe de l’innovation techno-
logique. Cela explique le dévouement de toute une équipe qui s’engage à fournir des solutions
innovantes basées sur les dernières tendances technologiques.
Dans ce cadre, Wevioo a ainsi décidé de lancer le projet d’un système d’analyse et de trai-
tement des compétences afin de révéler les potentiels latents pour un recrutement durable.
Cette plate-forme basera ses recherches sur Linkedin, le plus grand réseau social profes-
sionnel à l’échelle national et mondial .
Dans ce contexte, nous consacrerons cette section à l’étude de la solution actuelle prise par
l’entreprise dans le cadre de recrutement, nous explorant ses différents aspects.
En se basant sur cette étude de l’existant, nous serons en mesure de révéler ses limites.
Ces constats nous amèneront à la présentation de notre contribution au projet intitulé
”Rapprochement des compétences et automatisation du processus de recrutement”

1.3 Étude de l’existant

Après avoir cerné le sujet, nous passons à faire une étude de la méthode de recrutement ac-
tuelle, exercée par les agents RH de Wevioo.
Cette étape d’étude est importante pour mieux comprendre les exigences que nous devons sa-
tisfaire.

1.3.1 Description de l’existant

Jusqu’à présent, l’équipe RH de Wevioo procédait au recrutement de manière tradition-

nelle classique. C’est-à-dire en effectuant manuellement toutes les étapes de la chaîne de recru-
tement.
En effet, afin d’identifier le bon candidat pour un certain rôle, le recruteur doit passer par la
chaîne de recrutement suivante :

— Il commence par définir les exigences auxquelles les candidats doivent répondre afin de
correspondre au poste à pourvoir.
— Une fois les critères cibles fixés, le recruteur rédige l’offre d’embauche et la publie sur les
réseaux sociaux professionnels, essentiellement sur Linkedin afin d’attirer les candidats
intéressés par l’offre.
— A ce stade, les recruteur entame la phase de recherche et de collecte des profils qui peut
finir par des milliers de candidatures.
— Le recruteur doit examiner ces candidatures une par une, en établissant une analyse ap-
profondie sur les différentes sections de chaque cv, à savoir la section des compétences,
des expériences et de la formation.

5
Chapitre 1. CADRE GÉNÉRAL

— En se basant sur ces analyses, il est indispensable de passer par plusieurs séquences de tri
et de filtrage des profils, ne retenant que les candidats les plus susceptibles de répondre
aux attentes du poste.
— Enfin, vient l’étape finale qui consiste à contacter les candidats retenus à l’issue de la phase
de filtrage, dans le but de leur proposer le poste en question et de planifier un entretien en
vue de mieux évaluer leur savoir-faire.

1.3.2 Critique de l’existant

— Ce processus est fastidieux pour l’équipe de recrutement qui passe des heures inondée par
un nombre immense de CV.
— L’examen correct et équitable de chaque candidat parmi des centaines, voire des milliers
de candidatures, dépasse les capacités de tout recruteur, et induit ainsi des erreurs hu-
maines.
— Ce processus est trop lent, ce qui peut amener les candidats à se désintéresser du poste et
à postuler ailleurs. En fait, au moment où le recruteur prend la décision de contacter le
bon candidat, celui-ci a peut-être déjà signé un autre contrat. Dans ce cas, le recruteur a
non seulement perdu un temps précieux, mais il a également perdu le bon candidat et doit
recommencer la recherche.

1.4 Solution proposée

Après avoir observé et critiqué ce qui existe, nous sommes convaincus que ce qui fonction-
nait auparavant ne fonctionne plus aujourd’hui. Nous croyons donc qu’il est temps de migrer
vers de nouvelles tendances.
Comme solution, nous proposons de raccourcir les pratiques traditionnelles de recrutement
en les remplaçant par un système plus ”efficace” et plus rapide. Nous proposons alors un système
automatisé basé sur l’intelligence artificielle qui nous permettra d’économiser le temps qui était
investi dans l’analyse individuelle.
Notre système mettra fin à l’ennui de se perdre dans l’accumulation de profils, car nous uti-
liserons des bases de données, alimentées par des mots-clés, contenant des milliers de candidats
pour les postes à pourvoir.

1.5 Méthodologie de travail

La gestion d’un projet de science des données peut être une tâche difficile, car ces projets
nécessitent de gérer à la fois des ressources de données dont la taille peut être énorme, ainsi que
des modèles mathématiques qui doivent être soigneusement choisis et appliqués. Par conséquent,

6
Chapitre 1. CADRE GÉNÉRAL

en l’absence de méthodologies de gestion de projet standardisées, il est facile de se perdre dans

le méandre de la science des données.
Compte tenu de son originalité, des méthodologies spéciales et adaptées ont été inventées
pour gérer un projet de science des données.
Dans cette section, nous présentons et comparons deux de ces méthodologies, puis nous
faisons un choix parmi l’une d’entre elles.

1.5.1 SEMMA

Il s’agit d’une méthode d’exploration des données qui peut être utilisée pour résoudre divers
problèmes commerciaux, tels que la détection des fraudes, la rétention et la rotation des clients.
Elle comporte cinq phases (Sample, Explore, Modify, Model, and Assess), d’où l’acronyme
SEMMA. La figure ci dessous illustre les différentes phases du cycle de vie d’un projet data
science suivant la méthodologie Semma.

Figure 1.3. Phases de la méthodologie Semma

[2]

1. Échantillonner (Sample) : Cette étape consiste à sélectionner un échantillon de données

à la fois suffisamment grand pour garantir qu’il contient les informations essentielles, et
suffisamment petit pour garantir un traitement rapide.
2. Explorer (Explore) : Cette étape consiste à observer les données pour découvrir et appré-
hender les différents liens et influences entre les variables. À la fin de cette phase, nous
avons une compréhension meilleure et plus profonde de nos données.
3. Modifier (Modify) : Cette étape consiste à modifier les données en sélectionnant les va-
riables qui nous semblent les plus significatives, en créant de nouvelles variables qui pour-
raient être utiles à l’analyse, ou encore en transformant les variables si nécessaire. Le ré-
sultat de cette phase est un jeu de données propre qui peut être transmis à l’algorithme de
machine learning pour construire les modèles.

7
Chapitre 1. CADRE GÉNÉRAL

4. Modéliser (Model) : Dans cette phase, plusieurs techniques de modélisation sont appli-
quées aux données préalablement nettoyées. Ensuite, nous effectuons des comparaisons
des performances entre chaque modèle par rapport aux résultats souhaités, pour finale-
ment décider le modèle le plus approprié. Dans cette étape, nous effectuons les opérations
mathématiques nécessaires qui permettent d’augmenter la précision et l’exactitude de nos
résultats.
5. Évaluer (Assess) : Il s’agit de la dernière phase. A cette étape, les performances du modèle
sont évaluées par rapport aux données de test afin de garantir la fiabilité et la pertinence
de l’étape de modélisation . Nous comparons les résultats de notre modèle avec les résul-
tats réels, et en analysant les limites de notre modèle, nous essayons de les corriger pour
l’améliorer.

1.5.2 CRISP-DM

CRISP-DM est une méthodologie inventée en 1996, décrivant l’ensemble d’étapes qui com-
posent le processus de développement d’un projet data mining. CRISP-DM se déroule sur
six phases itératives allant de la la compréhension du métier jusqu’au déploiement,que nous
expliquons dans cette section.

Figure 1.4. Phases de la méthodologie CRISP-DM

[3]

1. Compréhension du métier : C’est la phase de compréhension des objectifs et des exi-

gences et contraintes du projet d’un point de vue commercial. L’analyste formule ces

8
Chapitre 1. CADRE GÉNÉRAL

connaissances sous la forme d’un problème d’exploration de données et élabore un plan

préliminaire.
2. Compréhension des données : En commençant par la collecte des données, l’analyste
poursuit ses opérations et ses investigations afin de se familiariser avec les données,
d’identifier ses problèmes et d’avoir une meilleure idée du contenu de ces données. Dans
cette phase, l’analyste peut également formuler des hypothèses sur les informations ca-
chées.
3. Préparation des données : Cette phase englobe toutes les activités destinées à construire
l’ensemble de données final, à partir des données brutes initiales.
4. Modélisation : Dans cette phase l’analyste définit et applique les techniques de modélisa-
tion appropriées. Étant donné que certaines techniques ont des exigences spécifiques par
rapport à la structure des données, il peut y avoir une remontée vers la phase précédente
de préparation des données.
5. Évaluation : Dans cette phase, les modèles appliqués dans la phase modélisation sont
testés en choisissant les métriques d’évaluation adéquates selon le cas. Le but de cette
évaluation et de s’assurer que les modèles sont généralisables à des données non obser-
vées auparavant par le modèle. Par la suite, l’analyste valide également que les modèles
couvrent suffisamment toutes les exigences clés qui ont été identifiées dans la phase com-
préhension du métier. Le résultat de cette phase est le modèle final élu.
6. Déploiement : Dans cette phase le model sélectionné à la phase ’Evaluation’, est mis en
production pour être consommé par les utilisateurs finaux. Il est important de noter que la
représentation du code doit également inclure toutes les étapes de préparation des données
menant à la modélisation. Cela garantit que le modèle traitera les nouvelles données brutes
de la même manière que pendant le développement du modèle.

1.5.3 Choix de la méthodologie

Le tableau 1.1 récapitule les méthodes de gestion d’un projet Data science citées ci-dessus.

METHODOLOGIE CRISP-DM SEMMA

Nombre de phases 6 5
Phase Compréhension du métier ————
Compréhension des données Echantillonner + Explorer
Préparation des données Modifier
Modélisation Modéliser
Evaluation Evaluer
Deploiement ————

Tableau 1.1. Tableau récapitulatif des méthodes Data Science.

9
Chapitre 1. CADRE GÉNÉRAL

Dans cette section, nous choisissons la méthodologie appropriée pour notre projet parmi les
deux définies précédemment. Commençons par comparer ces deux méthodologies
CRISP-DM possède deux étapes supplémentaires par rapport à SEMMA qui sont « la com-
préhension du problème » et « le déploiement ».
Les deux phases « Echantillonner les données » et « Explorer les données » du processus
SEMMA existent dans la phase « compréhension des données » du processus CRISP-DM. De
plus, CRISP-DM est la méthodologie la plus complète et documentée d’une part, et elle est la
plus utilisée dans les projets de data science d’autre part [19].
Nous avons donc choisi d’utiliser la méthodologie CRISP-DM pour la souplesse qu’elle
apporte au travail et pour l’organisation de ses étapes.

1.6 Spécification de besoins

La spécification des besoins est une tache primordiale à établir avant de nous lancer dans la
réalisation du projet, du fait qu’elle nous aide à avoir des idées mieux organisées et claires sur
ce que nous devons implémenter.
Cette phase consiste à comprendre le comportement du système, en définissant les besoins
et les exigences de la solution. Dans ce qui suit, nous présentons les objectifs métiers, qui
expriment les fonctionnalités concrètes du produit, ainsi que les objectifs data science, qui sont
des indicateurs de qualité de l’exécution des objectifs métiers.

1.6.1 Objectifs métiers

Les objectifs métiers sont définis comme les résultats mesurables qu’une organisation cherche
à atteindre. Par le biais de ce projet, Wevioo vise à accomplir les objectifs métiers suivants :

— Améliorer aux recruteurs la présentation, la recherche et la navigation entre les profils des
candidats.
— Améliorer la productivité des recruteurs à trouver plus rapidement les meilleurs candidats.
— Renforcer les équipes de l’entreprise en améliorant la qualité d’embauche.
— Améliorer l’expérience du recruteur ainsi que celle du candidat .

1.6.2 Objectifs data science

Les objectifs data science sont définis par une série de démarches ou de phases qu’un data
scientiste suit au cours de la réalisation du projet afin d’atteindre les objectifs métiers.
Pour ce projet, nous avons défini les objectifs suivants :
— La détection et l’extraction automatiques des compétences à partir d’un CV, en appliquant
les modèles de machine learning appropriés.

10
Chapitre 1. CADRE GÉNÉRAL

— Le rapprochement des compétences : La mise en place d’une solution d’uniformisation des

différents noms d’une même compétence afin de réduire les redondances de compétences.
Comme critère de réussite de cette tache, nous avons fixé le taux de réduction du nombre
de compétences uniques à 70%.
— L’identification de la liste des profils les plus similaires à un profil donné.
— La recommandation des profils les plus qualifiés pour une offre d’emploi.

11
Chapitre 2

Fondement théorique

Plan
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1 Traitement du langage naturel (NLP) . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Cas concrets de l’utilisation de NLP . . . . . . . . . . . . . . . . . 13
2.1.2 Vectorisation du texte . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2.1 Bag of words(BOW) . . . . . . . . . . . . . . . . . . . 13
2.1.2.2 TF-IDF . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2.3 Comparaison ente BOW et TF-IDF . . . . . . . . . . . . 15
2.2 Topic modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Latent Dirichlet Allocation (LDA) . . . . . . . . . . . . . . . . . . 16
2.2.1.1 Principe de LDA . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1.2 Les paramètres de LDA . . . . . . . . . . . . . . . . . . 18
2.2.1.3 Algorithme LDA . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Non-negative Matrix Factorization(NMF) . . . . . . . . . . . . . . 20
2.2.2.1 Principe de NMF . . . . . . . . . . . . . . . . . . . . . 20
2.2.2.2 Explication mathématique du NMF . . . . . . . . . . . . 21
2.2.2.3 Algorithme NMF . . . . . . . . . . . . . . . . . . . . . 22
2.2.3 Evaluation du topic modeling . . . . . . . . . . . . . . . . . . . . . 22
2.2.3.1 Score de cohérence . . . . . . . . . . . . . . . . . . . . 23
2.2.3.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.3.3 Pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . 23
a- La segmentation . . . . . . . . . . . . . . . . . . . . . . 24
b- Le calcul de probabilité . . . . . . . . . . . . . . . . . . 25
c- La mesure de confirmation . . . . . . . . . . . . . . . . 25
c.1- Mesure de confirmation directe . . . . . . . . . . 25
c.2- Mesure de confirmation indirecte . . . . . . . . . 26
d- L’aggrégation . . . . . . . . . . . . . . . . . . . . . . . 26
e- score de cohérence final . . . . . . . . . . . . . . . . . . 27

12
Chapitre 2. Fondement théorique

Introduction
Ce chapitre est dédié aux explications théoriques et mathématiques des différents algo-
rithmes, modèles et concepts qui seront ultérieurement exploités tout au long de la réalisation
de ce projet.

2.1 Traitement du langage naturel (NLP)

Par ’Langage naturel’, nous désignons le langage utilisé par les êtres humains pour com-
muniquer entre eux.
Par exemple, l’arabe, le français ou l’anglais sont différentes langages naturels.
En revanche, les langages de programmation et les langages mathématiques sont des exemples
de langages artificiels. L’évolution de la technologie a créé le besoin pour des applications ma-
chines capables de comprendre et de décoder notre langage naturel quotidien pour l’utiliser dans
une variété de cas d’utilisation.
Ainsi, est apparu le besoin de traiter ce langage afin de le rendre compréhensible par les
machines. Ceci a donné naissance à tout un champ d’étude appelé ”Traitement du langage
naturel” , connu par l’abréviation NLP.

2.1.1 Cas concrets de l’utilisation de NLP

• La conversion parole/texte
• La classification des textes
• La Génération de texte

2.1.2 Vectorisation du texte

Les algorithmes de machine learning opèrent sur un espace de données numériques . Afin
d’effectuer l’apprentissage automatique sur du texte, nous devons alors transformer nos docu-
ments en représentations numériques de manière à pouvoir y appliquer les modèles de machine
learning.
Représenter un texte brute sous format numérique, revient à le transformer sous forme de vec-
teur, d’où, ce processus est appelé vectorisation.

2.1.2.1 Bag of words(BOW)

BOW est l’abréviation de ”bag of words”, ”sac de mots” en français.

Il s’agit de l’une des méthodes de vectorisation de texte les plus simples.
Un vecteur BOW a la longueur de l’ensemble du vocabulaire, c’est-à-dire de l’ensemble des

13
Chapitre 2. Fondement théorique

mots uniques du corpus.

Les valeurs du vecteur représentent la fréquence à laquelle chaque mot apparaît dans un docu-
ment donné. Par exemple essayons de vectoriser les deux documents suivants, appartenant à un
même corpus :
• Python est un langage de programmation.
• Java est un langage de programmation.
Le concept de bag of words est de calculer l’occurrence d’apparition de chaque mot du voca-
bulaire total, dans chacun des document, comme indiqué dans le tableau ci dessous.

Vocabulaire python java est un langage de programmation

Document 1 1 0 1 1 1 1 1
Document 2 0 1 1 1 1 1 1

• La ligne 1 du tableau est la représentation vectorielle du document 1 : [1,0,1,1,1,1,1]

• La ligne 2 du tableau est la représentation vectorielle du document 2 : [1,0,1,1,1,1,1]

BOW peut être implémenté en python, en utilisant une fonction du module scikit-learn,
appelée CountVectorizer.

2.1.2.2 TF-IDF

TF-IDF est l’abréviation de ”term frequency-inverse document frequency”.

Il s’agit d’une technique de vectorisation de texte qui ajoute une couche de complexité à la
méthode BOW. En effet, c’est une technique ponderée, qui tente d’attribuer des scores de per-
tinence plus élevés aux mots qui apparaissent dans un nombre réduit de documents du corpus.
À cette fin, TF-IDF mesure la fréquence d’un mot dans un texte par rapport à sa fréquence glo-
bale dans le corpus.
Le processus se passe de la manière suivante :
• Term frequency TF(i,j) : Mesure la fréquence du mot i dans le document j.

m(i, j)
M( j)

avec m(i,j) le nombre d’occurences du mot i dans le document j, et M(j) le nombre total
des mots qui forment le document j.
• Inverse document frequency IDF(i) :

N
log( )
t f (i)

14
Chapitre 2. Fondement théorique

avec N est le nombre total des documents dans le corpus, et tf(i) est le nombre total des
documents où le mot i apparait.
Le role de ce terme est d’atténuer l’effet des mots qui apparaissent courremment dans
presque tous les documents.
• Term frequency - Inverse document frequency TF-IDF(i,j) :

N
T F − IDF(i, j) = T F(i, j) × IDF(i) = t f (i, j) × log( )
t f (i)

Plus la valeur de TF-IDF(i,j) est grande, plus le mot i est important par rapport au docu-
ment j, tandis que plus la valeur de TF-IDF(i,j) est petite, moins le mot i est important
par rapport au document j.
Pensons à un document qui mentionne le mot ”Python” avec une fréquence élevée.
TF-IDF examinera tous les autres documents du corpus.
Si le mot ”Python” apparaît dans de nombreux documents, il ne s’agit pas d’un terme très signi-
ficatif et sa pondération est plus faible dans le vecteur texte TF-IDF.
En revanche, s’il n’apparaît que dans quelques documents, il est considéré comme un terme dis-
tinctif. Dans ce cas, il contribue à caractériser le document au sein du corpus et reçoit donc une
valeur plus élevée dans le vecteur.

2.1.2.3 Comparaison ente BOW et TF-IDF

Ressemblances

• Les deux modèles transforment un document de texte brute en un vecteur numérique.

• Les deux modèles négligent la sémantique de la phrase : ne retiennent aucune informa-
tion sur la grammaire des phrases, ni sur l’ordre des mots dans le texte.
• Les deux modèles négligent le sens des mots.

Différences

• Le modèle Bag of Words s’interesse seulement au comptage des mots et néglige leurs
importances par rapport à chaque document, tandis que le modèle TF-IDF contient des
informations sur les mots les plus importants et les moins importants de chaque document
• Les vecteurs Bag of Words sont faciles à interpréter. Cependant, le TF-IDF est générale-
ment plus performant dans les modèles d’apprentissage automatique.

15
Chapitre 2. Fondement théorique

2.2 Topic modeling

Topic modeling, ou modélisation thématique en français, est une technique d’apprentis-
sage automatique non supervisée capable d’analyser un ensemble de documents, de détecter les
modèles de mots et d’expressions qu’ils contiennent et de regrouper automatiquement les mots
et les expressions similaires qui caractérisent le mieux un ensemble de documents.
Le topic modeling fait référence au processus de division d’un corpus de documents en deux :
• Une liste des sujets(topics) couverts par les documents du corpus.
• Des ensembles de documents regroupés selon les sujets qu’ils couvrent.

Figure 2.1. Princie du topic modeling

[4]

Le topic modeling se repose sur deux hypothèses fondamentales :

— Hypothèse1 : L’hyypothèse de distribution :
Les sujets similaires utilisent des mots similaires.
— Hypothèse2 : L’hypothèse de mélange statistique :
chaque document comprend un mélange statistique de sujets, c’est-à-dire une distribution
statistique de sujets qui peut être obtenue en ”additionnant” toutes les distributions pour
tous les sujets couverts.
Nous pouvons penser à ces hypothèses de manière mathématique :
• Les documents sont des distributions de probabilité sur des sujets latent.
• Les sujets eux-mêmes sont des distributions de probabilité sur des mots.

2.2.1 Latent Dirichlet Allocation (LDA)

Johann Peter Gustav Lejeune Dirichlet était un mathématicien allemand des années 1800
qui a largement contribué au domaine des mathématiques modernes.
LDA est basé sur cette distribution probabiliste, ce qui explique la présence du terme Diri-
chlet dans son appellation.

16
Chapitre 2. Fondement théorique

En 2003, LDA a été publié pour la première fois en tant que modèle graphique pour la décou-
verte de thèmes par David Blei, Andrew Ng et Micheal l.Jordan. Il s’agit de nos jours de l’une
des méthodes de topic modeling les plus populaires. [5]

2.2.1.1 Principe de LDA

L’objectif de LDA est de trouver les sujets auxquels un document appartient, sur la base des
mots qu’il contient, telque les documents sont représentés comme des mélanges aléatoires sur
des sujets latents, où chaque sujet est caractérisé par une distribution sur les mots.
LDA repose sur les hypothèses fondamentales du topic modeling qui sont :
— L’hypothèse de distribution statistique
qui assume que les documents ayant des sujets similaires utilisent des groupes de mots
similaires. Ainsi,les sujets latents peuvent être trouvés en recherchant des groupes de mots
qui apparaissent fréquemment ensemble dans les documents du corpus.

— L’hypothèse de mélange statistique qui assume qu’un seul document est un mélange de
plusieurs topics.

Nous pouvons imaginer que tout document particulier aura une distribution de probabilité sur
un nombre donné de sujets latents.
Disons que nous décidons de composer cinq sujets latents à travers différents documents.
Nous optenons donc cette distribution de probabilité discrète sur les sujets pour chaque document
(Figure 2.2)

Figure 2.2. Distribution de probabilié discrète d’un document sur les topics
[6]

A partir de cette distribution, nous pouvons dire que le document 1 a la plus forte probabilité
d’appartenir au topic 5.
Malgré cette forte probabilité d’appartenance du premier document au cinquième sujet, Nous ne
disons pas de manière définitive que le document 1 appartient au sujet 5, mais nous le modélisons
comme ayant une distribution de probabilité sur une variété de topics latents.

17
Chapitre 2. Fondement théorique

Ensuite, si nous regardons les sujets eux-mêmes, ceux-ci seront simplement modélisés comme
une distribution de probabilité sur les mots.
Par exemple, nous pouvons définir le sujet 1 comme une probabilité d’appartenir à chacun des
mots suivants (Figure 2.3)

Figure 2.3. Distribution de probabilité discrète d’un topis sur les mots
[6]

Nous pouvons voir que des mots tels que ’python’ et ’NLP’ ont une probabilité plus élevée
d’appartenir au thème 5.
A partir de cette distribution, nous sommes en tant qu’humains capables de labéliser ces sujets
facilement.
Si nous devions obtenir cette sorte de distribution de probabilité à travers tout le vocabulaire
de tous les mots du corpus, ce que nous finirions par faire est de demander les 10 mots ayant la
plus forte probabilité d’appartenir à chaque thème(topic) et ensuite nous essaierions de labéliser
ce thème.
Dans le scénario ci-dessus (Figure 2.3), nous pourrions supposer que le thème 5 a un rapport
avec la science des données.

2.2.1.2 Les paramètres de LDA

a- Représentation graphique et annotations

Dans cette section nous allons nous baser sur la représentation graphique du modèle LDA,
présentée dans la figure ci dessous (Figure 3.3)

• Le rectangle le plus grand, désigné par M, indique le nombre total de documents dans le
corpus.
• Le petit rectangle n indique le nombre de mots dans un document.
• Les cercles désignent les paramètres du modèle. L’endroit où se situent ces paramètres,
par rapport aux deux rectangles, indique s’ils s’appliquent au niveau du document, du mot
ou des tous les deux ensembles.

18
Chapitre 2. Fondement théorique

Figure 2.4. Représentation graphique du modèle LDA

[7]

b- Paramètres

les deux paramètres alpha et bêta situés à l’extérieur des deux rectangles, sont appelés prieurs
de Dirichelet.

• Alpha (α )

alpha est la priorité de dirichelet sur la distribution des sujets par document.
— Une valeur élevée de alpha indique que chaque document est susceptible de contenir un
mélange de la plupart des sujets.
— Une valeur faible de alpha indique que chaque document est susceptible de ne contenir
que quelques sujets.

• Bêta(β )

Bêta est la priorité de Dirichelet sur la distribution des mots par sujet.
— Un bêta élevé indique que chaque sujet contiendra un mélange de la plupart des mots.
— Un bêta faible indique que chaque sujet peut contenir un mélange de seulement quelques
mots.

• Thêta(θ ) , z et w

— Le paramètre Thêta est la distribution des sujets par document m.

— Le paramètre z est utilisé pour noter chaque sujet qui est attribué à chaque mot. Chaque
document est donc un mélange de ces thèmes
— Le paramètre w signifie ”mot”.

19
Chapitre 2. Fondement théorique

2.2.1.3 Algorithme LDA

Supposons que nous avons un corpus de documents et nous voulons que LDA apprenne la
représentation de K sujets dans chaque document, ainsi que la distribution des mots de chaque
sujet.

1. L’algorithme commence par aléatoirement attribuer chaque mot de chaque document à

l’un des K sujets.
2. Ensuite, pour chaque document d : il suppose que toutes les affectations de sujets, à l’ex-
ception de l’affectation actuelle, sont correctes. Et calcule les deux probabilité suivantes :
• La probabilité que le document d soit assigné au thème t.
p1 = p(sujet t | document d)
• la probabilité que le thème t dans le corpus soit assigné au mot w p2 = p(mot w |
sujet t)
3. L’algorithme effectue la multiplication des deux proportions p1 et p2 et en fonction de
cette probabilité,il attribue au mot w un nouveau sujet (un sujet lui était attribué aléatoi-
rement à la première étape de l’algorithme).
p1*p2 = p(sujet t | document d) * p(mot w | sujet t)
4. Finalement, nous arrivons à atteindre un état stable où les affectations auront un sens.

2.2.2 Non-negative Matrix Factorization(NMF)

NMF est l’abréviation de non-negative matrix factorization, ou encore, factorisation de

matrices non négatives.
Il s’agit d’une technique permettant de représenter une matrice non négative, dans un rang
inférieur à celui de départ.
On appelle matrice non négative ou encore matrice positive, toute matrice dont tous les
éléments sont supérieurs ou égaux à zéro.
Par exemple :
— Les images ne sont rien d’autre que des matrices de nombres entiers positifs représentant
l’intensité des pixels.
— Dans le domaine de la recherche d’informations et de l’exploration de texte, nous uti-
lisons des matrices positives appelées matrices terme-document pour représenter des
collections de documents.

2.2.2.1 Principe de NMF

Étant donné une matrice de données A, non négative, à m lignes et n colonnes , NMF cherche
deux matrices :

20
Chapitre 2. Fondement théorique

• W : Matrice non négative de dimensions m lignes et k colonnes

• H : Matrice non négative de dimensions k lignes et n colonnes
telle que
A =W ×H

La quantité k est fixée par l’utilisateur et doit être inférieure ou égale à la plus petite de m
et n.
• La matrice W est généralement appelée matrice de dictionnaire ou de base.
• La matrice H est connue comme matrice d’expansion ou de coefficients.
L’idée sous-jacente de cette terminologie est qu’une matrice de données A, peut être exprimée
en termes de sommation de k vecteurs de base (colonnes de W) multipliés par les coefficients
correspondants (colonnes de H).

Figure 2.5. Factorisation non négative

[8]

2.2.2.2 Explication mathématique du NMF

Etant donné une matrice non négative A (n X m), nous voulons effectuer une factorisation,
pour approximer A avec une multiplication matricielle de W(n X k) et H(k ×m)
Nous allons donc approximer chaque objet (qui est une colonne de la matrice A) par une
combinaison linéaire de k dimensions réduites ou ”vecteurs de base” dans W.
A =W . H
La résolution de cette équiation, revient à résoudre un problème de minimisation de la fonction
objective : A - W.h =0
Ca revient à mimnimiser la norme de Forbenius ||A-WH||2 , par un processus de recherche
itératif approprié.
La solution de cette minimisation n’est pas unique. c’est-à-dire nous pouvons avoir plu-
sieures combinaisons de W et H qui satisfaient l’équation A = W.H
L’objectif est alors d’affiner W et H autant que possible, afin de minimiser la fonction objective.
L’approche commune consiste à itérer entre deux règles de mise à jour multiplicatives jus-
qu’à convergence. Nous expliquons cette approche dans la description de l’algorithme NMF.

21
Chapitre 2. Fondement théorique

2.2.2.3 Algorithme NMF

1. Nous commençons par initialiser les matrices H et W de manière aléatoire.

2. Nous mettons à jour W et H de façon itérative, par le bias de la mise à jour multiplicative
qui se résume en deux équations.

les termes des equations :

• H n et W n sont réspectivement les matrices H et W, à l’itertation n.

• H n+1 et W n+1 sont respectivement les matrices H et W à l’itertation n+1.
• X est la matrice initiale à factoriser.

les equations multi- plicatives de mise à jour de H et W :

H n+1 = H n × f acteurd ′ actualisation

(W n )T X
H n+1 = H n ×
(W n )T W n H n
W n+1 = W n × f acteurd ′ actualisation
X(H n+1 )
W n+1 = W n ×
W n H n+1 (H n+1 )T
• [9]

3. Nous répétons la mise à jour (éape 2) jusqu’à convergence :

Lors de la mise à jour, les variations dans W et H deviennent de plus en plus petites
après chaque itération, et finalement, nous arrivons à un point où la variation devient
négligeable. Lorsque les valeurs de ne changent pas plus que e-6, nous décidons de mettre
fin au processus et nous avons notre solution.

2.2.3 Evaluation du topic modeling

Contrairement à l’apprentissage supervisé, le topic modeling, étant un type de clustering, il

est considéré comme une méthode d’apprentissage non supervisée car nous ne disposons pas de
labels de référence pour comparer la sortie de l’algorithme de clustering aux véritables étiquettes
afin d’évaluer la performance de l’algorithme.
De ce fait, les métriques d’évaluation de classification comme le f1 score, l’accuracy et la
précision ne sont pas donc applicables pour l’évaluation du topic modeling.
Mais le fait de ne pas disposer de labels de référence, ne veut pas dire qu’il n’est pas possible
d’évaluer les modèles d’apprentissage non supervisé, à savoir le clustering.
Dans cette section, nous présentons une métrique adaptée à l’évaluation de topic modeling
qui est le score de cohérence, une mesure présentée par Michael Röder dans son article scien-
tifique Exploring the Space of Topic Coherence Measures [10]

22
Chapitre 2. Fondement théorique

2.2.3.1 Score de cohérence

La mesure de cohérence des sujets évalue chaque sujet en mesurant le degré de similarité
sémantique entre les mots à score élevé du sujet (les mots clés du sujet). Cette mesure permet
de distinguer les sujets qui sont sémantiquement interprétables, de ceux qui ne le sont pas.
Le premier point essentiel pour comprendre le fonctionnement du score de cohérence est de
se concentrer sur la cmpréhension du mot clé ”cohérence”.
Généralement, lorsque nous parlons de ‘cohérence, nous parlons d’une caractéristique de
coopération.
Des arguments sont dits cohérents s’ils se confirment entre eux.
Par exemple, un algorithme de modélisation de sujets peut distinguer les sujets suivants :

— Sujet 1 : Chat, chien, maison, jouet. (Probablement un bon sujet)

— Sujet 2 : Super, infirmière, brique. (Probablement un mauvais sujet)

D’un point de vue humain, le premier sujet semble plus cohérent que le second. Le but de la
métrique score de cohérence, est de mesurer mathématiquement cette cohérence au sein des
sujets découverts par le modèle de topic modeling.

2.2.3.2 Principe

La métrique de cohérence d’un topic évalue à quel degré un topic est soutenu par un en-
semble de textes appellé corpus de référence. Elle utilise des statistiques et des probabilités
tirées du corpus de référence, en se concentrant particulièrement sur le contexte du mot, pour
donner un score de cohérence à un topic.

2.2.3.3 Pipeline

Röder M.,dans sa publication scientifique ”Exploring the Space of Topic Coherence

Measures”, propose une structure générale à suivre pour mesurer le score de cohérence des
sujets (topics) :
Il s’agit d’une combinaison de différents modules indépendants, dont chacun remplit une
fonction spécifique, qui sont réunis dans un pipeline séquentiel.

23
Chapitre 2. Fondement théorique

Figure 2.6. Structure générale des mesures de cohérence

[10]

Comme indiqué dans la figure ci dessus, la mesure de la cohérence des sujets est un pipe-
line qui reçoit les sujets et le corpus de référence en entrée et produit une seule valeur réelle
représentant la ”cohérence globale des sujets”. Comprenons donc chacun de ses modules.

a- La segmentation

Le module de segmentation est responsable de la création de paires de sous-ensembles de

mots que nous allons utiliser pour évaluer la cohérence d’un sujet.
Pour un sujet t, considèrons l’ensemble des n mots clés qui le caractérisent, noté W telque :

W={w_1, w _2, ..., w_n}

L’application d’une segmentation sur W résulte en un ensemble de paires S, de sous-ensembles

de W.

S = {(W ′ ,W ∗),W ′ ,W ∗ ⊆ W }

Où la deuxième partie de la paire notée par (W*)va être utilisée pour confirmer la première
partie (W’). Cela deviendra plus clair lorsque nous parlerons du calcul des probabilités et des
mesures de confirmation dans les sections suivantes, où ces paires seront utilisées.
Pour simplifier les choses, nous pouvons comprendre la segmentation comme l’étape où
nous choisissons comment nous allons ”mélanger” les mots d’un sujet afin l’évaluer ultérieu-
rement.
Il existe deux façons de ségmentations :
— Segmentation S-one-one : Cette segmentation dit que nous devons extraire à partir des
N mots clés, tous paires de mots possibles. Donc, si W = cats, chiens, jouets, nous aurons :
one (W ) = {(chat, chien), (chat, jouets), (chien, chat), (chien, jouets), ( jouets, chat), ( jouets, chien)}
Sone

24
Chapitre 2. Fondement théorique

— Segmentation S-one-all : Il s’agit de former des paires de chaque mot avec la liste de
tous mots restants. En l’appliquant à W, nous avons trouvé :
all (W ) = {({nl p}, { java, python}), ({ java}, {nl p, python}), ({python}, {nl p, java})}
Sone
Ainsi, en utilisant cette technique, le score de cohérence sera basé sur la relation entre un
seul mot clé et le reste des mots clés du même sujet.

b- Le calcul de probabilité

Comme mentionné précédemment, les mesures de cohérence utilisent des probabilités ti-
rées du corpus textuel. L’étape de calcul des probabilités définit comment ces probabilités sont
calculées.
A ce stade, nous nous intéressons à deux probabilités :
• P(w) : La probabilité d’occurrence du mot w, représente le nombre de documents dans
lesquels le mot w apparaît divisé par le nombre total des documents
• P(w1 et w2) : La probabilité d’occurrence des mots w1 et w2, représente le nombre de
documents dans lesquels les deux mots apparaissent ensemble, divisé par le total des do-
cuments.

c- La mesure de confirmation

La mesure de confirmation est le cœur de la cohérence du sujet. Elle tente de quantifier

la relation entre les deux sous-ensembles formés à l’étape de segmentation : W’ et W*, et en
utilisant les probabilités calculées à partir du corpus, à l’étape de calcul de probabilité.
La mesure de confirmation est alors calculée sur les paires S formés à l’étape de segmentation
en utilisant les probabilités calculées à l’étape de calcul de probabilité. Elle calcule ”dans quelle
mesure” le sous-ensemble W* soutient le sous-ensemble W’ dans chaque paire. Le calcul de
confiramtion se fait sur deux étapes :

c.1- Mesure de confirmation directe

Ces mesures calculent la valeur de confirmation en utilisant directement les sous-ensembles

W’ et W* genérés par la segmentation s-one-one. Pour chaque paire de cet ensemble, la mesure
de confirmation directe calcul la quantité suivante :

′ p(w′ , w∗)
ScorePMI(w , w∗) = log( )
p(w∗).p(w′ )

• p(w*) est la probabilité d’apparition deu mot w*, indépendemment de w’ dans le topic
(sujet) en question.
• p(w’) est la probabilité d’apparition deu mot w’indépendemment de w*, dans le topic
(sujet) en question.

25
Chapitre 2. Fondement théorique

• p(w’,w*) est la probabilité conjointe d’apparition des deux motx w’ et w*, dans le même
topic (sujet) en question.

Ainsi, si les deux mots w’ et w* apparaissent fréquemment ensemble, le terme p(w’,w*) sera
elevé et sera toujours plus grand que p(w*) et plus grand que p(w’).
Ainsi, plus w* et w’ sont cohérents, plus le score PMI(w*,w’) sera élevé. .

c.2- Mesure de confirmation indirecte

Les mesures de confirmation indirectes ne calculent pas directement un score basé sur les
paires W’ et W* résultants de la segmentation s-one-one. Au lieu de cela, elle se base sur la seg-
mentation s-one-set. Nous proposons pour l’explication de la mesure de confirmation indirecte
l’exemple concret suivant :
Supposons que nous avons le vocabulaire W = {w1,w2,w3}
all (W ) = {(w1, {w2, w3}), (w2, {w1, w3}), (w3, {w1, w2})}
La segmentation Sone
Pour chacun des mots w1,w2 et w3 , nous calculons d’abord les mesures de confirmation
directe PMI c’est à dire :
— Pour w1 nous calculons : PMI(w1,w2), PMI(w1,w3)
Et nous créons un vecteur v(w1) = [ PMI(w1,w2), PMI(w1,w3) ]
— Pour w2 nous calculons : PMI(w2,w1) et PMI(w2,w3)
Et nous créons un vecteur v(w2) = [ NPMI(w2,w1) , NPMI(w2,w3) ]
— Pour w3 nous calculons : PMI(w3,w1) et PMI(w3,w2)
Et nous créons un vecteur v(w3) = [ PMI(w3,w1),PMI(w3,w2) ]
Après avoir construit les vecteurs, nous calulons pour chaque vecteur, sa similarité en cosinus
par rapport à la somme des autres vecteurs. par exemple pour le vecteur v(w1) nous calculons
cos- similarity ( v(w1) , v(w2)+v(w3) )
Une fois les mesures de confirmation calculées, nous pouvons passer à l’étape d’aggrégation.

d- L’aggrégation

Il s’agit de la dernière étape, qui est la plus simple.

Elle prend toutes les valeurs calculées à l’étape précédente et les agrège en une seule valeur,
qui est notre score final de cohérence du sujet. Cette agrégation peut être par exemple la moyenne
arithmétique ou la médiane.

26
Chapitre 2. Fondement théorique

Figure 2.7. Exemple d’aggrégation

[11]

e- score de cohérence final

Le score calculé à l’étape d’aggrégation désigne le score de cohérence d’un seul sujet.
Puisque nous avons beaucoup de sujets (ce qui est le plus habituel), le résultat final est juste
la moyenne de la cohérence des sujets individuels.
Nous effectuons donc tout le pipeline pour tous les sujets, puis nous faisons la moyenne du
score aggrégé de chaque sujet pour obtenir le score de cohérence final.

Figure 2.8. Score de cohérence final

[11]

27
Chapitre 2. Fondement théorique

Afin de mettre tout en place, toutes les étapes du pipeline de calcul du score de cohérence
d’un sujet peuvent être résumées dans la figure ci-dessous

Figure 2.9. Un exemple détaillé du calcul d’un score de cohérence d’un sujet
[11]

28
Chapitre 3

Pré-traitement des données

Plan
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1 Nettoyage des données textuelles . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Suppression des StopWords . . . . . . . . . . . . . . . . . . . . . . 30
3.1.2 Suppression des retours à la ligne et des tabulations . . . . . . . . . 30
3.1.3 Suppression des emojis . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.4 Traitement des ponctuations . . . . . . . . . . . . . . . . . . . . . 31
3.2 Rapprochement des données textuelles . . . . . . . . . . . . . . . . . . . . 31
3.2.1 Normalisation de la case et élimination des accents . . . . . . . . . 32
3.2.2 Traitement des versions . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.3 Traitement des abréviations . . . . . . . . . . . . . . . . . . . . . 33
3.2.3.1 Méthode1 : Expressions régulières (REGEX) . . . . . . 33
3.2.3.2 Méthode2 : Spacy Abbreviation Detector . . . . . . . . . 35
3.2.3.3 Choix de la méthode appropriée . . . . . . . . . . . . . . 35
3.2.4 Traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Ingénierie des caractéristiques (feature engineering) . . . . . . . . . . . . . 38
3.3.1 Création de caractéristiques . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1.1 Years of study . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1.2 Seniority . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Transformation de caractéristiques . . . . . . . . . . . . . . . . . . 39
3.3.3 Extraction d’informations . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.3.1 Modèle d Named entity recognition (NER) . . . . . . . . 39
3.3.3.2 Introduction au NER . . . . . . . . . . . . . . . . . . . 39
3.3.3.3 Nécessité d’un modèle NER personnalisé . . . . . . . . 40
3.3.3.4 Labélisation des données . . . . . . . . . . . . . . . . . 40
3.3.3.5 Entrainement du modèle NER . . . . . . . . . . . . . . . 41
3.3.3.6 Evaluation et Choix du modèle NER . . . . . . . . . . . 42

29
Chapitre 3. Pré-traitement des données

Introduction
Pour toute application d’apprentissage automatique, le pré-traitement des données est aussi
important que la construction du modèle.
Cette section présente notre méthode proposée pour nettoyer les données textuelles présentes
dans des profils, en mettant l’accent sur la réduction du vocabulaire.

3.1 Nettoyage des données textuelles

Le nettoyage du texte est le processus qui consiste à minimiser la taille du vocabulaire afin
de réduire la dimension de l’espace d’entrée de nos modèles d’apprentissage automatique.

3.1.1 Suppression des StopWords

Comme première étape de nettoyage, nous avons commencé par la suppression de ce que
l’on appelle les mots d’arrêt, ou stopwords en anglais. Cette opération est souvent la première
à effectuer dans le cadre d’un traitement de texte . Ces mots d’arrêt sont des mots très courants
dans la langue étudiée (” et ”, ” à ”, ” le ”..., en français), ou encore (”and”, ”then”, ”is”, ”a”,
”the”, ..., en anglais ) . Ces mots n’apportent aucune valeur informative pour la compréhension
du ” sens ” d’un document. Ils sont très fréquents et ralentissent notre travail : nous souhaitons
donc les supprimer.
La bibliothèque NLTK nous fournit des listes de mots d’arrêt dans plusieurs langues. Nous
avons donc eu recours aux listes de la langue française et anglaise, afin de supprimer tous les
mots d’arrêt présents dans les profils, que ce soit dans la section de compétences ou de descrip-
tion des expériences.

3.1.2 Suppression des retours à la ligne et des tabulations

Plusieurs espaces ou sauts de ligne peuvent être incorporés dans le texte à des fins de forma-
tage, ainsi, lorsque nous récupérons les données à partir du site web, ces espaces, tabulations, et
retour à la ligne sont converties en caractères inutiles comme \n et \t , qui ne sont pas utiles pour
la modélisation. Par conséquent, ils peuvent être supprimés. Pour ce faire nous avons utilisé à
l’attribut .is_space de la bibliothèque SpaCy.

3.1.3 Suppression des emojis

Sur les réseaux sociaux, les internautes utilisent souvent les émojis pour souligner leurs pro-
pos et exprimer leurs sentiments. Malgré l’aspect formel de Linkedin, il ne se distingue pas des
autres réseaux sociaux en termes d’utilisation des emojis. En effet, les utilisateurs de Linkedin
emploient ces icônes spéciales pour affiner et dynamiser leurs profils.

30
Chapitre 3. Pré-traitement des données

Bien qu’utiles pour certains modèles (par exemple, l’analyse des sentiments), les emojis ne
peuvent nous apporter aucune information intéressante dans notre cas d’utilisation. Nous avons
donc décidé de les supprimer.
Pour ce faire, nous avons utilisé le paquet unidecode, qui permet d’éliminer tous les tokens avec
un format autre que le format texte, y compris les emojis.

3.1.4 Traitement des ponctuations

Dans la description des compétences, des certifications et des expériences, nous avons remar-
qué une présence excessive des caractères de ponctuation, utilisés pour séparer les compétences,
ou pour les organiser de manière ergonomique.
Souvent dans les modèles NLP, et particulièrement dans notre cas de figure la ponctuation a
peu d’importance.
Par exemple, si l’on souhaite classer nos profils selon leurs spécialités (Data Science, Dévelop-
pement web, Management…), il y a peu de chances que la ponctuation porte du signal.
un nettoyage possible serait donc d’ignorer les tokens qui sont des signes de ponctuation.
Mais il faut faire attention à ne pas appliquer cette suppressions de manière systématique.
En fait, plein de compétences peuvent inclure des signes de ponctuation dans leurs appellations,
comme les compétences ( c++ , c# , .Net , pl / sql…) La suppression de ces signes causera donc
la perte d’une information nécessaire et importante.
Par exemple, en éliminant les signes ’+’ et ’#’ , nous transformons les deux langages de pro-
grammation ’c++’ et ’c#’ en une autre compétence différente qui est le langage ’C’.
Pour résoudre ce problème, une des solution pourrait être de passer une liste statique de com-
pétences spéciales à ne pas manipuler lors de la suppression de caractères spéciaux. Mais nous
souhaitons automatiser le processus autant que possible, et éviter les interventions manuelles.
Nous proposons donc de ne pas éliminer les caractères spéciaux, mais plutôt de créer des es-
paces avant et après chacun de ces symboles, afin de les séparer du reste des syllabes, puis de
procéder à une étape d’extraction automatique des compétences, qui sera capable de distinguer
les compétences qui devraient normalement contenir certains caractères. Pour établir cette ex-
traction automatique, nous avons utilisé un modèle NER (Named entity Recognition), dont
nous parlerons en détails dans une section ultérieure ’3.3.3 Extraction d’informations, page
42’

3.2 Rapprochement des données textuelles

Dans ce projet, nous avons affaire à du texte brut collecté à partir des profils linkedin. Il s’agit
de texte libre, qui vient avec son lot de fautes d’orthographe, d’abréviations, de caractères
spéciaux, comme les emojis. Il va donc falloir bien Préparer cette donnée non-structurée, afin
de faciliter les analyses et modélisations qui vont suivre.
Etant donné la liberté absolue qu’offre Linkedin dans la manière de décrire les compétences,

31
Chapitre 3. Pré-traitement des données

nous sommes confrontés à un nombre extrêmement élevé de compétences distinctes, diffi-

ciles à répertorier, ou à utiliser pour l’analyse et la comparaison des profils.
Pour apporter des éléments de réponses à cette problématique, nous proposons d’uniformiser
les compétences selon des standards précis afin d’en réduire le nombre autant que possible.
Sur un échantillon de 20. 000 profils , nous avons démarré avec 36.000 compétences uniques.
Tout au long de ce chapitre, nous expliquons notre contribution qui nous a permis la réduction
de ce nombre.

3.2.1 Normalisation de la case et élimination des accents

Python est un langage sensible à la casse. De ce fait, si les mots ’java’ et ’JAVA’ sont présents
dans nos données, alors ces deux mots sont traités séparément. Aussi les mots ”Android” et
”Androïd” sont traités séparemment, à cause de l’accent ajouté. Une façon de normaliser encore
plus le vocabulaire est de normaliser la case, en éliminant les majiscules, et de normaliser les
lettres en éliminant les accents. Ces traitements nous permettent de gérer de petites différences
au niveau de l’orthographe.
Nous avons donc utilisé la méthode str.lower() pour de passer tout le texte en minuscule, et le
paquet unidecode qui permet d’éliminer facilement tous les accents.

3.2.2 Traitement des versions

Problématique

Une façon de détailler les compétences est d’inclure la version de la technologie, du langage
de programmation ou de la bibliothèque qu’on maîtrise. Cependant, cette information peut faire
exploser le nombre de compétences.
Prenons l’exemple de ’python’ : Le fait d’y inclure la version, nous pouvons obtenir la liste ci
dessous :
• python 3
• python 2
• python 3.9
• python 3.9.1
• python version3
• python V3
Et la liste s’allonge en fonction de toutes les versions dont python peut avoir . Cet exemple fait
donc un total d’au moins cinq compétences distinctes, pour décrire un seul élément. Imaginons
alors le nombre énorme qui sera généré pour toutes les compétences de la base si nous leur ajou-
tons les versions. Nous aurons une liste d’éléments qui sont non seulement difficiles à énumérer
et à classer en tant qu’humain, mais pour un algorithme d’apprentissage automatique, ces cinq
éléments sont des entités totalement différentes.

32
Chapitre 3. Pré-traitement des données

Contribution

La solution est alors de détecter et d’éliminer les versions, Pour cela nous avons utilisé des
expressions régulières en tenant compte des possibilités suivantes :
— une version peut être écrite à la fin de la chaîne de caractères, sous la forme d’un chiffre
ou un nombre, comme : (python3 )
— une version peut également inclure des sous-versions, en séparant les numéros par un
point comme (python 3.9) ou même une sous-sous-version comme (python 3.9.1)
— il est possible de combiner plusieures versions comme (python 2 et 3), (python2/3)

3.2.3 Traitement des abréviations

Une abréviation est définie comme la forme abrégée d’un mot, d’un nom propre , d’un lieu
ou d’une organisation. Les abréviations sont fréquemment utilisées à des fins pratiques telles
que le gain de place et la commodité. Notamment dans notre étude de cas, certains langages de
programmation, logiciels et technologies sont beaucoup plus connus par leurs abréviations, que
par leurs noms complets, à l’exemple de html, forme abrégée de hypertext markup language.
La correspondance entre une compétence et son abréviation est cruciale pour le processus
de la normalisation des compétences. En effet choisir soit la longue forme soit la forme abrégée
d’une compétence permet de diminuer le nombre de redondances.
Prenons l’exemple de ”feuilles de style en cascade” ou encore ”cascading style sheets” et
observons la liste des différentes possibilités de son écriture :

• cascading style sheets

• css
• cascading style sheets (css)
• fuilles de style en cascade
• fuilles de style en cascade (css)

Sur la base de cet exemple, une seule compétence peut donc avoir au moins cinq façons
d’écriture, et notre objectif à ce stade est de les normaliser à une seule forme, qui est la forme
courte, soit ’css’ pour l’exemple précédent.
Dans cette section, nous expliquons notre approche pour la détection et la mise en corres-
pondance des abréviations avec leurs définitions.

3.2.3.1 Méthode1 : Expressions régulières (REGEX)

Le processus d’extraction des abréviations et de leurs définitions à partir des descriptions

des compétences est composé de deux tâches principales :
— L’extraction des couples candidats <forme courte, forme longue> à partir du texte.

33
Chapitre 3. Pré-traitement des données

— L’identification de la forme courte correcte.

En examinant la section des compétences dans notre flux de données, nous avons remarqué
un pattern répétitif de la forme : forme longue (forme courte) comme dans :

• Natural language processing (nlp)

• Unified Modeling Language (uml)
• cascading style sheets (css)

Ces patterns nous ont facilité l’extraction des couples candidats <forme courte, forme
longue>
Pour ce faire, nous avons eu recours aux expressions regex (Expression régulières) pour
détecter les parenthèses, et extraire ce qu’elles contiennent, ainsi que la chaîne de caractères qui
les précède.
et en faisant correspondre la compétence à l’extérieur des parenthèses à celle à l’intérieur,
nous formons nos couples candidats <forme courte, forme longue>
A ce stade, nous passons à la deusième étape d’identification des abréviations, qui est l’iden-
tification de la forme courte correcte à partir des couples formés.
En effet, Etant donné que le ’regex’ forme les couples de façon systématique en cherchant
les parenthèses, des couples comme <python, programming language> ont été formés à partir
de la compétence python(programming language), alors qu’il ne s’agit pas d’un vrai couple
<forme courte, forme longue>. Le passage par une étape de vérification des couples est alors
une étape cruciale. Comme approche de vérification, nous avons implémenté une fonction qui
vérifie si en combinant les premières lettres de chaque mot à l’extérieur de la parenthèse, on
obtient exactement le mot à l’intérieur. Ce n’est que dans ce cas que nous pouvons confirmer
qu’il s’agit d’une abréviation. Par exemple, en appliquant cette fonction sur le couple <natural
language processing, nlp> nous obtenons comme chaine de vérification :

n + l + p = nl p

. Ce couple est alors vérifié.

Une fois que tous les couples sont vérifiés, nous en créons un dictionnaire qui sera utilisé
pour remplacer les nom des compétences par leurs abréviations dans tous les profils.

34
Chapitre 3. Pré-traitement des données

3.2.3.2 Méthode2 : Spacy Abbreviation Detector

AbbreviationDetector[12] est un composant Spacy qui implémente l’algorithme de détec-

tion des abréviations. Nous avons été inspiré d’appliquer cette méthode, grace à l’article ’A
simple algorithm for identifying abbreviation definitions in biomedical text’, (Schwartz
and Hearst, 2003).[13]
Cette méthode passe aussi par les deux étapes :
— l’extraction des couples candidats <forme courte, forme longue> à partir du texte.
— L’identification de la forme courte correcte.
ces étapes sont entièrement mises en œuvre par ”AbbreviationDetector”.
Il ne nous reste plus qu’à créer notre dictionnaire d’abréviations, afin de l’utiliser pour le
mapping. Nous formons ce dictionnaire en accédant à la liste des abréviations générée par le
”détecteur d’abréviations”, à travers :
— l’attribut doc._.abbreviations pour l’abréviation.
— L’attribue span._.long_form pour la longue forme.

3.2.3.3 Choix de la méthode appropriée

Entre les deux méthodes décrites dans cette section, nous avons choisi d’utiliser la méthode
proposée par spaCy abbreviation detector, car d’une part, elle présente un temps d’exécution
réduit par rapport au regex, et d’autre part, sa mise en œuvre est plus facile et plus sûre.
Les résultats de cette étape sont :
— un dictionnaire contenant 504 abréviations et leurs définitions.
— Les descriptions des compétences sont remplacées par leurs abréviations dans tous les
profils de la base.

Figure 3.1. Nombre d’abréviations colléctées

35
Chapitre 3. Pré-traitement des données

Figure 3.2. Dictionnaire des abréviations

3.2.4 Traduction

Problématique

Linkedin est une plateforme internationale et multi-langues qui n’exige pas à ses utilisateurs
l’emploi d’une langue particulière. c’est donc pourquoi nous trouvons la même compétence
décrite dans différentes langues ce qui augmente les réplications de la même compétence.
Prenons un exemple concret rencontré dans notre base
• Project management / Gestion de projet
• Data vizualization / Visualisation des données
• Machine learning / Apprantissage automatique

36
Chapitre 3. Pré-traitement des données

Dans le but de normalisation, il est donc important de choisir une langue unique pour décrire
nos compétences.

Contribution

Dans le but d’unifier la langue, nous avons choisi de traduire toutes les compétences en
anglais. Pour ce faire nous avons eu recours à l’api de traduction google translate [14].
Avantages de la bibliothèque :
— Utilise les mêmes serveurs que translate.google.com
— Inclut une détection automatique de la langue.
— Fiable
Inconvénients de la bibliothèque :
— Peut prendre un temps d’éxécution important dans le cas d’un grand nombre de données
— Peut être bloquée suite à un nombre excessif de requêtes.
Afin de réduire le temps d’exécution, et de prévenir le blocage de l’api, nous avons envi-
sagé de réduire la sollicitation de l’api à chaque fois que nous avons besoin de traduire des
compétences. Nous avons alors proposé l’idée d’appeler l’api une seule fois sur l’ensemble de
la liste des compétences uniques, nécessitant une traduction, et de stocker le résultat dans un
dictionnaire. Ce dictionnaire est désormais notre référentiel pour transformer les compétences
du français vers l’anglais, sans avoir besoin de repasser par l’api. Nous avons ainsi formé un
dictionnaires de traductions, contenant 571 compétences.

Figure 3.3. Taille du dictionnaire des traductions

Figure 3.4. Extrait du dictionnaire des traductions

37
Chapitre 3. Pré-traitement des données

3.3 Ingénierie des caractéristiques (feature engineering)

Le feature engineering est une technique d’apprentissage automatique qui exploite les don-
nées pour générer des nouvelles variables qui ne figurent pas auparavant dans l’ensemble de
données.
Il s’agit de transformer des données brutes en caractéristiques pouvant être utilisées pour
l’entraînement des modèles de machine learning, dans le but de simplifier et d’accélérer la
transformation des données tout en améliorant la précision des modèles.
Travaillant avec des modèles d’apprentissage automatique, une mauvaise caractéristique
aura un impact direct sur notre modèle. En effet , Plus la qualité des caractéristiques est éle-
vée, plus le modèle sera précis. D’où apparaît l’importance de l’étape de feature engineering.
Nous pouvons découper le feature engineering en trois catégories :
— Création de caractéristiques
— Transformations de caractéristiques
— L’extraction de caractéristiques
Dans cette section, nous passons en revue les trois sous-catégories de l’ingénierie des carac-
téristiques.

3.3.1 Création de caractéristiques

La création de caractéristiques implique la création de nouvelles variables qui seront utiles

pour notre modèle. Dans notre cas d’usage nous allons ajouter des nouvelles variables.

3.3.1.1 Years of study

Cette nouvelle caractéristique va nous servir à calculer le nombre total d’années d’études
pour chaque profil.
En effet, Linkedin ne dispose pas d’un champ consacré pour saisir les années d’études, mais
donne à ses utilisateurs la main de saisir les différentes phases de leurs études et d’indiquer les
dates de début et de fin de chaque période d’études. Nous avons utilisé ces informations pour
générer une seule variable résumant le nombre total d’années scolaires.

3.3.1.2 Seniority

Comme dans le cas des années d’études, Linkedin ne prévoit pas un champ spécifique dédié
à la saisie du total des années d’expérience professionnelle. Comme cette information est très
importante dans le processus de décision d’un recrutement, il était nécessaire d’en générer une
variable. Pour cela nous avons récupéré les années de début et de fin de chaque expérience
professionnelle, pour en déduire la durée de chaque expérience et en les cumulant, nous avons
obtenu pour chaque profil un nombre total d’années d’expérience.

38
Chapitre 3. Pré-traitement des données

3.3.2 Transformation de caractéristiques

La transformation de caractéristiques est simplement une fonction qui transforme les ca-
ractéristiques d’une représentation à une autre. L’objectif ici est de tracer et de visualiser les
données.

Seniority category

En se basant sur le résultat de la nouvelle variable d’ancienneté (seniority), nous avons

attribué à chaque intervalle de durée d’expérience une catégorie comme suit :

Intervalle D’Ancienneté Seniority Category

Seniority < =2 Junior
2< Seniority< 5 Confirmed
5<= Seniority< 10 Senior_1
10<= Seniority< 20 Senior_2
20<= Seniority< 30 Senior_3
Seniority >=30 Senior_4

Tableau 3.1. Seniority category

3.3.3 Extraction d’informations

L’extraction de caractéristiques est le processus qui consiste à extraire des caractéristiques

d’un jeu de données pour identifier des informations utiles, sans déformer les données d’origine.
Nous souhaitons extraire les compétences à partir de la section ”skills” du profil. Pour ce
faire nous avons eu recours à un modèle NER (Named Entity Recognition).

3.3.3.1 Modèle d Named entity recognition (NER)

3.3.3.2 Introduction au NER

La reconnaissance d’entités nommées, Named entity recofnition en anglais, est une tâche
standard de NLP qui permet d’identifier et de classer les informations clés dans un document
textuel. c’est-à-dire des entités dans un texte.
Une entité peut être un mot ou une série de mots qui se réfèrent systématiquement à la même
chose.
Chaque entité détectée est classée dans une catégorie prédéterminée. par défaut, le modèle
NER est pré entraîné pour reconnaître un ensemble d’entités nommées dont nous citons :
• Personne
• Lieu

39
Chapitre 3. Pré-traitement des données

• Date
• Organisation
Par exemple, un modèle NER peut détecter le mot ”Google” dans un texte et le classer
dans la catégorie ”Organization”
Spacy, intègre le modèle NER par défault dans son pipeline de traitement.
Si les entités nommées intégrées de spaCy ne sont pas suffisantes pour un besoin, Spacy
nous donne la main de créer nos propres classes personnalisées.

3.3.3.3 Nécessité d’un modèle NER personnalisé

Bien que le pipeline NER intégré dans Spacy soit performant, il n’est pas toujours par-
faitement adapté à tous les textes. En effet, il arrive que la catégorie que nous souhaitons
extraire ne soit pas intégrée dans Spacy. Notamment dans notre cas, nous souhaitons ex-
traire l’entité ’SKILL’.
Nous avons donc affaire avec une entité nommée personnalisée ’SKILLS’, non reconnue
par le modèle NER pré entraîné de Spacy.
D’ou vient la nécessité de créer notre modèle NER personnalisé.

3.3.3.4 Labélisation des données

Pour Créer un un modèle NER personnalisé, il faut commencer par identifier la nouvelle
entité à créer et de générer notre ensemble de données d’entraînement.
Pour ce faire, nous devons identifier d’abord manuellement les sections importantes du
texte, en marquant le texte avec des étiquettes spécifiques. .
Dans le domaine de l’apprentissage automatique, un ensemble de données correctement
étiquetées que nous utilisons comme norme objective pour former et évaluer un modèle
donné est souvent appelé ”ground truth”.
La précision de notre modèle formé dépendra de la précision de notre ”ground truth”. Il
est donc essentiel de consacrer du temps et des ressources pour garantir un étiquetage très
précis des données.
Pour ce faire, nous avons utilisé l’outil d’étiquetage des données ”Label Studio” [15].
Les point forts de cet outils sont :

— C’est un outil OpenSource.

— C’est l’un des outils d’étiquetage les plus flexibles.
— Son installation est rapide.

SpaCy accepte les données d’entraînement sous format d’une liste de tuples.
Chaque tuple doit contenir le texte et un dictionnaire.
Le dictionnaire doit contenir les indices de début et de fin de l’entité nommée dans le
texte, ainsi que la catégorie ou l’étiquette de l’entité nommée.

40
Chapitre 3. Pré-traitement des données

Figure 3.5. Exemple de données d’entrainement de NER

Il nous suffit de séléctionner les mots à considérer des entités, et label studio prend charge
de formatter les données sous le format souhaité

Figure 3.6. Exemple de labélisation de l’éntité ”Skill” par Label Studio

3.3.3.5 Entrainement du modèle NER

a- Nombre d’itérations

Pour former un modèle NER, le modèle doit être bouclé sur l’exemple pendant un nombre
suffisant d’itérations. Si nous l’entraînons pendant seulement 5 ou 6 itérations, il risque
de ne pas être efficace.

b- Shuffle des données

Avant chaque itération, nous avons mélangé les exemples de façon aléatoire à l’aide de
la fonction ”random.shuffle()” .Cela permet de nous nous assurer que le modèle ne fait
pas de généralisations basées sur l’ordre des exemples.

c- Batch

Les données d’apprentissage sont généralement transmises par lots connus en anglais par
”batchs”
Nous avons appelé la fonction minibatch() de SpaCy sur les données d’apprentissage qui
nous a retourné les données par lots. La fonction minibatch prend le paramètre ”size” pour
indiquer la taille du lot.

41
Chapitre 3. Pré-traitement des données

d- Mise à jour du modèle

Pour chaque itération, le modèle NER est mis à jour par la commande nlp.update(). À
chaque mot, la fonction update() effectue une prédiction et consulte ensuite les annotations
pour vérifier si la prédiction est correcte. Si ce n’est pas le cas, les poids sont mis à jour
pour que l’action correcte ait un meilleur score la prochaine fois.

e- Réalisation du modèle

Enfin, tout l’entraînement est effectué dans le contexte du modèle NLP avec un pipeline
désactivé, pour éviter que les autres composants ne soient impliqués.

3.3.3.6 Evaluation et Choix du modèle NER

Afin de repèrer le modèle NER le plus performant, nous avons construit notre propre fonction
qui prend en paramètre les différentes combinaisons des hyperparamètres et renvoie le meilleur
modèle basé sur l’indice F1-score.
F1-score : C’est un score qui mesure la précision de prédiction d’un modèle sur un ensemble
de données. cette mesure est efficace pour l’évaluation des systèmes de classification dont les
classes sont déséquilibrées. Le score F1 est défini comme la moyenne harmonique de la précision
et du rappel du modèle.
La formule de l’indice F1-Score est la suivante :

2 precision × recall tp
F1 = = 2× =
1
recall × precision
1 precision + recall t p + 2 × ( f p + f n)
1

precision La précision est la fraction de vrais exemples positifs parmi les exemples
que le modèle a classés comme positifs. En d’autres termes, le nombre de
vrais positifs divisé par le nombre de faux positifs plus les vrais positifs.
recall recall est la fraction d’exemples classés comme positifs, parmi le
nombre total d’exemples positifs. En d’autres termes, le nombre de vrais
positifs divisé par le nombre de vrais positifs plus les faux négatifs.
tp Le nombre de vrais positifs classés par le modèle.
fn Le nombre de faux négatifs classés par le modèle.
fp Le nombre de faux positifs classés par le modèle.

Tableau 3.2. Explication des symboles de la formule F1-score

Le tableau suivant présente les scores obtenus lors de la validation croisée (Cross valida-
tion) pour chaque combinaison des hyperparamètres en utilisant un échantillon de 300 individus
que nous avons annotés avec Label Studio.

42
Chapitre 3. Pré-traitement des données

epochs batch size dropout F1-Score

30 32 0.5 0.89
30 32 0.7 0.91
30 64 0.5 0.87
30 64 0.7 0.84
20 32 0.5 0.87
20 32 0.7 0.88
20 64 0.5 0.78
20 64 0.7 0.83

Tableau 3.3. Réesultat des indicateurs de performance pour le modèle NER

Le modèle NER le plus performant est celui qui maximimise le F1-Score.

Donc, nous avons sélectionné le modèle final donnant un F1-Score maximal de valeur 0.91
, ayant les paramètres suivants :
— epochs = 30
— batch size = 32
— dropoout = 0.7
La Figure 3.7 montre le résultat de l’application du modèle NER, sur un paragraphe décri-
vant une expérience d’un profil. Le modèle a réussi à extraire l’ensemble des compétences à
partir de ce texte.

Figure 3.7. Extraction des compétences par le modèle NER

43
Chapitre 3. Pré-traitement des données

Conclusion
Dans ce chapitre, nous avons réussi à extraire les compétences automatiquement à partir des
paragraphes descriptifs des expériences professionnelles, par le biais d’un modèle d’appren-
tissage supervisé Named entity recognition (NER). Nous avons aussi réussi à normaliser les
compétences, en diminuant le nombre de compétences uniques de 36000 à 2900.
La figure suivante montre un exemple de profil avant l’exécution du pipeline de prétraite-
ment.

Figure 3.8. Extrait de la section SKILLs d’un profil avant prétraitement

Dans la figure suivante, nous montrons le résultat du pipeline de pré traitement, traduit par
la variable ”final skills”.
Les compétences ont été bien identifiées et normalisées. Par exemple la compétence ” in-
telligence artificielle” est transformée en ”ai”.

Figure 3.9. Résultat de l’application du pipeline de prétraitement.

44
Chapitre 3. Pré-traitement des données

<Thistlergb255, 248, 219

45
Chapitre 4

Modélisation et Évaluation

Plan
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1 Clustering des profils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.1 Besoin du clustering . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.2 Choix entre le ”Hard clustering” et le ”Soft clustering” . . . . . . . 48
4.1.3 Application du modèle LDA . . . . . . . . . . . . . . . . . . . . . 49
4.1.3.1 Création de la matrice Document-Mot . . . . . . . . . . 49
4.1.3.2 Construction d’un modèle LDA avec sklearn . . . . . . 49
4.1.3.3 Diagnostique de la performance du modèle . . . . . . . 50
Évaluation graphique . . . . . . . . . . . . . . . . . . . . 50
Score de cohérence . . . . . . . . . . . . . . . . . . . . . 52
4.1.3.4 Réglage des hyperparamètres . . . . . . . . . . . . . . . 52
4.1.3.5 Interprétation des résultats . . . . . . . . . . . . . . . . 54
4.1.4 Application du modèle NMF . . . . . . . . . . . . . . . . . . . . . 55
4.1.4.1 Création de la matrice Document-mot . . . . . . . . . . 55
4.1.4.2 Construction du modèle . . . . . . . . . . . . . . . . . . 55
4.1.4.3 Évaluation du modèle . . . . . . . . . . . . . . . . . . . 56
4.1.5 Comparaison et choix entre LDA et NMF . . . . . . . . . . . . . . 59
4.1.6 Distribution de documents sur les thèmes . . . . . . . . . . . . . . 59
4.2 Appariement d’offres d’emploi . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.1 Prétraitement de l’offre d’emploi . . . . . . . . . . . . . . . . . . . 60
4.2.2 Recommandation des profiles pour une offre de travail . . . . . . . 61
4.3 Rapprochement des profiles similaires . . . . . . . . . . . . . . . . . . . . . 61
4.3.1 Identification des caractéristiques de chaque profile . . . . . . . . . 61
4.3.2 Identification des profils similaires . . . . . . . . . . . . . . . . . . 62

46
Chapitre 4. Modélisation et Évaluation

Introduction
Au chapitre précédent, nous avons répondu au premier objectif de ce projet qui était le rap-
prochement des compétences.
Dans ce chapitre, nous nous intéressons à la mise en correspondance des profils similaires,
et à la recommandation de candidats appropriés pour une offre d’emploi.
Pour ce faire, nous avons d’abord établi un clustering des profils, pour ensuite appliquer
une distance adéquate permettant d’établir la recommandation des profils adéquat à une offre
d’embauche.

4.1 Clustering des profils

A cette étape, nous souhaitons créer des groupes distincts ou ”clusters”, auxquels nous
affecterons les profils de notre base de données, en se basant sur leurs degré de similarité du
point de vue domaine et durée d’expertise.

Figure 4.1. Illustration du clustering

[16]

4.1.1 Besoin du clustering

L’organisation des profils dans des groupes a pour but de nous aider à aboutir au traitement
ultérieur de rapprochement des profils similaires.
En effet, A ce stade nous avons affaire avec une liste de compétences pour chaque profil, et
il est difficile de décider quels profils sont similaires en analysant leurs compétences une à une.
Par contre, à travers le clustering, nous pouvons diminuer la d’intentionnalité des com-
pétences, et ainsi il sera plus facile de comprendre les patterns cachés dans chaque profil, de
choisir quelles compétences à mettre en valeur, et de comprendre ce qui définit une catégorie.

47
Chapitre 4. Modélisation et Évaluation

4.1.2 Choix entre le ”Hard clustering” et le ”Soft clustering”

Nous avons choisi d’appliquer un Soft clustering, ou encore Regroupement à apparte-

nance mixte, plutôt qu’un hard clustering ou encore Regroupement à appartenance unique.
En Effet, dans notre cas, nous avons affaire à des profils polyvalents : C’est à dire chaque can-
didat peut maîtriser un peu de chaque spécialité, donc chaque document (profil) doit être un
mélange de plusieurs thèmes (spécialités).
L’application d’un clustering dur (hard clustering) tel que le kmeans, nous permet de classer
chaque profil strictement dans un seul cluster. De ce fait, nous forcerons chaque profil à appar-
tenir à un seul domaine d’expertise, et nous perdrons ainsi des informations importantes sur la ‘
polyvalence .

Figure 4.2. Illustration de la différence entre le hard et le soft clustering

[17]

48
Chapitre 4. Modélisation et Évaluation

4.1.3 Application du modèle LDA

Comme premier algorithme de topic modeling, nous avons testé l’algorithme LDA (Latent
Dirichelet Allocation), en utilisant la bibliothèque Gensim.

4.1.3.1 Création de la matrice Document-Mot

L’algorithme LDA nécessite une matrice mots/document (document word matrix ) comme
entrée principale.
Pour en créer une, nous avons utilisé le module CountVectorizer de Scikit-learn, qui nous
a permis de modéliser la section textuelle ”compétences” de chaque profil par un vecteur
”Bag of words (BOW)” . L’ensemble de ces vecteurs résulte en la matrice de mots-document
souhaitée. A travers le paramètre min-df, nous avons configuré CountVectorizer pour qu’il
prenne en compte les mots qui sont apparus au moins 5 fois, question de garantir qu’il s’agit
vraiment d’une compétence et non pas d’un bruit maltraité dès la phase de nettoyage.

4.1.3.2 Construction d’un modèle LDA avec sklearn

Une fois nos documents à modéliser sont sous la forme de matrice documents-termes, nous
devons maintenant configurer les paramètres du modèle, en particulier le nombre de sujets (K)
et les paramètres alpha et bêta.
Pour ce faire, nous avons suivi l’approche suivante : Nous avons commencé par choisir
les hyperparamètres de manière heuristique, puis nous les avons affiné avec des expériences
empiriques.

1. num_topics (K) : Souvent, l’hyperparamètre le plus important est le nombre de sujets à

former, dont le choix dépend souvent des caractéristiques des données et du besoin métier.
Nous avons initialisé K heuristiquement, en se basant sur nos connaissances du contenu
de l’ensemble de données. Nous avons donc pu estimé un nombre probable de sujets qui
est égal à 7. Ensuite nous avons effectué des ajustements en fonction de l’évaluation du
modèle et des visualisations basées sur la réduction de la d’intentionnalité.
2. alpha et bêta sont des hypermaramètres qui influencent la dispersion des sujets.
— Alpha spécifie les convictions préalables sur la rareté et la diversité des sujets.
Avec une valeur Alpha élevée, nous supposons que chaque document est susceptible
de contenir un mélange de plusieurs sujets. Étant donné nos compréhensions des
données et du besoin métier, nous nous attendons à ce que la distribution des sujets
dans chaque document soit éparse ( peu dense ), de sorte que chaque document
ne contienne que quelques sujets. Pour cette raison, nous avons choisi une petite
valeur alpha = 0.6
— Bêta représente la densité sujet-mot. Ce paramètre spécifiera les croyances préa-
lables sur la rareté et l’uniformité des mots dans les sujets, en ajustant le biais

49
Chapitre 4. Modélisation et Évaluation

selon lequel certains sujets favoriseront certains mots. Avec une valeur bêta élevée,
les sujets sont supposés être composés de la plupart des mots du vocabulaire. Nous
avons commencé par initialiser bêta = 0.01.

4.1.3.3 Diagnostique de la performance du modèle

Pour évaluer les résultats de notre modélisation thématique, nous nous appuyons sur le score
de cohérence pour ajuster nos hyperparamètres, afin d’obtenir la meilleure combinaison d’entre
eux, ce qui conduit à un meilleur résultat du modèle. Mais il est très important de tenir compte
de l’intuition et de la validation humaines, car nous ne sommes pas encore au point où la clas-
sification humaine a été dépassée par les algorithmes non supervisés. Nous allons donc vérifier
le score de cohérence, et en outre tracer des graphiques qui nous aident à voir et à inspecter
les distributions choisies par le modèle pour définir ce qu’est un sujet.

Évaluation graphique

Nous avons utilisé le paquet LDAViz qui est une fonction très intéressante pour analyser les
résultats de LDA. C’est un outil qui crée un widget html interactif, nous permettant de regarder
et d’inspecter non seulement les principaux mots associés à chaque document, mais aussi de
tracer la distance entre les sujets (topics), montrant à quel point les sujets se ressemblent, ainsi
que la taille de chaque sujet, c’est à dire le taux d’apparition de ce sujet dans tout le corpus. La
figure ci dessous présente le résultat de notre modèle LDA initial.

Figure 4.3. Présentation graphique par LDAviz de la distribution des thèmes

50
Chapitre 4. Modélisation et Évaluation

Nous pouvons voir que le modèle a créé 7 groupes différents, représentés par des cercles de
tailles différentes, et espacés de distances variées.
Plus le cercle est gros, plus le sujet est dominant dans le corpus (l’ensemble de tous les
profils).
Plus les cercles sont proches, plus leurs sujets sont semblables. C’est à dire pour un bon
modèle LDA, il vaut mieux avoir moins de cercles superposés, montrant que les sujets sont
plus faciles à identifier et à labéliser.
Exemple d’un bon topic :
Par exemple dans notre cas, le graphique montre que le topic 6 est très éloigné des autres topics.
nous nous attendons alors à ce que le modèle a très bien réussi à identifier et séparer ce topic
des autres.
Vérifions alors les mots les plus utilisés (les mots clés) dans ce topic à travers la figure suivante.
A droite, est affichée la liste des 30 mots qui caractérisent le plus le topic 6, à savoir [”win-
dows server”, ”cisco”, ”active directory”, ”vmware”, ”ip” , ”voip”, ”dns”, ”lan”, ”linux”,
”wan”, ...]
En se basant sur un jugement humain, nous pouvons facilement interpréter ce résultat et conclure
que le sujet est lié à l’administration des réseaux

Figure 4.4. Présentation graphique des Top-30 mots caractérisant le topic 6

51
Chapitre 4. Modélisation et Évaluation

Exemple d’une mauvaise composition d’un topic :

Les topics 2 et 3 sont presque superposés. nous nous attendons alors à ce que ces deux topics
ont trop de termes en commun et que chacun d’eux aura une distribution de mots ambigue,
pas assez facile à labéliser. Vérifions la distribution des mots du topic 2 à l’aide de la figure
suivante :

Figure 4.5. Présentation graphique des Top-30 mots caractérisant le topic 2

A droite, est affichée la liste des 30 mots qui caractérisent le plus le le topic 2, à savoir
[”python”, ”data”, ”ai software development”, ”r”, ”sales” , ”project management”, ”ma-
nagement”, ”security”, ”design”, ...]
En se basant sur un jugement humain, il est difficile d’attribuer un label à ce topic. En effet, il
y a un mélange entre le ’data science’, le management et le ’software development’

Score de cohérence

A part la visualisation graphique des topics, nous avons calculé le score de cohérence, qui
nous a donné la valeur 0.225

4.1.3.4 Réglage des hyperparamètres

Dans le but d’améliorer la qualité de notre modèle LDA, nous avons eu besoin de raffiner
les hyperparamètres initialement choisis par l’approche heuristique. Nous avons donc passé au
raffinement au moyen d’expériences empiriques.

52
Chapitre 4. Modélisation et Évaluation

Nous avons commencé par définir un lot de valeurs de alpha = [0,05, 0,1, 0,5, 0.01] ainsi
qu’un lot de valeurs de beta = [0,01, 0,05, 0,1, 0,5].
Pour le nombre de sujets nous avons défini les valeurs K =[5,6,7,8,9,10].
Nous avons ensuite entraîné les modèles de toutes les combinaisons possibles en faisant
varier alpha, beta et K,tout en calculant pour chaque modèle le score de cohérence.
Enfin nous avons choisi le triplet (alpha,beta,k) qui maximise le score de cohérence.
Le tableau suivant dénote le score de cohérence maximal pour chaque valeur distincte de
K (nombre de topics), obtenus en fonction des différentes combinaisons des hyperparamètres
alpha et bêta Les résultats montrent que le score de cohérence est maximisé pour un nombre

Nombre de topics 4 5 6 7 8 9
Score de cohérence maximal 0.62 0.57 0.54 0.43 0.32 0.34

de topics égale à quatre.

Nous pouvons observer ce résultat par une représentation graphique cubique Figure 4.5
qui calcule le score de cohérence pour chaque combinaison des trois paramètres Alpha, Beta,
Topics.
Ce graphe montre que le plus grande valeur de score de cohérence est atteinte pour la com-
binaison : ( Alpha = 0.01 , Beta = 0.5 , Topics = 4)

Figure 4.6. Représentation graphique des résultats des combinaisons de modèles entrainés

53
Chapitre 4. Modélisation et Évaluation

Vérifions la distribution de ces topics par un graphe LDAviz

Figure 4.7. Présentation graphique des Top-30 mots caractérisant le topic 2 après réglage des
paramètres

4.1.3.5 Interprétation des résultats

Dans cette section, nous analyserons le graphique de la distribution des compétences sur les
thèmes (Figure 4.6).
Cette étape est indispensable dans le topic modeling.
D’une part, pour un apprentissage non supervisé, le jugement humain n’est pas moins im-
portant que le calcul du score donné par le modèle.
D’autre part, comme le topic modeling se limite à regrouper les sujets, sans leur donner
d’étiquettes, c’est à nous de décider quelle étiquette donner à chaque sujet. Ce jugement est
basé sur l’ensemble des termes qui constituent les sujets.
Dans la figure précédente, nous pouvons voir que les cercles désignant les sujets sont bien
séparés, et qu’il n’y a pas de chevauchement entre eux, contrairement au premier modèle
entraîné avec un nombre de sujets égal à 7.
Par contre, en analysant les 30 premiers mots clés du thème 2, affichés à droite de la figure,
nous avons constaté une difficulté à étiqueter le thème 2. En effet, les compétences qui forment

54
Chapitre 4. Modélisation et Évaluation

ce sujet semblent être un mélange de deux spécialités différentes. Nous jugeons alors que ce
thème peut être un assemblage des deux spécialités suivantes :

Management Cloud
management security
project management linux
marketing windows
sales cisco
business telecommunications
strategic planning windows server
leadership maintenance

Pour conclure, Le score de cohérence s’est amélioré grâce au réglage des paramètres, et
nous avons obtenu des clusters plus au moins bien formés, mais le fait que nous avons encore une
incertitude par rapport à la labélisation de quelques thèmes, il sera bien d’essayer de modéliser
nos sujets par un autre modèle.
Nous allons donc appliquer dans la section suivante, une autre algorithme de topic mode-
ling qui est le NMF

4.1.4 Application du modèle NMF

4.1.4.1 Création de la matrice Document-mot

Tout comme LDA, l’algorithme NMF nécessite une matrice mots/document, (document
word matrix ) comme entrée principale. Pour en créer une, nous avons utilisé le module TFIDF
de Scikit-learn, qui nous a permis de modéliser la section textuelle ”compétences” de chaque
profil par un vecteur tf-idf. Puisque ce vecteur calcule les poids des mots, ses valeurs sont donc
tous supérieurs ou égales à zéro. Il s’agit donc d’un vecteur non négatif. L’ensemble de ces
vecteurs résulte en la ‘matrice non négative de mots/document souhaitée.

4.1.4.2 Construction du modèle

Une fois la matrice document/mot calculée, elle fera objet de la matrice de base de l’algo-
rithme NMF. L’objectif de l’algorithme est de prendre cette matrice de base en entrée, et de la
factoriser en deux matrices non négatives W et H.
Pour ce faire, nous avons entraîné un ensemble de modèles NMF, à l’aide de la bibliothèque
Scikit-learn, et en passant au GridSearch un intervalle de nombre de topics allant de 4 à 9.
Le GridSearch s’occupera d’entraîner en tous six topics, en variant à chaque entraînement
le nombre de topics entre 4 et 9, et calcule pour chaque modèle le score de cohérence.
Notre but est de choisir le nombre de topics optimal, qui maximise le ‘score de cohérence.

55
Chapitre 4. Modélisation et Évaluation

4.1.4.3 Évaluation du modèle

a- Par score de cohérence

Comme pour, LDA, pour évaluer notre modèle NMF, nous nous sommes basés sur le score
de cohérence, que nous visons à maximiser. Le tableau suivant montre le résultat de l’entraî-
nement des 6 modèles par GridSearch.

Nombre de topics Score de cohérence

4 0.54
5 0.67
6 0.74
7 0.63
8 0.45
9 0.4

Tableau 4.1. Scores de cohérence des différents modèles NMF

Les résultats indiquent que pour un nombre de topics égal à 6, le score de cohérence est
maximal, de valeur 0.74
Pour valider ce résultat, nous avons tracé le graphe suivant qui montre la variation du score
de cohérence en fonction du nombre des sujets (topics). Le graphe montre clairement que le
nombre de sujets égal à 6 correspond au meilleur score de cohérence de valeur 0.74.

Figure 4.8. Résultat de GridSearch avec NMF

56
Chapitre 4. Modélisation et Évaluation

b- Par intérprétation des sujets

Suite au résultat du GridSearch, nous avons retenu le modèle NMF qui crée 6 topics, et nous
avons réalisé le graphe suivant, qui affiche les 30 mots clés, les plus importants de chaque topic.

Figure 4.9. Distribution des mots sur les sujets NMF

57
Chapitre 4. Modélisation et Évaluation

Pour pouvoir labéliser les topics, nous avons classé les mots clés de chaque topic, montrés
dans la figure précédente, dans un tableau.

Topic Topwords (Les mots les plus fréquents) Label

Topic1 html, css, php, javascript, symfony, mysql, jquery, xml, de- Web development
veloppement, ajax, angular, node, laravel, express, ionic,
web development
Topic2 excel, office, powerpoint, word, leadership, management, Management and marketing
financial analysis, negotiations, sales, business strategy,
marketing strategy, english, french, communication, custo-
mer service
Topic3 spring, hibernate, junit, maven, java, jee, jsf, eclipse, jpa, Spring
angular, ejb, primefaces, jboss, soap, rest, struts, svn
Topic4 python, machine learning, matlab, data analysis, deep lear- Data science
ning, java, big data, ai, data mining, data, computer vision,
research, image processing, nlp, keras, classification, data
visualization
Topic5 .net, asp, visual studio, vb, .net mvc, c, t sql, mvc, sql, wcf, Software development
wpf, xml, ssis, link, pl/sql, oracle
Topic6 linux, integration, management, security, windows, win- Cloud
dows server, servers, vmware, maintenance, security, admi-
nistration, tcp-ip, networking, virtualization, cloud compu-
ting, unix, vpn

Tableau 4.2. Les mots fréquents pour chaque topic (Méthode NMF)

Selon cette distribution des mots par topics, il est facile de faire un jugement humain pour
distinguer la spécialité cachée derrière chaque topic. Nous avons donc réussi à créer les spécia-
lités suivantes :
1. Full stack web development
2. Management and marketing
3. Spring
4. Data science
5. software development
6. Cloud

58
Chapitre 4. Modélisation et Évaluation

4.1.5 Comparaison et choix entre LDA et NMF

En comparant les deux modèles, nous pouvons dire que la cohérence des sujets générés par
le modèle NMF (Figure 4.7) est meilleure que celle générée par le modèle LDA (Figure 4.5)
De plus, les mots de chaque sujet (tableau 4.2 ) pour le modèle NMF sont plus significatifs que
ceux du modèle LDA. ( Figure 4.4 ). En fait, nous avons pu facilement étiqueter tous les sujets
générés par NMF, ce qui n’était pas le cas pour tous les sujets générés par LDA.
Le tableau suivant récapitule la comparaison entre les deux modèles de topic modeling LDA
et NMF.

Modèle LDA NMF

Nombre de topics optimal 4 6
score de cohérence optimal 0.62 0.74
Labélisation des topics Difficulté à labéliser quelques topics Les 6 topics ont eté facilement labélisés
Temps d’exécution 120 secondes 40 secondes

4.1.6 Distribution de documents sur les thèmes

Rappelons les deux principes du topic modeling, abordés dans dans la section ”Topic mo-
deling” du chapitre 2 ”Fondement théorique”

• Un thème (spécialité) est un mélange de mots (compétences)

• Un document (profil) est un mélange de thèmes (spécialités).

A ce stade, nous avons accompli la construction des thèmes, et nous passerons dans cette
section à l’affectation de chaque document aux thèmes appropriés, c’est à dire affecter à chaque
profil les spécialités qui lui correspondent.
Pour classer un document comme appartenant à des thèmes particuliers, une approche lo-
gique consiste à voir quels thèmes ont le plus grand impact sur ce document.
Dans la figure suivante, Figure 4.9, nous avons sur-ligné en vert tous les thèmes majeurs
d’un document.

4.2 Appariement d’offres d’emploi

Dans cette section, nous abordons le but principal de ce projet, à savoir l’automatisation du
processus de recrutement.
Nous avons employé tous les pré-traitements effectués dans les sections précédentes afin de
générer une liste de candidats appropriés pour une offre d’emploi donnée.
Pour y parvenir, nous avons utilisé une technique connue sous le nom de similitude d’article
à article, (item to item similarity).

59
Chapitre 4. Modélisation et Évaluation

Figure 4.10. Matrice de distribution des spécialités (topics) sur les profils (documents)

Il s’agit d’une approche très simple à mettre en oeuvre, mais qui est très puissante, pour une
recommandation : La similarité cosinus.
Mathématiquement, elle mesure le cosinus de l’angle entre deux vecteurs projetés dans un
espace multidimensionnel.
L’idée est de considérer le profil de chaque candidat comme un document et l’offre d’em-
ploi comme un second document. Nous calculons ensuite la similarité en cosinus de ces deux
documents pour classer les meilleurs candidats.

4.2.1 Prétraitement de l’offre d’emploi

Dans les sections précédentes, nous nous sommes concentrés sur le prétraitement des profils.
Nous devons maintenant procéder de la même manière pour préparer le texte de l’offre d’emploi,
afin de pouvoir le comparer aux profils. Pour ce faire, nous avons appliqué les actions suivantes
dans l’ordre :

— Nettoyage de l’offre d’emploi(Elimination des stopwords, traitement des ponctuations,

Elimination des emojis,..)
— Extraction des compétences
— normalisation des compétences (langues, versions, abréviations)

Après nettoyage, nous avons représenté chaque offre d’emploi par un vecteur tf-idf. Cette
représentation nous permet de mettre en évidence uniquement les compétences qui sont impor-
tantes pour l’offre.

60
Chapitre 4. Modélisation et Évaluation

4.2.2 Recommandation des profiles pour une offre de travail

Une fois le vecteur de l’offre, ainsi qu’aux vecteurs des profils calculés, nous avons calculé
la similarité en cosinus du vecteur tf-idf d’offre d’emploi avec chaque vecteur tf-id de la matrice
mot-document, qui a été déjà calculée dans les sections précédentes.
De cette façon, étant donné notre base de données de 20 000 profils, nous obtenons 20 000
valeurs de similarité en cosinus, chaque valeur nous informe du degré de ressemblance de
l’offre avec chaque profil.
Mathématiquement, elle mesure le cosinus de l’angle entre deux vecteurs projetés dans un
espace multidimensionnel. Rappelons la formule de calcul de similarité du cosinus :

Figure 4.11. Formule de calcul de la similarité en Cosinus (Cosine similarity

Pour dégager la liste des profils qui correspondent le mieux à l’offre, il suffit de sélectionner
les profils dont les vecteurs tf-idf ont donné les plus grandes valeurs de similarité en cosinus
avec le vecteur représentant l’offre.

4.3 Rapprochement des profiles similaires

Dans cette section, notre but est d’identifier les profils les plus similaires à un profil donné,
sur la base de leurs attributs similaires, afin de pouvoir les recommander à l’agent RH cherchant
un certain profil, et ainsi lui donner plus de choix et de possibilités.

4.3.1 Identification des caractéristiques de chaque profile

Pour identifier les profils similaires, nous nous sommes basés sur les caractéristiques sui-
vantes :
— Les spécialisations
— Les années d’ancienneté (Seniority)

61
Chapitre 4. Modélisation et Évaluation

Pour préparer nos documents au calcul de similarité, nous avons commencé par les repré-
senter sous format de vecteurs, dont les composantes sont les scores d’appartenances à chacune
des spécialités générés par l’algorithme NMF de topic modeling, ainsi que la composante de
seniority, qui calcule les années d’expérience de chaque profil.
Le tableau suivant illustre un exemple de vectorisation de trois profiles, en fonction des
caractéristiques choisies.

Figure 4.12. Caractéristiques choisies pour modéliser les profils sous forme vectorielle

4.3.2 Identification des profils similaires

Une fois tous les profils sont réduits à leurs représentations vectorielles, nous disposons
d’une matrices carré, qui combine les vecteurs de tous les profils.
Pour chaque vecteur, nous calculons sa similarité en cosinus avec le reste des vecteurs de la
matrice.
Les documents qui lui sont les plus similaires sont ceux qui ont la plus grande valeur de
similarité en cosinus.

Figure 4.13. Matrice de similarité en cosinus entre les profils

62
Chapitre 5

Réalisation

Plan
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1 Environnement du travail . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.1.1 Technologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.1.2 Relation entre les technologies : FARM stack . . . . . . . . . . . . 66
5.1.3 Bibliothèques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2 Déploiement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2.1 Coté FastAPI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2.2 Coté Front-end : React . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2.1 Page de Login . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2.2 Dashboard . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2.3 Affichage de la liste des profils . . . . . . . . . . . . . . 71
5.2.2.4 Page profil détaillé . . . . . . . . . . . . . . . . . . . . 72
5.2.2.5 Outil de rapprochement des compétences . . . . . . . . . 74
5.2.2.6 Correspondance offre d’emploi/profils . . . . . . . . . . 75

63
Chapitre 5. Réalisation

Introduction

Dans ce chapitre, nous décrivons dans un premier temps l’environnement du travail, à savoir
les technologies et les bibliothèques utilisées tout au long de la réalisation du projet. Ensuite,
nous montrons des captures démonstratives du déploiement de la solution.

5.1 Environnement du travail

5.1.1 Technologies

Python

Python est un langage de programmation interprété, orienté objet, de haut niveau et muni
d’une sémantique dynamique. La syntaxe simple et facile à apprendre de Python privilégie la
lisibilité et réduit le coût de la maintenance des programmes. Python supporte les modules et
les paquets, ce qui encourage la modularité des programmes et la réutilisation du code. L’inter-
préteur Python est disponible gratuitement sous forme de source ou de binaire pour toutes les
principales plate-formes et peut être distribué librement.

React

React est une bibliothèque Javascript permettant de construire des interfaces utilisateur
rapides et interactives. Elle a été développée par Facebook en 2011, et c’est actuellement la
bibliothèque Javascript la plus populaire pour construire des interfaces utilisateur. Nous pou-
vons voir dans la figure ci-dessous, offerte par Google trends, que React domine l’espace des
bibliothèques et des cadres de construction d’interfaces utilisateur. Au cours du temps, React
domine angular et vue.

Figure 5.1. React contre Angular et Vue

[18]

64
Chapitre 5. Réalisation

Au cœur de toute application React, sont les composants tel que un composant est essentiel-
lement un élément d’interface utilisateur. Ainsi, lorsque nous construisons des applications avec
React, nous construisons un ensemble de composants indépendants, isolés et réutilisables, puis
nous les rassemblons pour construire des interfaces utilisateur complexes. En termes de mise en
œuvre, un composant est typiquement implémenté comme une classe JavaScript.

MongoDB

MongoDB est un système de gestion de base de donnéesNO SQL (Not Only SQL).
La base de données MongoDB est orientée document. C’est à dire, les données sont organisés
en des collections de documents. Tel que, un document est simplement un fichier écrit au format
JSON, et converti pour être au format bson qui signifie JSON binaire, c’est-à-dire des zéros et
des uns que l’ordinateur peut compiler et comprendre.

FastAPI

FastAPI est un framework web Python, qui permet de créer rapidement des API de haute
performance.
Avant l’apparition de FastAPI, il y avait déjà plusieurs façons de créer des API avec Python.
En particulier avec Django Rest Framework et Flask. Alors pourquoi FastAPI ?
Nous énumérons ici les principaux avantages de FastAPI qui le distinguent et l’enrichissent
par rapport aux autres solutions (Django et Flask) :
• La rapidité : Ses performances sont bien meilleures que celles de Django et Flask.
• La rapidité de codage : FastAPI permet une Création des API 2 à 3 fois plus rapidement
que Django et Flask.
• La facilité de manipulation : Il est facile à apprendre et à manipuler, disposant d’une
documentation bien bien détaillée.
• La documentation automatique : FastAPI génère automatiquement la documentation au
format Swagger UI et ReDoc.

65
Chapitre 5. Réalisation

5.1.2 Relation entre les technologies : FARM stack

Ce que l’on entend par le mot stack, ou pile en français, c’est simplement un ensemble de
technologies que nous pouvons utiliser ensemble pour créer une application.
Le mot FARM est l’acronyme de FastApi, React et MongoDB, les quatre technologies clés
qui composent la pile.
Nous avons construit notre application en utilisant
• FastAPI comme serveur back-end.
• React comme client front-end.
• MongoDB comme serveur de base de données.

Figure 5.2. Technologies de la pile FARM stack

Le front-end (React) commence par envoyer des requêtes HTTP au back-end (FastAPI),
le back-end va récupérer toutes les données de la base de données dans MongoDB. MongoDB
va envoyer les données au serveur back-end (FastAPI) puis le serveur back-end utilisant la
technologie axios va envoyer sa réponse au front-end (React).

Figure 5.3. Relation entre les composants de la pile FARM stack

66
Chapitre 5. Réalisation

5.1.3 Bibliothèques

Le tableau 5.1 présente les bibliothèques utilisées tout au long du projet.

Cadre Nom
• Regex
• NLTK
Nettoyage des données
• SpaCy

• PyMongo
Gestionnaire de base de données

• SpaCy
• SpaCy NER
• SpaCy abbreciation detector
Normalisation de données
• Googletrans
• Regex

• Gensim
• Scikit-learn
Topic Modeling • GridSearch
• LDAviz

FARM stackFastaPI React

Déploiement Mongodb

Tableau 5.1. Outils utilisés

67
Chapitre 5. Réalisation

5.2 Déploiement

5.2.1 Coté FastAPI

Nous avons crée à l’aide de FastAPI les APIs suivantes :

1.• Ner Model creation

En Prenant en entrée les paramètres d’entraînement d’un modèle Named entity recogni-
tion (NER) :
• folds
• epochs
• dropout
Cette API nous permet de créer, évaluer et sélectionner le meilleur modèle NER qui sera
notre solution pour extraire des compétences à partir d’un corpus textuel : Si le modèle
créé avec les nouveaux paramètres saisis présente un meilleur F1-score que le modèle
actuel, nous écrasons ce dernier et nous considérons désormais le nouveau modèle NER.
La figure suivante montre l’interface de l’api.

Figure 5.4. Interface de l’api d’entrainement et de selection du meilleur modèle NER

2. Clean_and_extract_all_skills
L’API exécute d’abord le pipeline complet de nettoyage des profils, elle prend comme
paramètre le booléen update. En définissant update à True, l’api exécute la fonction
de détection des abréviations et effectue une mise à jour du dictionnaire qui fait corres-
pondre les abréviations à leurs formes longues. En revanche, si update est définie à False,
l’api utilise directement le dictionnaire d’abréviations déjà créé et stocké sur disque. Gé-
néralement, nous aurons besoin de faire cette mise à jour lorsque nous aurons un grand
nombre de nouveaux profils, susceptibles de contenir de nouvelles abréviations non ad-
mises par notre dictionnaire, afin d’enrichir davantage la normalisation des compétences.

68
Chapitre 5. Réalisation

Ensuite, l’API utilise le modèle NER créé par la première API, pour extraire les compé-
tences de tous les profils.
Enfin, cette api prend en charge le calcul de l’ancienneté et des années d’études de chaque
profil, ainsi que l’attribution des profils aux spécialités adéquates.
La figure suivante montre l’interface de l’API :

Figure 5.5. Api de normalisation et extraction des compétences

3. Recommandation
Cette API prend en paramètre l’url d’un profil donné, puis calcule la distance cosinus
entre ce profil et tous les autres profils de la base de données, en prenant en compte son
ancienneté ainsi que les scores qui lui sont attribués dans chaque spécialité. Une fois tous
les calculs effectués, l’API retourne en sortie les profils les plus proches (similaires) du
profil d’entrée.
La figure suivante montre l’interface de l’API :

Figure 5.6. Api de recommandation de profils similaires

69
Chapitre 5. Réalisation

5.2.2 Coté Front-end : React

Une fois nos API sont implémentés par le serveur back-end FastAPI, il nous reste à créer
une interface client front-end basée sur le framework React, et qui fera simplement appels aux
API présentés dans la section précédente.

5.2.2.1 Page de Login

Nous offrons une application sécurisée par un Login basé sur la reconnaissance faciale.

Figure 5.7. Login

5.2.2.2 Dashboard

Nous avons établi un tableau de bord interactif avec PowerBi, montré dans la Figure 5.8
qui inclut :
— Le nombre total des candidats seniors, Juniors et Confirmed.
— Une carte montrant la dispersion des profils de notre base de données dans le monde (la
carte montre que les données sont majoritairement répartis en Tunisie en première place
et en France en deuxième place.
— La distribution des spécialités sur les profils.
— La distribution des profils sur les entreprises.

70
Chapitre 5. Réalisation

Figure 5.8. Tableau de bord PowerBi

5.2.2.3 Affichage de la liste des profils

Cette page expose le profils de la base de données avec une option de recherche par nom de
candidat ainsi que deux options de filtrage :
— Filtrage par experience (Filter by seniority)
— Filtrage par spécialité (Filter by specialities)
En cliquant sur l’image du profil souhaité nous nous dirigeons vers son profil détaillé.

Figure 5.9. Liste des profils

71
Chapitre 5. Réalisation

5.2.2.4 Page profil détaillé

Dans cette page, nous affichons pour chaque candidat :

— Sa photo de profil de Linkedin , son nom et son ancienneté.

— Un lien qui redirige vers le son profil Linkedin.

— Toutes ses compétences extraites à partir des sections : compétences, descriptions des
expériences, et certifications.

— Un Graphique circulaire représentant la distribution de ses spécialités, selon leurs impor-

tances : Ce graphique circulaire est le résultat de l’apprentissage non supervisé réalisé par
NMF (l’information sur la spécialité a été déduite et non pas donnée au départ)

— La liste des six profils qui lui sont les plus similaires.

En cliquant sur une des images de la liste des profils similiares, nous nous dirigeons vers
son profile détaillé.

Figure 5.10. Exemple d’un profil détaillé d’un senior en Data science

72
Chapitre 5. Réalisation

Figure 5.11. Exemple d’un profil détaillé d’un senior dévelopeur Spring

Figure 5.12. Exemple d’un profil détaillé d’un senior dévelopeur Web

73
Chapitre 5. Réalisation

5.2.2.5 Outil de rapprochement des compétences

A travers cette page, nous mettons en évidence les résultats de l’étape de rapprochement
des compétences en normalisant la langue, les versions, en mappant les abréviations à leurs
formes longues, etc.
La figure ci dessous montre à gauche, la liste initiale des compétences saisies par l’utilisateur.
En cliquant sur le bouton ”Normalize”, la liste des compétences normalisées s’affiche à
droite.

Figure 5.13. Démonstration du rapprochement des compétences

— Cet outil a réussi à mapper les versions longues à leurs abréviations, de façon automa-
tique et instantanée. Par exemple, la compétence ”Traitement du language naturel” est
transformée en ”NLP”

— L’outil est capable d’éliminer toute version exemple : ”python3.9/3.7/3.8 et 2” est trans-
formée en ”python”

— ”adobe photoshop” et ”adobe illustrator” sont transformées en ”photoshop” et ”illus-

trator”

— L’outil comprend la différence entre les ponctuations de séparation et celles incluses dans
l’appellation des compétences. Par exemple, le symbole ’/’ dans pl/sql n’a pas été sup-
primé.

74
Chapitre 5. Réalisation

5.2.2.6 Correspondance offre d’emploi/profils

Cette page permet la suggestion des profils adéquat à une offre d’embauche. A gauche, le
recruteur insère la description du poste à pourvoir. Puis, en cliquant sur le bouton ”Find”, la
liste des profils recommandés s’affiche à droite.

Figure 5.14. Démonstration de la recommandation des profils adéquats à une offre d’embauche

Afin de vérifier ce résultat, nous avons consulté le profil Linkedin du premier candidat re-
commandé pour l’offre de travail dans le domaine data science.
La figure ci dessous montre que la candidate suggérée s’agit bien de data scientist.
Ainsi, nous pouvons confirmer l’efficacité de cet outil d’appariement qui fonctionnait de
manière non supervisée.

75
Chapitre 5. Réalisation

Remarque :

Bien que le profil de la Figure 5.15 précise la spécialité du candidat, cette information est
réellement facultative, c’est-à-dire que d’autres profils peuvent ne pas la mentionner et peuvent
même indiquer d’autres informations dans cette section comme leur âge ou leur entreprise ac-
tuelle. Pour cette raison, nous n’avons pas pu utiliser cette information sur la spécialité et nous
avons eu recours à l’apprentissage non supervisé pour parvenir à déduire cette information cor-
rectement même si elle n’est pas indiqué directement sur le profil, et nous pouvons confirmer
l’efficacité de ce traitement en analysant le graphique circulaire de la Figure5.16 qui est le
résultat de cet apprentissage non supervisé sur la spécialité et qui indique qu’effectivement, le
profil de la même candidate ”Salwa maatoug” est un profil spécialisé en Data science (couleur
rose)

Figure 5.15. Page Linkedin du premier profil suggéré à l’offre de data scientist

Figure 5.16. Page détaillée du premier candidat proposé au poste

76
Chapitre 5. Réalisation

Conclusion Générale

Les objectifs de ce stage au sein de WEVIOO ont été répartis en fonction de deux missions
principales.
La première mission s’agissait de réduire au maximum les redondances des compétences
tout en conservant le maximum d’information possible. La mise en œuvre de notre solution a
pu répondre à nos attentes tout d’abord du point de vue des performances obtenues, réduisant
les redondances à 90% et aussi du point de vue temps d’exécution.
La deuxième mission était la construction d’un système de recommandation qui sert à iden-
tifier les profils les plus adéquats à une offre d’embauche, et à trouver les profiles les plus simi-
laires à un profil donné. La mise en oeuvre de notre solution a pu répondre aux à notre objectif
qui est de faciliter les recherches de l’agent RH.
En ce qui concerne les différents modèles utilisés tout au long de ce projet , nous les avons
construits de manière à ce qu’ils puissent être réutilisés et améliorés, en fonction des change-
ments et de l’évolution des données et des besoins.
Ce stage a été globalement satisfaisant tant sur le plan professionnel que personnel. Il m’a
donné l’opportunité d’améliorer mes compétences en analyse de données textuelles et de me
familiariser avec les problèmes d’apprentissage non supervisé.
Bien que ce projet a répondu largement aux attentes sur lesquelles il a été fondé, il peut être
encore amélioré par :
— La détection des anomalies dans l’écriture des compétences, comme la détection des er-
reurs dans les frapes.
— Améliorer l’extraction des compétences en intégrant une fonctionnalité permettant de dif-
férencier automatiquement entre les hard skills et les soft skills.
— Travailler davantage sur le côté visuel de l’application

77
Bibliographie

[1] Wevioo | gitas. https://www.gitas.org/fr/membres/wevioo. (Accessed on

10/11/2022).

[2] Semma process model - gm-rkb. https://www.gabormelli.com/RKB/index.php?

title=SEMMA_Process_Model&mobileaction=toggle_view_desktop. (Accessed on
10/11/2022).

[3] Cross industry standard process for data mining — wikipédia. https://fr.wikipedia.
org/wiki/Cross_Industry_Standard_Process_for_Data_Mining. (Accessed on
10/11/2022).

[4] Topic modelling with lda -a hands-on introduction - analytics

vidhya. https://www.analyticsvidhya.com/blog/2021/07/
topic-modelling-with-lda-a-hands-on-introduction/. (Accessed on
10/11/2022).

[5] blei03a.dvi. https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf. (Ac-

cessed on 10/11/2022).

[6] (48) topic modelling | latent dirichlet allocation in python | lda in python - youtube. https:
//www.youtube.com/watch?v=be7Xd2Ntai8&t=117s. (Accessed on 10/11/2022).

[7] Allocation de dirichlet latente — wikipédia. https://fr.wikipedia.org/wiki/

Allocation_de_Dirichlet_latente. (Accessed on 10/11/2022).

[8] Factorisation matricielle non négative – acervo lima. https://fr.acervolima.com/

factorisation-matricielle-non-negative/. (Accessed on 10/11/2022).

[9] (48) be 175, lecture 7b : Non-negative matrix factorization - youtube. https://www.

youtube.com/watch?v=1_43nCptm44&t=773s. (Accessed on 10/11/2022).

[10] public.pdf. http://svn.aksw.org/papers/2015/WSDM_Topic_Evaluation/

public.pdf. (Accessed on 10/11/2022).

[11] Understanding topic coherence measures | by joão pedro | to-

wards data science. https://towardsdatascience.com/
understanding-topic-coherence-measures-4aa41339634c. (Accessed on
10/11/2022).

78
[12] Github - allenai/scispacy : A full spacy pipeline and models for scientific/biomedical do-
cuments. https://github.com/allenai/scispacy. (Accessed on 10/18/2022).

[13] A simple algorithm for identifying abbreviation definitions in biomedical text - pubmed.
https://pubmed.ncbi.nlm.nih.gov/12603049/. (Accessed on 10/18/2022).

[14] googletrans ∙ pypi. https://pypi.org/project/googletrans/. (Accessed on

10/18/2022).

[15] Label studio – open source data labeling | label studio. https://labelstud.io/. (Ac-
cessed on 10/13/2022).

[16] clustering – recherche google. https://www.google.nl/search?q=clustering&

tbm=isch&tbs=rimg:CRbo2tT0ffFrYWOj-g3dm_1jr8AEAsgIMCgIIABAAOgQIARAA&
hl=fr&sa=X&ved=0CBsQuIIBahcKEwjQhejVnY37AhUAAAAAHQAAAAAQCw&biw=1519&
bih=656#imgrc=r6vk-EGKEgIZ2M. (Accessed on 11/01/2022).

[17] A friendly introduction to text clustering | by korbinian koch

| towards data science. https://towardsdatascience.com/
a-friendly-introduction-to-text-clustering-fa996bcefd04. (Accessed
on 10/11/2022).

[18] Angular vs react vs vue : Stats about the battle of javascript tech-
nologies - agile actors #learning. https://learningactors.com/
angular-vs-react-vs-vue-stats-about-the-battle-of-javascript-technologies/.
(Accessed on 10/11/2022).

Vous aimerez peut-être aussi

PFE Aya Mami
Pas encore d'évaluation
PFE Aya Mami
103 pages
Dédicaces et Remerciements
Pas encore d'évaluation
Dédicaces et Remerciements
106 pages
Rapport PFE Chatti Roua
Pas encore d'évaluation
Rapport PFE Chatti Roua
137 pages
Rapport de PFE - Safa BENABDESSADOK
Pas encore d'évaluation
Rapport de PFE - Safa BENABDESSADOK
92 pages
RapportPFE Houyem
Pas encore d'évaluation
RapportPFE Houyem
79 pages
Rapport PFE ESPRIT Seifeddine ABIDI
Pas encore d'évaluation
Rapport PFE ESPRIT Seifeddine ABIDI
160 pages
PFE2024
Pas encore d'évaluation
PFE2024
86 pages
Fakhri - Hammami - Rapport - Pfe 2
Pas encore d'évaluation
Fakhri - Hammami - Rapport - Pfe 2
80 pages
Rapport-Pfe Sur Les Entrepôts de Données
Pas encore d'évaluation
Rapport-Pfe Sur Les Entrepôts de Données
71 pages
Projet de Fin D'etudes
Pas encore d'évaluation
Projet de Fin D'etudes
129 pages
Page Garde Rapport Stage (FR) 2
Pas encore d'évaluation
Page Garde Rapport Stage (FR) 2
165 pages
SAIDANI AnisPFE
Pas encore d'évaluation
SAIDANI AnisPFE
85 pages
Rapport PFE SAFA TELLI
Pas encore d'évaluation
Rapport PFE SAFA TELLI
77 pages
Sofrecom
Pas encore d'évaluation
Sofrecom
49 pages
Rapport Arij Yosra Workflow
Pas encore d'évaluation
Rapport Arij Yosra Workflow
90 pages
Application Web de Gestion des Factures
100% (1)
Application Web de Gestion des Factures
42 pages
Outil de Monitoring des Logs Colline-ui
Pas encore d'évaluation
Outil de Monitoring des Logs Colline-ui
68 pages
Analyse SaaS des Vulnérabilités IoT
Pas encore d'évaluation
Analyse SaaS des Vulnérabilités IoT
74 pages
Application Web de Quiz en Ligne
Pas encore d'évaluation
Application Web de Quiz en Ligne
85 pages
Rapportvf Jedhammii
Pas encore d'évaluation
Rapportvf Jedhammii
64 pages
Template Rapport ISTIC
Pas encore d'évaluation
Template Rapport ISTIC
20 pages
PFE-Mokhless 3
Pas encore d'évaluation
PFE-Mokhless 3
74 pages
Rapport PFE
Pas encore d'évaluation
Rapport PFE
116 pages
Rapport PFE V2
Pas encore d'évaluation
Rapport PFE V2
37 pages
SmartSpender: Gestion Financière Innovante en Tunisie
Pas encore d'évaluation
SmartSpender: Gestion Financière Innovante en Tunisie
35 pages
Rapport Stage Ete
0% (1)
Rapport Stage Ete
29 pages
Rapport Projet Fin D'Étude: Mise en Place D'Une Solution E-Commerce Medespoir Shop
Pas encore d'évaluation
Rapport Projet Fin D'Étude: Mise en Place D'Une Solution E-Commerce Medespoir Shop
86 pages
Rapport Final Talel
Pas encore d'évaluation
Rapport Final Talel
79 pages
Rapport Pfe Mobile
Pas encore d'évaluation
Rapport Pfe Mobile
56 pages
Rapport de Fin D'etude S.R
Pas encore d'évaluation
Rapport de Fin D'etude S.R
72 pages
Rapport PFE
Pas encore d'évaluation
Rapport PFE
46 pages
Rapport TP1 Node
Pas encore d'évaluation
Rapport TP1 Node
11 pages
Projets de Fin d'Études du Groupe 3S
Pas encore d'évaluation
Projets de Fin d'Études du Groupe 3S
26 pages
Pfe Islem Ryhem
Pas encore d'évaluation
Pfe Islem Ryhem
65 pages
DÃ©veloppement D'une Solution DÃ©cisionnelle de Suivi de L'activitã© Clientã Le de La Banque de Tunisie - STB
Pas encore d'évaluation
DÃ©veloppement D'une Solution DÃ©cisionnelle de Suivi de L'activitã© Clientã Le de La Banque de Tunisie - STB
88 pages
Développement d'une Web App Logistique
Pas encore d'évaluation
Développement d'une Web App Logistique
57 pages
Rapport de Stage14 PDF
Pas encore d'évaluation
Rapport de Stage14 PDF
50 pages
Pfe Esprit
Pas encore d'évaluation
Pfe Esprit
24 pages
Presentation Application Pfe
Pas encore d'évaluation
Presentation Application Pfe
29 pages
Conception Et Réalisation
Pas encore d'évaluation
Conception Et Réalisation
70 pages
Rapport PFE
Pas encore d'évaluation
Rapport PFE
38 pages
Rapport PFE Ibrahim CHAIBI
100% (1)
Rapport PFE Ibrahim CHAIBI
102 pages
Mémoire Version Final
100% (1)
Mémoire Version Final
118 pages
PFE Rapport v5
Pas encore d'évaluation
PFE Rapport v5
98 pages
UML: Gestion Clinique 2014/2015
100% (1)
UML: Gestion Clinique 2014/2015
16 pages
Sarra ZENNAKI
Pas encore d'évaluation
Sarra ZENNAKI
66 pages
Présentation PFE
Pas encore d'évaluation
Présentation PFE
26 pages
Rapport Pfe Nisrine Azzaim-2
Pas encore d'évaluation
Rapport Pfe Nisrine Azzaim-2
113 pages
Projet Fin Formation
Pas encore d'évaluation
Projet Fin Formation
27 pages
Rapport Pfe
Pas encore d'évaluation
Rapport Pfe
39 pages
Rapport PFE Model MR
Pas encore d'évaluation
Rapport PFE Model MR
110 pages
Développement de la plateforme HEALTH CHECK
Pas encore d'évaluation
Développement de la plateforme HEALTH CHECK
78 pages
PFE Ghada Karim-1-1
Pas encore d'évaluation
PFE Ghada Karim-1-1
59 pages
Rapport PFE:Conception Et Développement D'une Application Web Et Mobile de Livraison
100% (2)
Rapport PFE:Conception Et Développement D'une Application Web Et Mobile de Livraison
100 pages
Thème 1
Pas encore d'évaluation
Thème 1
8 pages
Ines-Ben-Dhaou - Rapport-de-stage-PFE - Final
Pas encore d'évaluation
Ines-Ben-Dhaou - Rapport-de-stage-PFE - Final
98 pages
Rapport2 Securite Groupe7
Pas encore d'évaluation
Rapport2 Securite Groupe7
47 pages
Rapport SaadeddineSaad
Pas encore d'évaluation
Rapport SaadeddineSaad
87 pages
Rapport Iheb
Pas encore d'évaluation
Rapport Iheb
103 pages
RapportPFEavaxia (Version Finale)
Pas encore d'évaluation
RapportPFEavaxia (Version Finale)
84 pages
Devis Descriptif Cimencam Figuil
Pas encore d'évaluation
Devis Descriptif Cimencam Figuil
27 pages
TP l3 Mécaflu
Pas encore d'évaluation
TP l3 Mécaflu
32 pages
Alliage 6005a Fra
Pas encore d'évaluation
Alliage 6005a Fra
1 page
Éseaux D Accès
Pas encore d'évaluation
Éseaux D Accès
165 pages
Maîtrisez votre séduction unique
Pas encore d'évaluation
Maîtrisez votre séduction unique
1 page
Taoki Pour Les Lecteurs Période 1
Pas encore d'évaluation
Taoki Pour Les Lecteurs Période 1
12 pages
Test D'aptitude Psychologique
Pas encore d'évaluation
Test D'aptitude Psychologique
40 pages
Diapason 22.07.24.festival de Saintes: Chemins de Lumière
Pas encore d'évaluation
Diapason 22.07.24.festival de Saintes: Chemins de Lumière
3 pages
DS N°4 Tspé 2024-2025 Chapitres 13 Et 07
Pas encore d'évaluation
DS N°4 Tspé 2024-2025 Chapitres 13 Et 07
4 pages
Releve Mars 1
Pas encore d'évaluation
Releve Mars 1
4 pages
Boulanger Lili Dans L'immense Tristesse
Pas encore d'évaluation
Boulanger Lili Dans L'immense Tristesse
10 pages
Botanique Expose Neba
Pas encore d'évaluation
Botanique Expose Neba
11 pages
Gestion des stocks : Calculs et stratégies
100% (3)
Gestion des stocks : Calculs et stratégies
2 pages
Devis Distribution TV SAT Budget
Pas encore d'évaluation
Devis Distribution TV SAT Budget
2 pages
Cours de P D - Séquence 10
Pas encore d'évaluation
Cours de P D - Séquence 10
9 pages
Hallux Valgus
Pas encore d'évaluation
Hallux Valgus
16 pages
2011 03 NelleCaledo Exo2 Sujet Americium 5 5points
Pas encore d'évaluation
2011 03 NelleCaledo Exo2 Sujet Americium 5 5points
2 pages
Guide complet sur le Bilan de Soins IDEL
Pas encore d'évaluation
Guide complet sur le Bilan de Soins IDEL
21 pages
Oxygène médical et COVID-19 en Afrique
Pas encore d'évaluation
Oxygène médical et COVID-19 en Afrique
4 pages
1 - 1 - ENONCES Evaluation PSEJ 2022 - Module GESTION COMPTABLE ET FINANCIERE PDF
100% (1)
1 - 1 - ENONCES Evaluation PSEJ 2022 - Module GESTION COMPTABLE ET FINANCIERE PDF
2 pages
Différences entre métonymie et synecdoque
Pas encore d'évaluation
Différences entre métonymie et synecdoque
4 pages
Chroniques Tizi-Ouziennes (1844-1914)
Pas encore d'évaluation
Chroniques Tizi-Ouziennes (1844-1914)
2 pages
FTDNA Comprendre Les Résultats de Mon Test ADN Y12
Pas encore d'évaluation
FTDNA Comprendre Les Résultats de Mon Test ADN Y12
5 pages
Planification Et Ordonnancement
Pas encore d'évaluation
Planification Et Ordonnancement
49 pages
Publication
100% (1)
Publication
325 pages
Histoire de la voiture électrique
Pas encore d'évaluation
Histoire de la voiture électrique
46 pages
Analyse Swot
Pas encore d'évaluation
Analyse Swot
6 pages
Standardisation et Performance
Pas encore d'évaluation
Standardisation et Performance
1 page
Les Principales Méthodes de Gestion de La Maintenance Industrielle
Pas encore d'évaluation
Les Principales Méthodes de Gestion de La Maintenance Industrielle
5 pages
Devoirs de Niveau 3ème S.V.T
Pas encore d'évaluation
Devoirs de Niveau 3ème S.V.T
4 pages