Projet Python Powerbi
Projet Python Powerbi
Réalisé par
BOUAFIA LOBNA
Encadré par
Mme. Grati Lilia
Je dédie ce moment spécial à toute ma famille, à mes oncles, mes tantes, mes cousins et
cousines, qui ont été une source de soutien, de joie et d'inspiration tout au long de ma vie. Votre
amour inconditionnel et votre présence ont enrichi chaque étape de mon parcours.
Bouafia Lobna
Remerciements
Je tiens, au terme de ce travail, à exprimer mes remerciements à toute personne qui a contribué,
de près ou de loin, à son bon déroulement.
Je tiens à exprimer ma profonde gratitude envers mon encadrante Mme Grati Lilia pour son
soutien infaillible et ses encouragements constants tout au long de mon projet de fin d'études.
Votre expertise, votre patience et vos conseils avisés ont été des atouts précieux qui ont
contribué à la réussite de ce travail. Merci pour votre engagement et votre dévouement à chaque
étape de ce parcours académique.
Je tiens à exprimer ma gratitude envers toute l’équipe de l’entreprise pour m'avoir aidé à mieux
comprendre le fonctionnement de l’organisme. Je les remercie également pour l’ambiance
formidable et la bonne humeur qui ont marqué toute la durée de mon stage. Merci à tous pour
cette expérience enrichissante.
Enfin, je tiens à exprimer toute ma reconnaissance et ma gratitude envers les membres du jury
pour l’honneur qu’ils m'ont fait en acceptant d’examiner et d’évaluer ma contribution.
BI Business Intelligence
DMT Datamart
RH Ressources Humaines
1
Nous vivons à l’ère où la progression technologique a révolutionné notre vie quotidienne,
notamment dans le monde des affaires. Les entreprises bénéficient désormais d'outils et de
stratégies basés sur les données, permettant une compréhension approfondie de leurs clients et
de leurs propres opérations. Ainsi, l'informatique décisionnelle (BI) devient cruciale pour le
succès et la durabilité des entreprises, offrant aux décideurs des informations précieuses pour
prendre des décisions éclairées.
Dans ce contexte, "NUTRISUD", une entreprise spécialisée dans la fabrication de prémélanges
et d'aliments pour la nutrition animale en Tunisie, souhaite améliorer ses services en ajoutant
un module BI. Cette initiative vise à fournir des informations précises, pertinentes et en temps
réel pour soutenir la prise de décision. En facilitant l'accès aux données et aux analyses, la BI
permettra à « NUTRISUD » d'optimiser ses opérations et d'accroître son efficacité, ce qui se
traduira par des économies de temps et d'argent.
L'objectif de notre projet, intitulé "Conception et développement d’une application BI pour la
gestion des ressources humaines ", est de mener une analyse approfondie des données de cette
société afin de fournir des outils pour générer des rapports et des tableaux de bord interactifs.
Ces visualisations permettront aux utilisateurs de comprendre rapidement les informations clés
et les indicateurs de performance pertinents pour leur activité.
Le présent rapport s’articule autour des chapitres suivants :
• Dans le premier chapitre, "Cadre général du projet", nous nous concentrons sur la
présentation de l'organisme d'accueil ainsi que sur le contexte global du projet. Après une
étude et une critique de l'existant qui nous aidera à proposer une solution appropriée, nous
exposons la méthodologie de gestion de projet sélectionnée.
• Le deuxième chapitre, appelé "Phase de préparation et outils techniques", nous
commençons par la définition de la notion de l’informatique décisionnelle, ainsi qu'une
étude comparative des approches de conception du Data Warehouse (DWS).
Puis, nous mettons l’accent sur les outils et les logiciels que nous avons utilisé après une
étude détaillée de plusieurs exemples.
• Le troisième chapitre, "Conception et analyse spécifique des besoins", nous commençons
par l'analyse des besoins fonctionnels et non fonctionnels, nous exposons le schéma global
de conception puis nous exposons les indicateurs clés de performance.
• Le quatrième chapitre, nommé "Préparation des données", décrit les étapes nécessaires pour
extraire, transformer et charger les données dans l'entrepôt de données.
• Enfin, le cinquième chapitre, intitulé "Création des tableaux de bord", met l'accent sur la
visualisation des données à travers des tableaux de bord interactifs, cruciaux pour la prise
de décision.
Nous clôturons ce rapport en récapitulant le travail réalisé et ses apports pour l’entreprise et
pour nos compétences professionnelles et personnelles
2
Chapitre 1 : Cadre général du projet
3
Introduction
Dans ce premier chapitre, nous allons présenter en premier notre organisme d’accueil
‘NUTRISUD’. Ensuite, nous allons entamer la description générale de notre projet et ceci en
détaillant l’étude de l’existant, la critique de l’existant ce qui nous permettra de définir notre
solution proposée. Ce chapitre sera clôturé par la présentation de la méthodologie choisie et la
planification prévisionnelle du projet.
Ce travail fait partie de notre projet de fin d'études pour l'obtention d'un diplôme de licence
en informatique de gestion, spécialité Business Intelligence, à l'Institut Supérieur
d’Administration des Affaires de Sfax (ISAAS). D'une durée de trois mois au sein de la société
NUTRISUD, il vise à y mettre en place une solution décisionnelle.
Le groupe Alfa, fondé à l'initiative de M. Hatem Chaabouni, s'est développé dans le domaine
de l'industrie avicole et alimentaire en Tunisie. NUTRISUD, créée en 1995, se spécialise dans
la fabrication d'aliments composés pour animaux et opère en tant que société mère du groupe.
Au fil des années, le groupe s'est étendu à travers des acquisitions et des créations d'entreprises,
renforçant ainsi sa présence sur le marché.
4
Figure 2: organigramme du groupe Alfa
1.4 Problématique
L'absence d'un outil BI impacte négativement la capacité de NUTRISUD à traiter
efficacement les données relatives à ses employés.
Pour améliorer la satisfaction et la fidélisation de ces derniers, ainsi que pour prendre des
décisions éclairées en matière de ressources humaines, NUTRISUD envisage d'intégrer la BI
dans sa solution. La question clé est donc :
"Comment segmenter les données des employés pour améliorer la productivité et le suivi du
personnel ?"
1.5 Analyse de l’existant
1.5.1 Etude de l’existant
Les services des ressources humaines de l'entreprise gèrent divers aspects administratifs et
sociaux du personnel, mais font face à des défis dans la gestion et l'analyse des données. Ils ont
besoin d'indicateurs pour évaluer la performance sociale de l'entreprise et prendre des décisions
informées en matière de gestion des ressources humaines.
5
1.5.2 Critique de l’existant
La société dispose d'une base de données centrale, mais la diversité des sources de données rend
difficile l'organisation et la structuration efficaces des informations. La fiabilité des données est
également cruciale, tout comme la complexité de la structure de la base de données, qui peut
rendre l'accès aux informations difficile. De plus, la représentation des données historiques pose
des défis supplémentaires en termes de traçabilité et de visualisation.
1.6 Solution proposée
Pour remédier aux problèmes identifiés dans la critique de l'existant, NUTRISUD envisage de
mettre en place une solution BI (Business Intelligence) pour la gestion des ressources humaines.
Cette solution consistera en la création d'un système centralisé permettant une vision globale
des données, facilitant ainsi la génération de rapports. Elle comprendra des outils pour la
collecte, l'analyse et la visualisation des données provenant de diverses sources.
Les avantages attendus de cette solution sont la surveillance en temps réel des performances et
des tendances des employés, la génération de rapports et de tableaux de bord pour des décisions
éclairées, ainsi que la mise en place d'alertes pour détecter les problèmes potentiels. Cela
favorisera également la collaboration entre les départements, améliorant ainsi l'efficacité et les
résultats globaux de l'entreprise.
Les objectifs de cette solution sont les suivants :
• Mise en place d'un entrepôt de données centralisé, intégré, non volatile et historisé.
• Offrir une vision globale de toutes les informations de l'activité, permettant la génération
de rapports par tous les utilisateurs, quel que soit leur niveau de compétence en
informatique.
1.7 Méthodologie de la gestion du projet
La gestion de projet a pour objectif d’assurer la coordination entre les acteurs et les tâches.
Avant de commencer la réalisation de notre projet, nous allons traiter et évaluer d’abord le choix
de la méthode de gestion de projet à suivre.
1.7.1 Choix de la méthode
Pour réussir un projet décisionnel dans les délais définis en répondant exactement aux exigences
du client, nous devons suivre la méthode la plus adéquate avec notre projet. Il existe plusieurs
méthodes de gestion de projet répandues de nos jours. Nous allons nous focaliser
principalement sur les deux méthodes « GIMSI » et « SCRUM BI ». Nous étudierons chacune
de ces méthodes afin de pouvoir dégager une fiche comparative qui va nous aider à choisir la
méthode la plus appropriée pour notre projet
1.7.2 La méthode classique GIMSI
« Gimsi » est une méthode coopérative de conception de systèmes d'aide à la décision et plus
précisément d'assistance au pilotage par tableaux de bord.
Structurée en 10 étapes successives, elle s'inscrit dans un mode management moderne fondé
6
sur de solides principes de gouvernance et de développement durable. La méthode privilégie la
coopération et le partage de la connaissance (1)
7
• L’équipe : une équipe Scrum est une équipe multidisciplinaire composée de moins d’une
dizaine de membres.
➢ Les événements scrum :
• La phase de démarrage : La phase de démarrage appelée également Sprint 0 permet de
laisser le temps aux travaux préparatoires au projet.
• Réunion de planification du sprint : Le Product Owner dont faire le bilan avec l’équipe
sur la vision du produit, les dates de livraisons, l’objectif du sprint.
• Réalisation du sprint : Quotidiennement une réunion d’une quinzaine de minutes
maximum doit avoir lieu devant le tableau des tâches afin que chacun puisse faire le
bilan.
➢ Rétrospective du sprint : L’objectif de la revue de sprint est d’inspecter l’incrément
produit au cours du sprint écoulé, faire un point sur l’avancement de la release et adapter
au besoin (3).
8
1.7.4 Scrum BI VS GIMSI
Nous avons choisi la méthodologie GIMSI, qui se révèle parfaitement adaptée à la gestion
de projets en Business Intelligence et répond efficacement à nos besoins et objectifs pour ce
projet. Cette méthode nous guide tout au long du développement et de la mise en place du
système de tableau de bord d'entreprise. En suivant les différentes phases recommandées par
cette approche, notre objectif est de créer un tableau de bord aligné sur notre stratégie, tout en
laissant une marge de manœuvre aux décideurs locaux lors de la mise en œuvre des stratégies
globales.
Conclusion
Dans ce premier chapitre, nous avons initié notre rapport en présentant notre organisme
d'accueil ainsi que notre mission. En analysant le système actuel de l'entreprise, nous avons
identifié plusieurs lacunes, ce qui a renforcé notre compréhension des besoins et nous a permis
de définir notre solution proposée. Ensuite, nous avons examiné diverses approches et
méthodologies dans le domaine de la Business Intelligence afin de sélectionner celle qui
convient le mieux à notre projet. Ce chapitre constitue une base solide pour la suite de notre
étude, où nous mettrons en œuvre notre solution en suivant la méthodologie choisie.
9
2 Chapitre2 : Phase Préparatoire et Outils
Techniques
10
Introduction
11
2.1.3 Les étapes du processus de l’informatique décisionnelle
Un Système d'Information Décisionnel (SID) assure quatre fonctions qui sont : la collecte,
l'intégration, la diffusion et la restitution des données. Le principe de fonctionnement d’un
SID peut être résumé par le schéma suivant (6) :
12
➢ Data warehouse : Un Data warehouse (ou entrepôt de données en français), est un
système informatique qui permet de stocker et d'analyser de grandes quantités de
données provenant de différentes sources. Les données sont généralement structurées,
c'est-à-dire qu'elles sont organisées selon un schéma prédéfini pour faciliter leur
analyse.
Le but d'un Data Warehouse est de fournir une vue globale et consolidée des données pour aider
les décideurs à prendre des décisions éclairées. Les données stockées dans un Data Warehouse
sont généralement historiques et peuvent remonter sur plusieurs années.
Pour construire un Data Warehouse, il est nécessaire d'extraire, de transformer et de
charger les données provenant de différentes sources. Les données sont ensuite nettoyées et
organisées en fonction d'un modèle de données spécifique. Les utilisateurs peuvent ensuite
interroger le Data Warehouse à l'aide d'outils de requête et de visualisation pour obtenir des
informations pertinentes sur les activités de l'entreprise (7)
➢ Un Data Mart : peut être appelé un sous-ensemble d’un Data Warehouse ou d’un
sous-groupe de données d’entreprise correspondant à un certain ensemble
d’utilisateurs. Data Warehouse implique plusieurs Data Mart logiques qui doivent
être persistants dans leur illustration de données pour garantir la robustesse d’un Data
Warehouse. Un Data Mart est un ensemble de tables qui se concentrent sur une seule
tâche. Elles sont conçues selon une approche ascendante (8).
13
2.1.3.4 La phase restitution
La dernière phase concerne la restitution des résultats. On distingue à ce niveau plusieurs
types d’outils différents :
• Les outils de reporting et de requêtes
• Les outils d’analyse
• La phase de Datamining
Les outils de reporting et de requêtes permettent la mise à disposition de rapports périodiques,
pré-formatés et paramétrables par les opérationnels. Ils offrent une couche d’abstraction
orientée métier pour faciliter la création de rapports par les utilisateurs eux-mêmes en
interrogeant le datawarehouse grâce à des analyses croisées. Ils permettent également la
production de tableaux de bord avec des indicateurs de haut niveau pour les managers,
synthétisant différents critères de performance.
14
Figure 7: Explication de l'architecture de base de l'entrepôt de données Kimball
L’approche Top-Down a été conçue par Bill Inmon, le père de l'entrepôt de données
pendant les années 70. Bill Inmon crée une source unique de vérité pour l'ensemble de
l'entreprise. Le chargement des données devient moins complexe en raison de la structure
normalisée du modèle. Cependant, l'utilisation de cette disposition pour l'interrogation est
difficile car elle comprend de nombreux tableaux et liens.
Cette méthodologie d'entrepôt de données Inmon propose de construire des magasins de
données séparément pour chaque division, comme la finance, le marketing, les ventes, etc.
Toutes les données entrant dans l'entrepôt de données sont intégrées. L'entrepôt de données agit
comme une source de données unique pour divers magasins de données afin de garantir
l'intégrité et la cohérence dans l'ensemble de l'entreprise (9)
15
Figure 8:Explication de l'architecture d'entreposage de données de base de Bill Inmon
Tableau 2:Etude comparative entre les deux approches Tow-Down de Inmon et Bottom-Up de
Kimball
Suite à cette étude comparative, nous avons fini par choisir Kimball comme étant l’approche la
plus appropriée, car elle assure un gain de temps important de plus le niveau de difficulté est
16
acceptable en dépit de nos données et enfin elle permet de répondre aux critères de ce projet
d’une façon optimale.
• Python : Le langage de programmation Python est l’un des plus utilisés pour la Data
Science et l’analyse de données. Il s’avère très pratique pour effectuer des tâches
complexes liées à la transformation de données, la visualisation, le Machine Learning
ou l’intelligence artificielle (10).
• SSIS : SQL Server Intégration Services est une plateforme qui permet de générer des
solutions de transformation et d’intégration de données au niveau de l’entreprise.
Utilisez les services d’intégration pour résoudre des problèmes métier complexes (11).
17
• Talend Open Studio : Talend Studio for Data Intégration est un outil permettant la
gestion des données hétérogènes ou homogènes au sein d'un système d'information
(12).
18
Tableau 3: Etude comparative entre les Outils de ETL
19
2.3.2 Choix d’outils ETL
Nous avons choisi Python comme principal outil pour notre projet ETL est une décision
judicieuse. Sa polyvalence, sa facilité d'apprentissage, sa forte communauté de développeurs et
son intégration avec d'autres technologies en font un choix idéal. Avec Python, nous bénéficions
d'une flexibilité maximale pour mettre en œuvre des workflows ETL complexes tout en assurant
une compatibilité avec diverses sources de données et systèmes existants.
• QlikView : est un outil de visualisation de données qui permet de convertir des données
en informations. Grâce à cet outil, les utilisateurs peuvent regrouper, rechercher,
analyser et visualiser leurs rapports et tableaux de bord.
20
Figure 14: Logo tableau
21
2.3.4 Choix d’outils de visualisations
Après une analyse comparative, Power BI émerge comme le choix optimal pour plusieurs
raisons clés. Tout d'abord, son intégration transparente avec l'écosystème Microsoft offre une
expérience utilisateur fluide, surtout pour ceux déjà familiers avec ces outils. De plus, sa facilité
d'utilisation, avec une interface intuitive et des fonctionnalités de glisser-déposer, permet une
création rapide de visualisations percutantes
Nous avons choisi PostgreSQL comme base de données pour accompagner Python et Power
BI dans notre projet. Cette décision est stratégique, car PostgreSQL offre une robustesse, une
évolutivité et une compatibilité SQL complètes, garantissant ainsi la sécurité et l'intégrité de
nos données. L'intégration fluide de PostgreSQL avec Python nous permet une manipulation et
une analyse efficaces des données, tandis que Power BI peut se connecter facilement à
PostgreSQL pour créer des visualisations dynamiques et informatives. Ensemble, ces trois
technologies forment une combinaison puissante pour répondre aux besoins de notre projet
d'analyse de données, offrant à la fois des capacités de stockage solides et des outils avancés de
traitement et de visualisation.
Conclusion
Dans ce chapitre, nous avons présenté les notions d’intégration des données ou l’ETL, le Data
Warehousing ainsi que le Data Marts. Ensuite, nous avons étudié les approches et les modèles
de conception d’un Data Warehouse. Finalement, nous avons étudié les outils techniques à
utiliser pour l’intégration des données et le Dashboarding.
Dans le chapitre suivant, nous allons définir les besoin fonctionnel et non fonctionnel, Analyser
les besoins et identifier les indicateurs de performances.
22
3 Chapitre 3 : Conception, Analyse et spécification
des besoins
23
Introduction
Dans ce chapitre nous entamons notre travail en définissant les exigences fonctionnelles
et non fonctionnelles de notre système décisionnel afin de favoriser une conception claire et
précise. Ensuite, nous nous penchons sur les détails de la conception de l’entrepôt de données,
en créant une structure solide et cohérente pour stocker et organiser les données. Enfin, nous
identifions les différents indicateurs de performance.
Nous présentons dans cette section les exigences fonctionnelles et non fonctionnelles.
24
✓ Maintenance : L'application doit être facile à maintenir et garantir la rapidité du
processus, se rapprochant ainsi autant que possible du temps réel.
Dans cette section, nous procédons à une analyse globale en utilisant un diagramme
de cas d’utilisation pour décrire les principales fonctionnalités accessibles aux acteurs. Nous
avons choisi d’utiliser le langage de modélisation UML (Unified Modeling Language) en raison
de sa polyvalence et de sa flexibilité. La figure17 présente un diagramme de cas d’utilisation
général, offrant une représentation claire et structurée des relations entre les acteurs et les cas
d’utilisation.
25
Figure 16:Diagramme de cas d’utilisation
Grâce à cette analyse globale, nous pouvons construire une base solide lors du développement
et de la conception du projet.
26
préparation de l’entrepôt données, nous commencerons par présenter la table des faits, puis les
dimensions, afin d’obtenir une modélisation qui répond de manière adéquate aux exigences de
l’entreprise.
• Fait : C’est la table centrale du modèle dimensionnel, elle contient des mesures et des clés des
dimensions définis pour garantir le lien entre elles. Autrement dit, tout ce que vous voulez
analyser
• Dimensions : Les dimensions permettent d’analyser les données de faits en fournissant un
cadre pour une analyse détaillée et pertinente, chaque dimension comporte un ou plusieurs
attributs.
3.3.1 Étude du modèle conceptuel
➢ Modèle en étoile :
La modélisation en étoile est le modèle le plus simple et celui qui est le plus couramment utilisé
dans le design des Data Warehouses. Le schéma ci-dessus permet de comprendre l’origine de
cette appellation « en étoile ».
27
Figure 18:exemple d’un modèle en flocons de neige
Le schéma en flocons de neige offre une plus grande flexibilité dans les données, réduit le
volume et simplifie la maintenance des tables de dimensions. Cependant, il peut nécessiter
plusieurs jointures pour accéder aux données souhaitées et la navigation peut être plus difficile.
➢ Modèle en constellations
Le modèle en constellation est une méthode de conception pour les entrepôts de données
qui combine plusieurs modèles en étoile en utilisant des tables de faits partagées. Cette méthode
est particulièrement utile lorsque les données doivent être analysées à partir de différents points
de vue et que des tables de faits partagées peuvent être utilisées pour connecter les différents
modèles en étoile.
Le modèle en constellation permet une grande flexibilité dans l'analyse des données et permet
de répondre à des besoins d'analyse complexes en reliant des modèles en étoile différents.
Cependant, cette méthode peut également entraîner une complexité accrue en raison du nombre
de tables et de jointures nécessaires.
Le modèle en constellation offre une meilleure gestion des données, mais peut être complexe
en raison du grand nombre de tables et de jointures nécessaires. Malgré cela, nous avons choisi
28
ce modèle pour notre projet en raison de la complexité de nos requêtes et du nombre important
de tables de faits partageant plusieurs dimensions.
29
3.3.3.1 Identification des tables de faits
Une table de faits est une structure centrale qui stocke les données quantitatives et
contextuelles importantes, souvent liées à des événements ou des transactions, et est
généralement entourée de tables de dimensions pour permettre une analyse
multidimensionnelle des données.
30
Tableau 5:Table de fait
Ces tables de dimension fournissent un contexte autour des mesures principales dans
la table de faits, ce qui permet d'analyser les données selon différents attributs et dimensions.
31
➢ Dimension Employé
32
Tableau 7: les champs de la table Employé
➢ Dimension Contrat
1.
Figure 23: Dimension Contrat
33
Tableau 3-8: les champs de la table Contrat
➢ Dimension Temps
Un indicateur clé de performance (KPI) est une mesure quantitative essentielle qui
permet de contrôler et de gérer une activité, de prouver l'efficacité avec laquelle une entreprise
atteint ses objectifs clés, et de prendre des décisions stratégiques éclairées. Nous avons identifié
ces indicateurs lors de la phase de capture des besoins exprimés par la NUTRISUD.
34
Tableau 10:indicateurs de performances
Conclusion
35
4 Chapitre 4 : Préparation des Données
36
Introduction
Dans le cadre de ce chapitre, nous continuons notre travail dans le processus complet de
mise en œuvre d'un système d'analyse de données, depuis l'extraction initiale des données
jusqu'à leur visualisation dynamique. Notre objectif est de fournir une compréhension
approfondie et accessible de cette démarche, en mettant en lumière les pratiques de Business
Intelligence (BI) qui sous-tendent chaque étape.
4.1 Objectifs
L'objectif de notre travail ETL dans le domaine des ressources humaines est de
permettre l'analyse des données des employés pour parvenir à une segmentation des effectifs.
En effet, la segmentation des effectifs est un processus crucial pour comprendre les différents
groupes d'employés au sein de l'entreprise, leurs compétences, leurs besoins en formation et
leur potentiel de développement professionnel. Grâce à une architecture ETL robuste, nous
collectons, transformons et chargeons les données des employés dans une base de données
adaptée. Nous veillons à nettoyer et normaliser les données pour garantir leur qualité et leur
pertinence. En utilisant des techniques d'analyse de données, nous identifions ensuite les
différents segments d'employés et leurs caractéristiques clés.
Ce travail ETL nous permet de fournir des données fiables et précises pour soutenir la
segmentation des effectifs, aidant ainsi l'entreprise à adapter sa stratégie de gestion des
ressources humaines, à proposer des programmes de développement et de rétention ciblés, et à
favoriser l'épanouissement professionnel de chaque groupe d'employés. Ce processus jouera un
rôle essentiel dans la réalisation de l'objectif de segmentation des effectifs, qui est crucial pour
favoriser l'engagement des employés, renforcer la culture d'entreprise et soutenir la croissance
et la réussite globale de l'organisation.
37
4.2.1 Phase d’Extraction
Dans le processus d'extraction des données, nous avons utilisé Python pour récupérer les
informations essentielles contenues dans les fichiers Excel RH de la société Nutrisud. Voici une
description détaillée de cette étape
4.2.1.1 Identification des sources de données :
Lorsque nous abordons le fichier Excel concernant les ressources humaines (RH) de la
société Nutrisud sans avoir de préalable connaissance sur ce domaine spécifique, nous sommes
confrontés à un défi particulier. Le domaine des ressources humaines est vaste et complexe,
impliquant une multitude de données variées et souvent interconnectées. Sans avoir une idée
claire de la structure et du contenu de ce fichier, il devient essentiel de procéder avec méthode
et stratégie pour en extraire des informations significatives.
Nous devons alors adopter une approche exploratoire, en examinant attentivement les
différentes feuilles de calcul, les colonnes, les en-têtes et les valeurs pour identifier des schémas
et des tendances éventuelles. Il est probable que le fichier contienne des informations telles que
les effectifs, les postes, les salaires, les formations, les performances, etc. Nous pouvons
également rencontrer des termes et des acronymes spécifiques au domaine des RH, nécessitant
une recherche supplémentaire pour les comprendre correctement. En somme, bien que nous
n'ayons pas d'idée préconçue sur le contenu du fichier RH de Nutrisud, notre approche
méthodique et notre capacité à explorer et à interpréter les données nous permettront d'en tirer
des insights précieux pour notre analyse.
38
Tableau 11:Table EMPCTR de la source
39
Tableau 12: Table EMPLOID de la source
40
Tableau 13: Table HISTOPAYE
41
42
Tableau 14: Table EMPLOCTR
43
Tableau 15: Table SERVICE
44
4.2.1.3 Importation des données :
Nous avons utilisé la fonction read_excel() de Pandas pour charger les données à partir des
fichiers Excel dans des DataFrames, une structure de données tabulaire puissante et flexible.
Après le changement de fichier Excel source, nous avons opté pour encoding='latin1' et
delimiter=';' lors de l'importation des données avec Pandas. Cela a permis de traiter les
caractères spéciaux correctement et de séparer précisément les valeurs en colonnes distinctes.
Cette approche garantit une importation précise des données, assurant ainsi la qualité et
l'intégrité de notre analyse
45
Figure 27:Identification des types de données erronées dans les sources
46
4.2.2.1 Conversion des types de données :
• Nous avons converti les types de données selon les besoins de l'analyse. Par exemple,
nous avons converti les dates au format objet, en objets datetime pour faciliter la
manipulation et l'analyse temporelle.
47
4.2.2.3 Nettoyage des données :
• Nous avons nettoyé les données en identifiant et en corrigeant les erreurs, les
valeurs aberrantes et les doublons pour garantir la qualité et la cohérence des
données.
48
Figure 33:Création de nouvelles variables
4.2.2.8 Structuration des Données : Tables de Mesure et Tables de Faits pour une Analyse
Efficace
Après avoir appliqué les transformations nécessaires aux données extraites du fichier Excel RH
de Nutrisud, nous avons procédé à la création de deux types de DataFrames distincts : les tables
de mesure et les tables de faits. Cette distinction nous permet d'organiser les données de manière
49
à faciliter le chargement dans la base de données et à préparer l'environnement pour l'analyse
ultérieure.
Les tables de mesure contiennent des données descriptives et statiques qui fournissent des
informations sur les entités de l'entreprise, telles que les employés et les Contrats, etc. Ces tables
agissent comme des points de référence pour les analyses futures et sont souvent utilisées pour
filtrer, agréger ou segmenter les données lors de la création de rapports ou de visualisations.
D'autre part, les tables de faits contiennent des mesures numériques ou quantitatives qui
représentent les événements ou les transactions de l'entreprise, tels que les salaires nets, brut
des employés, les heures travaillées etc. Ces tables servent de base pour les analyses analytiques
et les rapports de performance, où les mesures sont agrégées et comparées selon différents
critères.
En organisant les données de cette manière, nous créons une structure cohérente et bien définie
qui facilite le chargement des données dans la base de données PostgreSQL. De plus, cette
approche nous permet de mieux comprendre la nature des données et de préparer efficacement
l'environnement pour l'analyse ultérieure.
50
Figure 37:Dimension Employées après le traitement
51
Figure 39: Table de fait Fact_RH après le traitement
52
4.2.3.2 Connexion à la base de données :
Une fois la structure de la base de données prête, nous établissons une connexion à la base
de données PostgreSQL à l'aide d'outils tels que Psycopg2 ou S en Python. Cela nous permet
d'interagir avec la base de données et d'exécuter des requêtes SQL pour charger les données.
53
Figure 43: Chargement de dimension Contrat dans PostgreSQL
54
4.2.3.5 Fermeture de la connexion :
Enfin, une fois le chargement des données terminé, nous fermons la connexion à la base de
données en utilisant la méthode close () de l'objet connexion.
55
5 Chapitre 5 : Création des Tableaux de Bords
56
Introduction
Après avoir transformé les données brutes en des données exploitables, nous nous
intéressons, dans cette phase, à la conception et le développement des tableaux de bord.
La finalité de créer des tableaux de bord interactif a pour objectif la prise des décisions
stratégiques par le biais des indicateurs de performances.
Arrivant à ce niveau, les données sont filtrées et transformées et il est le temps pour
les exploiter dans ce processus. Nous avons opté pour l’outil Microsoft Power BI après l’étude
de plusieurs outils de visualisation de données (voir chapitre 2). Ce logiciel permet la création
des rapports et des tableaux de bord interactifs, efficaces et faciles à interpréter. Nous
commençons, comme décrit dans la figure (48), par établir une connexion entre Microsoft
Power BI et notre base de données PostgreSQL pour obtenir les données exploitables :
57
Figure 48: Sélection du type de Base de données dans power BI.
Ensuite, nous devons saisir le nom du serveur et le nom de la base de donner, indiqué
dans la figure (49).
58
Figure 49: Connexion au serveur de base de données
Nous remarquons dans la même fenêtre (figure (49)), l’existence de deux modes de connectivité
des données :
• Import (Importation des données)
• DirectQuery (Connexion directe)
L’option « Import » nous permet d’importer une copie des données existantes dans notre
base de données. Le traitement ne sera pas appliqué directement sur la base de données source.
L’avantage de cette option est la rapidité des requêtes appliquées et la possibilité d’importer
des données via plusieurs sources. Par contre, l’option « DirectQuery » nous permet d’exploiter
les données directement et en temps réel à partir de leur source. Dans le cas où nous aurons
besoin d’importer des données à partir de plus qu’une source, cette option ne sera pas utile.
➢ Nous choisissons de travailler avec l’option « Import » pour garantir une meilleure
performance.
Une fois la connexion établie, nous atteignons l’étape où nous sommes confrontés à nos
données. À ce stade, nous pouvons sélectionner les données spécifiques que nous souhaitons
importer et utiliser dans Power BI comme illustre la figure (50).
59
Figure 50: Sélection des dimensions et table de fait à importer
En suivant ces étapes, nous pouvons importer avec succès les données dans Power BI et passer
à la visualisation et à l’analyse des données.
Une fois que toutes les tables de faits et les tables de dimensions ont été créées, l’usager doit
maintenant les « faire parler » entre elles. Pour cela, il créera des relations entre les champs
avec des clés communes, en respectant certaines conventions. Il pourra également bonifier son
modèle par le biais de mesures, créées en Langage DAX (Data Analysis Expression).
60
Figure 51: Schéma du Data Warehouse importé dans Microsoft Power BI
Une fois les données obtenues, nous passons à la création des rapports. Power BI
propose une large gamme de graphiques que nous pouvons utiliser dans ces rapports. De plus,
dans le but d’améliorer les analyses, il offre la possibilité de créer de nouvelles mesures autres
que celles qui existent dans les tables de faits grâce au langage DAX.
• DAX : Il regroupe des méthodes, des opérateurs et des valeurs fixes qui permettent de
formuler des expressions et des formules pour effectuer des calculs. À l’aide de DAX,
Il est possible de générer des informations à partir des données déjà présentes dans votre
modèle.
Voilà quelques représentations des requêtes Dax utilisées pour visualiser les différents tableaux
de bord
61
Figure 53: Création de mesure Masse Salariale en DAX
62
5.3.1 Page d’accueil
La page d’accueil vise à créer une interface regroupant les liens vers les feuilles de données
qui contiennent les tableaux de bord et les rapports que nous avons réalisés. La figure (59)
contient 3 liens :
• Un lien vers la feuille du Suivi des Employés.
• Un lien vers la feuille du Suivi des Salaires des Employés.
• Un lien vers la feuille du Suivi des Congés des Employés.
Ce tableau de bord offre un aperçu concis de la gestion des ressources humaines. Il présente des
données telles que le nombre total d'employés, l'âge moyen, les nouveaux recrutements, le coût
salarial moyen, ainsi que des répartitions par statut professionnel, service, nature de contrat et
catégorie d'âge. Avec des filtres par date, société et site, il permet une personnalisation des
données pour une analyse approfondie et une compréhension précise de la situation des
ressources humaines dans différentes perspectives.
63
Figure 60:Tableau de bord de suivi des Employés
Ce tableau de bord offre une vision concise mais complète de la situation des ressources
humaines, fournissant ainsi des informations précieuses pour la prise de décisions stratégiques
et la gestion efficace du personnel.
5.3.2.1
5.3.2.2 Explication de choix des graphes :
Dans notre choix d'outils de visualisation pour les tableaux de bord, les cartes se sont avérées
des options particulièrement efficaces. Elles ont permis une présentation concise mais puissante
des indicateurs clés tels que le nombre total d'employés, l'âge moyen, les nouveaux
recrutements et le coût salarial moyen. Leur simplicité visuelle a facilité la compréhension
instantanée de ces données essentielles, fournissant ainsi une vue d'ensemble claire de la
situation.
Figure 61:Nombre total d'employés, Age moyen, Nouveaux recrutement et Cout salariale moyen
64
L'histogramme est un outil de visualisation essentiel pour représenter la distribution d'une
variable continue le long d'un axe spécifique. Dans notre cas, la figure (62) démontre son
efficacité dans la visualisation du nombre d'employées selon leur statut professionnel. Sur l'axe
des abscisses (X), nous plaçons les différents statuts professionnels, tandis que sur l'axe des
ordonnées (Y), nous représentons le nombre correspondant d'employées. Cette représentation
graphique offre une vue instantanée de la répartition des effectifs selon les différents statuts
professionnels, permettant ainsi une analyse rapide et une meilleure compréhension de la
structure organisationnelle
Pour suivre l'évolution du nombre d'employées au fil du temps et par société, nous avons opté
pour l'utilisation du graphique à zones empilées, illustré dans la figure (63). Ce choix s'est
justifié par sa capacité à représenter les totaux cumulés à l'aide des données numériques
disponibles dans notre cas. Grâce à ce graphique, nous pouvons aisément comparer les effectifs
de chaque société tout en visualisant leur évolution au fil du temps. Cela offre une perspective
claire et concise de la croissance ou de la décroissance des effectifs dans chaque société,
facilitant ainsi l'analyse des tendances et la prise de décisions stratégiques.
65
Figure 63:l'évolution du nombre d'employées au cours du temps
Pour représenter le nombre d’employées par service et par statut professionnel, nous avons
sélectionné le graphique à barres empilées, tel qu'illustré dans la figure (65).
66
Ce choix de visualisation permet une présentation claire et concise des effectifs par service, tout
en mettant en évidence la répartition interne des différents statuts professionnels au sein de
chaque service.
Cette méthode offre ainsi une vue détaillée de la structure organisationnelle, facilitant
l'identification des tendances et la prise de décisions stratégiques en matière de gestion des
ressources humaines.
Nous avons utilisé un graphique en entonnoir pour présenter la répartition des employés par
catégorie d'âge. Cette représentation visuelle permet de mettre en évidence la distribution des
effectifs selon les différentes tranches d'âge de manière progressive, avec les catégories les plus
nombreuses en haut de l'entonnoir et les moins nombreuses en bas.
67
Cette visualisation offre une compréhension instantanée de la répartition générationnelle au sein
de l'entreprise, mettant en lumière les éventuels déséquilibres ou tendances démographiques
importantes.
Afin de permettre une analyse plus ciblée de nos données, nous avons utilisé des filtres qui
incluent la segmentation par date, société et site. En utilisant ces filtres, les utilisateurs peuvent
restreindre les données pour se concentrer sur des périodes spécifiques, des entités
commerciales particulières ou des sites spécifiques. Cette fonctionnalité offre une flexibilité
d'analyse, permettant aux utilisateurs d'explorer les données selon différents contextes et de
répondre à des questions spécifiques en fonction de leurs besoins. En fin de compte, cela facilite
une prise de décision plus précise et éclairée.
68
5.3.3 Tableaux du bord 2 : Suivi des salaires des employées
Le deuxième tableau de bord offre une analyse approfondie de la gestion de la masse salariale
et des aspects financiers associés. Il comprend plusieurs visualisations clés pour une
compréhension détaillée de ces données cruciales.
69
Figure 69: Répartition de la Masse Salariale par Statut Professionnel
Analyse des Avances, Masse Salariale et Salaire Net par Année et Mois (Histogramme
groupé) : Cet histogramme offre une comparaison détaillée des avances, de la masse salariale
et du salaire net au fil du temps, permettant de suivre les évolutions mensuelles et annuelles des
dépenses salariales.
70
Figure 71:Analyse des Avances, Masse Salariale et Salaire Net par Année et Mois
71
Figure 73:Comparaison des Salaires et Salaire Moyen par Année
72
5.3.4 Tableaux de bord 3 : Suivi des Congés des Employés
Dans la dernière table de bord dédiée au suivi des congés des employés, nous avons choisi
des visualisations spécifiques pour fournir un aperçu clair et détaillé de différents aspects liés
aux congés.
Graphique en courbe et histogramme empilé pour Récapitulatif des Coûts des Congés
Chômés et des Jours de Congés Pris par Service en 2023 : Cette visualisation offre une vue
globale des coûts associés aux congés chômés et des jours de congés pris par service pour
l'année 2023. La combinaison d'une courbe et d'un histogramme empilé permet de comparer les
coûts et les jours de congés pris par service de manière visuellement percutante.
73
Figure 76:Récapitulatif des Coûts des Congés Chômés et des Jours de Congés Pris par Service en 2023
Graphique en courbe pour Répartition Mensuelle des Jours de Travail en 2023 : Cette
visualisation en courbe présente la répartition mensuelle des jours de travail tout au long de
l'année 2023. Elle permet de suivre les variations dans le nombre de jours travaillés par mois,
offrant ainsi des insights sur les tendances de présence au travail.
74
Figure 78:Répartition Mensuelle des Jours de Travail en 2023
Tableau Récapitulatif des Indicateurs Clés : Ce tableau fournit un résumé des principaux
indicateurs liés aux congés des employés, offrant une vue synthétique des données telles que le
nombre de jours de congés pris, les coûts associés et d'autres indicateurs pertinents.
75
Une fois le rapport finalisé, il a été mis en ligne via le service Power BI, après une
connexion au service à l'aide du compte étudiant. Cette étape permet de rendre le rapport
accessible à distance à tous les utilisateurs autorisés, facilitant ainsi le partage et la collaboration
autour des données et des insights générés. En publiant le rapport sur le service Power BI, les
utilisateurs peuvent accéder aux visualisations et aux analyses en temps réel, que ce soit sur un
ordinateur de bureau, une tablette ou un appareil mobile, offrant ainsi une flexibilité d'accès et
une portabilité des informations essentielles pour la prise de décisions.
Conclusion
Dans cette étape de création de rapports avec Power BI Desktop, nous avons souligné
l'importance cruciale de la visualisation des données pour éclairer les décisions. En développant
des visualisations interactives, nous avons permis aux utilisateurs d'explorer les données sous
différents angles et de découvrir des tendances significatives. Les exemples de rapports et de
tableaux de bord présentés illustrent comment ces outils offrent un aperçu clair et détaillé des
informations clés, facilitant ainsi la compréhension et l'interprétation des données. En intégrant
des liens vers les feuilles de données pertinentes, nous avons simplifié l'accès aux informations
spécifiques, permettant aux utilisateurs d'explorer les données en profondeur. En résumé, cette
étape de création de rapports est une pierre angulaire du processus d'analyse des données,
fournissant aux utilisateurs les outils nécessaires pour extraire des insights significatifs et
prendre des décisions stratégiques éclairées.
76
Conclusion Générale
À la lumière de notre exploration approfondie de la mise en place d'une solution BI pour la
gestion des ressources humaines chez « Nutrisud », cette conclusion offre un récapitulatif des
principales réalisations et contributions de notre projet.
Tout d'abord, notre analyse initiale du contexte global du projet et de l'existant chez
« Nutrisud » nous a permis de comprendre les besoins spécifiques de l'entreprise en matière de
gestion des ressources humaines. Nous avons identifié les lacunes dans les processus existants
et avons proposé une solution BI sur mesure pour répondre à ces besoins.
Ensuite, nous avons entrepris une phase de préparation et d'identification des outils techniques
nécessaires à la mise en place de la solution BI. Nous avons examiné en détail les différentes
approches de conception du Data Warehouse et avons sélectionné les outils et logiciels les
mieux adaptés aux besoins de « Nutrisud ».
Dans le cadre de la conception et de l'analyse spécifique des besoins, nous avons identifié les
indicateurs clés de performance et concevoir un schéma global de la solution BI. Cette phase
nous a permis de définir clairement les objectifs du projet et d'orienter nos efforts vers leur
réalisation.
Par la suite, nous avons mis en œuvre les étapes nécessaires pour préparer les données, en
extrayant, transformant et chargeant les données dans l'entrepôt de données. Ce processus
crucial nous a permis d'assurer la qualité et la fiabilité des données utilisées dans la solution BI.
Enfin, nous avons créé des tableaux de bord interactifs qui offrent à « Nutrisud » une
visualisation claire et détaillée de ses données RH. Ces tableaux de bord permettent aux
décideurs de comprendre rapidement les informations clés et de prendre des décisions éclairées
pour optimiser la gestion des ressources humaines de l'entreprise.
Ce projet a également été une opportunité d'enrichir nos compétences professionnelles et
personnelles. En travaillant sur la conception et la mise en œuvre d'une solution BI complète,
nous avons renforcé notre expertise dans le domaine de l'informatique décisionnelle, ainsi que
notre capacité à analyser les besoins des entreprises et à proposer des solutions adaptées.
Pour l'avenir, il serait bénéfique pour « Nutrisud » de poursuivre le développement et
l'amélioration de sa solution BI, en intégrant de nouveaux indicateurs de performance et en
affinant les tableaux de bord pour répondre aux besoins évolutifs de l'entreprise. De plus,
l'organisation pourrait explorer d'autres domaines où l'informatique décisionnelle pourrait
apporter de la valeur, tels que la gestion de la chaîne d'approvisionnement ou le suivi de la
qualité des produits. En conclusion, ce projet de mise en place d'une solution BI pour la gestion
des ressources humaines chez « Nutrisud » pourrait offrir des perspectives prometteuses pour
une gestion plus efficace et efficiente des ressources humaines, tout en ouvrant la voie à de
nouvelles opportunités d'amélioration et de croissance.
77
6 Bibliographie
1. https://www.piloter.org/mesurer/methode/methode-gimsi-10-points.htm. [En ligne]
2. https://www.tuleap.org/fr/agile/comprendre-methode-agile-scrum-10-minutes. [En ligne]
3. https://formations.imt-atlantique.fr/bi/bi_mener_projet_decisionnel.html. [En ligne]
4. https://formations.imt-
atlantique.fr/bi/bi_definition.html#:~:text=L'informatique%20d%C3%A9cisionnelle%2C%
20aussi%20appel%C3%A9e,bord%2C%20rapports%20analytiques%20et%20prospectifs.
[En ligne]
5. https://www.megabyte.be/logiciel-de-gestion/informatique-decisionnelle-business-
intelligence/. [En ligne]
6. https://www-igm.univ-mlv.fr/~dr/XPOSE2006/DELTIL_PEREIRA/processus.html. [En
ligne]
7. https://blent.ai/blog/a/data-warehouse-definitions-exemples. [En ligne]
8. https://waytolearnx.com/2018/08/difference-entre-un-datawarehouse-et-un-
datamart.html. [En ligne]
9. https://www.astera.com/fr/type/blog/data-warehouse-concepts/. [En ligne]
10. https://datascientest.com/comment-combiner-python-et-power-bi-pour-la-data-
science#:~:text=Le%20langage%20de%20programmation%20Python,Learning%20ou%20
l'intelligence%20artificielle. [En ligne]
11. https://learn.microsoft.com/fr-fr/sql/integration-services/sql-server-integration-
services?view=sql-server-ver16. [En ligne]
12. https://www.next-decision.fr/editeurs-bi/etl/talend-
studio#:~:text=Talend%20Studio%20for%20Data%20Integration%20est%20un%20outil%
20permettant%20la,les%20probl%C3%A9matiques%20autour%20des%20donn%C3%A9es
. [En ligne]
13. https://fr.wikipedia.org/wiki/Microsoft_Power_BI. [En ligne]
14. https://www.data-bird.co/blog/tableau-software. [En ligne]
15. https://www.tuleap.org/fr/agile/comprendre-methode-agile-scrum-10-minutes. [En
ligne]
16. https://formations.imt-atlantique.fr/bi/bi_mener_projet_decisionnel.html. [En ligne]
17. https://perso.univ-lyon1.fr/haytham.elghazel/BI/presentation.html. [En ligne]
18. https://blent.ai/blog/a/data-warehouse-definitions-exemples. [En ligne]
19. https://fr.wikipedia.org/wiki/Datamart. [En ligne]
20. https://www-igm.univ-mlv.fr/~dr/XPOSE2006/DELTIL_PEREIRA/processus.html. [En
ligne]
21. https://www.lecfomasque.com/comment-utiliser-power-bi/. [En ligne]
78