Pfe v0
Pfe v0
Je dédie ce travail à :
Ma famille, qui a toujours été un soutien inconditionnel tout au long de mon parcours
académique et professionnel. Leur amour et leur encouragement ont été essentiels pour me
permettre d'atteindre mes objectifs.
Mes amis, qui ont partagé avec moi les joies et les défis de ce voyage. Leurs encouragements
et leur soutien moral ont été précieux pour me motiver et me rappeler l'importance de
persévérer.
Mes professeurs et mentors, qui m'ont transmis leur savoir et leur expertise, et qui ont joué un
rôle essentiel dans mon développement académique et professionnel. Leurs conseils et leurs
enseignements ont été une source d'inspiration et d'apprentissage constant.
Toutes les personnes qui ont contribué de près ou de loin à la réalisation de ce travail, que ce
soit par leurs conseils, leur expertise ou leur soutien logistique. Leur contribution a été
précieuse et a grandement enrichi ce projet.
Introduction générale
2.4.4 Comparaison entre les Modèles de Prévision Statistiques et les Modèles de Machine
Learning ...................................................................................................................................
Bibliographie et netographie
Tables des figures
Figure 28 Diagramme de cas d'utilisation pour superviser les tableaux de bord .................... 67
- BI :Buisiness Intelligence
- CLC : Centrale Laitière Du Cap Bon
- ML : Machine Learning
- ETL : Extract Transform Load
- ARIMA : Autoregressive Integrated Moving Average
- SARIMAX : Seasonnal Autoregressive Integrated Moving Average
- MAPE : Mean Absolute Percentage Error
- ERP : Enterprise Resource Planning
- XP : Extreme Programming
- DW : Datawareouse
- DG : Direction Générale
- DCG : Direction De Contrôl De Gestion
- KPI : Des Indicateurs Clés De Performance
- CRISP DM : Cross-Industry Standard Process for Data Mining
- SI : Système D’information
- IA : Intelligence Artificielle
- NLP : Traitement Du Langage Naturel
- SVM : Les Machines À Vecteurs De Support
- OLTP : Online Transactional Processing
- OLAP :Online Analytical Processing
- SGBD : Système De Gestion De Bases De Données
- SQL : Structured Query Language
- DAX :Data Analysis Expressions
- UML : Unified Modeling Language
- IP : Intrenet Protocol
- VPN :Virtual Private Network
Introduction générale
La digitalisation et les nouvelles technologies ont profondément transformé le paysage des
affaires au cours des dernières décennies. Les entreprises ont dû s'adapter à ce nouvel
environnement en intégrant des solutions technologiques avancées pour rester compétitives et
répondre aux demandes croissantes des consommateurs. Dans ce contexte, l'informatique
décisionnelle (BI) a émergé comme un outil essentiel pour aider les organisations à prendre des
décisions éclairées et à optimiser leurs performances.
La digitalisation consiste à intégrer les technologies de l'information et de la communication
dans tous les aspects de l'entreprise, de la gestion des opérations à la relation client. Elle permet
d'automatiser des processus, d'améliorer l'efficacité opérationnelle et de collecter des données en
temps réel pour une analyse approfondie. L'informatique décisionnelle, quant à elle, se concentre
sur la transformation de ces données en informations pertinentes et exploitables pour la prise de
décision stratégique.
Dans le cadre de ce projet de fin d'année, l'entreprise Group Délice nous a confié la tâche de
digitaliser ses processus de prévision budgétaire. La prévision budgétaire est un élément essentiel
de la planification financière, permettant à une entreprise de déterminer les ressources
nécessaires et d'évaluer ses objectifs financiers futurs. Cependant, elle peut souvent être un
processus complexe et laborieux, nécessitant une collecte et une analyse de données rigoureuses.
Notre objectif est de mettre en place un outil de prévision budgétaire basé sur l'informatique
décisionnelle et la machine Learning, qui permettra à Group Délice de simplifier et d'optimiser
ce processus. En utilisant des techniques de modélisation et d'analyse prédictive, nous créerons
un système qui fournira des prévisions précises et fiables, facilitant ainsi la prise de décision
stratégique et la gestion des ressources.
Au cours de ce rapport, nous examinerons en détail les cinq chapitres clés qui composent
notre projet de digitalisation de la prévision budgétaire pour l'entreprise Group Delice. Chaque
chapitre abordera des aspects spécifiques du projet et contribuera à la réalisation de notre objectif
global. Voici un aperçu des chapitres à venir :
En suivant cette structure en cinq chapitres, nous fournirons une analyse complète du projet de
digitalisation de la prévision budgétaire pour Group Délice. Chaque chapitre contribuera à notre
objectif d'améliorer le processus de prévision budgétaire grâce à l'utilisation de nouvelles technologies
et de l'informatique décisionnelle.
En conclusion, notre rapport se clôture par une synthèse générale qui récapitule l'ensemble du
travail accompli et les objectifs que nous avons atteints. De plus, nous aborderons les perspectives
envisagées pour l'avenir afin de mettre en lumière les opportunités d'amélioration et d'expansion de
notre projet.
Chahiptre1 : contexte générale et planifications
1.1 Introduction :
Le présent chapitre a pour but de situer le contexte général dans lequel s'inscrit ce
[Link] commencerons par présenter l'organisme en question, en fournissant un bref
aperçu de ses activités et de sa structure organisationnelle. Ensuite, nous décrirons le contexte
du projet en étudiant l'existant et en présentant la problématique à laquelle il répond. Enfin,
nous aborderons la méthodologie de travail et la planification qui ont été choisies pour mener
à bien ce projet..
Créé en 2014 par Mr hamid Meddeb, le groupe noue un partenariat avec les français
de « Danone » dans les années 1990 sur le marché des yaourts et des desserts lactés.
Le Groupe «Délice Holding» est composé de huit sociétés : ‘‘CLC’’, ‘‘CLN’’,
‘’CLSB’’, ‘’SBC’’, ‘’CF’’, ‘’Delta Plastic’’, ‘’STIAL’’ et ‘’SOCOGES’’ exerçant
dans le secteur de l’industrie agroalimentaire.
Aujourd’hui Le Groupe Délice est engagé dans une démarche de développement
durable et de responsabilité sociale, en mettant en place des programmes pour
améliorer les conditions de vie des communautés locales et en s'engageant dans des
actions environnementales. L'entreprise est également très attachée à la qualité de ses
produits et met en place des normes strictes de sécurité alimentaire et de traçabilité.
• Histoires du groupe
• Stratégie du groupe
L'organisme d'accueil pour ce projet est la Centrale Laitière de Cap Bon «CLC»,
filiale du groupe Délice.
La « Centrale Laitière du Cap Bon » a démarré son activité en Janvier 1997, son
activité principale est la production de produits laitiers tels que le lait stérilisé, le
beurre, le Leben, le petit lait, le lait aromatisé et chocolaté. Elle réalise une production
annuelle d'environ 120 millions de litres de lait, 2 milles tonnes de beurre ainsi que 7
millions de litres de lait fermenté, ce qui vaut à un chiffre d’affaire de 3 millions de
dinars tunisiens.
La CLC est une société anonyme (S.A) composé de 350 salariés et 40 cadres siégeant
à l’immeuble « Le Dôme » au 2ème étage, Rue du Lac Léman aux Berges du Lac à
Tunis. Il s’agit de la 1ère entreprise dans son secteur à être certifiée ISO 90021 version
1994 et récemment ISO 90012 version 2000.
Directeur
Directeur Général
Président Général de
Marketing du Groupe
Directeur Gestion du
Général Groupe
Auditeur Direction
Contrôle de
Interne
Gestion
Direction Générale
Adjoint
Dans le cadre du projet, nous avons réalisé une étude approfondie de l'existant concernant
les prévisions budgétaires au sein du groupe Délice. Les prévisions budgétaires sont d'une
importance capitale pour l'entreprise, car elles permettent d'estimer les résultats financiers
futurs et de planifier les activités en conséquence.
Nous avons constaté que ces méthodes ne fournissent pas des résultats conformes à la
réalité. Cela a conduit le groupe à continuer à utiliser la méthode traditionnelle de
prévision, qui repose sur des processus manuels et l'expertise des responsables. Cette
approche permet d'obtenir des prévisions plus précises et fiables, malgré les
fonctionnalités de prévision offertes par le système ERP.
Figure 8 les 12 types de forecast
1.4.2 Problématique :
Après une analyse approfondie de l'existant, nous avons constaté que les processus
budgétaires actuels du groupe Délice reposent principalement sur des fichiers Excel et des
réunions manuelles avec plusieurs départements. Cette approche présente plusieurs
limitations, notamment en termes de temps, de coûts et de risques associés.
Le processus de prévision budgétaire actuel peut être long et coûteux en raison de la collecte
manuelle des données et des réunions impliquant différents départements. De plus, il existe
des risques d'erreurs de prévision et de dépendance excessive aux données historiques, ce qui
peut entraîner des incohérences dans les résultats.
En ce qui concerne les outils et les systèmes utilisés pour soutenir ces processus budgétaires,
nous avons constaté que l'ERP JDEdwards dispose de modèles classiques basés sur des
théories mathématiques simples. Ces modèles comprennent 12 méthodes de prévision, telles
que le pourcentage par rapport à l'année précédente, le pourcentage calculé par rapport à
l'année précédente, la comparaison entre l'année précédente et l'année en cours,... .
Cependant, malgré la disponibilité de ces modèles de prévision dans l'ERP, nous avons
constaté qu'ils ne fournissent pas des résultats satisfaisants et ne répondent pas aux besoins
spécifiques du groupe Délice. Ces modèles classiques basés sur des théories mathématiques
simples peuvent ne pas prendre en compte les spécificités du secteur alimentaire et les
variations saisonnières complexes.
Ainsi, la problématique à résoudre est de trouver une approche plus adaptée pour les
prévisions budgétaires au sein du groupe Délice. Il s'agit d'explorer des méthodes de prévision
plus avancées, tenant compte des caractéristiques propres à l'entreprise et du contexte
spécifique du secteur alimentaire. Cela permettra d'améliorer la précision des prévisions
budgétaires, de réduire les risques d'erreurs et d'optimiser la planification des activités et
l'allocation des ressources.
En résumé, l'analyse de l'existant a révélé que les processus budgétaires actuels du groupe
Délice reposent sur des fichiers Excel et des réunions manuelles, tandis que l'ERP JDEdwards
propose des modèles de prévision classiques basés sur des théories mathématiques simples.
Cependant, ces approches ne sont pas satisfaisantes en termes de précision et de pertinence.
La problématique à résoudre consiste donc à trouver une approche plus adaptée pour
améliorer et digitaliser les prévisions budgétaires au sein du groupe Délice.
La digitalisation est devenue une nécessité dans le monde économique pour améliorer
la compétitivité et l'efficacité des entreprises.
La solution proposée pour résoudre les problèmes identifiés est basée sur la
digitalisation et la mise en place d'un outil de Rolling Forecast intégré à l'ERP de
l'entreprise. Cet outil utilisera des technologies de pointe telles que le machine
learning et l'informatique décisionnelle (Business Intelligence, BI).
Pour garantir une gestion efficace du projet, il est essentiel de choisir une
méthodologie de gestion qui soit systématique et disciplinée dans sa conception, son
exécution et son achèvement. Cette méthodologie consiste en un ensemble de pratiques,
de techniques, de procédures et de règles qui permettent de gérer de manière efficace un
projet spécifique, tout en fournissant une structure pour sa réalisation. Chaque approche
de gestion constitue un plan directeur qui guide la planification, la gestion et l'exécution
des tâches et des projets, de leur début à leur achèvement.
Pour réussir notre projet et répondre précisément aux exigences des décideurs, nous
devons suivre une méthodologie de gestion de projet adaptée à un projet de Business
Intelligence (BI)et machine Learning. Parmi les méthodes agiles répandues, nous nous
concentrerons principalement sur Scrum, XP et Kanban, qui sont toutes conformes aux
principes du Manifeste Agile. Ces méthodes favorisent l'amélioration continue, la
flexibilité, la collaboration de l'équipe et la livraison de résultats de haute qualité.
De plus, nous intégrerons la méthodologie CRISP-DM (Cross-Industry Standard
Process for Data Mining) dans notre étude de cas. CRISP-DM est une méthode
standardisée pour la gestion de projets d'exploration de données et d'analyse
❖ KANBAN
KANBAN est une méthode de gestion des connaissances Liés au travail avec un
accent sur l’organisation En fournissant un type instantané d’informations de temps en
temps aux membres de l’équipe afin de ne pas les surcharger [3].
• Processus KANBAN
KANBAN Kanban fait partie des techniques utilisées par ceux qui adoptent la méthode
dite agile. La technologie Kanban est née au Japon pour gérer les stocks et les lignes de
production. Il permet de travailler sur des systèmes "juste à temps" où les produits ne
sont disponibles qu’en cas de besoin. Les fondements de la méthodologie Agile Kanban
comprennent :
• Kanban adopte une approche visuelle pour faciliter la gestion des tâches.
• L'objectif est de minimiser les pertes, les retards et le gaspillage.
• Le réapprovisionnement se fait immédiatement, en fonction de la demande.
L'approche Kanban repose sur un tableau avec des colonnes représentant les différentes étapes
du processus et des cartes pour chaque tâche. Cela permet de visualiser facilement l'avancement
des tâches, leur position dans le processus et les détails de leur exécution. Kanban utilise le
contrôle visuel pour optimiser le flux de travail, éliminer les pertes et les retards, et permettre
un réapprovisionnement immédiat selon les besoins. Cette méthode agile trouve ses origines au
Japon, où elle était utilisée pour gérer les stocks et les lignes de production. Aujourd'hui, elle
est largement adoptée dans différents domaines pour améliorer la gestion des connaissances,
favoriser la collaboration et optimiser les processus de travail.
La méthode XP est une approche de développement logiciel agile qui met l'accent
sur la collaboration étroite entre les membres de l'équipe et la satisfaction du client.
Elle se distingue par ses principes clés :
• Processus XP
Le processus XP se déroule de manière itérative et incrémentale, en suivant les étapes clés :
✓ Compréhension des besoins : L'équipe travaille en étroite collaboration avec le
client pour identifier et comprendre les besoins spécifiques.
✓ Création de "user stories" : Des scénarios détaillés sont élaborés pour décrire
les fonctionnalités attendues.
✓ Itérations courtes (sprints) : Les fonctionnalités sont développées, testées et
livrées en itérations rapides.
✓ Pratiques de développement : XP met l'accent sur la communication continue,
les tests automatisés, la programmation en binôme et les revues de code
régulières.
✓ Livraison régulière : Des versions fonctionnelles du logiciel sont livrées à
intervalles réguliers pour obtenir les retours du client et ajuster le projet en
conséquence.
La méthode XP favorise la collaboration, la satisfaction client et la livraison de logiciels de
haute qualité grâce à son approche itérative, sa communication continue et ses pratiques de
développement rigoureuses.
Figure 10 Processus XP
• SCRUM :
Scrum est une méthodologie de gestion de projet agile largement utilisée dans le
développement logiciel. Elle se base sur la collaboration, la transparence et l'adaptation
continue pour atteindre les objectifs du projet de manière efficace.
Dans le cadre de Scrum, il y a plusieurs rôles clés :
• Product Owner : Il représente les besoins et les intérêts des parties prenantes et
définit le backlog produit, c'est-à-dire la liste des fonctionnalités et des priorités.
• Scrum Master : Il est responsable de faciliter le processus Scrum, de s'assurer que
l'équipe respecte les principes et les pratiques, et d'éliminer les obstacles qui peuvent
entraver la progression.
• Scrum Team : Il s'agit de l'équipe de développement qui est responsable de
concevoir, développer et tester les fonctionnalités du produit
• Processus SCRUM
Le processus Scrum suit les étapes suivantes :
✓ Sprint Planning : Le Product Owner et l'équipe Scrum se réunissent pour définir les
objectifs et sélectionner les éléments du backlog produit à inclure dans le sprint.
✓ Sprint Backlog : Le sprint backlog est une liste des éléments sélectionnés pour le
sprint. Il contient les tâches spécifiques à réaliser pendant le sprint pour atteindre les
objectifs fixés.
✓ Sprint : Il s'agit d'une période de temps fixe (généralement de 2 à 4 semaines) au
cours de laquelle l'équipe Scrum travaille sur les éléments sélectionnés pour le sprint.
✓ Daily Scrum : Chaque jour, l'équipe se réunit brièvement pour partager les progrès,
discuter des défis et coordonner les activités à venir.
✓ Sprint Review : À la fin du sprint, l'équipe présente les fonctionnalités développées
au Product Owner et aux parties prenantes pour obtenir leurs retours et valider les
résultats.
✓ Sprint Retrospective : L'équipe Scrum réfléchit sur le sprint écoulé, identifie les
points forts et les axes d'amélioration, et apporte des ajustements pour les prochains
sprints.
✓ Product Backlog : Le product backlog est la liste complète des fonctionnalités à
développer dans le projet. Il est continuellement mis à jour et priorisé par le Product
Owner en fonction des besoins et des retours des parties prenantes.
• Processus CRISP-DM
Après une étude approfondie des différentes méthodologies basées sur divers critères, il a été
conclu que Scrum et CRISP-DM sont les meilleures méthodes pour notre cas.
Compte tenu de notre besoin spécifique en matière de business intelligence et de machine
learning. Nous avons choisi Scrum en raison de ses nombreux avantages, tels que sa
flexibilité, sa focalisation sur la valeur métier, sa collaboration étroite avec les parties
prenantes et sa capacité à gérer les exigences changeantes.
En revanche, nous avons décidé de ne pas utiliser la méthodologie CRISP-DM dans ce projet,
car elle se concentre principalement sur le processus de data mining et n'est pas aussi adaptée
à notre contexte global de développement d'entrepôt de données et dashboarding.
En utilisant Scrum, nous serons en mesure de livrer des fonctionnalités de haute qualité de
manière itérative et incrémentale, tout en assurant une transparence et une adaptation continue
tout au long du projet.
Rôle Acteur Mission
Product Owner Chef de département : Définir les fonctionnalités du
[Link] Riahi produit et s’assurer de leur
conformités.
Scrum Master Encadrant : assurer le bon déroulement de
[Link] Riahi la méthode Scrum
Équipe de développement Chahine Chammar Développement
Dans le tableau 1.1 nous présentons les différents acteurs participants dans ce projet :
La planification de ces sprints et l’une des étapes les plus importantes dans un projet
Scrum. Cette planification sera présentée dans la prochaine partie.
CONCLUSION
En conclusion de ce chapitre, nous avons introduit le contexte général du projet, en mettant en
évidence les différents éléments nécessaires à sa compréhension. Nous avons présenté
l'organisme d'accueil, le Groupe, ainsi que son système d'information et son organigramme.
Nous avons également abordé le contexte spécifique du projet, en examinant l'étude de
l'existant, la problématique à résoudre et la solution proposée. Nous avons souligné
l'importance de mettre en place une méthodologie de travail appropriée, en optant pour une
approche Agile, plus précisément Scrum. Nous avons également identifié les intervenants clés
du projet et découpé la solution en sprints pour une meilleure gestion du développement.
Chahiptre2 : état de l’Art
Introduction
Figure 15 La digitalisation
2.2.3 L'impact de la digitalisation sur les entreprises
✓ Définir les cas d'usage en comprenant les utilisateurs, en identifiant les profils et les
usages associés, et en prenant en compte les attentes métiers.
✓ Adopter les bons terminaux en tirant parti des innovations du marché, en assurant la
compatibilité avec tous les dispositifs, et en profitant de la diversité des terminaux en
fonction des cas d'usage.
✓ Modéliser les parcours en établissant les différentes étapes du parcours, en
déterminant les moments clés et en travaillant sur l'expérience utilisateur (UX).
✓ Accompagner le changement en évaluant les changements, en définissant une stratégie
d'accompagnement et en favorisant la culture digitale.
En suivant ces étapes et en poursuivant ces objectifs, il est possible d'assurer une digitalisation
des processus métiers efficace et bénéfique pour l'entreprise.
Figure 16 Agile vs Traditionnelle
2.3.1 Generalite
2.3.2 Définition
• Systèmes de gestion des données : Les solutions de gestion des données, telles que
les entrepôts de données ou les bases de données relationnelles, sont utilisées pour
stocker les données financières et opérationnelles nécessaires aux prévisions.
Dans ce qui suit ,nous allons définir la notion de l’apprentissage automatique (en
anglais Machine Learning « ML ») et les Modèles Statistiques, les approches qu’elles
présentes ainsi quelques domaines d’application
2.4.1 Généralité :
[Link] Définition
Les modèles statistiques sont des outils mathématiques qui permettent de décrire et
d'analyser les relations entre les variables et les données. Ils reposent sur des principes
statistiques et probabilistes pour modéliser les phénomènes et effectuer des
prédictions. Voici quelques modèles statistiques couramment utilisés :
• Régression Linéaire :
La régression linéaire est un modèle statistique qui vise à établir une relation
linéaire entre une variable dépendante et une ou plusieurs variables
indépendantes. Il est utilisé pour prédire des valeurs continues et analyser les
relations de cause à effet.
• Maximum de Vraisemblance
La maximisation de la vraisemblance est une approche statistique utilisée pour estimer
les paramètres d'un modèle en choisissant les valeurs qui maximisent la probabilité
d'observer les données réelles.
• Méthodes Bayésiennes
Les méthodes bayésiennes reposent sur le théorème de Bayes et permettent d'estimer
les paramètres d'un modèle en combinant des informations a priori et les données
observées. Elles fournissent des estimations probabilistes et permettent de prendre en
compte l'incertitude dans les prédictions.
Les modèles statistiques sont largement utilisés dans de nombreux domaines pour
l'analyse et la prédiction de données. Voici quelques domaines d'application courants :
• Économie et Finance
Les modèles statistiques sont utilisés pour analyser les données financières, prévoir les
marchés, évaluer les risques et réaliser des études économiques.
• Sciences Sociales
Les modèles statistiques sont utilisés pour analyser les données sociologiques,
démographiques et politiques, étudier les comportements humains, prédire les
tendances sociales, etc.
• Sciences de la Santé
Les modèles statistiques sont utilisés pour analyser les données médicales, évaluer
l'efficacité des traitements, étudier les facteurs de risque, prédire les résultats de santé,
etc.
• Sciences de l'Environnement
Les modèles statistiques sont utilisés pour étudier les données climatiques, évaluer
l'impact des changements environnementaux, prédire les phénomènes naturels, etc.
En conclusion, les modèles statistiques offrent une approche rigoureuse pour analyser
les données et effectuer des prédictions dans différents domaines. Le choix du modèle
et de l'approche dépendra des caractéristiques des données et des objectifs spécifiques
de modélisation.
[Link] Définition
Le machine learning est largement utilisé dans de nombreux domaines pour résoudre une
variété de problèmes et améliorer les performances. Voici quelques-uns des domaines
d'application clés du machine learning :
• Santé : Le machine learning est utilisé dans le diagnostic médical, la prédiction des
maladies, la détection de fraudes dans les soins de santé, l'analyse d'images médicales,
la découverte de médicaments, la gestion des dossiers médicaux, etc.
• Finance : Les techniques de machine learning sont utilisées pour la prédiction des prix
des actions, l'évaluation des risques, la détection de fraudes financières, l'analyse des
données du marché, la recommandation de portefeuille, etc.
Ces exemples ne sont qu'une petite partie des nombreux domaines où le machine learning
trouve des applications concrètes. Le potentiel du machine learning est vaste et continue de
croître à mesure que de nouvelles techniques et de nouvelles applications émergent.
Les modèles de prévision statistiques et les modèles de machine learning sont deux
approches distinctes pour la prédiction et l'analyse de données. Voici une comparaison entre
ces deux types de modèles :
✓ Les modèles de prévision statistiques reposent sur des principes et des méthodes
statistiques traditionnelles.
✓ Ils sont souvent basés sur des hypothèses spécifiques et utilisent des techniques telles
que la régression linéaire, l'analyse de séries temporelles (par exemple, ARIMA), ou
les modèles autorégressifs pour modéliser les tendances et les motifs.
✓ Les modèles statistiques peuvent être plus interprétables car ils reposent sur des
hypothèses claires et peuvent fournir des mesures de confiance statistiques pour les
prédictions.
✓ Cependant, ils peuvent être moins flexibles lorsqu'il s'agit de traiter des modèles de
données complexes et non linéaires. Ils peuvent également avoir des difficultés à
capturer des interactions complexes entre les variables.
✓ Les modèles de machine Learning sont des approches basées sur l'apprentissage
automatique qui utilisent des algorithmes pour apprendre à partir des données et
effectuer des prédictions.
✓ Ils sont plus flexibles et capables de modéliser des relations complexes entre les
variables, même en présence de données non linéaires
✓ Les modèles de machine Learning incluent des techniques telles que les réseaux de
neurones, les arbres de décision, les machines à vecteurs de support (SVM), les forêts
aléatoires, etc.
✓ Les modèles de machine Learning peuvent nécessiter une quantité plus importante de
données pour l'entraînement et peuvent être plus complexes à mettre en œuvre et à
interpréter que les modèles statistiques traditionnels.
✓ Cependant, ils peuvent être plus performants dans la prédiction et peuvent s'adapter à
une grande variété de problèmes et de données.
Il est important de noter que le choix entre les modèles de prévision statistiques et les modèles
de machine Learning dépend du contexte, des objectifs spécifiques et des caractéristiques des
données. Parfois, une combinaison des deux approches peut également être utilisée pour
obtenir de meilleurs résultats, en tirant parti des avantages des deux mondes.
2.5.1 Définition
Avant de plonger dans le concept de BI, il est essentiel de saisir sa philosophie sous-jacente.
Une bonne compréhension de cette philosophie peut considérablement enrichir votre analyse.
Pour ce faire, explorons d'abord les deux mondes distincts de la BI, puis nous aborderons le sujet
de leur intégration.
[Link] Le monde opérationnel
Les systèmes informatiques opérationnels (OLTP pour le traitement des transactions en ligne)
sont conçus pour prendre en charge les opérations de l’entreprise.
Ce sont des systèmes de gestion ou de production qui relient la vie d’une entreprise
(opérations) à un cadre plus petit, plus gérable et flexible.
• La BI émerge d'une évolution des besoins des décideurs et des analystes métier, visant à
soutenir la prise de décision et à permettre une analyse approfondie et précise au sein de
l'entreprise.
• En revanche, les systèmes décisionnels considèrent l'entreprise telle qu'elle est, en générant
des connaissances à partir des données et en apportant un soutien aux décisions
stratégiques.
Cette sous-section examine les éléments essentiels pour la mise en place d'une solution d'aide à la
décision, allant de l'extraction des données à la synthèse agrégée et à la présentation dans un format
standardisé.
Afin de collecter les données pour alimenter les entrepôts, il est nécessaire de les identifier et de les
extraire de leurs sources d'origine. La plupart de ces données sont internes à l'entreprise et sont
dispersées car elles sont stockées dans les bases de données opérationnelles des différents services
(systèmes existants).
Il est également possible que certaines données proviennent de sources externes accessibles via des
services distants, des services web, etc. Ces données peuvent être complexes. Elles impliquent
l'utilisation de différentes technologies (types de fichiers, encodages, liens d'accès aux systèmes de
gestion de bases de données SGBD), environnements (systèmes d'exploitation, matériel) et principes
de sécurité pour y accéder (mécanismes, réseaux, authentification).
Toutes ces composantes doivent être prises en compte pour rassembler les données de manière
adéquate.
Les outils communément appelés Extract, Transform, Load (ETL) sont des éléments essentiels pour la
construction d'un entrepôt de données. Ils permettent d'extraire les données de systèmes sources
hétérogènes, de les normaliser et de les rendre cohérentes afin de faciliter le partage des
informations. Les données sont livrées dans un format qui peut être directement stocké dans
l'entrepôt et utilisé par les décideurs et les analystes sans avoir besoin de recalculer les données.
Un entrepôt de données est une base de données structurée conçue spécifiquement pour les
requêtes et l'analyse, plutôt que pour le traitement transactionnel des données. Les résultats de ces
requêtes doivent être facilement accessibles. L'entrepôt de données est généralement construit
selon un modèle multidimensionnel. Cependant, il existe deux types de stockage :
• Le marché de données (Data Mart) : il se concentre sur une partie spécifique du métier, tel
que la relation client, les ventes, ou d'autres domaines d'intérêt particuliers. Le Data Mart est
un sous-ensemble de l'entrepôt de données, contenant des données spécifiques à un
domaine ou à une fonction. Il est conçu pour répondre aux besoins d'analyse spécifiques des
utilisateurs dans ce domaine.
Ces deux types de stockage, l'entrepôt de données et le Data Mart, sont utilisés pour fournir des
données optimisées pour l'analyse et les requêtes, offrant ainsi une perspective stratégique à
l'entreprise.
[Link] Outils de visualisation
Les outils de restitution constituent la composante visuelle fournie aux utilisateurs. Ils permettent
aux analystes de manipuler les données présentes dans les entrepôts de données et les Data Marts.
Ces outils offrent des avantages tels que la génération de rapports et une facilité d'utilisation. En
effet, la structure globale d'un système décisionnel est conçue pour fournir rapidement (en quelques
secondes) des résultats correspondant aux demandes des utilisateurs, sans nécessiter de
connaissances informatiques spécifiques dans le domaine.
L'impact de la Business Intelligence (BI) sur les entreprises peut être significatif et positif. Voici
quelques-uns des impacts majeurs de la BI sur les entreprises :
En résumé, la BI a un impact positif sur les entreprises en les aidant à améliorer leur prise de
décision, leur performance opérationnelle, leur planification stratégique, leur relation client et leur
positionnement concurrentiel. Cela leur permet de rester compétitives, d'innover et de prospérer
dans un environnement commercial en évolution constante.
Conclusion
Le chapitre nous a permis d'explorer l'état de l'art dans différents domaines pertinents pour notre
projet. Nous avons examiné la digitalisation et son impact sur les entreprises, en mettant l'accent sur
la mise en œuvre et les transformations des usages et des fonctions. Nous avons également exploré
le système de Rolling Forecast et ses domaines d'application, ainsi que les techniques de
modélisation et d'analyse prédictive, telles que les modèles statistiques et l'apprentissage
automatique.
De plus, nous avons étudié l'informatique décisionnelle (BI), en décrivant son architecture et son
impact sur les entreprises. Ce chapitre nous a fourni une compréhension approfondie des concepts
clés et de leurs implications pour notre projet.
Le chapitre a jeté les bases nécessaires pour la suite de notre projet, en nous fournissant une base
solide de connaissances et d'informations. Dans les chapitres suivants, nous appliquerons ces
connaissances pour élaborer et mettre en œuvre notre solution, en tirant parti des avancées et des
bonnes pratiques présentées dans cet état de l'art.
Chapitre 3 :sprint0 :analyse et conception
Introduction
Le chapitre marque le début de la phase de Sprint0 de notre projet, qui est dédiée à l'analyse
et à la conception de notre solution. Dans ce chapitre, nous nous concentrerons sur la
spécification des besoins, l'identification des acteurs, l'architecture générale et la
représentation des besoins à travers des diagrammes et des modèles.
3.1 Spécification des besoins
L'étape de l'analyse des besoins revêt une importance capitale dans la définition d'un projet.
Son objectif est d'identifier les exigences et les attentes des parties prenantes, afin de
déterminer les fonctionnalités et les caractéristiques du système à développer.
En suivant cette approche, le groupe Délice pourra bénéficier d'un système de suivi des
indicateurs budgétaires avancé, intégrant des modèles de prévision basés sur le Machine
Learning. Cela permettra une gestion plus efficace des finances, une prise de décisions
éclairée et une meilleure anticipation des résultats financiers futurs.
• Simplicité : Les rapports générés doivent être simples et faciles à interpréter, ce qui
constitue l'un des objectifs clés du projet décisionnel.
• Modélisation : Dans cette étape, des modèles sont créés en utilisant des
techniques d'analyse de données et d'apprentissage automatique pour
identifier des schémas et des tendances dans les données.
Cette architecture technique met en œuvre des outils tels que Power Query, Power Pivot,
Power View, DAX Studio, Google Colab et Python pour assurer une extraction, une
modélisation, une visualisation, une extraction de données spécifiques, un développement
de modèles de prévision et une intégration efficace dans un tableau de bord interactif. Cela
permet d'exploiter pleinement les données et de prendre des décisions éclairées.
3.4 Représentation des besoins :
Dans cette section fonctionnelle, nous décrivons les différentes fonctionnalités à travers
l'élaboration des diagrammes de cas d'utilisation global, suivi de la présentation des cas
d'utilisation les plus pertinents et du diagramme de séquence
3.4.1 présentation du langage de modélisation unifié :
UML (Unified Modeling Language) est un langage de modélisation graphique utilisé pour
spécifier, visualiser, concevoir et documenter les artefacts d'un système logiciel.
Dans notre cas UML est utilisé comme un outil d'illustration pour représenter
graphiquement les différentes fonctionnalités du système dans le but de les visualiser et de
les comprendre plus facilement.
Post -Condition
Créer un nouveau tableau de bord.
Dans cette partie, nous allons présenter l'environnement matériel . Nous allons décrire les
caractéristiques de la machine sur laquelle le projet va s’exécuter.
• Etude de l'environnement :
près une étude approfondie des besoins du projet, il est devenu évident que l'environnement
matériel existant ne satisfaisait pas aux exigences de performance et de capacité nécessaires. Afin
d'optimiser le travail, l'entreprise a pris la décision de fournir une machine virtuelle dédiée, installée
sur ses serveurs locaux. Cette nouvelle configuration offre plusieurs avantages, notamment :
En optant pour cette solution de machine virtuelle sur les serveurs locaux, l'entreprise a
démontré son engagement envers le succès du projet en fournissant un environnement
adapté aux besoins spécifiques. Cette décision contribuera à optimiser les performances, à
assurer une gestion efficace des ressources et à renforcer la sécurité des données,
permettant ainsi un déroulement fluide du projet.
• Caractéristiques de l'environnement :
Voici un tableau présentant les caractéristiques de notre machine virtuelle
• La connexion à la machine :
Voici les étapes pour nous connecter localement au réseau de notre entreprise et accéder à
la machine :
1. Assurons-nous d'être connectés au réseau interne de notre entreprise, soit en étant
physiquement présents sur le site de l'entreprise, soit en utilisant un VPN (Virtual
Private Network) pour établir une connexion sécurisée depuis un emplacement
externe.
2. Lançons l'outil de connexion à distance sur notre ordinateur (par exemple, le Bureau
à distance de Windows).
3. Entrons l'adresse IP de la machine virtuelle à laquelle nous souhaitons nous
connecter.
4. Saisissons le nom d'utilisateur et le mot de passe fournis par notre entreprise pour
nous authentifier.
5. Cliquons sur "Connecter" ou sur un bouton similaire pour établir la connexion à la
machine virtuelle.
Une fois la connexion établie, nous pourrons accéder à la machine virtuelle et utiliser ses
fonctionnalités comme si nous étions connectés directement à celle-ci. Assurons-nous de
respecter les règles de sécurité de notre entreprise et de protéger nos informations
d'identification pour garantir une connexion sûre et fiable
Microsoft SQL Server est une plateforme de gestion de base de données relationnelle
développée par Microsoft. Elle offre une gamme complète de fonctionnalités pour le
stockage, la manipulation et l'analyse des données. SQL Server est largement utilisé dans les
environnements professionnels pour gérer de grandes quantités de données et prendre en
charge des applications d'entreprise critiques. Il offre des outils de requête puissants, des
capacités de sécurité avancées et des fonctionnalités de réplication et de clustering pour
assurer la disponibilité et la fiabilité des données. SQL Server est compatible avec différents
langages de programmation et fournit des interfaces conviviales pour gérer les bases de
données et créer des rapports.
• Dax studio :
DAX Studio est un outil de développement et de gestion pour les formules DAX (Data Analysis
Expressions). Il est principalement utilisé avec Microsoft Power BI, Power Pivot et Analysis
Services pour écrire et tester des expressions DAX avancées. DAX Studio fournit une interface
conviviale permettant aux développeurs et aux analystes de données d'écrire des formules
DAX complexes, d'exécuter des requêtes et d'analyser les résultats. Il offre des
fonctionnalités telles que la coloration syntaxique, l'autocomplétion, le débogage et la
génération automatique de code, ce qui facilite le processus de développement et
d'optimisation des formules DAX. DAX Studio est un outil puissant pour travailler avec les
modèles de données et les calculs DAX dans les environnements Microsoft.
Figure 35 Logo DAX STUDIO
• Google collab:
• Miro:
Miro est une plateforme de collaboration en ligne qui permet aux équipes de travailler
ensemble de manière synchronisée et créative, peu importe leur emplacement
géographique. Il fournit un espace de travail virtuel qui offre une variété d'outils de
visualisation et de collaboration, tels que des tableaux blancs interactifs, des diagrammes,
des post-it, des cartes, des modèles prédéfinis, des fonctionnalités de partage d'écran, de
commentaires en temps réel et bien plus encore.
❖ Outils de visualisation :
Pour le reporting, il existe plusieurs outils parmi lesquels nous avons sélectionné
les trois principaux leaders du marché, comme illustré dans le schéma ci-dessous
• Python
Python est un langage de programmation polyvalent, largement utilisé dans différents domaines tels
que le développement web, l'analyse de données, l'intelligence artificielle et l'automatisation des
tâches. Ce langage se distingue par sa syntaxe claire et lisible, ce qui le rend facile à apprendre et à
comprendre.
De plus, Python dispose d'une vaste bibliothèque standard qui offre des fonctionnalités prêtes à
l'emploi, ainsi que de nombreuses bibliothèques tierces développées par la communauté pour des
tâches spécifiques. Grâce à sa popularité croissante, sa grande communauté d'utilisateurs et sa
flexibilité, Python est devenu un choix privilégié pour de nombreux développeurs et professionnels
de l'informatique.
• Le langage DAX
Le langage DAX (Data Analysis Expressions) est un langage de formules utilisé dans les outils
de Business Intelligence de Microsoft tels que Power BI, Power Pivot et Analysis Services. Il est
spécialement conçu pour la modélisation et l'analyse de données. DAX permet de créer des
formules pour effectuer des calculs, des agrégations et des manipulations de données dans un
modèle de données tabulaire. Il offre des fonctionnalités avancées telles que les mesures calculées,
les colonnes calculées, les tables calculées et les fonctions personnalisées. Grâce à DAX, les
utilisateurs peuvent effectuer des analyses complexes, créer des indicateurs clés de performance
(KPI) et générer des rapports interactifs. Son langage syntaxiquement similaire à Excel facilite
également la transition pour les utilisateurs familiers avec les formules Excel.
• Le langage M
Le langage M, également connu sous le nom de Power Query Formula Language, est un
langage de programmation utilisé dans les outils de transformation de données tels que Power
Query et Power BI. Il permet de manipuler, transformer et nettoyer les données provenant de
différentes sources. Avec une syntaxe flexible, il offre des fonctionnalités avancées telles que
l'extraction de données, la création de requêtes et la gestion des types de données. Le langage M
permet aux utilisateurs d'automatiser des tâches et de construire des flux de données complexes
pour une manipulation efficace des données.
À l'aide du langage de modélisation unifié (UML), nous avons représenté visuellement les
besoins à travers des diagrammes de cas d'utilisation globale, de gestion de l'ETL, des
tableaux de bord, du modèle de prévision et de supervision des tableaux de bord. Ces
représentations nous ont permis d'avoir une vision claire des fonctionnalités offertes par
notre solution.
Introduction
Le chapitre 4 marque le début du Sprint1 de notre projet, qui est dédié à la préparation, à l'intégration et
à la visualisation des données. Dans ce chapitre, nous aborderons différents aspects essentiels pour
mettre en place une solution robuste et conviviale.
Depuis son entrée sur le marché de la Business Intelligence, Power BI s'est rapidement imposé comme
l'un des outils les plus performants pour l'analyse de données et la prise de décision. Il offre une large
gamme de fonctionnalités, notamment une visualisation graphique avancée des données et une
intégration avec Power Query, un puissant moteur d'extraction, de transformation et de chargement
(ETL) également présent dans Excel.
Le processus de nettoyage et de filtrage des données est essentiel dans le développement d'un système
d'information. Power Query, avec son interface utilisateur intuitive, permet d'effectuer ces opérations
sur diverses sources de données. Cette fonctionnalité confère à Power BI un avantage considérable
lors de la préparation des données. Ces données peuvent ensuite être intégrées et modélisées dans un
environnement de data warehouse à l'aide de Power Pivot (DAX). Cette approche permet de
transformer les données brutes en informations structurées et accessibles via des tableaux de bord, des
rapports, etc.
La combinaison de Power Query, Power Pivot et la modélisation de données dans un data warehouse
offre une approche complète pour gérer et analyser les données. Les utilisateurs peuvent ainsi tirer le
meilleur parti de leurs sources de données, en les consolidant, les agrégeant et en appliquant des règles
métier spécifiques. Cette approche permet de créer des analyses approfondies et de prendre des
décisions éclairées basées sur des données fiables.
L'architecture globale de notre solution est présentée dans la figure 41
Le groupe Délice nous a fourni une copie de leur base de données afin de garantir la
sécurité et la confidentialité des informations. Cette base de données contient quatre
tables principales qui regroupent l'historique des clients, des magasins, des ventes, et
d'autres informations relatives au groupe Délice. Afin d'exploiter efficacement ces
données, nous allons les connecter à un serveur SQL.
Cette connexion nous permettra d'accéder aux données en temps réel, de les interroger, de
les analyser et de générer des rapports pertinents pour aider le groupe Délice dans leur
prise de décision et leurs opérations quotidiennes
Power Query est un outil puissant intégré à Power BI et Excel qui permet d'extraire, de transformer et
de charger (ETL) des données provenant de différentes sources. Il offre une interface conviviale pour
collecter des données provenant de sources internes et externes, telles que des bases de données, des
fichiers plats, des services Web, des applications en ligne, etc.
La première étape de l'ETL consiste à extraire les données de leurs sources respectives. Avec Power
Query, vous pouvez facilement spécifier les sources de données et récupérer les données requises. Il
propose des fonctionnalités avancées pour filtrer, trier, fusionner et nettoyer les données extraites,
garantissant ainsi la qualité et la cohérence des données importées.
Une fois les données extraites, Power Query offre de puissantes capacités de transformation. Vous
pouvez effectuer diverses opérations de nettoyage et de structuration des données, telles que la
suppression des doublons, la gestion des valeurs manquantes, la modification des types de données, la
création de colonnes calculées, etc. Ces transformations permettent de préparer les données pour
l'analyse ultérieure.
Enfin, Power Query facilite le chargement des données transformées dans votre modèle de données.
Vous pouvez choisir de charger les données dans Power BI ou Excel pour les utiliser dans des
tableaux de bord, des rapports ou des analyses plus approfondies. L'outil gère également les mises à
jour automatiques des données, garantissant que vos visualisations restent à jour avec les dernières
informations.
En résumé, Power Query simplifie le processus d'ETL en offrant une interface conviviale et des
fonctionnalités avancées pour extraire, transformer et charger les données. Il vous permet d'importer
des données provenant de différentes sources, de les nettoyer et de les préparer pour une analyse
approfondie, améliorant ainsi la qualité et la pertinence de vos analyses et rapports.
4.3.1 Extraction
L'étape d'extraction de données est une étape essentielle dans le processus de traitement et d'analyse
des données. Elle consiste à récupérer des informations à partir de différentes sources de données et à
les préparer pour une utilisation ultérieure.
Dans le contexte de l'utilisation de Power Query, l'extraction de données se fait généralement à partir
de sources telles que des bases de données, des fichiers plats, des services web, des API, etc.
Cependant, dans notre cas, nous nous concentrons sur l'extraction de données à partir d'une base de
données SQL Server.
L'extraction de données à partir de SQL Server est réalisée en se connectant directement à la base de
données et en récupérant les informations requises. Cela permet d'accéder aux tables, aux vues ou
même d'exécuter des requêtes personnalisées pour extraire les données pertinentes.
Une fois la connexion établie, nous lançons des requêtes SQL spécifiques pour extraire les données
spécifiques dont nous avons besoin. Nous utilisons des requêtes ciblées pour limiter la quantité de
données extraites, en récupérant uniquement les informations pertinentes pour notre analyse. Nous
utilisons des conditions et des filtres dans nos requêtes pour préciser les critères de sélection, tels que
les dates, les catégories ou les clients spécifiques.
Nous optimisons également le processus en limitant les colonnes extraites. Si nous n'avons besoin que
de certaines colonnes d'une table, nous les spécifions dans notre requête pour éviter d'extraire des
données inutiles. Cela réduit la taille des résultats de la requête et accélère le temps d'extraction.
Nous utilisons des jointures appropriées lorsque nous avons besoin de données provenant de plusieurs
tables. Les jointures nous permettent de combiner les tables et de récupérer les données nécessaires en
une seule requête, évitant ainsi de procéder à plusieurs extractions et jointures ultérieures dans Power
Query.
Avec l'aide de notre entreprise, nous avons pu lancer six requêtes spécifiques dans le but d'obtenir le
résultat final souhaité. Chaque requête a été conçue pour extraire des données spécifiques .
En conséquence, nous avons obtenu six tables distinctes, chacune contenant les informations
nécessaires à notre analyse comme il est indiqué dans cette figure
Ces requêtes ont été soigneusement élaborées en collaboration avec notre équipe et l'entreprise pour
s'assurer que nous obtenons les données exactes dont nous avons besoin. Elles ont été testées et
validées pour garantir l'exactitude et la cohérence des résultats.
Chaque table extraite contient des informations spécifiques qui contribuent à notre analyse globale.
Par exemple, nous avons pu extraire une table contenant les données des clients, une autre contenant
les informations sur les magasins, une troisième avec les ventes, et ainsi de suite. Chaque table apporte
une perspective unique à notre analyse et nous permet de comprendre différents aspects de notre
entreprise.
❖ Le tableau 11 présente une description de ces tables
Tables Description
Produits Tableau représentant tous les détails des produits
comme Code produit ,Type, Famille, Groupe... .
Date de lancement Tableau représentant la data de lancement de
chaque produit
4.3.2 Transformation
Une fois que nous avons extrait les données de notre base de données SQL Server et obtenu les
différentes tables, la prochaine étape cruciale consiste à effectuer des transformations sur ces
données. Les transformations des données sont essentielles pour garantir que les données sont
cohérentes, de haute qualité et adaptées à nos besoins d'analyse.
En utilisant le langage M, nous pouvons appliquer des filtres pour sélectionner les données
pertinentes, éliminer les valeurs manquantes ou aberrantes, et effectuer des opérations de fusion et de
jointure pour combiner les données de différentes tables. Nous pouvons également effectuer des
conversions de formats de données, créer de nouvelles colonnes calculées et agréger les données à
différents niveaux.
Les transformations appliquées à la table "Forecast" ont été réalisées dans la partie des étapes de
l'éditeur Power Query, comme illustré dans la figure 50 .
Les transformations appliquées à la table "Clients" ont été réalisées dans la partie des étapes de
l'éditeur Power Query, comme illustré dans la figure 51.
Power Pivot est une fonctionnalité de Power BI qui permet la modélisation de données et la création
de modèles de données plus avancés. Il permet notamment de construire des modèles de données
relationnels et d'effectuer des opérations de modélisation telles que la création de hiérarchies, l'ajout de
mesures calculées et la gestion des relations entre les tables.
La modélisation multidimensionnelle est un processus qui consiste à représenter les données dans un
cadre conceptuel en utilisant les concepts de modélisation fournis par un modèle de données
multidimensionnel. Essentiellement, les modèles multidimensionnels classent les données en faits,
qui sont accompagnés de mesures numériques, et en dimensions, qui caractérisent les faits et sont
principalement textuelles. La mise en œuvre réussie d'un entrepôt de données performant, répondant
à nos besoins, dépend principalement de l'identification précise de nos mesures et dimensions, du
choix du modèle approprié, et de l'adoption d'une approche optimisée pour la recherche
d'informations.
• Schéma en étoile
Le schéma en étoile est l'un des modèles multidimensionnels les plus couramment utilisés. Il se
distingue par sa simplicité, car chaque dimension est indépendante et n'est pas liée aux autres
dimensions. Ce schéma est particulièrement adapté pour interroger de grandes quantités de données
et bénéficie d'un soutien étendu de la part des outils de Business Intelligence.
Le schéma en flocon est une variante du schéma en étoile dans la modélisation multidimensionnelle.
Contrairement au schéma en étoile, où les dimensions sont dénormalisées, le schéma en flocon
normalise les dimensions en les divisant en sous-tables pour réduire la redondance des données. Cela
permet d'économiser de l'espace de stockage, mais peut également augmenter la complexité des
requêtes, car elles nécessitent plus de jointures pour récupérer les informations. Le schéma en flocon
est utilisé dans des cas où la normalisation des dimensions est essentielle pour économiser de l'espace
ou lorsque les dimensions ont des hiérarchies complexes nécessitant une structure plus détaillé
Dans une architecture classique, le data warehouse agit comme une couche centrale qui intègre les
données provenant de différentes sources, les nettoie, les transforme et les stocke dans un format
cohérent. Les data marts sont ensuite construits en extrayant et en filtrant les données pertinentes du
data warehouse pour répondre aux besoins spécifiques de chaque groupe d'utilisateurs.
• Approche Top-Down de « Bill Inmon » : Dans cette approche, le data warehouse est conçu
en premier, puis les data marts sont dérivés du modèle de données central en sélectionnant et
en agrégeant les données nécessaires à chaque data mart. Cette approche offre une vue
globale cohérente des données, mais peut être plus complexe à mettre en œuvre.
• Approche Bottom-Up de « Ralph Kimball » : Dans cette approche, les data marts sont
construits indépendamment les uns des autres, en sélectionnant et en intégrant les données
spécifiques à chaque data mart. Les data marts sont ensuite intégrés dans le data warehouse
pour une vue consolidée des données. Cette approche offre une mise en œuvre plus rapide et
flexible, mais peut entraîner une duplication de données.
En conclusion,dans notre cas c’est une « Approche Bottom-Up » les requêtes que nous avons réalisées
dans Power Query ont permis de créer des Data Marts spécifiques à chaque domaine. En utilisant
Power Pivot, nous allons consolider ces Data Marts pour créer un Data Warehouse global. Cela nous
permettra d'intégrer et d'analyser nos données de manière cohérente, offrant une vue complète et
unifiée .
Dans notre cas, les requêtes que nous avons réalisées dans la partie Power Query nous ont permis de
créer des Data Marts. Chaque requête a extrait et transformé les données spécifiques dont nous avions
besoin pour un domaine fonctionnel ou une équipe spécifique de notre organisation. Ces Data Marts
contiennent un sous-ensemble de données pertinentes et spécifiques à chaque domaine.
Maintenant, pour créer un Data Warehouse à partir de ces Data Marts, nous devons effectuer une étape
supplémentaire de consolidation et d'intégration des données. Nous allons utiliser Power Pivot pour
combiner les différentes tables et les relier les unes aux autres en créant des relations.
En utilisant Power Pivot, nous allons définir des clés primaires et étrangères pour établir les relations
appropriées entre les tables des différents Data Marts. Cela permettra d'intégrer les données de
manière cohérente et de fournir une vue consolidée et holistique de l'ensemble de nos données.
4.4.4 Modèle adopte
Pour garantir une organisation efficace des données stockées dans notre Data Warehouse, nous avons
pris soin de choisir une approche de modélisation appropriée, visant à maximiser la restitution des
informations. Après une analyse approfondie des diverses architectures de Data Warehouse
disponibles et en prenant en considération la nature spécifique de nos données, nous avons décidé
d'adopter le modèle en étoile.
Nous avons choisi le modèle en étoile pour plusieurs raisons. Tout d'abord, il nous permet d'organiser
nos données autour d'une table de faits centrale qui regroupe les mesures numériques clés que nous
souhaitons analyser, telles que les ventes, les revenus ou les quantités. Cela facilite l'accès rapide et
efficace à ces mesures pour nos analyses approfondies.
De plus, les dimensions dans le modèle en étoile jouent un rôle essentiel en décrivant les différents
aspects contextuels des faits. Par exemple, nous pouvons avoir des dimensions telles que le temps, la
géographie, les produits ou les clients. Ces dimensions permettent de filtrer, segmenter et analyser les
données selon différents critères, offrant ainsi une vue plus complète et détaillée de nos données.
Selon l’architecture et le modèle que nous avons choisi, nous avons une table des faits:
Cette table comprends tous les codes des divers dimensions en relation avec la quantité qui
sont 6 dimensions par exemple la dimension Produit , Client etc., Date de la table de fait et enfin la
quantité .
Forecasts
Code Client
Code Produit
Code Société
Date
..
..
Quantité
• Tables de dimensions
Société
Code Société
Société
Pole
...
Produits
Code Produit
Group produit
Famille produit
...
Power View est un composant de visualisation interactif intégré à Power BI. Il permet de créer des
rapports et des tableaux de bord dynamiques, offrant ainsi une expérience visuelle immersive pour
l'analyse des données.
Avec Power View, vous pouvez créer des visualisations interactives telles que des tableaux croisés
dynamiques, des graphiques, des cartes géographiques et des segments de données. Ces visualisations
sont liées les unes aux autres, ce qui permet d'explorer les données de manière fluide et intuitive.
Le succès d'un projet de Business Intelligence repose largement sur la fiabilité des données regroupées
dans l'interface utilisateur connue sous le nom de tableau de bord. Il est essentiel que ce tableau de
bord offre une vision claire et cohérente des informations, alignée sur les objectifs préétablis
L'objectif principal d'un tableau de bord est de fournir une vue d'ensemble des informations
pertinentes, facilitant ainsi la compréhension des tendances, des performances et des résultats par
rapport aux objectifs fixés. Il doit être conçu de manière à présenter les données de manière
significative, en utilisant des visualisations graphiques, des indicateurs clés de performance (KPI) et
des tableaux de bord interactifs.
Pour assurer ces aspects, nous avons privilégié un tableau de bord offrant les attributs suivants :
• Disponibilité : La capacité d'accéder aux informations nécessaires au bon moment et dans le bon
format.
• Accessibilité : Notre solution met à disposition des interfaces conviviales et ergonomiques, ce qui la
rend facilement accessible et utilisable.
• Interactivité : Les utilisateurs ont la possibilité de contrôler les résultats générés en utilisant les
filtres intégrés, ce qui rend les rapports interactifs et dynamiques.
Ces caractéristiques assurent que notre tableau de bord est convivial, interactif et toujours disponible
pour répondre aux besoins des utilisateurs.
Un tableau de bord bien conçu dépasse la simple compilation de KPI. En réalité, il est conçu pour
atteindre des objectifs préétablis et être aligné sur ces derniers. Il est conçu pour répondre aux trois
questions fondamentales suivantes : Pourquoi ? Comment ? Quoi ?
Les indicateurs clés de performance, ou KPI (Key Performance Indicators), sont des mesures
quantifiables des performances liées à des objectifs spécifiques. Ils servent de repères pour évaluer les
progrès et contribuent à l'évaluation de la situation par les décideurs. Un KPI efficace doit satisfaire à
certains critères :
• Mise à jour : Les données sont régulièrement actualisées lors de leur utilisation.
En respectant ces critères, les KPIs permettent de suivre et d'évaluer les performances de manière
efficace, offrant ainsi une base solide pour la prise de décisions stratégiques
Les KPI utilisés sont présentés avec leurs objectifs dans le tableau 15 :
Graphique en Somme de quantité par mois et Afficher la quantité du vente des produits
courbe type Forecast avec type forecast en légende
Segment liste Année ,trimestre, mois , jour Filtrer la date par Année ,trimestre,
déroulante mois , jour
Segment liste Famille Produit, Produit Filtrer la somme de quantité par chaque
déroulante famille produit et produit
Segment liste Catégorie Client, Type Client, Filtrer la somme de quantité par chaque
déroulante CLIENT client
Segment liste Code Type Forecast, Type Filtrer la somme de quantité par type de
déroulante Forecast forecast(1,2,3,..,AA « ventes réelles »)
Chacune de ces méthodes utilise des données historiques et d'autres facteurs pertinents pour générer
une prévision de budget. Ces prévisions sont ensuite comparées aux chiffres réels du budget, qui
représentent les valeurs réelles obtenues à la fin de la période de référence.
Cette comparaison permet d'évaluer la précision de chaque méthode statistique et d'identifier les écarts
entre les prévisions et les résultats réels. Cela offre aux utilisateurs du tableau de bord une perspective
claire sur la performance de chaque méthode et leur permet de prendre des décisions éclairées en
matière de planification et de gestion budgétaire.
Power BI Server est une plateforme de déploiement qui permet de publier et de partager des
rapports et des tableaux de bord en interne au sein de l'organisation. Cette étape est essentielle pour
permettre aux utilisateurs de l'organisation d'accéder aux informations et de bénéficier des
fonctionnalités avancées du tableau de bord. Comme indiqué dans cet figure
Une fois que le tableau de bord est déployé sur Power BI Server, l'administrateur de l’entreprise peut
associer ce rapport à un groupe d'utilisateurs spécifique en définissant des logins et des mots de
passe. Cette étape permet de contrôler l'accès au tableau de bord et de s'assurer que seules les
personnes autorisées peuvent y accéder.
Conclusion
Le chapitre a été consacré au Sprint1 de notre projet, axé sur la préparation, l'intégration
et la visualisation des données. Nous avons présenté le modèle conceptuel de notre
solution, identifié les sources de données et exploré l'ETL à l'aide de Power Query.
Nous avons également abordé Power Pivot, qui nous permet de mettre en place une
modélisation multidimensionnelle avec un Data Warehouse et des Data Marts. Enfin,
nous avons discuté de Power View pour la visualisation des données, en décrivant le rôle
des tableaux de bord, leur structure et les indicateurs clés de performance.
Ce chapitre constitue une étape cruciale dans la création d'une solution solide et
conviviale, en assurant la disponibilité et la qualité des données, ainsi qu'en fournissant
des outils de visualisation efficaces pour une analyse approfondie.
Chapitre 5 : Sprint2 : Le développement et
l’implémentation du modèle de prévision
Introduction
Dans cette étape, nous devons acquérir une connaissance approfondie du domaine pour lequel nous
souhaitons créer un modèle de prévision. Cela implique de comprendre nos propres objectifs de
prévision, les variables d'entrée pertinentes, les données historiques disponibles et les mesures de
performance attendues.
Le groupe Delice souhaite effectuer des prévisions sur la quantité de chaque produit, en utilisant une
approche de rolling forecast. Cela signifie qu'ils souhaitent prévoir les quantités de produits sur une
base continue, en mettant à jour et en ajustant régulièrement leurs prévisions en fonction des
nouvelles informations et des changements de conditions.
En examinant les données, nous constatons qu'elles sont constituées d'une série de dates
associées à des quantités de chaque produit. Compte tenu des besoins de l'entreprise et de la
nature de ces données, il est clair que nous avons affaire à une prévision basée sur des séries
temporelles(chronologiques).
Une série chronologique est une séquence de points de données ordonnés dans le temps, où
chaque point de données est associé à une valeur. Dans notre cas, les dates représentent le temps
et les quantités de chaque produit sont les valeurs correspondantes.
La prévision des séries chronologiques consiste à utiliser des modèles et des méthodes
statistiques pour extrapoler les tendances passées et estimer les valeurs futures. Cela nous
permet de prédire les quantités de produits à venir, en nous basant sur les données historiques
disponibles.
En comprenant cette nature temporelle de nos données et en reconnaissant qu'il s'agit d'un
problème de prévision de séries chronologiques, nous pouvons appliquer des techniques
spécifiques pour développer des modèles de prévision efficaces. Ces modèles peuvent prendre
en compte les tendances, les saisons, les cycles et d'autres motifs récurrents qui peuvent
influencer les quantités de produits au fil du temps.
L'objectif ultime de l'entreprise est d'utiliser ces modèles de prévision pour anticiper avec
précision les quantités de produits futures. Cela peut aider l'entreprise dans ses activités de
planification, de production, de gestion des stocks et de prise de décision stratégique.
✓ Variable dépendante : la variable dépendante est la quantité des produits que nous
cherchons à prévoir. Nous nous intéressons spécifiquement à l'évolution de cette variable
au fil du temps.
✓ Ordre chronologique : Les données sont organisées dans un ordre chronologique, ce qui
signifie que chaque observation est enregistrée dans l'ordre de leur occurrence dans le
temps. Cela nous permet d'analyser les tendances, les fluctuations saisonnières et les
schémas qui se produisent dans la série.
En prenant en compte ces caractéristiques, nous pouvons conclure que nous avons une série temporelle
univariée multistep. Cela nous indique que nous devons utiliser des techniques spécifiques de
prévision pour estimer les valeurs futures de la quantité sur plusieurs pas de temps à venir.
❖ Stationnarité :
Dans le sens le plus intuitif, la stationnarité signifie que les propriétés statistiques d'un processus de
série temporelle ne changent pas avec le temps. En d'autres mots, toutes ses propriétés statistiques
(moyenne, variance, écart-type) demeurent constantes au fil du temps.
Figure 59 Stationnarité
Si vous observez attentivement les images ci-dessus, vous pouvez constater la différence entre
les deux graphiques. Dans une série temporelle stationnaire, la moyenne, la variance et l'écart-
type des valeurs observées restent presque constants au fil du temps, tandis que dans une série
temporelle non stationnaire, ce n'est pas le cas.
Il existe de nombreuses théories statistiques pour explorer les séries stationnaires par rapport
aux séries non stationnaires.
En pratique, nous pouvons supposer que la série est stationnaire si elle présente des propriétés
statistiques constantes au fil du temps, telles que :
• Moyenne constante
• Variance constante
• Une autocovariance qui ne dépend pas du temps.
La méthode la plus courante et la plus pratique pour rendre la série stationnaire est de la différencier
au moins une fois jusqu'à ce qu'elle devienne approximativement stationnaire.
Alors, qu'est-ce que la différenciation ? Si Y_t est la valeur à l'instant 't', alors la première différence
de Y = Yt - Yt-1. En termes simples, différencier la série ne fait rien d'autre que soustraire la valeur
suivante de la valeur actuelle. Si la première différence ne rend pas la série stationnaire, vous pouvez
passer à la deuxième différence. Et ainsi de suite.
Une autre méthode consiste à diviser la série en 2 parties ou plus et à calculer les statistiques
récapitulatives telles que la moyenne, la variance et l'autocorrélation. Si les statistiques sont assez
différentes, alors la série n'est probablement pas stationnaire.
Néanmoins, vous avez besoin d'une méthode pour déterminer quantitativement si une série donnée est
stationnaire ou non. Cela peut être fait en utilisant des tests statistiques appelés "tests de racine
unitaire". Il existe plusieurs implémentations de tests de racine unitaire, tels que :
• Le test augmenté de Dickey-Fuller (ADF Test)
• Le test de Kwiatkowski-Phillips-Schmidt-Shin (KPSS test, pour la stationnarité de
tendance)
• Le test de Philips Perron (PP Test)
Le plus couramment utilisé est le test ADF. Dans ce test, nous considérons d'abord l'hypothèse nulle :
la série temporelle n'est pas stationnaire. Le résultat du test contiendra la statistique de test et la valeur
critique pour différents niveaux de confiance. L'idée est d'avoir une statistique de test inférieure à la
valeur critique. Dans ce cas, nous pouvons rejeter l'hypothèse nulle et affirmer que cette série
temporelle est effectivement stationnaire.
La prévision des séries temporelles est une technique d'analyse utilisée pour prédire les valeurs
futures d'une variable en se basant sur les données historiques. Les séries temporelles se réfèrent à
des ensembles de données qui sont enregistrées dans un ordre chronologique, où chaque
observation est associée à une valeur de variable à un moment spécifique.
Les modèles de prévision de séries chronologiques basés sur l’apprentissage automatique ont
trouvé une large implémentation dans les projets de séries chronologiques requis par diverses
entreprises pour faciliter la distribution prédictive du temps et des ressources.
La prévision des séries temporelles basée sur l'apprentissage automatique s'est avérée être la
méthode la plus efficace pour capturer les motifs dans la séquence de données structurées et non
structurées, ainsi que pour effectuer l'analyse et la prévision des séries temporelles de manière plus
avancée.
Figure 60 Les composantes des données de séries temporelles
✔ Saisonnalité : pour mettre en évidence le motif répétitif des cycles de comportement au fil du
temps.
✔ Irrégularité/bruit : pour tenir compte de l'aspect non systématique des séries temporelles qui
s'écartent des valeurs du modèle commun.
✔ Cyclicité : pour identifier les changements répétitifs dans les séries temporelles et définir leur
position dans le cycle.
Parmi les nombreuses méthodes visant à atteindre la précision et à minimiser les erreurs et les
pertes dans les prévisions, il existe plusieurs méthodes classiques et modernes d'apprentissage
automatique qui prouvent leur précision et leur pertinence computationnelle.
Il existe différents types d'analyse de séries temporelles. Pour notre projet nous envisageons
d'utiliser les modèles les plus largement utilisés basés sur l'apprentissage automatique sont les
suivants, classés par catégories :
Les méthodes classiques éprouvées sont le plus souvent utilisées dans l'élaboration des
prévisions chronologiques. Ces modèles peuvent fournir des prédictions de séries
chronologiques exactes au moyen de feuilles de calcul et de formules appliquées aux
ensembles de données.
Cependant, les méthodes conventionnelles présentent certains inconvénients qui les rendent
insuffisantes pour des prévisions précises dans des environnements qui changent
rapidement.
✓ ARIMA
ARIMA(p, d, q):
où :
✓ SARIMAX
(1 - φ₁L - φ₂L² - ... - φₚLᵖ)(1 - Φ₁Lᵇ - Φ₂L²ᵇ - ... - ΦₚLᵇᵖ)(1 - L)ᵈ(1 - Lˢ)ᴰYₜ = (1 + θ₁L +
θ₂L² + ... + θₚLᵠ)(1 + Θ₁Lᵇ + Θ₂L²ᵇ + ... + ΘₚLᵇᵠ)εₜ,
Les réseaux de neurones LSTM (Long Short-Term Memory) sont une architecture
spécifique de réseaux de neurones récurrents (RNN) qui sont utilisés pour modéliser
et prédire des séries temporelles. Les LSTM sont conçus pour résoudre le problème
de la disparition du gradient (vanishing gradient) rencontré dans les RNN
traditionnels, ce qui les rend efficaces pour capturer les dépendances à long terme
dans les séquences temporelles.
Figure 62 LSTM
À cette étape, nous effectuons un nettoyage des données pour obtenir des informations pertinentes et
sélectionner les variables importantes. Nous lançons le processus de préparation des données pour
l'ingénierie des caractéristiques. L'élément clé de l'ingénierie des caractéristiques consiste à cibler les
domaines de connaissances du domaine qui sont essentiels pour concevoir de nouvelles
fonctionnalités dans l'ensemble de données existant.
Après avoir effectué les étapes d'ETL et de modélisation, nous avons besoin de la table "Forecast" qui
a été préalablement transformée et préparée pour notre travail. Cette table est utilisée comme entrée
dans notre processus d'analyse et de développement de modèle dans Google Colab. Cependant, en
raison de la volumétrie importante de la table, nous avons rencontré des limitations pour l'exporter
directement depuis Power BI. Nous avons donc utilisé l'outil DAX Studio pour exporter la table vers
un fichier CSV, que nous avons ensuite utilisé comme input dans Google Colab. Cette approche nous
a permis de contourner les limitations liées à la volumétrie de la table et de poursuivre notre travail
d'analyse et de développement de modèle de manière efficace.
La figure 63 présente notre architecture pour obtenir les données nécessaires
❖ Exportation de la table
Voici les étapes pour exporter des données dans DAX Studio :
Une fois que nous avons sélectionné le format et l'emplacement nous choisissons le tableau qu'on veut
l'exporter c'est la table "forecasts" et nous pouvons cliquer sur le bouton "Exporter" pour lancer le
processus d'exportation. Les données seront alors exportées dans le fichier spécifié, dans le format
sélectionné « FORECASTS. CSV».
Figure 66 Exportation de la table FORECASTS
❖ Table FORECASTS
La table "Forecasts" utilisée dans cette étude a déjà été transformée et analysée, et il n'est donc pas
nécessaire de la nettoyer davantage. Les données ont été préparées et adaptées pour répondre aux
besoins spécifiques de l'analyse et de la modélisation.
Les données utilisées dans cette étude correspondent à la table "Forecasts". Cette table contient les
informations suivantes :
Code Magasin : Un identifiant numérique représentant le magasin associé (peut être manquant).
Ces données fournissent des informations sur les ventes réelles, c'est-à-dire les quantités vendues
de chaque produit, pour différentes sociétés, produits, magasins, dates et clients. Elles incluent
également des détails sur les types de produits, les familles de produits et les groupes de produits.
Les mesures de quantité permettent d'analyser les volumes de vente.
Dans le cadre de cette étude, nous avons utilisé un ensemble de données comprenant plusieurs
variables pertinentes pour notre analyse. Notre objectif principal était de prédire la quantité de
produits vendus ou achetés, qui constitue notre variable cible.
Pour atteindre cet objectif, nous avons examiné les autres colonnes de notre jeu de données comme
des prédicteurs potentiels. Ces prédicteurs comprenaient le code de la société, le code du produit, le
code du magasin, la date de la transaction, la quantité , le code du client.
Afin d'évaluer la pertinence de ces variables par rapport à notre variable cible, nous avons effectué
des calculs de causalité prédictive et de corrélation de Pearson. La causalité prédictive nous a
permis d'identifier les relations potentielles de cause à effet entre les variables, tandis que la
corrélation de Pearson nous a fourni une mesure de la corrélation linéaire entre les variables.
En analysant ces mesures de pertinence, nous pourrons déterminer quelles variables ont une
influence significative sur la quantité de produits vendus ou achetés. Cela nous permettra de mieux
comprendre les facteurs qui influencent la demande des clients et d'optimiser nos prévisions et nos
stratégies commerciales en conséquence.
Figure 68 Etude de corrélation
Après avoir évalué l'importance des variables et identifié celles qui ont un impact significatif sur la
quantité de produits vendus ou achetés, nous entamons la phase de réduction des données. Notre
objectif en tant qu'analyste est de sélectionner les variables les plus pertinentes pour notre modèle
de prédiction, tout en réduisant la complexité de notre jeu de données.
Tout d'abord, nous procédons à l'élimination des colonnes inutiles qui ne contribuent pas de
manière significative à notre analyse. Cela nous permet de réduire la dimensionnalité de nos
données et de nous concentrer sur les variables les plus informatives.
De plus, nous effectuons une agrégation de la quantité de chaque produit par la fin du mois. Cette
agrégation nous permet d'obtenir une vue globale des ventes ou des achats de produits sur une base
mensuelle, ce qui peut être plus utile pour notre analyse et notre modèle de prédiction.
En résumé, en tant qu'analyste, notre objectif est de sélectionner les variables les plus pertinentes et
d'appliquer des techniques de réduction des données pour simplifier notre modèle tout en
préservant les informations nécessaires à la prédiction précise de notre variable cible. Cela nous
permet d'obtenir des résultats plus fiables et d'approfondir notre compréhension du comportement
des ventes ou des achats de produits.
Dans cette phase, nous abordons l'application de deux méthodes de prévision classiques, ARIMA et
SARIMAX, ainsi que la méthode de machine learning LSTM (Long Short-Term Memory) pour la
prédiction des séries chronologiques. Ces méthodes sont largement utilisées dans le domaine de la
prévision en raison de leur capacité à capturer les tendances, les motifs saisonniers et les relations
complexes entre les données chronologiques.
Cet figure présente L'évolution de la quantité du produit 60 (Lait) par mois entre 2019 et 2023.
Cet figure présente la Comparaison de l’évolution de la quantité du produit 60 par mois avant la
Cet figure présente Auto corrélation et Partiel Auto corrélation pour le modèle ARIMA
.
Figure 77 Auto corrélation VS Partiel Auto corrélation
Le résumé précédent contient des informations essentielles concernant l'estimation des paramètres du
modèle ARIMA(4, 1, 4). Ces paramètres sont cruciaux pour l'ajustement du modèle à nos données.
Voici comment nous pouvons utiliser ces informations pour ajuster le modèle :
✓ Coefficients (coef) : Les coefficients estimés pour les termes AR (ar.L1, ar.L2, ar.L3,
ar.L4) et MA (ma.L1, ma.L2, ma.L3, ma.L4) déterminent l'importance relative de
chaque terme dans le modèle. Ces coefficients seront utilisés pour construire les
parties autoregressive (AR) et moving average (MA) de notre modèle ARIMA.
✓ Erreurs standard (std err) : Les erreurs standard donnent une indication de la
précision de l'estimation des coefficients. Des erreurs standard plus faibles indiquent
une estimation plus précise.
✓ Valeurs z (z) : Les valeurs z mesurent l'écart d'un coefficient par rapport à sa valeur
attendue selon l'hypothèse nulle. Des valeurs z plus élevées indiquent une
significativité statistique accrue du coefficient.
✓ Valeurs p (P>|z|) : Les valeurs p indiquent la probabilité que le coefficient soit nul.
Des valeurs p inférieures à un seuil de signification (par exemple, 0,05) suggèrent que
le coefficient est statistiquement significatif.
✓ Intervalles de confiance ([0.025 0.975]) : Les intervalles de confiance à 95 % nous
fournissent une plage de valeurs plausibles pour chaque coefficient. Cela nous aide à
évaluer l'incertitude associée à l'estimation des paramètres.
En utilisant ces informations, nous pouvons ajuster le modèle ARIMA en utilisant les coefficients
estimés et les ordres spécifiés (4, 1, 4). Cela nous permettra de générer des prédictions pour notre
série temporelle.
• Prévision : Le modèle ARIMA est appliqué afin de réaliser des prédictions sur les valeurs à
venir de la série temporelle.
• Identification des ordres du modèle : Les ordres du modèle SARIMAX sont généralement
représentés par les paramètres (p, d, q) et (P, D, Q, s). Les paramètres (p, d, q) correspondent
aux ordres autoregressif, intégré et de moyenne mobile pour la composante non saisonnière
de la série, tandis que les paramètres (P, D, Q, s) correspondent aux ordres autoregressif,
intégré, de moyenne mobile et à la période saisonnière pour la composante saisonnière de la
série.
Cet figure présente Auto corrélation et Partiel Auto corrélation pour SARIMAX
Figure 81 « AC » vs « PAC »
Les courbes ci-dessous présentent l’étude de saisonnarité et tendance
• Prévisions : Une fois que le modèle a été ajusté et diagnostiqué, il peut être utilisé
pour effectuer des prévisions sur une période future. Les prévisions peuvent être générées
en utilisant la méthode "predict" du modèle SARIMAX.
Ci-dessous est l’evolution de la quantité du produit 60 de 2019 à 2023 et la prévision donnée par le
modèle SARIMAX(4.1.4)x(4,1,4,12) de 2022 à 2024
Ceci est la ccomparaison de l'évolution de la quantité du produit 60 entre 2019 et 2023 avec les
prévisions du modèle SARIMAX(4,1,4)x(4,1,4,12) par rapport au modèle ARIMA(4,1,4) pour la
période de 2022 à 2024.
Figure 86 Évolution de la quantité du produit 60 VS la prévision donnée par le modèle SARIMAX VS ARIMA
En conclusion, cette section présente une approche exhaustive pour la prédiction des séries
temporelles en utilisant les modèles ARIMA et SARIMAX. Nous examinerons attentivement chaque
étape du processus de modélisation et appliquerons ces méthodes à nos propres données pour générer
des prédictions précises. L'utilisation de ces modèles nous permettra d'obtenir une meilleure
compréhension des tendances, des motifs saisonniers et des variations présentes dans nos séries
temporelles, ouvrant ainsi de nouvelles perspectives pour la prise de décision et la planification.
❖ LSTM (Long Short-Term Memory) :
Dans cette section, nous explorerons l'utilisation du modèle LSTM (Long Short-Term Memory) pour
la prédiction des séries temporelles. Le modèle LSTM est un type de réseau de neurones récurrents
qui est particulièrement adapté pour capturer les dépendances à long terme dans les séries
temporelles. Contrairement aux modèles ARIMA qui reposent sur des équations mathématiques, les
modèles LSTM utilisent des réseaux de neurones pour capturer les motifs temporels complexes.
Pour expliquer le modèle LSTM et le processus utilisé pour prédire les valeurs quotidiennes, voici
les étapes :
• Division des données en ensembles d'entraînement et de test : Les données sont séparées en
deux ensembles, à savoir l'ensemble d'entraînement et l'ensemble de test, en fonction des
dates. Dans cet exemple, les données jusqu'au 31 décembre 2022 sont utilisées pour
l'entraînement, tandis que les données de l'année 2023 sont réservées pour les tests.
• Mise à l'échelle des données : Les données de l'ensemble d'entraînement et de test sont mises à
l'échelle à l'aide de la classe MinMaxScaler. Cette étape permet de normaliser les valeurs de
quantité dans une plage spécifique, par exemple, entre 0 et 1, afin de faciliter l'apprentissage
du modèle.
• Création des séquences d'entraînement pour LSTM : Les données d'entraînement sont
transformées en séquences qui contiennent les valeurs de quantité des jours précédents. Dans
cet exemple, un lookback de 3 est utilisé, ce qui signifie que chaque séquence comprend les
valeurs de quantité des 3 jours précédents. Ces séquences serviront d'entrée pour le modèle
LSTM.
• Création du modèle LSTM : Le modèle LSTM est créé en utilisant la classe Sequential de
Keras. Il est composé d'une couche LSTM avec 64 neurones en entrée, suivie d'une couche
Dense avec 32 neurones et une fonction d'activation relu, puis d'une couche Dense de sortie
avec 1 neurone.
• Tracé des données d'origine et des prédictions LSTM : Enfin, les données d'origine (quantité
réelle) et les prédictions LSTM sont tracées sur un graphique, ce qui permet de visualiser
visuellement la performance du modèle LSTM dans la prédiction des valeurs quotidiennes.
En utilisant cette approche, le modèle LSTM est capable de prédire les valeurs de quantité par jour
pour l'année 2023 en se basant sur les données mensuelles disponibles.
Ci-dessous est l’execution des performances du modèle LSTM sont évaluées à chaque époque
de l'entraînement pour mesurer sa capacité à prédire avec précision les valeurs de la série temporelle.
• La perte (loss) diminue progressivement au fur et à mesure des époques, ce qui est
positif. Cela indique que le modèle apprend à réduire l'écart entre les valeurs prédites et
les valeurs réelles de la série temporelle.
• L'erreur absolue moyenne (mean_absolute_error) diminue également au fil des
époques, ce qui suggère que le modèle LSTM améliore sa capacité à prédire avec
précision les valeurs de la série temporelle.
• Les valeurs de perte et d'erreur absolue moyenne restent relativement faibles, ce qui
est généralement positif. Toutefois, il est important de mettre ces résultats en perspective
par rapport à la plage de valeurs de la série temporelle et de les comparer à d'autres
modèles pour obtenir une évaluation complète des performances.
Après avoir analysé les résultats du modèle LSTM et en les comparant à la plage de valeurs de la
série temporelle, nous constatons que nous ne sommes pas entièrement satisfaits de ses
performances.
5.6 Evaluation et validation des modèles :
L'évaluation et la validation des modèles sont des étapes cruciales pour garantir la qualité et la
fiabilité des prédictions dans l'analyse des séries temporelles. Ces étapes visent à mesurer la
performance des modèles et à vérifier leur capacité à généraliser les prédictions sur de nouvelles
données.
Pour évaluer la précision des prédictions de nos modèles, nous avons utilisé le MAPE (Mean
Absolute Percentage Error) comme mesure.
Le MAPE (Mean Absolute Percentage Error) est une mesure couramment utilisée pour évaluer la
précision d'un modèle de prévision dans le domaine des séries temporelles. Il mesure en pourcentage
l'erreur moyenne absolue entre les valeurs réelles et les valeurs prédites.
Après avoir appliqué les modèles ARIMA, SARIMAX, LSTM pour effectuer des prédictions sur
les séries temporelles, nous avons évalué leur performance en utilisant la mesure de précision MAPE
(Mean Absolute Percentage Error).
ARIMA 15.3722
SARIMAX 10.9422
LSTM 11.2596
Après avoir évalué les résultats du MAPE pour chaque modèle, nous choisirons le modèle qui
présente le MAPE le plus faible ou les performances les plus élevées sur d'autres mesures comme étant
le meilleur modèle. L'objectif est de sélectionner le modèle qui est le plus précis et qui offre les
meilleures prédictions pour les séries temporelles étudiées. Le modèle avec le MAPE le plus faible
indique une erreur relative plus faible entre les valeurs prédites et les valeurs réelles, ce qui est
souhaitable dans la plupart des cas.
❖ Modèle finale
D'après le tableau ci-dessous représentant les résultats de l'évaluation des trois modèles, nous
pouvons conclure que nous allons utiliser le modèle SARIMAX, car il a obtenu les meilleurs résultats.
Le modèle SARIMAX présente un MAPE plus faible par rapport aux autres modèles, ce qui indique
une meilleure précision dans les prédictions des séries temporelles. Par conséquent, nous
sélectionnerons le modèle SARIMAX pour nos analyses et nos prévisions.
Une fois que nous avons sélectionné le meilleur modèle pour nos prévisions, il est essentiel de le
déployer et de l'intégrer dans Power BI afin de visualiser les prédictions et d'automatiser le processus.
Le déploiement du modèle dans Power BI nous permet de tirer parti de la puissance de cette plateforme
de visualisation des données pour présenter nos résultats de manière interactive et dynamique.
Cet figure indique les processus pour intégrer le modèle dans power bi
Nous disposons déjà d'un tableau de bord « FORECASTS » dans Power BI avec une source de
données configurée
• Exportation du modèle : Tout d'abord, nous devons exporter notre modèle prédictif
depuis l'environnement de développement dans lequel il a été créé. Cela peut impliquer
l'enregistrement du modèle sous forme de fichier ou la génération d'un script Python
contenant les informations nécessaires pour exécuter le modèle.
• Connexion à Power BI : Nous ouvrons le tableau de bord existant dans Power BI.
Figure
• Exécution du modèle : Une fois que tout est configuré, nous pourrons exécuter le
modèle en cliquant sur le bouton approprié dans Power BI. Cela déclenchera l'exécution du
script Python et générera les prédictions en fonction des données d'entrée fournies.
• Création des visualisations : Nous allons implémenter les résultats de notre script
dans notre tableau de bord "Forecasts" en indiquant que le résultat obtenu par le modèle
correspond à un nouveau type de Forecast appelé "SARIMAX". Cela nous permettra de
présenter les prévisions générées par notre modèle SARIMAX dans notre tableau de bord
et de les comparer avec d'autres types de prévisions existants.
Conclusion
Ce chapitre présente la clôture de notre projet, où nous avons présenté toutes les étapes que nous
avons suivies pour le développement et l'intégration de notre modèle de prévision basé sur
l'apprentissage automatique en utilisant trois modèles différents. Nous avons commencé par la collecte
et la préparation des données, puis nous avons exploré les modèles ARIMA, SARIMAX et LSTM
pour effectuer les prédictions des séries temporelles. Nous avons ajusté et diagnostiqué les modèles
pour obtenir des performances optimales, et nous avons évalué leurs résultats en utilisant des mesures
telles que le MAPE. Ensuite, nous avons déployé notre modèle sur Power BI pour visualiser les
prédictions et automatiser le processus. En fin de compte, notre projet nous a permis de mieux
comprendre les modèles de prévision et de mettre en œuvre une solution pratique pour la prévision des
séries temporelles.
CONCLUSION GENERAL ET PRESPECTIVES
Au cours de ce projet de fin d'études au sein du Group Délice , nous avons parcouru différentes étapes
et chapitres pour mener à bien notre mission. Nous avons débuté par une introduction, qui a permis de
situer le contexte général du projet, de présenter l'organisme d'accueil ainsi que le cadre dans lequel
nous opérons. Ensuite, nous avons exploré l'état de l'art dans divers domaines pertinents, tels que la
digitalisation, les prévisions glissantes, les techniques de modélisation prédictive et l'informatique
décisionnelle.
En abordant le Sprint0, nous avons réalisé une analyse et une conception approfondies, en spécifiant
les besoins fonctionnels et non fonctionnels, en identifiant les acteurs et en définissant l'architecture
générale du système. Nous avons utilisé des outils tels que le langage de modélisation unifié, les
diagrammes de cas d'utilisation globale et de séquence, ainsi que le diagramme de Gantt pour planifier
notre travail.
Le Sprint1 a été dédié à la préparation, à l'intégration et à la visualisation des données. Nous avons
développé un modèle conceptuel de la solution, identifié les sources de données pertinentes, et utilisé
les outils Power Query et Power Pivot pour réaliser l'ETL et la modélisation multidimensionnelle.
Nous avons également abordé l'architecture du Data Warehouse et créé des tableaux de bord interactifs
à l'aide de Power View.
Dans le Sprint2, nous nous sommes concentrés sur le développement et l'implémentation du modèle de
prévision. Nous avons compris le domaine et les données associées, étudié les caractéristiques de notre
série temporelle, exploré les méthodes de prévision des séries temporelles, et appliqué la méthode
choisie en évaluant et validant les modèles. Enfin, nous avons déployé le modèle sur Power BI pour le
rendre accessible aux utilisateurs finaux.
L'ensemble de ces étapes a abouti à la réalisation d'un projet cohérent et complet. Nous avons pu
mettre en place un système performant de prévision et d'analyse des données, en tirant parti des
avancées technologiques et des meilleures pratiques du domaine. Grâce à une approche Agile et à une
planification rigoureuse en Sprints, nous avons pu garantir une progression continue et une adaptation
aux besoins changeants du projet.
De plus, dans le souci de garantir la sécurité et la confidentialité des données sensibles, l'entreprise a
pris la décision de réaliser la partie d'intégration des outils de prévision en interne. Cette décision
souligne l'importance accordée à la protection des informations stratégiques et confidentielles de
l'entreprise, ainsi qu'à la maîtrise complète du processus de prévision.
l'entreprise a fait le choix stratégique d'assumer elle-même l'intégration des outils de prévision pour
garantir la sécurité et la confidentialité des données. Malgré les difficultés rencontrées, cette décision a
permis de renforcer la maîtrise interne du processus de prévision et de créer une solution sur mesure,
répondant aux besoins spécifiques de l'entreprise.
Enfin , Nous avons parcouru différentes étapes, de l'analyse des besoins à la modélisation, en passant
par l'intégration et la visualisation des données. Ces étapes ont posé les bases solides pour une future
évolution vers une solution Big Data.
En envisageant le projet sous l'angle du Big Data, nous pourrions exploiter des technologies telles que
Hadoop ou Spark pour gérer et analyser de grandes quantités de données, ainsi que des techniques
avancées d'apprentissage automatique pour améliorer la précision des prévisions et des analyses
prédictives. Cette perspective ouvre de nouvelles possibilités pour l'organisme d'accueil, en lui
permettant d'exploiter pleinement le potentiel des données et d'obtenir des insights plus approfondis.
En relisant ce projet à la lumière de notre parcours de formation, nous sommes fiers du travail
accompli et des résultats obtenus. Nous sommes convaincus que notre solution apportera une réelle
valeur ajoutée à l'organisme d'accueil et ouvrira la voie à de nouvelles opportunités dans le domaine de
l'analyse des données et du Big Data.
En conclusion ,nous espérons que ce projet servira également de référence et d'inspiration pour les
futurs projets de fin d'études, en démontrant l'importance croissante de la gestion et de l'exploitation
des données dans un monde de plus en plus numérique et axé sur les données.
Bibliographie et nétographie