0% ont trouvé ce document utile (0 vote)
71 vues14 pages

Chapter 1

Le document présente la méthodologie CRISP-DM pour le traitement des données, qui comprend six étapes : compréhension de la problématique, compréhension des données, préparation des données, modélisation, évaluation et déploiement. Chaque étape est détaillée avec des tâches spécifiques visant à transformer des données brutes en informations exploitables. Des exemples concrets illustrent l'importance de la collecte et de l'analyse des données pour la prise de décision.

Transféré par

Chaima Mestiri
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
71 vues14 pages

Chapter 1

Le document présente la méthodologie CRISP-DM pour le traitement des données, qui comprend six étapes : compréhension de la problématique, compréhension des données, préparation des données, modélisation, évaluation et déploiement. Chaque étape est détaillée avec des tâches spécifiques visant à transformer des données brutes en informations exploitables. Des exemples concrets illustrent l'importance de la collecte et de l'analyse des données pour la prise de décision.

Transféré par

Chaima Mestiri
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Traitement des données

-Méthodologie CRISP-DM-
Enseignante: Leila Gazzeh
E-mail: [Link]@[Link]
C’est quoi une donnée brute?

• Les données représentent des informations brutes, factuelles ou mesurables,


généralement collectées ou générées par des systèmes, des capteurs ou des
utilisateurs, dans le but d'être transformées en informations exploitables
ou en connaissances utiles pour la prise de décision, l'automatisation ou
l'optimisation des systèmes.
Exemple des données brutes
❑Exemple : la température mesurée par un capteur
• Donnée brute : "23,5°C" enregistrée à 14h32 le 25 janvier 2025.
• Après traitement, cette donnée pourrait être utilisée pour ajuster
automatiquement un thermostat ou pour analyser les variations de
température dans une journée.
Exemple des données brutes
❑Exemple: Questionnaire : Satisfaction des clients d’un restaurant
1. Nom : Jean Dupont
2. Âge : 32 ans
3. Fréquence de visite : Une fois par mois
4. Satisfaction globale (sur 10) : 8
5. Plat préféré : Pizza Margherita
6. Commentaire : "Le service est rapide et la nourriture est excellente."
• Ces données peuvent ensuite être analysées pour comprendre les préférences des
clients et améliorer les services du restaurant.
C’est quoi le traitement des données?
• Le traitement des données désigne l'ensemble des actions effectuées sur les
données brutes afin de les transformer en informations utiles, exploitables ou
compréhensibles.
C’est quoi CRISP-DM?

• Le processus standard intersectoriel pour l'exploration de données (CRISP-

DM (CRoss Industry Standard Process for Data Mining)) est une

méthodologie utilisée pour mener des projets de machine learning (ML). Il

comprend 6 phases séquentielles.


Etapes du CRISP-DM
Etape I: Compréhension de la problématique

• Cette phase se concentre sur la compréhension des objectifs et des exigences du


projet :
1. Déterminer les objectifs métier que le client souhaite réellement atteindre.
2. Évaluer la situation en identifiant les ressources disponibles, les exigences du projet et en
réalisant une analyse coûts-avantages.
3. Définir les objectifs d’exploration de données selon des perspectives techniques liées à
l’exploration des données.
4. Élaborer un plan de projet en sélectionnant les technologies et outils, et en définissant des
plans détaillés pour chaque phase du projet.
Etape II: Compréhension des données
• Cette phase se concentre sur l’identification, la collecte et l’analyse des
ensembles de données qui peuvent nous aider à atteindre les objectifs du
projet :
1. Collecter les données à partir de différentes sources.
2. Décrire les données en les examinant, par exemple : format des données, nombre
d’enregistrements et type de caractéristiques.
3. Explorer les données en les visualisant et en identifiant les relations entre les données.
4. Évaluer la qualité des données en définissant les problèmes de qualité des données.
Etape III: Préparation des données
• Cette phase prépare l’ensemble de données final pour la modélisation. Elle
comprend cinq tâches :
1. Sélectionner les données : Supprimer les lignes dupliquées et les caractéristiques non
pertinentes.
2. Nettoyer les données : Corriger, imputer ou supprimer les valeurs erronées.
3. Construire les données : Dériver de nouveaux attributs utiles (Feature Engineering).
4. Intégrer les données : Créer de nouveaux ensembles de données en combinant des
données provenant de plusieurs sources.
5. Formater les données : Re-formater les données si nécessaire (par exemple, harmoniser les
unités).
Etape IV: Modélisation
• Dans cette phase, nous développons notre modèle de machine learning pour
répondre à la question métier. Elle comprend quatre tâches :
1. Sélection du modèle : Déterminer quels algorithmes essayer (par exemple,
régression, arbre, classification).
2. Conception des tests : Diviser les données en ensembles d'entraînement, de test et
de validation.
3. Développement du modèle : Adapter les algorithmes sélectionnés à l'ensemble
d'entraînement (par exemple, reg = LinearRegression().fit(X_train, y_train)).
4. Évaluation du modèle : Comparer différents modèles à l'aide de l'ensemble de
validation et ajuster les hyperparamètres.
Etape V: Evaluation
• Cette phase évalue le modèle par rapport à l'indicateur métier et détermine
les prochaines étapes. Elle comprend trois tâches :
1. Évaluer les résultats : Évaluer les modèles sur l'ensemble de test en utilisant les
métriques de performance.
2. Revoir le processus : Revoir le processus du projet, résumer les résultats et corriger ce
qui est nécessaire.
3. Déterminer les prochaines étapes : Décider si le modèle est prêt pour le déploiement
ou s'il nécessite plus d'itérations.
Etape VI: déploiement
• Un modèle n'est utile que si le client peut accéder à ses résultats. Cette phase finale
comprend quatre tâches :
1. Déploiement : Développer et documenter un plan pour le déploiement du modèle.
2. Suivi et maintenance : Développer un plan de suivi et de maintenance pour éviter les
problèmes lors de la phase opérationnelle du modèle.
3. Rapport final : Rédiger un résumé du projet incluant une présentation finale des résultats de
l'exploration des données.
4. Revue : Effectuer une rétrospective du projet, analyser ce qui aurait pu être mieux et
comment améliorer les processus pour l'avenir

Vous aimerez peut-être aussi