0% ont trouvé ce document utile (0 vote)
30 vues19 pages

Méthodologie CRISP-DM en Data Science

Seuls 15% des projets Big Data atteignent l'industrialisation en raison d'une inadéquation entre les attentes des métiers et la réalité du Big Data, ainsi que d'une mauvaise maîtrise des technologies. La méthode CRISP-DM, développée par IBM, est présentée comme la méthode efficace pour tous les projets de Data Science, se décomposant en six étapes clés allant de la compréhension du problème à son déploiement. Le processus est itératif et nécessite une préparation minutieuse des données pour assurer la réussite des projets.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
30 vues19 pages

Méthodologie CRISP-DM en Data Science

Seuls 15% des projets Big Data atteignent l'industrialisation en raison d'une inadéquation entre les attentes des métiers et la réalité du Big Data, ainsi que d'une mauvaise maîtrise des technologies. La méthode CRISP-DM, développée par IBM, est présentée comme la méthode efficace pour tous les projets de Data Science, se décomposant en six étapes clés allant de la compréhension du problème à son déploiement. Le processus est itératif et nécessite une préparation minutieuse des données pour assurer la réussite des projets.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Seuls 15% des projets Big Data atteindraient la phase

d’industrialisation. Les raisons principales de cet échec ? Une


indéniable inadéquation entre les attentes des métiers et la réalité du
Big Data, et une mauvaise maîtrise de ces nouvelles technologies.
[Alianor SIBAI, consultante mc2i Groupe]

Equipe Machine Learning- Option NIDS ESPRIT 2024/2025


 La méthode CRISP-DM qui signifie Cross-Industry
Standard Process for Data Mining a été au départ
développée par IBM dans les années 60 pour réaliser
les projets Datamining.

 Elle reste aujourd’hui (la seule?!) méthode utilisable


efficacement pour tous les projets Data Science.

 Cette méthode est agile et itérative, c’est-à-dire que


chaque itération apporte de la connaissance métier
supplémentaire qui permet de mieux aborder l’itération
suivante.
Equipe Machine Learning- Option NIDS ESPRIT 2021/2022
La méthodologie CRISP se décompose en
six étapes :
1. La compréhension du problème
métier: la première étape consiste à bien
comprendre les éléments métiers et
problématiques que la Data Science vise à
résoudre ou à améliorer.
2. La compréhension des données: cette
phase vise à déterminer précisément les
données à analyser, à identifier la qualité
des données disponibles.
3. La préparation des données: elle inclut
le classement des données en fonction de
critères choisis, le nettoyage des données,
et surtout leur recodage pour les rendre
compatibles avec les algorithmes qui seront
utilisés.
Equipe Machine Learning- Option NIDS ESPRIT 2021/2022
4. La modélisation : la modélisation
comprend le choix, le paramétrage et le test de
différents algorithmes ainsi que leur
enchaînement, qui constitue un modèle.

5. L’évaluation : l’évaluation vise à vérifier


le(s) modèle(s) ou les connaissances obtenues
afin de s’assurer qu’ils répondent aux objectifs
formulés au début du processus.

6. Le déploiement : l’objectif de cette étapes


est de mettre la connaissance obtenue par la
modélisation, dans une forme adaptée, et
l’intégrer au processus de prise de décision.

Equipe Machine Learning- Option NIDS ESPRIT 2021/2022


Equipe Machine Learning- Option NIDS ESPRIT 2021/2022
 Chaque projet, quelle que soit sa
taille, commence par la
compréhension des activités de
l’entreprise,
 Le rôle essentiel de cette étape
est:
- définir le problème
- identifier les objectifs métiers
et les exigences de la solution du
point de vue commercial
 cette première étape est la plus
difficile.
Equipe Machine Learning- Option NIDS ESPRIT 2021/2022
 Après avoir clairement énoncé
le problème commercial, le
‘spécialiste des données’ peut
définir l'approche analytique
permettant de le résoudre.

➔ Définir les objectifs data


Science; identifier les techniques
ML permettant d’atteindre le
résultat souhaité.

Equipe Machine Learning- Option NIDS ESPRIT 2021/2022


 Le choix de l'approche
analytique détermine les
exigences en matière de
données;
 Les méthodes analytiques à
utiliser nécessitent un
contenu, des formats et des
représentations de données
particuliers, guidés par les
connaissances du domaine.

Equipe Machine Learning- Option NIDS ESPRIT 2021/2022


 Cette étape consiste à identifier et
rassembler des ressources de
données - structurées, non
structurées et semi-structurées - qui
sont pertinentes pour le problème.

Lorsqu'il rencontre des lacunes


dans la collecte de données, le
‘spécialiste des données’ peut avoir
besoin de réviser les exigences en
matière de données et de collecter
davantage de données.

Equipe Machine Learning- Option NIDS ESPRIT 2021/2022


 Des statistiques descriptives et
des techniques de visualisation
peuvent aider un scientifique des
données à comprendre le
contenu des données, à évaluer
leur qualité et à découvrir les
informations initiales relatives à
ces données.
La collecte de données,
pourrait être nécessaire pour
combler les lacunes de
compréhension.
Equipe Machine Learning- Option NIDS ESPRIT 2021/2022
 L'étape de préparation des données comprend
toutes les activités utilisées pour construire
l'ensemble de données utilisées à l'étape de
modélisation.
 Elle inclue le nettoyage des données, la
combinaison de données provenant de sources
multiples et la transformation de données en
variables plus utiles.
 L’ingénierie des caractéristiques (‘Feature
engineering’et l’analyse de texte peuvent être
utilisées pour dériver de nouvelles variables
structurées, enrichissant ainsi l’ensemble des
prédicteurs et améliorant la précision du modèle.
 C’est l’étape la plus longue (elle représente 70%
de la durée totale du projet)

Equipe Machine Learning- Option NIDS ESPRIT 2021/2022


 À partir de la première version
de l'ensemble de données
préparé, les scientifiques
utilisent un ensemble
d’apprentissage- des données
historiques dans lesquelles le
résultat recherché est connu -
pour développer des modèles
prédictifs ou descriptifs à l'aide
de l'approche analytique déjà
décrite.
 Le processus de modélisation
est très itératif.
Equipe Machine Learning- Option NIDS ESPRIT 2021/2022
 L’informaticien évalue la
qualité du modèle et vérifie
si celui-ci résout le problème
de manière complète et
appropriée.
 Calculer diverses mesures de
diagnostic, ainsi que d’autres
résultats, tels que des
tableaux et des graphiques, à
l’aide d’un ensemble de tests
pour un modèle prédictif.

Equipe Machine Learning- Option NIDS ESPRIT 2021/2022


 Une fois qu'un modèle
satisfaisant a été développé et
approuvé par les sponsors
commerciaux, il est déployé
dans l'environnement de
production ou dans un
environnement de test
comparable.
 Le déploiement d'un modèle
dans un processus métier
opérationnel implique
généralement plusieurs groupes,
compétences et technologies.
Equipe Machine Learning- Option NIDS ESPRIT 2021/2022
 En collectant les résultats du
modèle mis en œuvre,
l’organisation reçoit des
informations en retour sur les
performances du modèle et
observe son impact sur son
environnement de déploiement.
 L'analyse de ces commentaires
permet au ‘spécialiste des
données’ d'affiner le modèle, en
augmentant sa précision et donc
son utilité.
Equipe Machine Learning- Option NIDS ESPRIT 2021/2022
 TDSP* qui signifie Team Data Science Process est
une méthode itérative pour les solutions d'analyse
prédictive et les applications intelligentes.

 TDSP inclut les bonnes pratiques et structures de


Microsoft et d'autres leaders du secteur pour aider à
la mise en œuvre réussie des initiatives de Data
science.

*Source: Team Data Science Process Documentation 2020

Equipe Machine Learning- Option NIDS ESPRIT 2021/2022


 Le cycle de vie décrit les
principales étapes que les projets
exécutent généralement, souvent
de manière itérative:

▪ Compréhension du métier
▪ Acquisition et compréhension
des données
▪ La modélisation
▪ Déploiement

Equipe Machine Learning- Option NIDS ESPRIT 2021/2022


Equipe Machine Learning- Option NIDS ESPRIT 2021/2022
Vue en grille représentant les tâches les plus pertinents (en bleu) et les
principaux artefacts (en vert) associés à chaque étape du cycle de vie (sur l'axe
horizontal) pour les rôles (sur l'axe vertical).

Equipe Machine Learning- Option NIDS ESPRIT 2021/2022

Vous aimerez peut-être aussi