0% ont trouvé ce document utile (0 vote)
35 vues31 pages

Datascience

Le document présente les méthodologies de développement orientées Data Science, en se concentrant sur des processus tels que OSEMN, CRISP-DM, KDD, SEMMA, et MS-TDSP. Chaque méthodologie est décrite avec ses étapes clés, mettant en avant l'importance de l'itération et de l'évaluation dans le développement de projets de science des données. Le cours est dispensé par Dr. Selma Belgacem Ben Mansour à l'ISSAT de Sousse pour l'année académique 2022-2023.

Transféré par

Houssem Farah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
35 vues31 pages

Datascience

Le document présente les méthodologies de développement orientées Data Science, en se concentrant sur des processus tels que OSEMN, CRISP-DM, KDD, SEMMA, et MS-TDSP. Chaque méthodologie est décrite avec ses étapes clés, mettant en avant l'importance de l'itération et de l'évaluation dans le développement de projets de science des données. Le cours est dispensé par Dr. Selma Belgacem Ben Mansour à l'ISSAT de Sousse pour l'année académique 2022-2023.

Transféré par

Houssem Farah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Génie Logiciel :

Processus de développement :
Méthodologies orientées Data Science

Dr. Selma Belgacem Ben Mansour

ISSAT de Sousse

2022-2023

1/31
Plan du cours

1. Introduction

2. Processus Itératifs

3. Processus Agiles & MLOps

2/31
Plan du cours

1. Introduction

2. Processus Itératifs

3. Processus Agiles & MLOps

3/31
Data Science

https ://www.inf.elte.hu/en/content/data-science-in-computer-science-msc.t.1732 ?m=361,


https ://www.metron.energy/blog/interview-data-science-industry/

4/31
Machine Learning Typical pipeline

Dipanjan Sarkar , Raghav Bali , Tamoghna Ghosh, "Hands-On Transfer Learning with Python ", Packt, 2018.

5/31
Machine Learning Methods

https://datasciencedojo.com/blog/machine-learning-algorithms-explanation/

6/31
SDLC Classication

Selma Belgacem

7/31
Obtain, Scrub, Explore, Model, and iNterpre (OSEMN) :
Présentation

• inventé en 2010 par Hilary Mason et Chris Wiggins.

https://www.datascience-pm.com/osemn/

8/31
Obtain, Scrub, Explore, Model, and iNterpre (OSEMN) :
Étapes

• Obtain : collecter les données nécessaire pour le projet.


• Scrub : nettoyer et transformer les données (ltrer les données
bruitées et dupliquées, regénérer les données manquantes, fusionner
les données, relocaliser les données, documenter les transformations
pour des raisons de traçabilités...).
• Explore : chercher des motifs pertinentes dans les données (des
corrélations/dépendances entre les caractéristiques/features des
données, possibilités de réduction des dimensions, présence de
groupes/distributions de données similaires, calcul et visualisation de
statistiques appliquées sur les données...).

9/31
Obtain, Scrub, Explore, Model, and iNterpre (OSEMN) :
Étapes
• Model : générer un modèle de données en appliquant une méthode
de machine learning pour prédire des données inconnues (regression,
prediction, classication and clustering ). La construction du modèle
des données nécessite une base de données d'apprentissage et
l'évaluation de sa performance nécessite une base de données de test
et de validation en utilisant une fonction de coût calculant l'erreur
de prédiction sous forme d'une distance entre les données prédites et
les données réelles. Le développement du modèle doit être
généralement précédé par une étape de caractérisation des données
en utilisant un ensemble de descripteurs de features.
• Interpret : vérier l'hypothèse scientique posée au début du
processus de développement du projet (à quel point le choix de la
méthode de machine learning était réussi ?). Expliquer aussi l'impact
des résultats d'évaluation sur le domaine d'application (business
domain) du système développé d'analyse de données (valeur ajouté).
Autrement dit, expliquer à quel point ce système peut répondre aux
besoins du client du projet.
10/31
Plan du cours

1. Introduction

2. Processus Itératifs

3. Processus Agiles & MLOps

11/31
CRoss Industry Standard Process for Data Mining
(CRISP-DM) : Présentation
• proposé par IBM en 1999 pour standardiser les projets de fouille de
données dans le contexte industriel.
• ses étapes sont itératives avec livraison d'une documentation
récapitulative après chaque étape.
• CRISP-DM=loop{Business understanding+ OSEMN}+Deployment

https://www.datascience-pm.com/data-science-process/
12/31
CRoss Industry Standard Process for Data Mining
(CRISP-DM) : Étapes
• Business understanding :
• Déterminer les objectifs métier et la problématique à résoudre.
• Étude de faisabilité et planication (ressources, budget, risques,
technologies...).
• Déterminer techniques de fouille de données à appliquer.
• Data understanding :
• Collecter les données nécessaires
• Décrire les caractéristiques des données (types, formats, nombre
d'enregistrements...)
• Explorer les données (visualisation, chercher les corrélation entre les
données...)
• Identier les problèmes de qualité des données (données bruités
nécessitant une opération de nettoyage, données erronées...)

13/31
CRoss Industry Standard Process for Data Mining
(CRISP-DM) : Étapes
• Data preparation :
• ltrer les données
• nettoyer les données
• formater les données (unier le format des données)
• générer de nouvelles données : extraire des informations utiles,
calculer des statistiques, combiner des données...
• Modeling :
• sélectionner l'algorithme de modélisation à appliquer (exp méthode
ML).
• préparer le processus expérimental (base d'apprentissage, base de
test, base de validation...)
• Générer le modèle de données à partir de la base d'apprentissage par
exemple.
• ajuster à travers des itérations le modèle an de maximiser sa
capacité de description et de représentation des données.
14/31
CRoss Industry Standard Process for Data Mining
(CRISP-DM) : Étapes
• Evaluation :
• Évaluer la robustesse du système à traiter de nouvelles données non
testées pendant l'étape de construction du modèle. (exp : base de
test, base de validation).
• Comparer les résultats d'évaluation du modèle et les résultats
d'évaluation d'autres modèles générés par d'autres méthodes
d'analyse de données an de dégager le meilleur modèle.
• Interpréter et discuter les résultats d'évaluation du modèle an de
dégager les limites de la méthodes Data Science appliquée et
planier par la suite la prochaine itération.
• Deployment :
• installer et congurer le système dans l'environnement réel et avec
les données réelles du client.
• Documenter le déploiement et planier la maintenance
• Évaluer l'étape de déploiement et trouver de futures solutions pour
les dicultés rencontrées.
15/31
Knowledge Discovery in Database (KDD) : Présentation

• inventé 1989 par ossama fayad


• data mining en est une étape
• conçu pour traiter les données volumineuses (Big Data)
• un processus itératif
• KDD = loop{OSEMN[Model←Data Mining]}

https:
//www.researchgate.net/publication/274425359_From_Patterns_in_Data_to_Knowledge_Discovery_What_Data_Mining_Can_Do

16/31
Knowledge Discovery in Database (KDD) : Étapes

• Selection : choix des bases de données pour le développement du


système et l'évaluation du système).
• Preprocessing : nettoyage des données, ltrage les données
bruitées, reconstruction des données manquantes...
• Transformation : normalisation, quantication, projection,
réduction de dimension (exp : combinaison des composants de
vecteurs de données et réduction de sa taille...)...
• Data Mining : application d'une méthode de fouille de données
(regression, clustering, classication,...) pour en extraire des motifs
signicatifs représentant des classes de données.
• Evaluation/Interpretation : évaluer et interpréter les résultats
d'analyse de données à travers une visualisation ou une comparaison
avec la vérité terrain (les motifs réels existants).

17/31
Sample, Explore, Modify, Model, and Assess (SEMMA) :
Présentation
• inventé par la société américaine SAS (Statistical Analysis System)
en 2005
• un processus itératif
• conçu pour modéliser les projets de data mining
• SEMMA = loop{OSEMN[Obtain Sample]} ←

https://sis.binus.ac.id/2021/09/30/data-mining-semma/
18/31
Sample, Explore, Modify, Model, and Assess (SEMMA) :
Étapes

• Sample : générer un sous-ensemble de données représentatif.


• Explore : chercher les anomalies et les corrélations possibles entre
les données en s'appuyant sur la visualisation des données.
• Modify : nettoyer, transformer et raner les données.
• Model : appliquer une méthode de fouille de données ou de
Machine Learning an de générer un modèle de données.
• Assess : évaluer la performance du modèle généré dans la
classication et la représentation des données.

19/31
Microsoft's Team Data Science Process (MS-TDSP) :
Présentation
• inventé par Microsoft en 2016
• processus itératif
• intègre certaines pratiques agiles et DevOps (adaptation, rôles,
collaboration, livraison, monitoring...)
• MS-TDSP = CRISP-DM + Customer Acceptance

https://www.datascience-pm.com/tdsp/
20/31
Microsoft's Team Data Science Process (MS-TDSP)

• Les étapes du MS-TDSP sont similaires aux étapes du CRISP-DM :


Business Understanding, Data Acquisition and Understanding,
Modeling, Deployment, Customer Acceptance/validation.
• MS-TDSP propose un ensemble d'outils Microsoft pour :
• structurer et gérer les documents/artefacts du projet (données
d'entrée, rapports d'avancement, rapports de modélisation, code
source, chiers log, chiers de congurations, résultats
expérimentales, statistiques...)
• pour assurer la collaboration entre les membres de l'équipe de travail
qui sont dénis sous forme de rôles : Solution architect, Project
manager, Data engineer, Data scientist, Application developer,

Project lead.

21/31
Microsoft's Team Data Science Process (MS-TDSP)

https://learn.microsoft.com/en-us/azure/architecture/data-science-process/overview

22/31
Plan du cours

1. Introduction

2. Processus Itératifs

3. Processus Agiles & MLOps

23/31
Data-Driven-SCRUM (DDS)
• inventé en 2010 par Data Science Process Alliance.
• basé sur la méthodologie SCRUM et les principes Kanban (agile &
lean).
• conçu pour mieux organiser les équipes de data science et assurer
leur collaboration.
• DDS = Scrumban[Sprint←OSEMN]

https://www.datascience-pm.com/data-driven-scrum/

24/31
Data-Driven-SCRUM (DDS)

• Iteration : une itération est l'équivalent d'un Sprint basé sur les
trois étapes : concevoir une idée, implémenter et analyser des
résultats (les étapes OSEMN). La n d'une itération est marquée
par la terminaison des expérimentations nécessaires et sa durée peut
être variable entre un jour et un mois. Deux itérations peuvent être
lancées en parallèle si une tâche (comme la tâche de collecte et de
préparation de données) nécessite une durée de réalisation très
élevée.
• Meetings : Les réunions dénies par la méthodologie SCRUM
restent valables y compris la Sprint planning meeting qui prend le
nom de Backlog Item Selection permettant de dénir le Item
Breakdown Board à réaliser dans l'itération courante. Dans le
processus DDS, les dates de ces réunions (principalement la review
et la retrospective meeting) peuvent être xés d'une manière
régulière (une fois par mois par exemple) indépendamment des
itérations.

25/31
Data-Driven-SCRUM (DDS)

• Prioritized Product Backlog Item (PBI) : est l'équivalent du


Product Backlog composé d'un ensemble d'items où un item peut
être une user-story, une hypothèse scientique à vérier ou une
expérience scientique à réaliser.
• Item Breakdown Board (IBB) : est l'équivalent d'un Sprint
Backlog écrit pour chaque item contenant les opérations (tasks)
nécessaires pour réaliser cet item. Les tasks doivent être au moins
create task, Observe task et analyse task.
• Task Board : est l'équivalent du tableau de planication
(ToDo-Doing-Done) représentant le ux de réalisation des tasks qui
peut être limité par un nombre de tasks dans chaque colonne
comme dans le cas du Kanban Board.

26/31
Domino Data Lab Process (DDLP)

• inventé en 2017 par l'entreprise Domino Data Lab.


• DDLP = Agile+DevOps[CRISP-DM + Monitoring]
• ses étapes sont similaires aux étapes du CRISP-DM :
• Ideation : business understanding
• Data Acquisition and Exploration : data understanding and data
preparation
• Research and Development : modeling
• Validation : evaluation.
• Delivery : deployment.
• Monitoring : une étape supplémentaire par rapport à CRISP-DM
utile pour l'évaluation du fonctionnement du logiciel développé et
déployé et l'assurance de sa qualité.

27/31
Domino Data Lab Process (DDLP) :
Domino Enterprise MLOps Platform
• basé sur les pratiques agiles et DevOps et dédié aux systèmes appliquant
les méthodes de machine learning (ML)
• implémenté sous forme d'une plateforme complète de production
englobant les tâches de développement et les tâches d'opération en
intégrant plusieurs technologies.
⇒ un écosystème appliquant les pratiques de MLOps (DevOps + ML).

https://siliconangle.com/2021/10/05/nvidia-joins-100m-funding-round-mlops-startup-domino-data-lab/ 28/31
MLOps

https://www.ml4devs.com/articles/mlops-machine-learning-life-cycle/

29/31
Références

• Dipanjan Sarkar , Raghav Bali , Tamoghna Ghosh, "Hands-On


Transfer Learning with Python", Packt, 2018.
• https://datasciencedojo.com/blog/
machine-learning-algorithms-explanation/
• https://www.datascience-pm.com/about/
• https://www.datascience-pm.com/data-science-process/
• https://www.datascience-pm.com/data-science-workflow/
• https://www.datascience-pm.com/
domino-data-science-life-cycle/
• https://www.datascience-pm.com/
10-ways-to-manage-a-data-science-project/

30/31
Références

• https://www.datascience-pm.com/crisp-dm-2/
• https://recipp.ipp.pt/bitstream/10400.22/136/3/
KDD-CRISP-SEMMA.pdf
• https://www.datascience-pm.com/osemn/
• https://learn.microsoft.com/en-us/azure/architecture/
data-science-process/overview
• https://docs.dominodatalab.com/en/4.5/user_guide/
71a047/tech-ecosystem/
• https://siliconangle.com/2021/10/05/
nvidia-joins-100m-funding-round-mlops-startup-domino-data-la
• https://www.ml4devs.com/articles/
mlops-machine-learning-life-cycle/
• https:
//blogs.nvidia.com/blog/2020/09/03/what-is-mlops/

31/31

Vous aimerez peut-être aussi