0% ont trouvé ce document utile (0 vote)

30 vues11 pages

Chap 2

Le document présente le cycle de travail d'un data scientist, qui comprend la récupération, le nettoyage, l'exploration et la modélisation des données, avec un accent particulier sur le machine learning. Il illustre comment les data scientists utilisent diverses sources de données pour créer des modèles statistiques qui aident à la prise de décision. Enfin, il souligne l'importance de l'évaluation des modèles et du déploiement en production pour maximiser leur efficacité.

Transféré par

ramzi akkari

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

30 vues11 pages

Chap 2

Transféré par

ramzi akkari

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Science Ala Guennich

Machine learning
Data Science Ala Guennich

Le machine learning ne désigne en réalité qu’une partie du travail d’un data

scientist. C'est pourquoi avant de rentrer dans le vif du sujet et de ne parler que
de la partie machine learning, je vous propose de faire un tour rapide du métier
de data scientist, afin de se situer.

Dans ce chapitre, nous allons prendre un peu de hauteur et observer en quoi

consiste le cycle habituel de travail des data scientists, pour comprendre à
quelle étape intervient le machine learning. C’est parti !

Cycle de travail du data scientist

Le cycle de travail du data scientist peut se résumer par le schéma ci-dessous.

Pour faire simple, on part de la réalité, on récupère les données, on les nettoie, on
les explore, puis on utilise nos algorithmes pour créer de l’intelligence (artificielle)
qui aide à la décision. Dans la suite, nous allons détailler ces différentes étapes et
voir quels sont les différents métiers sur la chaîne de traitement de la donnée.

Cycle de travail du data scientist

Récupération des données

Une fois que vous êtes décidé à attaquer un problème, la première chose à faire
est d'explorer toutes les pistes possibles pour récupérer les données. En effet, les
données constituent l'expérience, les exemples que vous allez fournir à votre
algorithme de machine learning, afin qu'il puisse apprendre et devenir plus
performant.
Data Science Ala Guennich

Dans la suite du cours, j’appellerai les données étudiées, destinées à alimenter un

algorithme de machine learning, indifféremment dataset ou jeu de données.
Tout doit passer au crible ! Les bases de données existantes, des données
brutes alternatives (image, son, etc.), et même la création de nouveaux canaux
d'acquisition de données. Essayez de trouver l'ensemble des variables qui
impactent de près ou de loin le phénomène qui vous intéresse.

Vous trouverez ci-dessous quelques exemples, où les data scientists ont redoublé
d'ingéniosité pour récupérer et utiliser leurs données de manière originale.

• Les images satellites pour évaluer le niveau de pauvreté

Des chercheurs ont utilisé le machine learning pour pouvoir cartographier les
zones de pauvreté de manière automatique, simplement à partir d'images
satellites !

Une cartographie de l'estimation de la consommation moyenne quotidienne (crédits : Neal Jean

et al.)

• Les CAPTCHAs pour la digitalisation automatique de livres

Luis von Ahn, entrepreneur et chercheur, a créé un célèbre système de
reCAPTCHA qui permettait à la fois aux sites web de valider que les
Data Science Ala Guennich

formulaires étaient bien remplis par des humains, et qui alimentait en même temps
la base de données d'un algorithme de digitalisation de livres. Grâce aux
nombreux exemples renseignés directement par des humains, l'algorithme a fini
par avoir suffisamment de données d'exemples pour réussir ensuite seul à
retranscrire en texte des images scannées de livres, avec un taux d'erreur très
faible.

Exemple de reCAPTCHA

• Détectez l'illettrisme par l'utilisation du smartphone

Un chercheur norvégien a utilisé plusieurs types de données mobiles (tels que les
SMS, le nombre de contacts, etc.) pour détecter les personnes illettrées dans les
pays en voie de développement.

Croisez les différentes sources de données

Dans beaucoup de cas, l’innovation en data science dans une entreprise vient
de l’originalité de l’utilisation des données et du croisement de différentes
sources de données. Pour cela, il faut dans l’idéal posséder une politique de
gestion des données dans son entreprise la plus transparente possible.
Data Science Ala Guennich

Nettoyage des données

Une fois les données trouvées, il faut passer à l'étape de nettoyage. Pour ne rien
vous cacher, ce n'est pas l'étape la plus agréable du travail, mais ça ne la rend
pas moins indispensable.

Nettoyer les données, c'est s'assurer qu'elles sont consistantes, sans valeurs
aberrantes ni manquantes.

Une autre étape nécessaire, en général, est l’aggrégation de ces données dans
un data lake. Nettoyer les données signifie donc qu’elles sont toutes sous le
même format, accessibles au même endroit et au bon moment.

Lorsque ces questions deviennent complexes, il faut faire appel au data

architect qui, lui, possède une maîtrise technique pour réaliser ces différentes
tâches. Ces ingénieurs des Big Datas sont responsables de la création et de
l'administration de tous les systèmes techniques qui vont permettre la bonne
exploitation des données.

L'important, c'est de bien préparer le terrain pour les étapes suivantes. Ces
étapes seront grandement simplifiées si ce travail fastidieux est bien effectué en
amont.

Exploration des données

Les données bien propres peuvent maintenant commencer à être explorées. Cette
étape vous permet de mieux comprendre les différents comportements et
de bien saisir le phénomène sous-jacent.

C'est vraiment une étape à ne pas négliger. Les meilleurs data scientists ne sont
pas ceux qui connaissent les algorithmes les plus complexes, mais ceux qui ont
une très bonne connaissance des données et ont préparé le terrain avec soin
en amont.

À la fin de l’exploration, vous devrez être en mesure de :

• Proposer plusieurs hypothèses sur les causes sous-jacentes à la

génération du dataset : "suite à l'exploration, il y a clairement une relation
entre X et Y".
• Proposer plusieurs pistes de modélisation statistique des données, qui vont
permettre de résoudre la problématique de départ considérée.
• Proposer si nécessaire de nouvelles sources de données qui aideraient à
mieux comprendre le phénomène.
C'est dans les phases de nettoyage et d'exploration des données que les data
scientists passent le plus clair de leur temps.
Data Science Ala Guennich

Lorsque l'on a simplement besoin de comprendre ses données et les explorer, on

peut faire appel à un data analyst. Ou bien un data analyst peut effectuer des
études préliminaires avant de laisser le travail de modélisation au data scientist.

Modélisation des données à l'aide du machine learning

Nous pouvons enfin rentrer dans la partie la plus intéressante du métier, c’est-à-
dire la création du modèle statistique associé aux données qui nous intéressent !
C'est ce qu'on appelle le machine learning (ou apprentissage automatique).

Mais ça veut dire quoi “modélisation statistique des données” ?

En machine learning, et en data science plus généralement, l'objectif est de trouver

un modèle (stochastique ou déterministe) du phénomène à l'origine des données.
C'est-à-dire qu'on considère que chaque donnée observée est l'expression
d'une variable aléatoire générée par une distribution de probabilité.

Le mieux pour expliquer ce que ça signifie est de prendre un petit exemple simple.
Imaginez que vous voulez savoir si vous payez trop cher votre loyer. Vous avez
récupéré sur un site de location une trentaine de prix des locations disponibles,
ainsi que la surface associée :

loyer mensuel (en €) surface (en m2m2)

1500 32

2120 65

2500 60

... ...
Bien sûr, en réalité d’autres paramètres seraient probablement à prendre en
compte (parties communes, voisinage, évolution des loyers au cours du temps,
etc). Le but est ici d’appréhender un modèle simplifié afin de comprendre
rapidement ce que veut dire "modéliser un phénomène".
Si l'on affiche maintenant ces différents points sur un graphe qui représente le
montant du loyer en fonction de la surface, on obtient le graphique suivant :
Data Science Ala Guennich

Loyer mensuel en fonction de la surface du logement

Comme on pouvait s’y attendre, on remarque une augmentation

relativement linéaire du loyer par rapport à la surface de l’appartement. Une
première modélisation simple du phénomène (le prix du loyer) serait donc
simplement de considérer la droite la plus “proche” de l’ensemble des points.

La droite de régression correspondant à la modélisation du nuage de points

La droite représente donc notre modèle du phénomène, auquel nous pouvons

ajouter l'intervalle de confiance dans lequel on pense que se trouve la droite.
Data Science Ala Guennich

L'intervalle de confiance (à 90 %)
Pour résumer, le travail de modélisation consiste à trouver le bon modèle
statistique (ici la droite et son intervalle de confiance) qui colle le mieux aux
données d'exemple. Le machine learning en particulier intervient pour trouver ce
modèle de manière automatisée.

Évaluation et interprétation des résultats

Une fois un premier travail de modélisation effectué, la suite de l’étude s’effectue
par l’évaluation de la qualité de notre modèle, c’est-à-dire sa capacité à
représenter avec exactitude notre phénomène, ou a minima sa capacité à
résoudre notre problématique.

Une représentation connue qui souligne la nécessité de l'évaluation est le quartet

d'Anscombe. Il permet de montrer visuellement que pour 4 jeux de données très
différents, on obtient la même droite de régression.
Data Science Ala Guennich

Le quartet d'Anscombe illustre bien le fait que si l'on n'examine pas assez les données, et qu'on
ne mesure pas de la bonne manière l'erreur de son modèle, on peut facilement arriver à des
aberrations de modélisation.

Il y a parfois clairement un problème dans notre modèle, qui ne capture pas

l'essence du phénomène. Pour nous aider à évaluer les résultats, mesurer l’erreur
de notre modélisation vis-à-vis de nos données d’exemple constitue un premier
indicateur de qualité. Dans les cas ci-dessus, il faudrait clairement changer le
modèle d’une droite que nous avions décidé au départ !

C’est donc un jeu d’allers-retours entre modélisation et évaluation qui s’effectue

pour obtenir les performances les plus satisfaisantes possibles. Il est même
possible, dans certains cas, de remettre en question certaines hypothèses de
départ et de repartir dans une phase d’exploration pour mieux comprendre les
données.

Déploiement de modèle en production

Une fois qu’on est satisfait de la qualité des performances de notre modèle, on va
pouvoir passer à l’étape suivante, qui est le rendu de nos résultats et le potentiel
déploiement du modèle en production. Imaginez que vous trouvez que votre
modèle d’évaluation des loyers est très performant et mériterait d’être partagé à
plus de monde. Vous décidez donc de le déployer sur un serveur où tout le monde
pourra obtenir une estimation de son loyer selon votre modèle, et ainsi déterminer
s'il paie plus ou moins que les prix du marché ! Cela l'aidera sûrement dans sa
décision de déménager.
Data Science Ala Guennich

Comment cela fonctionne-t-il en pratique ? C’est assez simple, il vous suffit de

récupérer les paramètres de votre modèle et de faire passer la surface de
l'appartement en entrée du modèle, afin d’obtenir le loyer associé en sortie, en
suivant la droite.

Imaginez qu'un appartement a une surface de 30 mètres carrés (point en rouge), une estimation
légitime du loyer se situerait aux alentours de 1300 euros selon notre modèle.

Pour des modèles plus complexes, le fonctionnement reste le même. Si vous

voulez appliquer votre travail à de nouvelles données, il vous suffit de passer les
nouvelles entrées dans votre modèle (qui est en principe un ensemble de
transformation des valeurs d’entrées) afin d’obtenir une sortie.

Là encore, si ce passage en production est complexe, que ce soit en termes

d’échelle, de contrainte de rapidité de calcul ou de sortie de résultats, il faut faire
appel à un data architect qui sera responsable d’industrialiser le prototype que
vous lui fournirez.

Résumé
La data science est un nouveau domaine de travail qui augmente les capacités
d’analyse classique, afin d’aider les entreprises à prendre des décisions plus
informées. Elle s’appuie pour cela sur des données utiles et ne peut s’appliquer
que dans certaines problématiques précises qui gagnent à utiliser ce type de
méthodes.
Data Science Ala Guennich

Au sein du cycle de travail du data scientist, le machine learning désigne

l'ensemble des méthodes de modélisation statistique à partir des données.

Vous aimerez peut-être aussi

Modélisation en Data Science et Machine Learning
Pas encore d'évaluation
Modélisation en Data Science et Machine Learning
9 pages
La Data Science
Pas encore d'évaluation
La Data Science
13 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
54 pages
Introduction à la Data Science
100% (1)
Introduction à la Data Science
54 pages
Introduction à la Data Science
100% (1)
Introduction à la Data Science
26 pages
Machine Learning Francais
Pas encore d'évaluation
Machine Learning Francais
133 pages
Fouille Des Big Data Et Visualisation - Week 2
Pas encore d'évaluation
Fouille Des Big Data Et Visualisation - Week 2
47 pages
Data Science
Pas encore d'évaluation
Data Science
10 pages
Data Science
Pas encore d'évaluation
Data Science
3 pages
Cours Data Science Et Détection de Fraude: Faculté Des Sciences Economiques Et de Gestion de Tunis
Pas encore d'évaluation
Cours Data Science Et Détection de Fraude: Faculté Des Sciences Economiques Et de Gestion de Tunis
86 pages
Data Science Pour L'entreprise
100% (1)
Data Science Pour L'entreprise
29 pages
Découvrez La Data Science - Votre Tremplin Vers Des Projets Fascinants
Pas encore d'évaluation
Découvrez La Data Science - Votre Tremplin Vers Des Projets Fascinants
5 pages
Introduction Data - Science
Pas encore d'évaluation
Introduction Data - Science
27 pages
Data Science: Par La Pratique
Pas encore d'évaluation
Data Science: Par La Pratique
25 pages
Data Mining Nemiche
Pas encore d'évaluation
Data Mining Nemiche
267 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
25 pages
Data Science Et Machine Learning: de Quoi Parle-T-On ?
Pas encore d'évaluation
Data Science Et Machine Learning: de Quoi Parle-T-On ?
4 pages
(Big Data) Joël Grus - Data Science Par La Pratique-Eyrolles (2017) PDF
100% (1)
(Big Data) Joël Grus - Data Science Par La Pratique-Eyrolles (2017) PDF
319 pages
2-Intro Ds From DM To BD PDF
Pas encore d'évaluation
2-Intro Ds From DM To BD PDF
67 pages
Ia Le Machine Learning Pour Les Business Analysts v1 241026124221 2ec8725c
Pas encore d'évaluation
Ia Le Machine Learning Pour Les Business Analysts v1 241026124221 2ec8725c
75 pages
Programmation Python Pour La Data Science - Vickler, Andy
Pas encore d'évaluation
Programmation Python Pour La Data Science - Vickler, Andy
206 pages
Python Pour La Data Science
Pas encore d'évaluation
Python Pour La Data Science
45 pages
IA Le Machine Learning Pour Les Business Analysts v1
Pas encore d'évaluation
IA Le Machine Learning Pour Les Business Analysts v1
75 pages
Le métier de data scientist expliqué
Pas encore d'évaluation
Le métier de data scientist expliqué
46 pages
Cours Data Science
Pas encore d'évaluation
Cours Data Science
7 pages
Introduction au Machine Learning et IA
Pas encore d'évaluation
Introduction au Machine Learning et IA
63 pages
Introduction à la Data Science
Pas encore d'évaluation
Introduction à la Data Science
61 pages
Cours de Data Mining - 1
Pas encore d'évaluation
Cours de Data Mining - 1
37 pages
Data Scientist Les Fondamentaux de La Data Science - OFDS - PLB
Pas encore d'évaluation
Data Scientist Les Fondamentaux de La Data Science - OFDS - PLB
4 pages
Processus de la Data Science en Finance
Pas encore d'évaluation
Processus de la Data Science en Finance
62 pages
DM Chapitre1
Pas encore d'évaluation
DM Chapitre1
16 pages
Pfa 1
Pas encore d'évaluation
Pfa 1
22 pages
Data Scientist Job
Pas encore d'évaluation
Data Scientist Job
32 pages
Qu
Pas encore d'évaluation
Qu
11 pages
Cours Data Mining et Machine Learning ENSIAS
Pas encore d'évaluation
Cours Data Mining et Machine Learning ENSIAS
89 pages
De L Conomiste Data Scientist 1749204037
Pas encore d'évaluation
De L Conomiste Data Scientist 1749204037
5 pages
Introduction au Data Science et ML
Pas encore d'évaluation
Introduction au Data Science et ML
5 pages
La Data Science de A À Z Pour Les Débutants
Pas encore d'évaluation
La Data Science de A À Z Pour Les Débutants
115 pages
Introduction à la Data Science
Pas encore d'évaluation
Introduction à la Data Science
19 pages
Machine Learning (Deep Learning) Pour La Vision Artificielle 2021
Pas encore d'évaluation
Machine Learning (Deep Learning) Pour La Vision Artificielle 2021
4 pages
Cours
Pas encore d'évaluation
Cours
43 pages
06 - Introduction Au DM
Pas encore d'évaluation
06 - Introduction Au DM
24 pages
Cours de Fouille de Données Avancée
Pas encore d'évaluation
Cours de Fouille de Données Avancée
96 pages
Rapport Data Science
Pas encore d'évaluation
Rapport Data Science
5 pages
Cours
Pas encore d'évaluation
Cours
224 pages
Introduction à l'Apprentissage Machine
100% (2)
Introduction à l'Apprentissage Machine
97 pages
Data Mining Training
Pas encore d'évaluation
Data Mining Training
63 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
96 pages
Data Mining 01
Pas encore d'évaluation
Data Mining 01
8 pages
Presentation Cours ML Licence Excellence Introduction Seance 1
Pas encore d'évaluation
Presentation Cours ML Licence Excellence Introduction Seance 1
31 pages
Presentation Cours ML Licence Excellence Introduction Seance 1
Pas encore d'évaluation
Presentation Cours ML Licence Excellence Introduction Seance 1
31 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
31 pages
Data Science pour les entreprises : Guide essentiel
Pas encore d'évaluation
Data Science pour les entreprises : Guide essentiel
38 pages
DM 2016 Chapitre 1
Pas encore d'évaluation
DM 2016 Chapitre 1
21 pages
ML Cours
Pas encore d'évaluation
ML Cours
6 pages
Science Des Données-Monographie
Pas encore d'évaluation
Science Des Données-Monographie
13 pages
Data Scientist - Rachel
Pas encore d'évaluation
Data Scientist - Rachel
12 pages
Pluv 22 09 2025
Pas encore d'évaluation
Pluv 22 09 2025
2 pages
Pluvio 22-05-2025
Pas encore d'évaluation
Pluvio 22-05-2025
2 pages
Les SystèmesVolontaires
Pas encore d'évaluation
Les SystèmesVolontaires
6 pages
Brochure202020 EBJb
Pas encore d'évaluation
Brochure202020 EBJb
2 pages
Ebook - Implementing Zero Trust SASE
Pas encore d'évaluation
Ebook - Implementing Zero Trust SASE
15 pages
07 RSF v3
Pas encore d'évaluation
07 RSF v3
30 pages
Formation DevOps : Concepts et Outils
Pas encore d'évaluation
Formation DevOps : Concepts et Outils
3 pages
Spécifications des codes 2D-Doc
Pas encore d'évaluation
Spécifications des codes 2D-Doc
102 pages
WiFi pour Patients : Guide de Connexion
Pas encore d'évaluation
WiFi pour Patients : Guide de Connexion
4 pages
Learning Summary - Incident Management Planning - French
Pas encore d'évaluation
Learning Summary - Incident Management Planning - French
11 pages
Statistique Descriptive 24 25 Psycho Chap1
Pas encore d'évaluation
Statistique Descriptive 24 25 Psycho Chap1
103 pages
5pag 01 2025 Avis de Recrutement Auditeur Interne Oct2025docx
Pas encore d'évaluation
5pag 01 2025 Avis de Recrutement Auditeur Interne Oct2025docx
4 pages
TD2 Econométrie Corr-1
100% (1)
TD2 Econométrie Corr-1
3 pages
La Méthode Scientifique, C'est Quoi ?: Le Protocole de Recherche
Pas encore d'évaluation
La Méthode Scientifique, C'est Quoi ?: Le Protocole de Recherche
5 pages
Analyse de la méthode SQUIRE en santé
Pas encore d'évaluation
Analyse de la méthode SQUIRE en santé
16 pages
Ingénieure Statisticienne à Fès, Maroc
Pas encore d'évaluation
Ingénieure Statisticienne à Fès, Maroc
1 page
Binomial
Pas encore d'évaluation
Binomial
2 pages
AMDEC : Analyse des Risques et Défaillances
Pas encore d'évaluation
AMDEC : Analyse des Risques et Défaillances
77 pages
Rédaction. Note de Synthèse
Pas encore d'évaluation
Rédaction. Note de Synthèse
3 pages
Cours de Probabilites Et Statistiques
Pas encore d'évaluation
Cours de Probabilites Et Statistiques
66 pages
Chapitre 4 Fonctions Analytiques Et Fonction Holomorphes
Pas encore d'évaluation
Chapitre 4 Fonctions Analytiques Et Fonction Holomorphes
32 pages
Introduction À L'économétrie Appliquée: Benoit Dostie
Pas encore d'évaluation
Introduction À L'économétrie Appliquée: Benoit Dostie
35 pages
TD Méthodologie
Pas encore d'évaluation
TD Méthodologie
9 pages
497-Article Text-1658-1-10-20220331
Pas encore d'évaluation
497-Article Text-1658-1-10-20220331
13 pages
Serie D'exercices Module Analyse de Donnés
100% (1)
Serie D'exercices Module Analyse de Donnés
2 pages
2 Moyenne, Variance
Pas encore d'évaluation
2 Moyenne, Variance
6 pages
Méthologie de Commentaires
Pas encore d'évaluation
Méthologie de Commentaires
3 pages
Ombres - Lumieres Sequences MS GS
Pas encore d'évaluation
Ombres - Lumieres Sequences MS GS
51 pages
Projet Partiel
Pas encore d'évaluation
Projet Partiel
5 pages
Statistique Descriptive S4 Psychologie
Pas encore d'évaluation
Statistique Descriptive S4 Psychologie
18 pages
Statistiques Appliquées : Estimations et Intervalles
Pas encore d'évaluation
Statistiques Appliquées : Estimations et Intervalles
5 pages
Quelle Approche Adopter Pour Son Mémoire
Pas encore d'évaluation
Quelle Approche Adopter Pour Son Mémoire
5 pages
Impact du Digital sur l'Audit Qualité
Pas encore d'évaluation
Impact du Digital sur l'Audit Qualité
19 pages
SerieQCM MR2024
Pas encore d'évaluation
SerieQCM MR2024
15 pages
Econométrié Dés Donnéés Dé Panél Sous STATA: Dalila Chenaf-Nicet Université de Bordeaux 2019
100% (1)
Econométrié Dés Donnéés Dé Panél Sous STATA: Dalila Chenaf-Nicet Université de Bordeaux 2019
79 pages
Cours SP04
Pas encore d'évaluation
Cours SP04
3 pages
Méthodologie Générale (1) Introduction
Pas encore d'évaluation
Méthodologie Générale (1) Introduction
9 pages
Recrutement Et Performance Sociale BNDA
Pas encore d'évaluation
Recrutement Et Performance Sociale BNDA
6 pages
Unité 2 - Sixième Année
Pas encore d'évaluation
Unité 2 - Sixième Année
12 pages
Questionnaire
Pas encore d'évaluation
Questionnaire
3 pages