100% ont trouvé ce document utile (1 vote)

129 vues55 pages

4-Préparation Données

Le document traite de l'importance de la préparation des données pour garantir des analyses précises et fiables. Il aborde les caractéristiques des données réelles, les stratégies de nettoyage, transformation, intégration et réduction des données, ainsi que les types de données. Enfin, il souligne l'importance de l'évaluation et de la validation dans le processus d'apprentissage automatique.

Transféré par

chaimaajdid75

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

129 vues55 pages

4-Préparation Données

Transféré par

chaimaajdid75

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Traitement de données

IRIC3 2024-2025
Plan
• Introduction
• Qualité de données
• Caractéristiques des données
• Importance de la préparation de données
• Stratégies pour la préparation de données

2
Introduction

Les bases de données (réelles) sont fortement influencées par des facteurs
négatifs tels que la présence de bruit, des valeurs manquantes, des données
incohérentes et superflues…

Les analyses effectuées sur des données non traitées peuvent conduire à
des conclusions et des interprétations erronées ce qui peut générer des
erreurs très coûteuses .

3
Importance de la préparation de données

La prise d’une décision adéquate doit être basée

sur des données de bonne qualité!

Nécessité d’une préparation de données

basée sur des stratégies bien conçues

4
Précision

Qualité des
données

Complétude Consistance
5
Caractéristiques des bases de données réelles

Données imprécises :
- Les instruments de collecte de données utilisés peuvent être
défectueux,
- Saisies incorrectes des données,
- Erreurs liées à la transmission de données,
-…

6
Caractéristiques des bases de données réelles
Données incomplètes :
 Défaillance de l'équipement servant à générer ou bien à
récupérer les données,
 Données non saisies en raison de l'incompréhension, ou bien
des données personnelles,
 Certaines données peuvent ne pas être considérées comme
importantes au moment de la saisie,
…
7
Caractéristiques des bases de données réelles

Données inconsistantes:
- Redondance de données dues au non respect des
contraintes d’intégrité ou des dépendances fonctionnelles,
- Inconsistances de données dues à l’intégration de données
provenant des sources différentes,
-…

8
Importance de la préparation de données

Data Mining, ou exploration de données, ou encore extraction

de connaissances à partir de grandes quantités de données.
Il est souvent couplé au Deep Learning et au machine learning.

99
Importance de la préparation de données

10
Les différentes formes de la préparation de données

11
Quelques stratégies pour la préparation des données :

• Nettoyage de données
• Transformation de données
• Intégration des données provenant de sources différentes
• Réduction de dimensionnalité
•…

12
Nettoyage de données
Valeurs manquantes:
- Suppression des enregistrements contenant des valeurs manquantes.

- Imputation des valeurs manquantes par la moyenne (valeurs

quantitatives) ou par la valeur la plus fréquente (valeurs qualitatives)

- Faire appel à une méthode d’apprentissage en considérant la valeur

manquante comme étant la classe à prédire.

13
Nettoyage de données
Identification et suppression des valeurs aberrantes et
bruitées
Les techniques incluent la régression, le clustering et le binning,
 Par clustering: Après avoir regrouper les valeurs en clusters
 Par régression : Lissage des données par rapport à la fonction de
régression.

14
Détection des valeurs aberrantes ou bruitées par clustering

15
Transformation de données
Elle permet de convertir ou de consolider les données. Elle englobe un
certain nombre d’opérations :
1. La normalisation des données.
2. Le lissage des données afin de réduire l’impact de bruit.
3. Agrégation des données.
4. Construction de nouveaux attributs à partir des autres.

16
Transformation des données
Normalisation de données :
La normalisation tente de donner à tous les attributs un poids égal en
les exprimant dans la même échelle.
 Min-Max :

 Z-score :

17
Intégration de données

L’intégration de données permet de fusionner les données provenant de

plusieurs sources de données et pouvant avoir différentes natures.

Elle comprend:
 L’unification des variables.
 L’analyse de la corrélation d’attributs.
 Duplication des tuples.
 …

18
Réduction de données

Elle vise à obtenir une représentation réduite des données d’origine.

Elle englobe:
- La sélection des attributs
- La sélection des instances
- Discrétisation
-…

19
Formes de réduction de données

20
21
Concepts Générale

22
Jeu de données(Dataset)

Un DataSet (jeu de données) est une collection de données liées à un sujet, un thème ou un secteur
d’activité en particulier. Ils comprennent différents types d’informations, tels que des nombres, du texte,
des images, vidéos, audios, et peuvent être stockés sous divers formats, tels que CSV, JSON ou SQL.
On peut utiliser un dataset pour effectuer des études de marché, identifier et étudier des tendances, ou
élaborer des modèles d’apprentissage automatique.

Un jeu de données peut avoir une structure tabulaire, par exemple un fichier Excel ou CSV. Une
structure d'arbre, comme dans un fichier JSON ou XML, ou encore une structure de graphe,
comme dans le RDF.
Lorsque les données sont tabulaires, en principe, chaque ligne correspond à une observation et
chaque colonne à une variable

23
Feature extraction
Dans le domaine de l’intelligence artificielle :
• Une donnée brute est une donnée n’ayant subi aucune transformation depuis son
observation initiale.
• L’extraction de caractéristique (feature) a pour but de caractériser les données
d’apprentissage.
• C’est une étape au cours de laquelle sont induites depuis des données brutes (tableau
numérique, document textuel, fichier son, image, etc.) des caractéristiques (features) sur
lesquelles le système d’Intelligence Artificielle doit se reposer pour effectuer la tâche
pour laquelle il est programmé.
• Exemples:
• Individu : âge, taille, poids,…
• Immobilier : superficie, Etage, Etat, ville, distance
• Précipitation : température, vitesse du vend, humidité, évaporation
• Cours boursier : open, close, high, low 24
Que sont les données( features)?
• Une donnée est un nombre, une caractéristique, qui apporte une information sur un
individu, un objet ou une observation. Par exemple, 30 est un nombre sans intérêt, mais
si quelqu’un vous dit « J’ai 30 ans», 30 devient une donnée qui vous permettra d’en
savoir un peu plus sur lui.

• On distingue les données dites privées et des données dites publiques :

- Les données privées sont tout simplement les données qui appartiennent à une
personne ou à une organisation.

- Les données publiques, c’est-à-dire accessibles à tous (Par exemple. Internet: source de
données quasi infinie).
25
Collecte de données

- Pour cela, trois modes de collecte de données existent :

• Les open data, qui correspondent à la mise à disposition gratuite de données de la
société civile, sur des sites tels que [Link], [Link],
[Link], [Link]

• Les open API (Application Programming Interface), qui sont des technologies
permettant d’accéder à des données sur Internet. Elles permettent de récupérer par
exemple des données mises à disposition par Google, Twitter, etc.

• Le Web est source de données, qui nécessite un minimum d’expertise en

programmation pour être capable de faire ce que l’on nomme du Webscraping,
récupérer des données directement à partir des pages des sites Internet.
26
Les principaux types de données
On distingue généralement les données quantitatives et les données
qualitatives.
Les données quantitatives sont des valeurs qui décrivent une quantité
mesurable, sous la forme de nombres sur lesquels on peut faire des calculs
(moyenne, min, max etc.), des comparaisons (égalité/différence,
infériorité/supériorité, etc.). Elles répondent typiquement à des questions du
type «combien». On fait parfois la différence entre :
Les données quantitatives continues, qui peuvent prendre n’importe quelle valeur dans
un ensemble de valeurs: la température, l’humidité, le PIB, le taux de chômage

Les données quantitatives discrètes, une variable quantitative peut être discrète (si ses
valeurs sont des nombres entiers, comme le nombre d'enfants) 27
Les principaux types de données
Les données qualitatives décrivent quant à elles des qualités ou des
caractéristiques. Elles répondent à des questions de la forme « quel type » ou «
quelle catégorie». Ces valeurs ne sont plus des nombres, mais un ensemble de
modalités. On ne peut pas faire de calcul sur ces valeurs, même dans
l’éventualité où elles prendraient l’apparence d’une série numérique. On
distingue:

Les données qualitatives nominales (ou catégorielles), dont les modalités ne peuvent
être ordonnées. Par exemple: la couleur des yeux (bleu, vert, marron, etc.), le sexe
(homme, femme), la région d’appartenance, etc.).

Les données qualitatives ordinales, dont les modalités sont ordonnées selon un ordre
« logique». Par exemple: les tailles de vêtements (S, M, L, XL), le degré d’accord à un
test d’opinion (fortement d’accord, d’accord, pas d’accord, fortement pas d’accord).
28
Les principaux types de données

Type de données Opérations supportées

Quantitatives continues Calculs continues, égalité/différence, infériorité/supériorité

Quantitatives discrets Calculs discrets, égalité/différence, infériorité/supériorité

Qualitatives nominales Égalité/différence

Qualitatives ordinales Égalité/ différence, infériorité/supériorité

29
Data pre-processing: Comment préparer votre Dataset
• Il est fréquent qu’un Dataset contient quelques anomalies, voir des erreurs,
qu’il faut supprimer pour ne pas biaiser l’apprentissage de la Machine (Vous ne
voudriez pas que la machine apprenne quelque chose de faux).
• Il est aussi important de normaliser vos données, c’est-à-dire de les mettre sur
une même échelle pour rendre l’apprentissage de la machine plus rapide et
aussi plus efficace
• Si vous avez des valeurs manquantes, il faut être capable de leur assigner par
une valeur (par défaut, la moyenne, …).
• Si vous avez des features catégoriales (exemple : homme/femme) il faut les
convertir en données numériques (homme=0, femme=1).
30
Data pre-processing: Comment préparer votre Dataset
• Egalement, il est très important de nettoyer le Dataset des features redondantes
(qui ont une forte corrélation) pour faciliter l’apprentissage de la machine
• Typiquement, sklearn et pandas disposent des fonctions nécessaires
• Pour faire un bon data pre-processing. Pour charger un fichier Excel au format
csv, utiliser la librairie pandas.
• Les données doivent toujours venir de la même distribution

Le plus important, ce n’est pas l’algorithme,

ce sont les Données

31
Résumé
• Attention à votre fonction de coût :
• qu’est-ce qui importe pour la mesure de performance ?
• Données rares :
• Attention à la répartition entre données d’apprentissage et données test.
Validation croisée.
• N’oubliez pas l’ensemble de validation

• L’évaluation est très importante

• Ayez l’esprit critique
• Convainquez-vous vous même !

32
Base du traitement de données
Objectifs :
Apprendre à lire des données dans un fichier, les analyser et les traiter pour en déduire
des prédictions.
La démarche consiste en :
1. lecture des données
2. analyse des données
3. détermination d’une loi simple
4. prédiction à partir de cette loi
5. analyse des résultats
Application :
Problème du réchauffement climatique.
33
Pré-traitement
avec scikit learn

34
Pré-traitement

35
SKLEARN - Transformer

36
SKLEARN – Transformer et Estimator

37
Encodage ordinal

38
SKLEARN – Label Encoder

39
SKLEARN – Ordinal Encoder

40
SKLEARN – Ordinal Encoder

41
SKLEARN – Encodage One Hot

42
SKLEARN – Label Binarizer

43
SKLEARN – Encodage One Hot

44
SKLEARN – Normalisation MinMax

45
SKLEARN – Normalisation MinMax

46
SKLEARN – Standardisation

47
SKLEARN – RobustScaler

48
SKLEARN – Simple Imputer

49
SKLEARN – Simple Imputer

50
SKLEARN – Simple Imputer

51
SKLEARN – Simple Imputer

52
Démarche de travail : Exploration des données

53
Démarche de travail : Prétraitement

54
Démarche de travail : Modèle

Vous aimerez peut-être aussi

Cours de Data Mining
Pas encore d'évaluation
Cours de Data Mining
17 pages
Data Mining
Pas encore d'évaluation
Data Mining
55 pages
Data Mining Final
100% (1)
Data Mining Final
192 pages
Cours sur l'Analyse des Données
Pas encore d'évaluation
Cours sur l'Analyse des Données
46 pages
Introduction au Clustering et K-Means
Pas encore d'évaluation
Introduction au Clustering et K-Means
61 pages
Chapitre 1 DM
Pas encore d'évaluation
Chapitre 1 DM
73 pages
DATA MINING - Chap0. Introduction
Pas encore d'évaluation
DATA MINING - Chap0. Introduction
112 pages
Analyse de Données IA avec Python
Pas encore d'évaluation
Analyse de Données IA avec Python
22 pages
Introduction au Data Mining et ses Méthodes
Pas encore d'évaluation
Introduction au Data Mining et ses Méthodes
65 pages
ML Seance 3
Pas encore d'évaluation
ML Seance 3
103 pages
Data Mining Training
Pas encore d'évaluation
Data Mining Training
63 pages
Optimisation par Descente du Gradient
100% (1)
Optimisation par Descente du Gradient
9 pages
Introduction au Data Mining et Concepts de Base
Pas encore d'évaluation
Introduction au Data Mining et Concepts de Base
8 pages
Types et Tâches de la Fouille de Données
Pas encore d'évaluation
Types et Tâches de la Fouille de Données
9 pages
Fouille Des Big Data Et Visualisation - Week 2
Pas encore d'évaluation
Fouille Des Big Data Et Visualisation - Week 2
47 pages
Introduction au Data Mining et ECD
100% (1)
Introduction au Data Mining et ECD
38 pages
Introduction au Clustering en Data Mining
Pas encore d'évaluation
Introduction au Clustering en Data Mining
86 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
102 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
KNN - Découvrez Cet Algorithme de Machine Learning PDF
Pas encore d'évaluation
KNN - Découvrez Cet Algorithme de Machine Learning PDF
5 pages
Techniques de Datamining en Cours
Pas encore d'évaluation
Techniques de Datamining en Cours
19 pages
Chapitre 1 Fouille de Données
Pas encore d'évaluation
Chapitre 1 Fouille de Données
36 pages
Cours Data Mining - MORIE
Pas encore d'évaluation
Cours Data Mining - MORIE
88 pages
Méthodologie du Data Mining expliquée
Pas encore d'évaluation
Méthodologie du Data Mining expliquée
46 pages
Comprendre l'algorithme k-ppv
Pas encore d'évaluation
Comprendre l'algorithme k-ppv
26 pages
Introduction aux KNN en Machine Learning
Pas encore d'évaluation
Introduction aux KNN en Machine Learning
8 pages
Classifieurs en Classification Supervisée
Pas encore d'évaluation
Classifieurs en Classification Supervisée
32 pages
Data Warehouse et Data Mining expliqués
Pas encore d'évaluation
Data Warehouse et Data Mining expliqués
32 pages
Entrepot Adel Rebbah Habib
Pas encore d'évaluation
Entrepot Adel Rebbah Habib
43 pages
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2019-2020
Pas encore d'évaluation
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2019-2020
85 pages
TPPré-traitement Des Donnée
Pas encore d'évaluation
TPPré-traitement Des Donnée
23 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
Intro Data Mining v2
Pas encore d'évaluation
Intro Data Mining v2
69 pages
Bases de Données Distribuées : Concepts clés
100% (1)
Bases de Données Distribuées : Concepts clés
214 pages
Système décisionnel pour gestion des ventes
Pas encore d'évaluation
Système décisionnel pour gestion des ventes
36 pages
Introduction au Logiciel SAS pour Analyse Statistique
Pas encore d'évaluation
Introduction au Logiciel SAS pour Analyse Statistique
82 pages
Chapitre2 DecisionTrees CART
Pas encore d'évaluation
Chapitre2 DecisionTrees CART
53 pages
Cours Bases de Données ENSAM-MEknès AHMADI 2020 2021
Pas encore d'évaluation
Cours Bases de Données ENSAM-MEknès AHMADI 2020 2021
38 pages
Introduction aux SVM et classification
Pas encore d'évaluation
Introduction aux SVM et classification
18 pages
Analyse des relations et méthodes statistiques
Pas encore d'évaluation
Analyse des relations et méthodes statistiques
5 pages
Cours Data Mining: Objectifs et Méthodes
Pas encore d'évaluation
Cours Data Mining: Objectifs et Méthodes
106 pages
Introduction au Data Mining et Prétraitement
Pas encore d'évaluation
Introduction au Data Mining et Prétraitement
47 pages
Classification Clients en Microfinance
Pas encore d'évaluation
Classification Clients en Microfinance
63 pages
Optimisation Et Paramétrage en
Pas encore d'évaluation
Optimisation Et Paramétrage en
5 pages
Bases de Donnees Avancees SMI6-II6 L. Koutti 2017
Pas encore d'évaluation
Bases de Donnees Avancees SMI6-II6 L. Koutti 2017
116 pages
Introduction au Data Mining et Statistiques
Pas encore d'évaluation
Introduction au Data Mining et Statistiques
142 pages
Cours Analyse de Données
Pas encore d'évaluation
Cours Analyse de Données
39 pages
Prétraitement des données en data mining
Pas encore d'évaluation
Prétraitement des données en data mining
1 page
Modélisation des Données Décisionnelles
Pas encore d'évaluation
Modélisation des Données Décisionnelles
74 pages
Nettoyage et traitement des données
Pas encore d'évaluation
Nettoyage et traitement des données
25 pages
Système de recommandation de films
100% (1)
Système de recommandation de films
4 pages
Feature Engineering en Machine Learning
Pas encore d'évaluation
Feature Engineering en Machine Learning
37 pages
CV Ingénieur Data Tahiri El Mamoune
Pas encore d'évaluation
CV Ingénieur Data Tahiri El Mamoune
2 pages
COURS ED - Chap1 - ADBD - 2022
Pas encore d'évaluation
COURS ED - Chap1 - ADBD - 2022
22 pages
Définition de K-nearest neighbors
Pas encore d'évaluation
Définition de K-nearest neighbors
25 pages
RégressionLineaire VF
100% (1)
RégressionLineaire VF
32 pages
Machine Learning Francais
Pas encore d'évaluation
Machine Learning Francais
133 pages
Data Cleaning: Nettoyage de Données Avec Python
100% (1)
Data Cleaning: Nettoyage de Données Avec Python
5 pages
Big Data 2025 Partie 1
Pas encore d'évaluation
Big Data 2025 Partie 1
29 pages
Gestion
Pas encore d'évaluation
Gestion
36 pages
Exécution Du Projet
Pas encore d'évaluation
Exécution Du Projet
21 pages
Contrôle d'Accès en Entreprise 2023
Pas encore d'évaluation
Contrôle d'Accès en Entreprise 2023
73 pages
Rappel3 Matplotlib
Pas encore d'évaluation
Rappel3 Matplotlib
30 pages
Comprendre l'attaque CSRF en pratique
Pas encore d'évaluation
Comprendre l'attaque CSRF en pratique
4 pages
Machine Learning en Cybersécurité
Pas encore d'évaluation
Machine Learning en Cybersécurité
18 pages
Lab3.3 Smart Contract
Pas encore d'évaluation
Lab3.3 Smart Contract
12 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
102 pages
Nettoyage des Données: Traiter les Valeurs Manquantes avec Python
Pas encore d'évaluation
Nettoyage des Données: Traiter les Valeurs Manquantes avec Python
14 pages
Enquête Qualitative : Guide et Étapes
Pas encore d'évaluation
Enquête Qualitative : Guide et Étapes
8 pages
Introduction
Pas encore d'évaluation
Introduction
47 pages
Pipelines
Pas encore d'évaluation
Pipelines
26 pages
La Collecte Et Prétraitement Des Données Pour Le Recrutement Par IA
Pas encore d'évaluation
La Collecte Et Prétraitement Des Données Pour Le Recrutement Par IA
32 pages
Nettoyage des données : stratégies et actions
Pas encore d'évaluation
Nettoyage des données : stratégies et actions
3 pages
Analyse Prédictive avec Python et Pandas
Pas encore d'évaluation
Analyse Prédictive avec Python et Pandas
5 pages
Cycle de vie des données en analytics
Pas encore d'évaluation
Cycle de vie des données en analytics
16 pages
Statistiques Descriptives Et Analyse de Données Avec Le Module Pandas
Pas encore d'évaluation
Statistiques Descriptives Et Analyse de Données Avec Le Module Pandas
10 pages
Collecte et Évaluation des Données IA
Pas encore d'évaluation
Collecte et Évaluation des Données IA
39 pages
Qualité des données en ingénierie des données
Pas encore d'évaluation
Qualité des données en ingénierie des données
102 pages
Formation sur l'analyse de données Excel
Pas encore d'évaluation
Formation sur l'analyse de données Excel
69 pages
Gestion des Stocks et Approvisionnement en Eau
Pas encore d'évaluation
Gestion des Stocks et Approvisionnement en Eau
31 pages
Chapitre 2 Le Pr-Traitement Des Donn-Es en Machine Learning
100% (1)
Chapitre 2 Le Pr-Traitement Des Donn-Es en Machine Learning
68 pages
Présentation PANDAS
100% (1)
Présentation PANDAS
51 pages
Énoncé tp0
Pas encore d'évaluation
Énoncé tp0
3 pages
Traement Et Analyse Des Données D'enquete
Pas encore d'évaluation
Traement Et Analyse Des Données D'enquete
20 pages
Cours Pratique Power BI
100% (2)
Cours Pratique Power BI
7 pages
Guide Détaillé Pour Devenir Un Data Analyst Accompli
Pas encore d'évaluation
Guide Détaillé Pour Devenir Un Data Analyst Accompli
2 pages
Traitement Des Valeurs Manquantes Et Aberrantes Avec Python
Pas encore d'évaluation
Traitement Des Valeurs Manquantes Et Aberrantes Avec Python
19 pages
Introduction à la Data et BI
Pas encore d'évaluation
Introduction à la Data et BI
107 pages
Analysez Des Donnees Avec Excel 240421061653 9ec0a2ce
Pas encore d'évaluation
Analysez Des Donnees Avec Excel 240421061653 9ec0a2ce
66 pages
Analyse de Données
Pas encore d'évaluation
Analyse de Données
13 pages
Power BI Project
Pas encore d'évaluation
Power BI Project
30 pages
Ch2 Data Mining
Pas encore d'évaluation
Ch2 Data Mining
61 pages
Data Analytics Interviews Questions
100% (1)
Data Analytics Interviews Questions
16 pages
Analyse Statistique Et Économétrie Avec Excel Et Stata
Pas encore d'évaluation
Analyse Statistique Et Économétrie Avec Excel Et Stata
43 pages
Le Processus de Science Des Donnees
Pas encore d'évaluation
Le Processus de Science Des Donnees
16 pages
FORMATIONS Lactoscope FTA PKI Maintenance Niveau 1 (Formation 2021)
Pas encore d'évaluation
FORMATIONS Lactoscope FTA PKI Maintenance Niveau 1 (Formation 2021)
78 pages