100% ont trouvé ce document utile (1 vote)
129 vues55 pages

4-Préparation Données

Le document traite de l'importance de la préparation des données pour garantir des analyses précises et fiables. Il aborde les caractéristiques des données réelles, les stratégies de nettoyage, transformation, intégration et réduction des données, ainsi que les types de données. Enfin, il souligne l'importance de l'évaluation et de la validation dans le processus d'apprentissage automatique.

Transféré par

chaimaajdid75
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
129 vues55 pages

4-Préparation Données

Le document traite de l'importance de la préparation des données pour garantir des analyses précises et fiables. Il aborde les caractéristiques des données réelles, les stratégies de nettoyage, transformation, intégration et réduction des données, ainsi que les types de données. Enfin, il souligne l'importance de l'évaluation et de la validation dans le processus d'apprentissage automatique.

Transféré par

chaimaajdid75
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Traitement de données

IRIC3 2024-2025
Plan
• Introduction
• Qualité de données
• Caractéristiques des données
• Importance de la préparation de données
• Stratégies pour la préparation de données

2
Introduction

Les bases de données (réelles) sont fortement influencées par des facteurs
négatifs tels que la présence de bruit, des valeurs manquantes, des données
incohérentes et superflues…

Les analyses effectuées sur des données non traitées peuvent conduire à
des conclusions et des interprétations erronées ce qui peut générer des
erreurs très coûteuses .

3
Importance de la préparation de données

La prise d’une décision adéquate doit être basée


sur des données de bonne qualité!

Nécessité d’une préparation de données


basée sur des stratégies bien conçues

4
Précision

Qualité des
données

Complétude Consistance
5
Caractéristiques des bases de données réelles

Données imprécises :
- Les instruments de collecte de données utilisés peuvent être
défectueux,
- Saisies incorrectes des données,
- Erreurs liées à la transmission de données,
-…

6
Caractéristiques des bases de données réelles
Données incomplètes :
 Défaillance de l'équipement servant à générer ou bien à
récupérer les données,
 Données non saisies en raison de l'incompréhension, ou bien
des données personnelles,
 Certaines données peuvent ne pas être considérées comme
importantes au moment de la saisie,
…
7
Caractéristiques des bases de données réelles

Données inconsistantes:
- Redondance de données dues au non respect des
contraintes d’intégrité ou des dépendances fonctionnelles,
- Inconsistances de données dues à l’intégration de données
provenant des sources différentes,
-…

8
Importance de la préparation de données

Data Mining, ou exploration de données, ou encore extraction


de connaissances à partir de grandes quantités de données.
Il est souvent couplé au Deep Learning et au machine learning.

99
Importance de la préparation de données

10
Les différentes formes de la préparation de données

11
Quelques stratégies pour la préparation des données :

• Nettoyage de données
• Transformation de données
• Intégration des données provenant de sources différentes
• Réduction de dimensionnalité
•…

12
Nettoyage de données
Valeurs manquantes:
- Suppression des enregistrements contenant des valeurs manquantes.

- Imputation des valeurs manquantes par la moyenne (valeurs


quantitatives) ou par la valeur la plus fréquente (valeurs qualitatives)

- Faire appel à une méthode d’apprentissage en considérant la valeur


manquante comme étant la classe à prédire.

13
Nettoyage de données
Identification et suppression des valeurs aberrantes et
bruitées
Les techniques incluent la régression, le clustering et le binning,
 Par clustering: Après avoir regrouper les valeurs en clusters
 Par régression : Lissage des données par rapport à la fonction de
régression.

14
Détection des valeurs aberrantes ou bruitées par clustering

15
Transformation de données
Elle permet de convertir ou de consolider les données. Elle englobe un
certain nombre d’opérations :
1. La normalisation des données.
2. Le lissage des données afin de réduire l’impact de bruit.
3. Agrégation des données.
4. Construction de nouveaux attributs à partir des autres.

16
Transformation des données
Normalisation de données :
La normalisation tente de donner à tous les attributs un poids égal en
les exprimant dans la même échelle.
 Min-Max :

 Z-score :

17
Intégration de données

L’intégration de données permet de fusionner les données provenant de


plusieurs sources de données et pouvant avoir différentes natures.

Elle comprend:
 L’unification des variables.
 L’analyse de la corrélation d’attributs.
 Duplication des tuples.
 …

18
Réduction de données

Elle vise à obtenir une représentation réduite des données d’origine.


Elle englobe:
- La sélection des attributs
- La sélection des instances
- Discrétisation
-…

19
Formes de réduction de données

20
21
Concepts Générale

22
Jeu de données(Dataset)

Un DataSet (jeu de données) est une collection de données liées à un sujet, un thème ou un secteur
d’activité en particulier. Ils comprennent différents types d’informations, tels que des nombres, du texte,
des images, vidéos, audios, et peuvent être stockés sous divers formats, tels que CSV, JSON ou SQL.
On peut utiliser un dataset pour effectuer des études de marché, identifier et étudier des tendances, ou
élaborer des modèles d’apprentissage automatique.

Un jeu de données peut avoir une structure tabulaire, par exemple un fichier Excel ou CSV. Une
structure d'arbre, comme dans un fichier JSON ou XML, ou encore une structure de graphe,
comme dans le RDF.
Lorsque les données sont tabulaires, en principe, chaque ligne correspond à une observation et
chaque colonne à une variable

23
Feature extraction
Dans le domaine de l’intelligence artificielle :
• Une donnée brute est une donnée n’ayant subi aucune transformation depuis son
observation initiale.
• L’extraction de caractéristique (feature) a pour but de caractériser les données
d’apprentissage.
• C’est une étape au cours de laquelle sont induites depuis des données brutes (tableau
numérique, document textuel, fichier son, image, etc.) des caractéristiques (features) sur
lesquelles le système d’Intelligence Artificielle doit se reposer pour effectuer la tâche
pour laquelle il est programmé.
• Exemples:
• Individu : âge, taille, poids,…
• Immobilier : superficie, Etage, Etat, ville, distance
• Précipitation : température, vitesse du vend, humidité, évaporation
• Cours boursier : open, close, high, low 24
Que sont les données( features)?
• Une donnée est un nombre, une caractéristique, qui apporte une information sur un
individu, un objet ou une observation. Par exemple, 30 est un nombre sans intérêt, mais
si quelqu’un vous dit « J’ai 30 ans», 30 devient une donnée qui vous permettra d’en
savoir un peu plus sur lui.

• On distingue les données dites privées et des données dites publiques :

- Les données privées sont tout simplement les données qui appartiennent à une
personne ou à une organisation.

- Les données publiques, c’est-à-dire accessibles à tous (Par exemple. Internet: source de
données quasi infinie).
25
Collecte de données

- Pour cela, trois modes de collecte de données existent :


• Les open data, qui correspondent à la mise à disposition gratuite de données de la
société civile, sur des sites tels que [Link], [Link],
[Link], [Link]

• Les open API (Application Programming Interface), qui sont des technologies
permettant d’accéder à des données sur Internet. Elles permettent de récupérer par
exemple des données mises à disposition par Google, Twitter, etc.

• Le Web est source de données, qui nécessite un minimum d’expertise en


programmation pour être capable de faire ce que l’on nomme du Webscraping,
récupérer des données directement à partir des pages des sites Internet.
26
Les principaux types de données
On distingue généralement les données quantitatives et les données
qualitatives.
Les données quantitatives sont des valeurs qui décrivent une quantité
mesurable, sous la forme de nombres sur lesquels on peut faire des calculs
(moyenne, min, max etc.), des comparaisons (égalité/différence,
infériorité/supériorité, etc.). Elles répondent typiquement à des questions du
type «combien». On fait parfois la différence entre :
Les données quantitatives continues, qui peuvent prendre n’importe quelle valeur dans
un ensemble de valeurs: la température, l’humidité, le PIB, le taux de chômage

Les données quantitatives discrètes, une variable quantitative peut être discrète (si ses
valeurs sont des nombres entiers, comme le nombre d'enfants) 27
Les principaux types de données
Les données qualitatives décrivent quant à elles des qualités ou des
caractéristiques. Elles répondent à des questions de la forme « quel type » ou «
quelle catégorie». Ces valeurs ne sont plus des nombres, mais un ensemble de
modalités. On ne peut pas faire de calcul sur ces valeurs, même dans
l’éventualité où elles prendraient l’apparence d’une série numérique. On
distingue:

Les données qualitatives nominales (ou catégorielles), dont les modalités ne peuvent
être ordonnées. Par exemple: la couleur des yeux (bleu, vert, marron, etc.), le sexe
(homme, femme), la région d’appartenance, etc.).

Les données qualitatives ordinales, dont les modalités sont ordonnées selon un ordre
« logique». Par exemple: les tailles de vêtements (S, M, L, XL), le degré d’accord à un
test d’opinion (fortement d’accord, d’accord, pas d’accord, fortement pas d’accord).
28
Les principaux types de données

Type de données Opérations supportées


Quantitatives continues Calculs continues, égalité/différence, infériorité/supériorité

Quantitatives discrets Calculs discrets, égalité/différence, infériorité/supériorité

Qualitatives nominales Égalité/différence

Qualitatives ordinales Égalité/ différence, infériorité/supériorité

29
Data pre-processing: Comment préparer votre Dataset
• Il est fréquent qu’un Dataset contient quelques anomalies, voir des erreurs,
qu’il faut supprimer pour ne pas biaiser l’apprentissage de la Machine (Vous ne
voudriez pas que la machine apprenne quelque chose de faux).
• Il est aussi important de normaliser vos données, c’est-à-dire de les mettre sur
une même échelle pour rendre l’apprentissage de la machine plus rapide et
aussi plus efficace
• Si vous avez des valeurs manquantes, il faut être capable de leur assigner par
une valeur (par défaut, la moyenne, …).
• Si vous avez des features catégoriales (exemple : homme/femme) il faut les
convertir en données numériques (homme=0, femme=1).
30
Data pre-processing: Comment préparer votre Dataset
• Egalement, il est très important de nettoyer le Dataset des features redondantes
(qui ont une forte corrélation) pour faciliter l’apprentissage de la machine
• Typiquement, sklearn et pandas disposent des fonctions nécessaires
• Pour faire un bon data pre-processing. Pour charger un fichier Excel au format
csv, utiliser la librairie pandas.
• Les données doivent toujours venir de la même distribution

Le plus important, ce n’est pas l’algorithme,


ce sont les Données

31
Résumé
• Attention à votre fonction de coût :
• qu’est-ce qui importe pour la mesure de performance ?
• Données rares :
• Attention à la répartition entre données d’apprentissage et données test.
Validation croisée.
• N’oubliez pas l’ensemble de validation

• L’évaluation est très importante


• Ayez l’esprit critique
• Convainquez-vous vous même !

32
Base du traitement de données
Objectifs :
Apprendre à lire des données dans un fichier, les analyser et les traiter pour en déduire
des prédictions.
La démarche consiste en :
1. lecture des données
2. analyse des données
3. détermination d’une loi simple
4. prédiction à partir de cette loi
5. analyse des résultats
Application :
Problème du réchauffement climatique.
33
Pré-traitement
avec scikit learn

34
Pré-traitement

35
SKLEARN - Transformer

36
SKLEARN – Transformer et Estimator

37
Encodage ordinal

38
SKLEARN – Label Encoder

39
SKLEARN – Ordinal Encoder

40
SKLEARN – Ordinal Encoder

41
SKLEARN – Encodage One Hot

42
SKLEARN – Label Binarizer

43
SKLEARN – Encodage One Hot

44
SKLEARN – Normalisation MinMax

45
SKLEARN – Normalisation MinMax

46
SKLEARN – Standardisation

47
SKLEARN – RobustScaler

48
SKLEARN – Simple Imputer

49
SKLEARN – Simple Imputer

50
SKLEARN – Simple Imputer

51
SKLEARN – Simple Imputer

52
Démarche de travail : Exploration des données

53
Démarche de travail : Prétraitement

54
Démarche de travail : Modèle

55

Vous aimerez peut-être aussi