Traitement de données
IRIC3 2024-2025
Plan
• Introduction
• Qualité de données
• Caractéristiques des données
• Importance de la préparation de données
• Stratégies pour la préparation de données
2
Introduction
Les bases de données (réelles) sont fortement influencées par des facteurs
négatifs tels que la présence de bruit, des valeurs manquantes, des données
incohérentes et superflues…
Les analyses effectuées sur des données non traitées peuvent conduire à
des conclusions et des interprétations erronées ce qui peut générer des
erreurs très coûteuses .
3
Importance de la préparation de données
La prise d’une décision adéquate doit être basée
sur des données de bonne qualité!
Nécessité d’une préparation de données
basée sur des stratégies bien conçues
4
Précision
Qualité des
données
Complétude Consistance
5
Caractéristiques des bases de données réelles
Données imprécises :
- Les instruments de collecte de données utilisés peuvent être
défectueux,
- Saisies incorrectes des données,
- Erreurs liées à la transmission de données,
-…
6
Caractéristiques des bases de données réelles
Données incomplètes :
Défaillance de l'équipement servant à générer ou bien à
récupérer les données,
Données non saisies en raison de l'incompréhension, ou bien
des données personnelles,
Certaines données peuvent ne pas être considérées comme
importantes au moment de la saisie,
…
7
Caractéristiques des bases de données réelles
Données inconsistantes:
- Redondance de données dues au non respect des
contraintes d’intégrité ou des dépendances fonctionnelles,
- Inconsistances de données dues à l’intégration de données
provenant des sources différentes,
-…
8
Importance de la préparation de données
Data Mining, ou exploration de données, ou encore extraction
de connaissances à partir de grandes quantités de données.
Il est souvent couplé au Deep Learning et au machine learning.
99
Importance de la préparation de données
10
Les différentes formes de la préparation de données
11
Quelques stratégies pour la préparation des données :
• Nettoyage de données
• Transformation de données
• Intégration des données provenant de sources différentes
• Réduction de dimensionnalité
•…
12
Nettoyage de données
Valeurs manquantes:
- Suppression des enregistrements contenant des valeurs manquantes.
- Imputation des valeurs manquantes par la moyenne (valeurs
quantitatives) ou par la valeur la plus fréquente (valeurs qualitatives)
- Faire appel à une méthode d’apprentissage en considérant la valeur
manquante comme étant la classe à prédire.
13
Nettoyage de données
Identification et suppression des valeurs aberrantes et
bruitées
Les techniques incluent la régression, le clustering et le binning,
Par clustering: Après avoir regrouper les valeurs en clusters
Par régression : Lissage des données par rapport à la fonction de
régression.
14
Détection des valeurs aberrantes ou bruitées par clustering
15
Transformation de données
Elle permet de convertir ou de consolider les données. Elle englobe un
certain nombre d’opérations :
1. La normalisation des données.
2. Le lissage des données afin de réduire l’impact de bruit.
3. Agrégation des données.
4. Construction de nouveaux attributs à partir des autres.
16
Transformation des données
Normalisation de données :
La normalisation tente de donner à tous les attributs un poids égal en
les exprimant dans la même échelle.
Min-Max :
Z-score :
17
Intégration de données
L’intégration de données permet de fusionner les données provenant de
plusieurs sources de données et pouvant avoir différentes natures.
Elle comprend:
L’unification des variables.
L’analyse de la corrélation d’attributs.
Duplication des tuples.
…
18
Réduction de données
Elle vise à obtenir une représentation réduite des données d’origine.
Elle englobe:
- La sélection des attributs
- La sélection des instances
- Discrétisation
-…
19
Formes de réduction de données
20
21
Concepts Générale
22
Jeu de données(Dataset)
Un DataSet (jeu de données) est une collection de données liées à un sujet, un thème ou un secteur
d’activité en particulier. Ils comprennent différents types d’informations, tels que des nombres, du texte,
des images, vidéos, audios, et peuvent être stockés sous divers formats, tels que CSV, JSON ou SQL.
On peut utiliser un dataset pour effectuer des études de marché, identifier et étudier des tendances, ou
élaborer des modèles d’apprentissage automatique.
Un jeu de données peut avoir une structure tabulaire, par exemple un fichier Excel ou CSV. Une
structure d'arbre, comme dans un fichier JSON ou XML, ou encore une structure de graphe,
comme dans le RDF.
Lorsque les données sont tabulaires, en principe, chaque ligne correspond à une observation et
chaque colonne à une variable
23
Feature extraction
Dans le domaine de l’intelligence artificielle :
• Une donnée brute est une donnée n’ayant subi aucune transformation depuis son
observation initiale.
• L’extraction de caractéristique (feature) a pour but de caractériser les données
d’apprentissage.
• C’est une étape au cours de laquelle sont induites depuis des données brutes (tableau
numérique, document textuel, fichier son, image, etc.) des caractéristiques (features) sur
lesquelles le système d’Intelligence Artificielle doit se reposer pour effectuer la tâche
pour laquelle il est programmé.
• Exemples:
• Individu : âge, taille, poids,…
• Immobilier : superficie, Etage, Etat, ville, distance
• Précipitation : température, vitesse du vend, humidité, évaporation
• Cours boursier : open, close, high, low 24
Que sont les données( features)?
• Une donnée est un nombre, une caractéristique, qui apporte une information sur un
individu, un objet ou une observation. Par exemple, 30 est un nombre sans intérêt, mais
si quelqu’un vous dit « J’ai 30 ans», 30 devient une donnée qui vous permettra d’en
savoir un peu plus sur lui.
• On distingue les données dites privées et des données dites publiques :
- Les données privées sont tout simplement les données qui appartiennent à une
personne ou à une organisation.
- Les données publiques, c’est-à-dire accessibles à tous (Par exemple. Internet: source de
données quasi infinie).
25
Collecte de données
- Pour cela, trois modes de collecte de données existent :
• Les open data, qui correspondent à la mise à disposition gratuite de données de la
société civile, sur des sites tels que [Link], [Link],
[Link], [Link]
• Les open API (Application Programming Interface), qui sont des technologies
permettant d’accéder à des données sur Internet. Elles permettent de récupérer par
exemple des données mises à disposition par Google, Twitter, etc.
• Le Web est source de données, qui nécessite un minimum d’expertise en
programmation pour être capable de faire ce que l’on nomme du Webscraping,
récupérer des données directement à partir des pages des sites Internet.
26
Les principaux types de données
On distingue généralement les données quantitatives et les données
qualitatives.
Les données quantitatives sont des valeurs qui décrivent une quantité
mesurable, sous la forme de nombres sur lesquels on peut faire des calculs
(moyenne, min, max etc.), des comparaisons (égalité/différence,
infériorité/supériorité, etc.). Elles répondent typiquement à des questions du
type «combien». On fait parfois la différence entre :
Les données quantitatives continues, qui peuvent prendre n’importe quelle valeur dans
un ensemble de valeurs: la température, l’humidité, le PIB, le taux de chômage
Les données quantitatives discrètes, une variable quantitative peut être discrète (si ses
valeurs sont des nombres entiers, comme le nombre d'enfants) 27
Les principaux types de données
Les données qualitatives décrivent quant à elles des qualités ou des
caractéristiques. Elles répondent à des questions de la forme « quel type » ou «
quelle catégorie». Ces valeurs ne sont plus des nombres, mais un ensemble de
modalités. On ne peut pas faire de calcul sur ces valeurs, même dans
l’éventualité où elles prendraient l’apparence d’une série numérique. On
distingue:
Les données qualitatives nominales (ou catégorielles), dont les modalités ne peuvent
être ordonnées. Par exemple: la couleur des yeux (bleu, vert, marron, etc.), le sexe
(homme, femme), la région d’appartenance, etc.).
Les données qualitatives ordinales, dont les modalités sont ordonnées selon un ordre
« logique». Par exemple: les tailles de vêtements (S, M, L, XL), le degré d’accord à un
test d’opinion (fortement d’accord, d’accord, pas d’accord, fortement pas d’accord).
28
Les principaux types de données
Type de données Opérations supportées
Quantitatives continues Calculs continues, égalité/différence, infériorité/supériorité
Quantitatives discrets Calculs discrets, égalité/différence, infériorité/supériorité
Qualitatives nominales Égalité/différence
Qualitatives ordinales Égalité/ différence, infériorité/supériorité
29
Data pre-processing: Comment préparer votre Dataset
• Il est fréquent qu’un Dataset contient quelques anomalies, voir des erreurs,
qu’il faut supprimer pour ne pas biaiser l’apprentissage de la Machine (Vous ne
voudriez pas que la machine apprenne quelque chose de faux).
• Il est aussi important de normaliser vos données, c’est-à-dire de les mettre sur
une même échelle pour rendre l’apprentissage de la machine plus rapide et
aussi plus efficace
• Si vous avez des valeurs manquantes, il faut être capable de leur assigner par
une valeur (par défaut, la moyenne, …).
• Si vous avez des features catégoriales (exemple : homme/femme) il faut les
convertir en données numériques (homme=0, femme=1).
30
Data pre-processing: Comment préparer votre Dataset
• Egalement, il est très important de nettoyer le Dataset des features redondantes
(qui ont une forte corrélation) pour faciliter l’apprentissage de la machine
• Typiquement, sklearn et pandas disposent des fonctions nécessaires
• Pour faire un bon data pre-processing. Pour charger un fichier Excel au format
csv, utiliser la librairie pandas.
• Les données doivent toujours venir de la même distribution
Le plus important, ce n’est pas l’algorithme,
ce sont les Données
31
Résumé
• Attention à votre fonction de coût :
• qu’est-ce qui importe pour la mesure de performance ?
• Données rares :
• Attention à la répartition entre données d’apprentissage et données test.
Validation croisée.
• N’oubliez pas l’ensemble de validation
• L’évaluation est très importante
• Ayez l’esprit critique
• Convainquez-vous vous même !
32
Base du traitement de données
Objectifs :
Apprendre à lire des données dans un fichier, les analyser et les traiter pour en déduire
des prédictions.
La démarche consiste en :
1. lecture des données
2. analyse des données
3. détermination d’une loi simple
4. prédiction à partir de cette loi
5. analyse des résultats
Application :
Problème du réchauffement climatique.
33
Pré-traitement
avec scikit learn
34
Pré-traitement
35
SKLEARN - Transformer
36
SKLEARN – Transformer et Estimator
37
Encodage ordinal
38
SKLEARN – Label Encoder
39
SKLEARN – Ordinal Encoder
40
SKLEARN – Ordinal Encoder
41
SKLEARN – Encodage One Hot
42
SKLEARN – Label Binarizer
43
SKLEARN – Encodage One Hot
44
SKLEARN – Normalisation MinMax
45
SKLEARN – Normalisation MinMax
46
SKLEARN – Standardisation
47
SKLEARN – RobustScaler
48
SKLEARN – Simple Imputer
49
SKLEARN – Simple Imputer
50
SKLEARN – Simple Imputer
51
SKLEARN – Simple Imputer
52
Démarche de travail : Exploration des données
53
Démarche de travail : Prétraitement
54
Démarche de travail : Modèle
55