0% ont trouvé ce document utile (0 vote)
45 vues61 pages

Ch2 Data Mining

Le document présente une introduction à la fouille de données, définie comme un processus d'extraction de connaissances à partir de grandes quantités de données. Il retrace l'historique de cette discipline, ses applications variées dans des domaines tels que la détection de fraudes et la segmentation de la clientèle, ainsi que les étapes essentielles du processus de data mining. Enfin, il aborde les types de données utilisés dans ce domaine et les méthodes de collecte appropriées.

Transféré par

Chaima Mestiri
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
45 vues61 pages

Ch2 Data Mining

Le document présente une introduction à la fouille de données, définie comme un processus d'extraction de connaissances à partir de grandes quantités de données. Il retrace l'historique de cette discipline, ses applications variées dans des domaines tels que la détection de fraudes et la segmentation de la clientèle, ainsi que les étapes essentielles du processus de data mining. Enfin, il aborde les types de données utilisés dans ce domaine et les méthodes de collecte appropriées.

Transféré par

Chaima Mestiri
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

République Tunisienne

Traitement de données
Ministère de l’Enseignement Supérieur
et de la Recherche Scientifique
Université de Sousse
Niveau: 1DNI
A.U. 2023/2024
CH2: Data mining/ La
fouille des données

Dr. Amina BEN HAJ KHALED

U. R. Sciences Et Technologies de l’Image et


des Télécommunications (SETIT)

amina1benhajkhaled@[Link]
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

1. Introduction
❑ Data mining= KDD (Knowledge Discovery in Databases)= Fouille des données.

❑ La notion de découvrir des faits à partir des données remonte aussi loin que l'histoire de la
statistique.

❑ John Kettenring, un statisticien renommé qui a été président de l'American Statistical


Association (ASA) en 1997, décrit les statistiques comme la science de l'apprentissage à partir
des données. Elles sont essentielles au bon fonctionnement des gouvernements, au processus
de prise de décision dans l'industrie, et sont un élément central des programmes éducatifs
modernes à tous les niveaux.

2
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

2. Historique du Data mining


✓ Les origines de l’exploration de données remontent aux années 1950, lorsque les premiers
ordinateurs ont été développés et utilisés pour la recherche scientifique et mathématique.

✓ Dans les années 1950 et 1960 , Dr Herbert Simon ,le père de l’intelligence artificielle, et ses
collègues ont développé un certain nombre d'algorithmes et de techniques pour l’extraction des
informations et des idées utiles à partir de données, notamment le clustering, la classification
et les arbres de décision.

✓ Dans les années 1980 et 1990, le domaine de l'exploration de données a continué d'évoluer et
de nouveaux algorithmes et techniques (SAS, SPSS et RapidMiner) ont été développés pour
relever les défis liés au travail avec des ensembles de données volumineux et complexes.

✓ Ces dernières années, la disponibilité d’ensembles de données volumineux et la croissance des


technologies de cloud computing et de big data ont rendu l’exploration de données encore
plus puissante et largement utilisée. 3
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

3. Le Data mining: définition


Définition

❑ Le Data mining est une démarche qui est située dans intersection entre la statistique et des
technologies de l’information dont le but de découvrir des relations, des règles et des
corrélations/dépendances, afin d’analyser des volumes massifs de données et d’en tirer des
informations exploitables.

❑ En français, le Data mining porte différents noms :


✓ Exploration de données
✓ Fouille de données
✓ Forage de données
✓ Ou encore extraction de connaissances à partir de données

❑ Le Data mining est étroitement lié à l'analyse du Big Data, à l'intelligence prédictive et à
l'exploitation des données, formant ainsi un processus essentiel dans ces domaines.

4
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

3. Le Data-Mining : Les raisons du développement

Big data Puissance de calcul Création de


• Loi de Moore
valeur ajoutée
• Twitter :
50M de tweets /jour Il prédit que le nombre de
(=7 téraoctets) transistors dans un circuit
intégré (et par extension la • Une approche
• Facebook : puissance de calcul des davantage orientée vers
10 téraoctets /jour ordinateurs) double les besoins et les désirs
environ tous les deux ans. des clients.
• Youtube : • Calcul massivement
50h de vidéos uploadées distribué. • Extraction des
/minute connaissances et des
informations utiles.

5
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

3. Le Data-Mining : Exemples d’application


L’exploration de données a un large éventail d’applications et de cas d’utilisation dans de
nombreux secteurs et domaines.

1. Analyse du panier de consommation : Il s’agit d’analyser les données sur les achats des
clients afin d’identifier les articles qui sont fréquemment achetés ensemble, et d’utiliser ces
informations pour faire des recommandations ou des suggestions aux clients.

2. Détection des fraudes : Elle est largement utilisée dans le secteur financier pour détecter et
prévenir la fraude. Il s’agit d’analyser les données sur les transactions et le comportement des
clients afin d’identifier les modèles ou les anomalies qui peuvent indiquer une activité
frauduleuse.

6
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

3. Le Data-Mining : Exemples d’application


3. Segmentation de la clientèle : Elle est couramment utilisée dans les secteurs du marketing
et de la publicité pour segmenter les clients en différents groupes en fonction de leurs
caractéristiques et de leur comportement. Ces informations peuvent ensuite être utilisées
pour adapter les campagnes de marketing et de publicité à des segments spécifiques de
clients.

4. Maintenance prédictive : Il s’agit d’analyser les données sur les performances et


l’utilisation de l’équipement afin d’identifier les modèles qui peuvent indiquer des
défaillances potentielles, et d’utiliser ces informations pour planifier la maintenance et
prévenir les temps d’arrêt.

5. Détection d’intrusion sur le réseau : Il s’agit d’analyser les données sur le trafic et le
comportement du réseau afin d’identifier les modèles susceptibles d’indiquer une tentative
d’intrusion, et d’utiliser ces informations pour alerter les équipes de sécurité et prévenir les
attaques.
7
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

4. Le Processus du Data mining


1. Comprendre et analyser les objectifs de l’application.
2. Créer une base de données pour la mise au point de l’application.
3. Prétraitement et nettoyage des données.
4. Identifier le type de problème et choisir un algorithme.
5. Evaluer les performances de l’algorithme.
6. Réitérer les étapes précédentes si nécessaire.
7. Déployer l’application.

8
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

4. Le Processus du Data mining

Définir et comprendre le problème

Collecte des données

Prétraitement

Choisir le modèle

Evaluer les performances

Interpréter le modèle

Processus du Data mining


9
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

Exercice 1:
Effectuer un prétraitement de base sur l'ensemble de données "tips" pour mieux comprendre sa
structure et ses caractéristiques, et préparer les données pour une analyse ultérieure.
1. Charger l'ensemble de données "tips" à partir de Seaborn.
2. Afficher les premières lignes du DataFrame pour comprendre sa structure.
3. Vérifier s'il y a des valeurs manquantes dans l'ensemble de données et décider comment les
gérer.
4. Examiner les types de données de chaque colonne et convertir si nécessaire.
5. Explorer les statistiques descriptives pour comprendre la distribution des variables
numériques.
6. Effectuer un encodage des variables catégorielles si nécessaire.
7. Enregistrer le DataFrame prétraité dans un nouveau fichier si nécessaire.

10
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

Exercice 1: Correction
import seaborn as sns

# Charger l'ensemble de données Tips


tips_data = sns.load_dataset("tips")

# Afficher les premières lignes du DataFrame


print(tips_data.head())

# Vérifier les valeurs manquantes


print(tips_data.isnull().sum())

# Examiner les types de données


print(tips_data.dtypes)

# Statistiques descriptives
print(tips_data.describe())

# Encodage des variables catégorielles (si nécessaire)


import pandas as pd

# Encoder les variables catégorielles


encoded_tips_data = pd.get_dummies(tips_data, columns=['sex', 'smoker', 'day'], drop_first=True)

# Afficher les premières lignes du DataFrame encodé


print(encoded_tips_data.head())

encoded_tips_data.to_csv("tips_preprocessed.csv", index=False)

11
Etape1: Définir et comrendre le problème Niveau: 1DNI
A.U. 2023/2024

4.1. Première étape du processus


L’étape de définir et comprendre le problème dans le processus de data mining est cruciale
pour orienter efficacement toute l'analyse. Les étapes les plus importantes pour établir des
objectifs clairs sont: Définir et comprendre le problème
✓ Identification des besoins métier (Comprendre les objectifs stratégiques de l'entreprise,
identifier les questions commerciales clés,
Collecte desévaluer
données les opportunités).

✓ Formulation d'objectifs spécifiquesPrétraitement


et mesurables: Les objectifs doivent être clairs,
précis et mesurables. Par exemple, au lieu de dire "améliorer la satisfaction des clients",
Choisir
l'objectif pourrait être formulé comme le modèle le temps de réponse du service client de
"réduire
30% d'ici la fin de l'année".
Evaluer les performances

✓ Compréhension des contraintes et des limites: Il est important de prendre en compte


Interpréter le modèle
les contraintes et les limites du projet dès le début. Cela peut inclure des contraintes
budgétaires, des limitations technologiques, des restrictions légales ou réglementaires, ou
des problèmes de confidentialité des données.
Processus Une fois ces facteurs pris en compte, les
du Data mining
objectifs peuvent être ajustés en conséquence pour être réalistes et réalisables. 12
Etape1: Définir et comrendre le problème Niveau: 1DNI
A.U. 2023/2024

4.1. Première étape du processus

✓ Validation des hypothèses: Souvent, avant de commencer à explorer les données, il peut
y avoir des hypothèses sur ce que les données pourraient révéler. Ces hypothèses doivent
être examinées et validées pour s'assurer qu'elles sont fondées sur des faits plutôt que sur
des suppositions.

✓ Décomposition des objectifs en tâches plus petites : Les objectifs globaux peuvent
souvent être décomposés en plusieurs sous-objectifs ou tâches plus petites. Cela facilite la
gestion du projet et permet de mesurer les progrès de manière plus granulaire.

13
Etape1: Définir et comrendre le problème Niveau: 1DNI
A.U. 2023/2024

4.1. Première étape du processus

Définir et comprendre le problème Définir et comprendre le problème

Collecte des données 1 5

Identification Décomposition
Prétraitement des besoins en petites
taches

Choisir le modèle
2 4
Evaluer les performances Objectifs Validation
spécifiques et des
mesurables hypothèses
3
Interpréter le modèle
Compréhension
des limites
Processus du Data mining
14
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus


Définition

❑ La collecte de données en Data mining est le processus de rassemblement et d'acquisition


de données brutes à partir de différentes sourcesle pour
Définir et comprendre les utiliser dans l'analyse et l'extraction
problème
de connaissances.
Collecte des données
❑ Dans cette étape, il est nécessaire de définir les méthodes de collecte de données les plus
Prétraitement
adéquates pour chaque source de données.

✓ La collecte de données en ligne: Google


Choisir Forms, SurveyMonkey, Qualtrics.
le modèle

✓ La collecte de données sur le terrain:


Evaluer ODK Collect, KoboToolbox, FormHub.
les performances

✓ Les données de transaction: Excel,


Interpréter le modèle QuickBooks
MySQL,

✓ Les données des médias sociaux: Hootsuite Insights, Brandwatch, Sprout Social.
Processus du Data mining
15
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus


Types de données

❑ En data mining, les données peuvent être classées en différents types en fonction de leur
structure et de leur format.

❑ Les principaux types de données utilisés en Data mining sont les suivants :

✓ Les données structurées.

✓ Les données semi-structurées.

✓ Les données non structurées.

✓ Les données temporelles.

✓ Les données géospatiales.


16
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus


Types de données

❑ Les données structurées sont des données organisées dans un format tabulaire avec des
lignes et des colonnes.
❑ Elles sont généralement stockées dans des bases de données relationnelles et sont faciles à
interroger à l'aide de requêtes SQL.
❑ Les exemples de données structurées comprennent les données transactionnelles, les
données démographiques, les données financières, etc.
Données structurées

17
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus


Types de données

❑ Les données semi-structurées sont des données qui ne sont pas strictement organisées
dans un format tabulaire, mais qui ont une certaine structure qui peut être exploitée pour
l'analyse.
❑ Par exemple, les fichiers XML, les fichiers JSON et les documents HTML sont des
exemples de données semi-structurées.
❑ Bien qu'elles ne soient pas aussi facilement interrogeables que les données structurées,
elles peuvent souvent être transformées en données structurées pour l'analyse.

18
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus


Types de données

❑ Les données non structurées sont des données qui n'ont pas de structure prédéfinie et qui
ne sont pas organisées dans un format tabulaire.
❑ Elles représentent souvent du texte, des images, des vidéos, des fichiers audio, des e-mails,
etc.
❑ Les données non structurées présentent un défi particulier en matière d'analyse en raison de
leur complexité et de leur manque de structure.
❑ Cependant, de nombreuses techniques sont capables de traiter et d'analyser efficacement
ces types de données.

19
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus


Types de données

❑ Les données temporelles sont des données qui sont collectées ou enregistrées dans le
temps.
❑ Elles peuvent inclure des séries temporelles telles que des données météorologiques, des
données de trafic, des données de ventes sur une période donnée, etc.
❑ L'analyse des données temporelles est souvent utilisée pour détecter des tendances, des
cycles et des anomalies dans les données au fil du temps.

20
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus


Types de données

❑ Les données géospatiales sont des données qui sont associées à des emplacements
géographiques spécifiques.
❑ Elles peuvent inclure des données cartographiques, des données GPS, des données de
localisation de téléphones portables, etc.
❑ L'analyse des données géospatiales est utilisée pour étudier des phénomènes qui varient
dans l'espace, tels que la répartition de la population, les modèles de déplacement, etc.

21
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus


❑ Le prétraitement des données en Data mining est une étape essentielle qui vise à préparer
les données brutes pour l'analyse.
❑ Les techniques de prétraitement lesDéfinir
pluset couramment
comprendre le problème
utilisées sont :
✓ Nettoyage des données Collecte des données

✓ Transformation des données


Prétraitement
✓ Réduction de dimensionnalité
Choisir le modèle
✓ Sélection des caractéristiques
✓ Gestion des valeurs manquantes
Evaluer les performances

✓ Équilibrage des classes Interpréter le modèle

✓ Gestion des données bruitées


Processus du Data mining
22
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus


Prétraitement

Définir et comprendre le problème


1 6 5

Collecte des données Nettoyage des Équilibrage des Gestion des valeurs
données classes manquantes
Prétraitement

7
Choisir le modèle 2 4
Gestion des
Transformation
données bruitées Sélection des
Evaluer les performances des données
caractéristiques

Interpréter le modèle 3

Réduction de
dimensionnalité
Processus du Data mining
23
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus


Techniques de
prétraitement

1. Nettoyage des données :


✓ Le nettoyage des données implique l'élimination des données bruitées, incohérentes,
redondantes ou manquantes.
✓ Cela peut inclure la suppression des valeurs aberrantes, la correction des erreurs, le
remplissage des valeurs manquantes, etc.
Exemple:
Supposons qu’on d'un ensemble de données contenant des informations sur les clients, y compris leur nom, leur âge, leur adresse, leur
adresse e-mail et leur historique d'achat. Les problèmes courants lors du nettoyage sont:
[Link] manquantes : Certaines entrées peuvent manquer d'informations, par exemple l'adresse e-mail ou l'âge du client. Pour gérer
cela, vous pourriez choisir de remplir les valeurs manquantes en utilisant des techniques d'imputation comme la moyenne, la médiane…
[Link] : Il peut y avoir des entrées en double dans l'ensemble de données, par exemple si un client a été enregistré plusieurs fois
avec des informations légèrement différentes. Pour traiter les doublons, vous pouvez identifier les enregistrements en double en
comparant les valeurs des colonnes clés telles que le nom et l'adresse, puis supprimer les doublons pour ne conserver qu'une seule
entrée pour chaque client.
[Link] aberrantes : Les valeurs aberrantes sont des valeurs qui sont très différentes du reste de l'ensemble de données et peuvent
fausser les résultats de l'analyse., Il est possible de les supprimer ou de les remplacer par des valeurs plus appropriées.
[Link]érences : Il peut y avoir des incohérences dans les données, par exemple si l'adresse d'un client contient des erreurs de saisie.
Pour détecter et corriger les incohérences, vous pouvez utiliser des techniques de validation des données telles que la vérification de la
syntaxe, la validation de domaine et la vérification de la logique des données.
24
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus


Techniques de
prétraitement

2. Transformation des données:


✓ La transformation des données vise à rendre les données plus appropriées pour l'analyse en
appliquant diverses transformations telles que la normalisation, la standardisation, la
discrétisation, la réduction de dimensionnalité, etc..

Exemple:
Supposons qu’on dispose d'un ensemble de données contenant des informations sur les ventes, y compris le montant de chaque vente, la
date et l'heure de la transaction, le produit vendu, la catégorie du produit, etc. Les transformations à effectuer sur cet ensemble de
données sont :
1. Normalisation des montants de vente : Les montants de vente peuvent varier considérablement en fonction du type de produits
vendus. Pour faciliter la comparaison entre les ventes de différents produits, Il est possible de normaliser les montants de vente en les
divisant par le montant total des ventes sur une période donnée.
2. Discrétisation des dates et heures : Au lieu d'utiliser la date et l'heure exactes de chaque transaction, il est possible de discrétiser ces
variables en les regroupant par périodes de temps plus larges, par exemple en créant des catégories pour les heures de la journée (matin,
après-midi, soirée) ou pour les jours de la semaine (jour ouvrable, week-end).

25
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus


Techniques de
prétraitement

3. Réduction de dimensionnalité:

✓ La réduction de dimensionnalité consiste à réduire le nombre de variables ou de

caractéristiques dans les données. Cela peut être nécessaire pour réduire la complexité des

données et éviter le surajustement dans les modèles d'analyse.

26
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus


Techniques de
prétraitement

4. Sélection des caractéristiques :


La sélection des caractéristiques vise à identifier les variables les plus pertinentes ou les plus
prédictives pour l'analyse. Cela peut améliorer les performances des modèles en éliminant les
caractéristiques non informatives ou redondantes.
Exemple:
Supposons qu’on dispose d’un ensemble de données contenant des milliers de courriels avec différentes caractéristiques telles que la
longueur du texte, le nombre de mots en majuscules, le nombre de liens, etc. Pour construire un modèle de classification efficace, il est
crucial de sélectionner les caractéristiques les plus pertinentes qui contribuent le plus à la distinction entre les courriels spam et non-
spam.
1. Attributs des courriels : Vous pouvez collecter divers attributs ou caractéristiques des courriels, tels que la longueur du texte, la
présence de certains mots-clés, la fréquence d'utilisation de majuscules, la présence de liens hypertextes, etc.
2. Codage des attributs : Vous devez représenter ces attributs sous forme de variables catégorielles ou binaires. Par exemple, vous
pourriez avoir une variable binaire indiquant la présence ou l'absence d'un mot-clé spécifique dans le courriel.
3. Création de la table de contingence : Pour chaque attribut, vous créez une table de contingence croisant cet attribut avec la variable
cible (spam ou non-spam). Cette table compte le nombre de courriels spam et non-spam qui présentent ou non l'attribut en question.
4. Application du test du chi-deux : Vous appliquez ensuite le test du chi-deux à chaque attribut individuellement. Cela vous permet
de déterminer si la présence ou l'absence de cet attribut est significativement associée à la variable cible (spam ou non-spam).
5. Sélection des attributs : Vous sélectionnez les attributs pour lesquels le test du chi-deux indique une association significative avec la
variable cible. Ces attributs sont susceptibles d'être les plus informatifs pour la classification des courriels.
27
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus


Techniques de
prétraitement

5. Gestion des valeurs manquantes :


✓ Les valeurs manquantes sont courantes dans les ensembles de données réels et doivent être
gérées de manière appropriée.
✓ Cela peut impliquer le remplissage des valeurs manquantes par imputation, l'élimination
des enregistrements contenant des valeurs manquantes, ou l'utilisation de techniques
spécifiques pour traiter les valeurs manquantes dans les modèles d'analyse.
Exemple:
Supposons qu’on dispose d’un ensemble de données sur les clients d'une entreprise, comprenant des informations telles que l'âge, le
revenu, le sexe et le statut matrimonial. Parfois, les données peuvent être incomplètes comme l'information sur le revenu.
1. Suppression des lignes contenant des valeurs manquantes : Si le nombre de lignes avec des valeurs manquantes est négligeable
par rapport à la taille de votre ensemble de données et que leur suppression ne biaiserait pas l'analyse, il est possible de supprimer ces
lignes. Par exemple, si seuls quelques clients ont des données manquantes sur le revenu, il est possible dechoisir de les supprimer de
l’analyse.
2. Imputation par la moyenne ou la médiane : Une autre approche consiste à remplacer les valeurs manquantes par la moyenne ou la
médiane des valeurs non manquantes de la même variable. Par exemple, si les données manquantes sont sur le revenu, il est possible de
les remplacer par la moyenne ou la médiane du revenu des autres clients.
3. Imputation par la valeur la plus fréquente : Pour les variables catégorielles, il est possible de remplacer les valeurs manquantes
par la valeur la plus fréquente (le mode) de la même variable.
28
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus


Techniques de
prétraitement

6. Équilibrage des classes :


✓ Lorsque les classes dans les données sont déséquilibrées, c'est-à-dire qu'il y a un nombre
disproportionné d'observations dans chaque classe, il peut être nécessaire d'équilibrer les
classes en suréchantillonnant les classes minoritaires ou en sous-échantillonnant les classes
majoritaires.

7. Gestion des données bruitées : :


✓ Les données bruitées peuvent entraîner des résultats peu fiables dans l'analyse.
✓ Il est important de détecter et de filtrer le bruit dans les données en utilisant des techniques
telles que le lissage, ou l'utilisation de modèles robustes..

29
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus


prétraitement
Méthodes de

Il existe plusieurs méthodes pour identifier et corriger les erreurs de données, que ce
soit dans le cloud ou pas dans le cloud. Voici quelques-unes des méthodes
couramment utilisées :

✓ Vérification manuelle
✓ Statistiques descriptives
✓ Méthodes de machine learning
✓ Nettoyage de données automatique
✓ Recodage des données

Ces méthodes peuvent être utilisées individuellement ou combinées pour identifier et


corriger les erreurs de données. Il est important de choisir les méthodes les plus
appropriées en fonction des besoins de l’étude et des caractéristiques de l’ensemble de
données.
30
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


❑ Le Choix du modèle en Data mining regroupe un ensemble de techniques capables d’explorer et d’analyser une grande
quantité de données afin d’extraire des informations .
❑ Les principaux techniques sont: Définir et comprendre le problème

1. Apprentissage supervisé et non supervisé Collecte des données


2. Extraction de règles d'association
Prétraitement
3. Regroupement (Clustering)
4. Classification
Choisir le modèle
5. Régression
6. Détection d'anomalies Evaluer les performances
7. Réseaux de neuronaux artificielles
Interpréter le modèle

Processus du Data mining


31
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Choix du modèle

Définir et comprendre le problème


1 6 5

Collecte des données Apprentissage Régression Classification


supervisé et non
supervisé
Prétraitement
Prétraitement

7
Choisir le modèle 2 4
Détection
Réseaux de
d’anomalie
Evaluer les performances neuronaux Regroupement
artificielles

Interpréter le modèle 3

Extraction de règles

Processus du Data mining


32
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Apprentissage supervisé

❑ L'apprentissage supervisé est une technique d'analyse de données où un modèle est


entraîné sur un ensemble de données étiqueté, c'est-à-dire un ensemble de données pour
lequel les valeurs de sortie désirées sont connues.

❑ Le modèle utilise ces exemples étiquetés pour apprendre à prédire correctement les
valeurs de sortie pour de nouvelles données non étiquetées.

❑ En d'autres termes, le modèle apprend à partir de données déjà existantes pour pouvoir
généraliser et faire des prédictions sur de nouvelles données.

L’apprentissage fait appel à des couples de {Entrée(s) / Sortie(s)}: Observations étiquetées

33
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Apprentissage supervisé

➢ La machine peut apprendre une relation f:x→ y qui relie x à y en ayant analysé des millions
d’exemples d’associations x→ y.

Fleur

Utilisation finale
Apprentissage supervisé

34
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Apprentissage non supervisé

❑ L'apprentissage non supervisé est une technique d'analyse de données où un modèle est
entraîné sur un ensemble de données non étiquetées.

❑ Contrairement à l'apprentissage supervisé, il n'y a pas de valeurs cibles prédéfinies à


prédire.

❑ L'objectif principal de l'apprentissage non supervisé est d'explorer la structure intrinsèque


des données, de détecter des motifs et des relations cachées, et de regrouper les données
similaires ensemble.

On dispose des observations non étiquetées (des données non classées).


➔ On essaye de trouver une relation (un critère) entre les données pour les repartir en classes

35
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Apprentissage non supervisé
Données non étiquetées

Si deux Photos ont la même forme, alors elles appartiennent à la même classe.
36
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Extraction de règles d'association

❑ L'extraction de règles d'association est une technique de data mining qui vise à découvrir
des relations intéressantes entre les variables dans de grandes bases de données
transactionnelles ou de données transactionnelles.

❑ Cette technique est souvent utilisée dans le domaine du marketing pour analyser les
habitudes d'achat des clients et pour identifier des règles implicites qui décrivent les
comportements des consommateurs.

L’extraction de règles d'association consiste à générer des règles d'association:


➔ en calculant le support et la confiance pour chaque règle potentielle

37
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Extraction de règles d'association

➢ Support : Le support d'un ensemble d'éléments (ou d'une règle) dans une base de données
transactionnelle est la fréquence relative à laquelle cet ensemble apparaît dans les
transactions. Formellement, le support est défini comme le nombre de transactions contenant
l'ensemble divisé par le nombre total de transactions dans la base de données.

𝑵𝒐𝒎𝒃𝒓𝒆 𝒅𝒆 𝒕𝒓𝒂𝒏𝒔𝒂𝒄𝒕𝒊𝒐𝒏 𝒄𝒐𝒏𝒕𝒆𝒏𝒂𝒏𝒕(𝑿)


Support(X)= 𝑵𝒐𝒎𝒃𝒓𝒆 𝒕𝒐𝒕𝒂𝒍 𝒅𝒆 𝒕𝒓𝒂𝒏𝒔𝒂𝒄𝒕𝒊𝒐𝒏

➢ Confiance : La confiance d'une règle d'association X→Y mesure la probabilité


conditionnelle que Y apparaisse dans une transaction, étant donné que X apparaît dans cette
transaction. Formellement, la confiance est définie comme le nombre de transactions
contenant à la fois

𝑺𝒖𝒑𝒑𝒐𝒓𝒕(𝑿∪𝒀)
Confidence(X→Y)= 𝑺𝒖𝒑𝒑𝒐𝒓𝒕(𝑿) 38
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Extraction de règles d'association

Exemple :
Considérons une base de données transactionnelle d'un supermarché contenant des
informations sur les achats des clients. Chaque transaction est enregistrée sous la forme d'une
liste d'articles achetés par un client à un moment donné. Voici un exemple simplifié :

Transaction 1: {Pain, Lait, Œufs} {Pain} => {Lait} (support = 2/4, confiance =
2/3) :
Transaction 2 : {Pain, Lait, Bière} ✓ Cela signifie que si un client achète du pain,
il est probable qu'il achète également du lait.
Transaction 3: {Pain, Œufs} La règle a un support de 50 %, ce qui signifie
que la moitié des transactions contiennent à la
Transaction 4: {Lait, Bière} fois du pain et du lait,
✓ Une confiance de 66,67 %, ce qui signifie que
2/3 des transactions contenant du pain
contiennent également du lait.

39
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Regroupement (Clustering)

❑ Le regroupement, également connu sous le nom de clustering en anglais, est une technique
d'apprentissage non supervisé utilisée pour organiser un ensemble de données en groupes
homogènes appelés clusters.

❑ L'objectif est de regrouper les données similaires ensemble, tout en maximisant la


similarité intra-cluster et en minimisant la similarité inter-cluster.

1. Déterminer le nombre de groupes à créer dans les données.


2. Utiliser un algorithme de clustering pour diviser les données en clusters.
3. Mesurer la similarité entre les données.

40
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Regroupement (Clustering)

K=3
K=2

Longueur
Longueur en
Longueur en m
m
en m

Poidsen
Poids
Poids enkg
en kg
kg

41
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Classification

❑ La classification est une technique d'apprentissage supervisé qui consiste à prédire la


classe ou l'étiquette d'une donnée en se basant sur ses caractéristiques, à partir d'un
ensemble de données d'entraînement étiquetées.
Classification Clustering
Type Supervisé Non supervisé
d'apprentissage
Objectif Prédire la classe en utilisant un ensemble de Regrouper des observations similaires ensemble en
données d'entraînement étiquetées fonction de leurs caractéristique.

Méthode Un modèle est entraîné sur un ensemble de Les données sont regroupées en clusters homogènes
données étiquetées pour apprendre la relation où les observations à l'intérieur d'un même cluster sont
entre les caractéristiques des observations et similaires les unes aux autres et différentes des
leurs classes associées. observations des autres clusters.

Exemple Classification des e-mails en spam ou non spam. Regroupement des clients en fonction de leurs
habitudes d'achat.
42
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Régression

❑ La régression est une méthode statistique utilisée pour modéliser la relation entre une
variable dépendante et une ou plusieurs variables indépendantes, afin de comprendre et de
prédire la valeur de la variable dépendante en fonction des valeurs des variables
indépendantes.

❑ Un exemple classique de régression est la prédiction du prix des maisons en fonction de


différentes caractéristiques.

43
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Détection d'anomalies

❑ La détection d'anomalies, également connue sous le nom de détection d'outliers, est une
technique utilisée pour identifier des observations qui sont significativement différentes de
la majorité des autres observations dans un ensemble de données.
❑ L'objectif est de repérer des comportements, des événements ou des points de données
inhabituels ou suspects qui pourraient indiquer des situations anormales, des fraudes, des
erreurs ou des opportunités intéressantes.

44
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Réseaux neuronaux

❑ Les réseaux de neurones, également appelés réseaux neuronaux, sont des modèles
informatiques inspirés par le fonctionnement du cerveau humain.
❑ Ils sont composés de nombreuses unités de traitement élémentaires appelées neurones,
organisées en couches interconnectées.
❑ Chaque neurone est connecté à d'autres neurones par des poids qui déterminent l'importance
de l'entrée de chaque neurone pour la sortie du neurone suivant.

45
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus


Le choix de l’algorithme repose sur les données disponibles et celle désirées en sortie :
❑Données d’entrée :
➢ Données étiquetées (Apprentissage supervisé), non étiquetées (Apprentissage non
supervisé)
❑Données de sortie :
➢ Quantitative : Régression
➢ Qualitative : Classification
➢ Groupement d’entrées : Clustring

46
Niveau: 1DNI
Exercice 2 A.U. 2023/2024

Exercice 2:
Soit la base de données suivante:
1. Donner les informations nécessaires sur
Country Age Salaire Purchased cette base de données.
France 44 72000 No 2. Combien de types de variables contient-
Spain 27 48000 Yes elle.
Germany 30 54000 No 3. Quel est le type de ces données
Spain 38 61000 No 4. Quelles sont les étapes nécessaires pour
Germany 102 52000 Yes l’analyse de cette base de données.
France Nan Nan Nan 5. Expliquer brièvement ces étapes.
Spain Nan 58000 Yes 6. Effectuer les prétraitements nécessaires.
Germany 50 83000 Yes 7. Effectuer un encodage des variables
Germany 50 83000 Yes catégorielles si nécessaire.
France 37 Nan No 8. Quel est le type d’apprentissage qu’on
peut effectuer pour prédire l’achat ou non
selon la région, l'âge et le salaire .
47
Niveau: 1DNI
Exercice 2 A.U. 2023/2024

Correction 2:
1. Il s’agit d’une base de données sur les salaires et les comportements d'achat dans différents pays, comportant 11
lignes et 4 colonnes, cette base de données contient des données manquantes, des données aberrantes, des valeurs
inutiles et des doublons.
2. Cette base contient deux types de variable, des variables numériques et des variables catégorielles.
3. Ce sont des données structurées sont des données organisées dans un format tabulaire avec des lignes et des
colonnes.
4. Les étapes sont:
✓ Nettoyage de données avec la suppression des doublons, gestion des valeurs aberrantes
✓ Gestion des valeurs manquantes avec la suppression des lignes contenant des valeurs manquantes,
imputation de la moyenne ou de la médiane pour remplacer les valeurs manquantes

48
Niveau: 1DNI
Exercice 2 A.U. 2023/2024

Correction 2:
6. Country Age Salaire Purchased
France 44 72000 0
No
Spain 27 48000 1
Yes
Germany 30 54000 0
No
Spain 38 61000 0
No
Germany 44 52000 1
Yes
Spain 44 58000 1
Yes
Germany 50 83000 1
Yes
Germany 50 83000 1
Yes
France 37 63875 0
No

7. Il s’agit d’un problème de classification (apprentissage supervisé)

49
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus

Définir et comprendre le problème

Collecte des données

Prétraitement

Choisir le modèle

Evaluer les performances

Interpréter le modèle

Processus du Data mining


50
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus


Métriques d’évaluation
Evaluation de la régression

𝑦𝑖 𝑣𝑎𝑙𝑒𝑢𝑟 𝑟é𝑒𝑙𝑙𝑒, observation 𝑦ෝ𝑖 𝑣𝑎𝑙𝑒𝑢𝑟 𝑝𝑟é𝑑𝑖𝑡𝑒 𝑒𝑡 𝑦ത 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑑𝑒𝑠 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑟é𝑒𝑙𝑙𝑒

❑ La moyenne de l’erreur absolue : Mean Absolute Error(MAE)

❑ L’erreur quadratique moyenne: Mean Square Error(MSE)

❑ Coefficient de détermination : determination coefficient (R² : R square) Qualité de prédiction

2 𝑛−1 n : taille de la base : Nbr d’exemples


𝐴𝑑𝑗 𝑅2 = 𝑅ത 2 = 𝑅𝐴𝑑𝑗 = 1 − (1 − 𝑅2 ) p : nombre de régresseurs : Nbr de Vbles
𝑛−𝑝−1
Adjusted R² 51
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus


Base de données : « Dataset »
➢ C’est l’ensemble de données utilisé pendant la phase d'apprentissage et Bases de données
de test.
➔ Il est divisé en 2 sous-ensembles :
Ensemble d’apprentissage + Ensemble de Test
➢ Chaque élément de données est appelé un échantillon.
➢ Un échantillon est composé de caractéristiques « feature » qui décrivent
l’échantillon.
➢ Le choix des caractéristiques influe sur les performances du modèle
Ensemble de formation (d’apprentissage) Ensemble de test

Base de données
Ensemble d'apprentissage : « Training set »
➢ C’est l’ensemble de données utilisé dans le processus de formation (apprentissage) du modèle.
➢ Chaque échantillon de cet ensemble est appelé échantillon d’apprentissage. 52
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus


Bases de données
Ensemble de test : « Test set »
➢ La phase de test est la phase d’utilisation du modèle formé
➔ La phase de prédiction
➢ L’ensemble de test est l’ensemble de données (échantillons de test) sur lequel on va appliquer le modèle
formé dans la phase d’apprentissage
Ensemble de validation : « Validation set »
Dans certains cas la base de données est divisée en trois ensembles : Ensemble d’apprentissage (pour la
formation du modèle), ensemble de validation et ensemble de test (utilisation).
Ensemble de formation Ens. Validation Ens. de test

Base de données
Les données de cet ensemble sont utilisées pour évaluer les performances du modèle entrainé. Si l’erreur
augmente on arrête prématurément l’apprentissage. Dans le cas contraire, on continue l’apprentissage en
utilisant l’ensemble de formation. Cet ensemble est utilisé pour la régularisation et pour éviter le surajustement.
53
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus


Métriques d’évaluation
Evaluation de la régression

𝑦𝑖 𝑣𝑎𝑙𝑒𝑢𝑟 𝑟é𝑒𝑙𝑙𝑒, observation 𝑦ෝ𝑖 𝑣𝑎𝑙𝑒𝑢𝑟 𝑝𝑟é𝑑𝑖𝑡𝑒 𝑒𝑡 𝑦ത 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑑𝑒𝑠 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑟é𝑒𝑙𝑙𝑒

❑ La moyenne de l’erreur absolue : Mean Absolute Error(MAE)

❑ L’erreur quadratique moyenne: Mean Square Error(MSE)

❑ Coefficient de détermination : determination coefficient (R² : R square) Qualité de prédiction

2 𝑛−1 n : taille de la base : Nbr d’exemples


𝐴𝑑𝑗 𝑅2 = 𝑅ത 2 = 𝑅𝐴𝑑𝑗 = 1 − (1 − 𝑅2 ) p : nombre de régresseurs : Nbr de Vbles
𝑛−𝑝−1
Adjusted R² 54
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus


Métriques d’évaluation
Evaluation de la classification
❑ Les Vrais Positifs (VP): Les cas pertinent s(vérité terrain) prédits positifs par l’algorithme.
❑ Les Vrais Négatifs (VN): Les cas non pertinents (vérité terrain) prédits négatifs par l’algorithme.
❑ Les Faux Positifs (FP): Les cas non pertinents (vérité terrain) prédits positifs par l’algorithme
Vérité terrain et
❑ Les Faux Négatifs (FN): Les cas pertinents (vérité terrain) prédits négatifs par l’algorithme prédiction différentes
❑ La matrice de confusion : Elle permet d’afficher comment repartie la prédiction les données de la
vérité terrain :
❑ Chaque ligne correspond à classe réelle
❑ Chaque colonne correspond à une classe estimé
❑ (Li, Cj) : nombre des éléments réellement appartenant à classe i et sont estimés par l’algorithme appartenant
à la classe j
Classe estimée : prédite par le classifieur
Classe 1 Classe 2 ……….. Classe n
Classe 1
Classe réelle Classe 2
(vérité terrain) …..
Classe n 55
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus


Métriques d’évaluation
Evaluation de la classification
❑ Accuracy (Acc): Justesse ou exactitude
𝑉𝑃 + 𝑉𝑁 ➔ Une classe
𝐴𝑐𝑐 =
C’est le taux de prédiction correcte 𝑉𝑃 + 𝑉𝑁 + 𝐹𝑃 + 𝐹𝑁 majoritaire de plus 80%
❑ Taux d’erreur(Er): Error Rate 𝐹𝑃 + 𝐹𝑁
𝐸𝑟 =
C’est le taux des fausses classifications 𝑉𝑃 + 𝑉𝑁 + 𝐹𝑃 + 𝐹𝑁
❑ Précision (Precision), Rappel (Recall) et F-mesure (F-mesure)
➢ La Précision (Pr) est le taux des éléments pertinents dans les éléments positifs.
➢ Le Rappel (Rap) le taux des éléments positifs dans les éléments pertinents.
➢ F-mesure ou F-score (Fβ) : une combinaison du rappel et de la précision.
➔La précision est pondérée par un coefficient β qui est généralement égal à 1.
➔F1 ou F1 Score est la plus utilisée.
▪ F1 si les Faux Positifs et les Faux négatifs sont de même importance
▪ F2 si les faux négatifs sont plus importants que les faux positifs
▪ F0,5 si les faux positifs sont plus importants que les faux négatifs

𝑉𝑃 𝑉𝑃 2 × 𝑃𝑟 × 𝑅𝑎𝑝 (1 + 𝛽 2 ) × 𝑃𝑟 × 𝑅𝑎𝑝
𝑃𝑟 = 𝑅𝑎𝑝 = 𝐹1 = 𝐹𝛽 =
𝑉𝑃 + 𝐹𝑃 𝑉𝑃 + 𝐹𝑁 𝑃𝑟 + 𝑅𝑎𝑝 𝛽² × 𝑃𝑟 + 𝑅𝑎𝑝
56
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus


Métriques d’évaluation

Evaluation de la classification
❑ Sensitivité (Sensitivity), Spécificité (Specifity) et Moyenne géométrique (Geometric Mean)
➢ La Sensitivité (Se) n’est autre que le Rappel.
➢ La Spécificité (Sp) est le taux des éléments négatifs correctement identifiés
➢ Moyenne géométrique ou G-Mean : Combinaison de la sensibilité et la spécificité.
➔Un seul score qui équilibre les deux préoccupations.
➔ Contrairement à la justesse, G-Mean est utilisée si les données sont reparties presque
équitablement sur 2 classes
𝑉𝑃 𝑉𝑁
𝑆𝑒 =
𝑉𝑃 + 𝐹𝑁
𝑆𝑝 =
𝑉𝑁 + 𝐹𝑃 𝐺 − 𝑀𝑒𝑎𝑛 = 𝑆𝑒 × 𝑆𝑝
57
Niveau: 1DNI
Exercice 3 A.U. 2023/2024

Exercice 3:
Soit un modèle entrainé pour reconnaitre les différents types de fleurs d’Iris. Les résultats
du test de validation sur une base d’images de test a donné la matrice de confusion
suivante : Setosa Virginica Versicolore
Setosa 32 0 0
Virginica 0 30 2
Versicolore 0 4 32
Compléter les tableaux suivants :
V F VP VN FP FN
Setosa 32 68 32 68 0 0
30
Virginica 30+2=32 68 68-4=64 4 2
32
Versicolore 32+4=36 64 64-2=62 2 4

Acc Err Pr Rap Sp F-mes G-Mean


Setosa 100% 0% 1 1 1
Virginica 94% 6% 0.88 0.93 0.94
6%
Versicolore 94% 0.94 0.88 0.96

GLOBAL
58
Niveau: 1DNI
Exercice 3 A.U. 2023/2024

Exercice 3:
Soit un modèle entrainé pour reconnaitre les différents types de fleurs d’Iris. Les résultats
du test de validation sur une base d’images de test a donné la matrice de confusion
suivante : Setosa Virginica Versicolore
Setosa 32 0 0
Virginica 0 30 2
Versicolore 0 4 32
Compléter les tableaux suivants :
V F VP VN FP FN
Setosa 32 68 32 68 0 0
Virginica 30+2=32 68 30 64 4 2
Versicolore 32+4=36 100-36=64 32 62 2 4

Acc Err Pr Rap Sp F-mes G-Mean


Setosa 100% 0% 1 1 1 1 1
Virginica 94% 6% 0,88 0,94 0,94 0,91 0,94
Versicolore 94% 6% 0,94 0,88 0,97 0,91 0,92
GLOBAL 94% 6% 0,94 0,94 0,97 0,94 0,95
59
Etape6:Interpréter le modèle Niveau: 1DNI
A.U. 2023/2024

4.6. Sixième étape du processus

Définir et comprendre le problème

Collecte des données

Prétraitement

Choisir le modèle

Evaluer les performances

Interpréter le modèle

Processus du Data mining


60
Etape6:Interpréter le modèle Niveau: 1DNI
A.U. 2023/2024

4.6. Sixième étape du processus


❑ Interpréter un modèle en data mining implique de comprendre comment les caractéristiques
des données influent sur les prédictions ou les résultats du modèle.
❑ Voici quelques étapes pour interpréter un modèle de data mining :
✓ Visualiser les relations
✓ Analyser les erreurs
✓ Comparer avec des modèles simples
✓ Valider l'interprétation

61

Vous aimerez peut-être aussi