Ch2 Data Mining
Ch2 Data Mining
Traitement de données
Ministère de l’Enseignement Supérieur
et de la Recherche Scientifique
Université de Sousse
Niveau: 1DNI
A.U. 2023/2024
CH2: Data mining/ La
fouille des données
amina1benhajkhaled@[Link]
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024
1. Introduction
❑ Data mining= KDD (Knowledge Discovery in Databases)= Fouille des données.
❑ La notion de découvrir des faits à partir des données remonte aussi loin que l'histoire de la
statistique.
2
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024
✓ Dans les années 1950 et 1960 , Dr Herbert Simon ,le père de l’intelligence artificielle, et ses
collègues ont développé un certain nombre d'algorithmes et de techniques pour l’extraction des
informations et des idées utiles à partir de données, notamment le clustering, la classification
et les arbres de décision.
✓ Dans les années 1980 et 1990, le domaine de l'exploration de données a continué d'évoluer et
de nouveaux algorithmes et techniques (SAS, SPSS et RapidMiner) ont été développés pour
relever les défis liés au travail avec des ensembles de données volumineux et complexes.
❑ Le Data mining est une démarche qui est située dans intersection entre la statistique et des
technologies de l’information dont le but de découvrir des relations, des règles et des
corrélations/dépendances, afin d’analyser des volumes massifs de données et d’en tirer des
informations exploitables.
❑ Le Data mining est étroitement lié à l'analyse du Big Data, à l'intelligence prédictive et à
l'exploitation des données, formant ainsi un processus essentiel dans ces domaines.
4
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024
5
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024
1. Analyse du panier de consommation : Il s’agit d’analyser les données sur les achats des
clients afin d’identifier les articles qui sont fréquemment achetés ensemble, et d’utiliser ces
informations pour faire des recommandations ou des suggestions aux clients.
2. Détection des fraudes : Elle est largement utilisée dans le secteur financier pour détecter et
prévenir la fraude. Il s’agit d’analyser les données sur les transactions et le comportement des
clients afin d’identifier les modèles ou les anomalies qui peuvent indiquer une activité
frauduleuse.
6
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024
5. Détection d’intrusion sur le réseau : Il s’agit d’analyser les données sur le trafic et le
comportement du réseau afin d’identifier les modèles susceptibles d’indiquer une tentative
d’intrusion, et d’utiliser ces informations pour alerter les équipes de sécurité et prévenir les
attaques.
7
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024
8
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024
Prétraitement
Choisir le modèle
Interpréter le modèle
Exercice 1:
Effectuer un prétraitement de base sur l'ensemble de données "tips" pour mieux comprendre sa
structure et ses caractéristiques, et préparer les données pour une analyse ultérieure.
1. Charger l'ensemble de données "tips" à partir de Seaborn.
2. Afficher les premières lignes du DataFrame pour comprendre sa structure.
3. Vérifier s'il y a des valeurs manquantes dans l'ensemble de données et décider comment les
gérer.
4. Examiner les types de données de chaque colonne et convertir si nécessaire.
5. Explorer les statistiques descriptives pour comprendre la distribution des variables
numériques.
6. Effectuer un encodage des variables catégorielles si nécessaire.
7. Enregistrer le DataFrame prétraité dans un nouveau fichier si nécessaire.
10
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024
Exercice 1: Correction
import seaborn as sns
# Statistiques descriptives
print(tips_data.describe())
encoded_tips_data.to_csv("tips_preprocessed.csv", index=False)
11
Etape1: Définir et comrendre le problème Niveau: 1DNI
A.U. 2023/2024
✓ Validation des hypothèses: Souvent, avant de commencer à explorer les données, il peut
y avoir des hypothèses sur ce que les données pourraient révéler. Ces hypothèses doivent
être examinées et validées pour s'assurer qu'elles sont fondées sur des faits plutôt que sur
des suppositions.
✓ Décomposition des objectifs en tâches plus petites : Les objectifs globaux peuvent
souvent être décomposés en plusieurs sous-objectifs ou tâches plus petites. Cela facilite la
gestion du projet et permet de mesurer les progrès de manière plus granulaire.
13
Etape1: Définir et comrendre le problème Niveau: 1DNI
A.U. 2023/2024
Identification Décomposition
Prétraitement des besoins en petites
taches
Choisir le modèle
2 4
Evaluer les performances Objectifs Validation
spécifiques et des
mesurables hypothèses
3
Interpréter le modèle
Compréhension
des limites
Processus du Data mining
14
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024
✓ Les données des médias sociaux: Hootsuite Insights, Brandwatch, Sprout Social.
Processus du Data mining
15
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024
❑ En data mining, les données peuvent être classées en différents types en fonction de leur
structure et de leur format.
❑ Les principaux types de données utilisés en Data mining sont les suivants :
❑ Les données structurées sont des données organisées dans un format tabulaire avec des
lignes et des colonnes.
❑ Elles sont généralement stockées dans des bases de données relationnelles et sont faciles à
interroger à l'aide de requêtes SQL.
❑ Les exemples de données structurées comprennent les données transactionnelles, les
données démographiques, les données financières, etc.
Données structurées
17
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024
❑ Les données semi-structurées sont des données qui ne sont pas strictement organisées
dans un format tabulaire, mais qui ont une certaine structure qui peut être exploitée pour
l'analyse.
❑ Par exemple, les fichiers XML, les fichiers JSON et les documents HTML sont des
exemples de données semi-structurées.
❑ Bien qu'elles ne soient pas aussi facilement interrogeables que les données structurées,
elles peuvent souvent être transformées en données structurées pour l'analyse.
18
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024
❑ Les données non structurées sont des données qui n'ont pas de structure prédéfinie et qui
ne sont pas organisées dans un format tabulaire.
❑ Elles représentent souvent du texte, des images, des vidéos, des fichiers audio, des e-mails,
etc.
❑ Les données non structurées présentent un défi particulier en matière d'analyse en raison de
leur complexité et de leur manque de structure.
❑ Cependant, de nombreuses techniques sont capables de traiter et d'analyser efficacement
ces types de données.
19
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024
❑ Les données temporelles sont des données qui sont collectées ou enregistrées dans le
temps.
❑ Elles peuvent inclure des séries temporelles telles que des données météorologiques, des
données de trafic, des données de ventes sur une période donnée, etc.
❑ L'analyse des données temporelles est souvent utilisée pour détecter des tendances, des
cycles et des anomalies dans les données au fil du temps.
20
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024
❑ Les données géospatiales sont des données qui sont associées à des emplacements
géographiques spécifiques.
❑ Elles peuvent inclure des données cartographiques, des données GPS, des données de
localisation de téléphones portables, etc.
❑ L'analyse des données géospatiales est utilisée pour étudier des phénomènes qui varient
dans l'espace, tels que la répartition de la population, les modèles de déplacement, etc.
21
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024
Collecte des données Nettoyage des Équilibrage des Gestion des valeurs
données classes manquantes
Prétraitement
7
Choisir le modèle 2 4
Gestion des
Transformation
données bruitées Sélection des
Evaluer les performances des données
caractéristiques
Interpréter le modèle 3
Réduction de
dimensionnalité
Processus du Data mining
23
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024
Exemple:
Supposons qu’on dispose d'un ensemble de données contenant des informations sur les ventes, y compris le montant de chaque vente, la
date et l'heure de la transaction, le produit vendu, la catégorie du produit, etc. Les transformations à effectuer sur cet ensemble de
données sont :
1. Normalisation des montants de vente : Les montants de vente peuvent varier considérablement en fonction du type de produits
vendus. Pour faciliter la comparaison entre les ventes de différents produits, Il est possible de normaliser les montants de vente en les
divisant par le montant total des ventes sur une période donnée.
2. Discrétisation des dates et heures : Au lieu d'utiliser la date et l'heure exactes de chaque transaction, il est possible de discrétiser ces
variables en les regroupant par périodes de temps plus larges, par exemple en créant des catégories pour les heures de la journée (matin,
après-midi, soirée) ou pour les jours de la semaine (jour ouvrable, week-end).
25
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024
3. Réduction de dimensionnalité:
caractéristiques dans les données. Cela peut être nécessaire pour réduire la complexité des
26
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024
29
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024
Il existe plusieurs méthodes pour identifier et corriger les erreurs de données, que ce
soit dans le cloud ou pas dans le cloud. Voici quelques-unes des méthodes
couramment utilisées :
✓ Vérification manuelle
✓ Statistiques descriptives
✓ Méthodes de machine learning
✓ Nettoyage de données automatique
✓ Recodage des données
7
Choisir le modèle 2 4
Détection
Réseaux de
d’anomalie
Evaluer les performances neuronaux Regroupement
artificielles
Interpréter le modèle 3
Extraction de règles
❑ Le modèle utilise ces exemples étiquetés pour apprendre à prédire correctement les
valeurs de sortie pour de nouvelles données non étiquetées.
❑ En d'autres termes, le modèle apprend à partir de données déjà existantes pour pouvoir
généraliser et faire des prédictions sur de nouvelles données.
33
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
➢ La machine peut apprendre une relation f:x→ y qui relie x à y en ayant analysé des millions
d’exemples d’associations x→ y.
Fleur
Utilisation finale
Apprentissage supervisé
34
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
❑ L'apprentissage non supervisé est une technique d'analyse de données où un modèle est
entraîné sur un ensemble de données non étiquetées.
35
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
Si deux Photos ont la même forme, alors elles appartiennent à la même classe.
36
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
❑ L'extraction de règles d'association est une technique de data mining qui vise à découvrir
des relations intéressantes entre les variables dans de grandes bases de données
transactionnelles ou de données transactionnelles.
❑ Cette technique est souvent utilisée dans le domaine du marketing pour analyser les
habitudes d'achat des clients et pour identifier des règles implicites qui décrivent les
comportements des consommateurs.
37
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
➢ Support : Le support d'un ensemble d'éléments (ou d'une règle) dans une base de données
transactionnelle est la fréquence relative à laquelle cet ensemble apparaît dans les
transactions. Formellement, le support est défini comme le nombre de transactions contenant
l'ensemble divisé par le nombre total de transactions dans la base de données.
𝑺𝒖𝒑𝒑𝒐𝒓𝒕(𝑿∪𝒀)
Confidence(X→Y)= 𝑺𝒖𝒑𝒑𝒐𝒓𝒕(𝑿) 38
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
Exemple :
Considérons une base de données transactionnelle d'un supermarché contenant des
informations sur les achats des clients. Chaque transaction est enregistrée sous la forme d'une
liste d'articles achetés par un client à un moment donné. Voici un exemple simplifié :
Transaction 1: {Pain, Lait, Œufs} {Pain} => {Lait} (support = 2/4, confiance =
2/3) :
Transaction 2 : {Pain, Lait, Bière} ✓ Cela signifie que si un client achète du pain,
il est probable qu'il achète également du lait.
Transaction 3: {Pain, Œufs} La règle a un support de 50 %, ce qui signifie
que la moitié des transactions contiennent à la
Transaction 4: {Lait, Bière} fois du pain et du lait,
✓ Une confiance de 66,67 %, ce qui signifie que
2/3 des transactions contenant du pain
contiennent également du lait.
39
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
❑ Le regroupement, également connu sous le nom de clustering en anglais, est une technique
d'apprentissage non supervisé utilisée pour organiser un ensemble de données en groupes
homogènes appelés clusters.
40
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
K=3
K=2
Longueur
Longueur en
Longueur en m
m
en m
Poidsen
Poids
Poids enkg
en kg
kg
41
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
Méthode Un modèle est entraîné sur un ensemble de Les données sont regroupées en clusters homogènes
données étiquetées pour apprendre la relation où les observations à l'intérieur d'un même cluster sont
entre les caractéristiques des observations et similaires les unes aux autres et différentes des
leurs classes associées. observations des autres clusters.
Exemple Classification des e-mails en spam ou non spam. Regroupement des clients en fonction de leurs
habitudes d'achat.
42
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
❑ La régression est une méthode statistique utilisée pour modéliser la relation entre une
variable dépendante et une ou plusieurs variables indépendantes, afin de comprendre et de
prédire la valeur de la variable dépendante en fonction des valeurs des variables
indépendantes.
43
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
❑ La détection d'anomalies, également connue sous le nom de détection d'outliers, est une
technique utilisée pour identifier des observations qui sont significativement différentes de
la majorité des autres observations dans un ensemble de données.
❑ L'objectif est de repérer des comportements, des événements ou des points de données
inhabituels ou suspects qui pourraient indiquer des situations anormales, des fraudes, des
erreurs ou des opportunités intéressantes.
44
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
❑ Les réseaux de neurones, également appelés réseaux neuronaux, sont des modèles
informatiques inspirés par le fonctionnement du cerveau humain.
❑ Ils sont composés de nombreuses unités de traitement élémentaires appelées neurones,
organisées en couches interconnectées.
❑ Chaque neurone est connecté à d'autres neurones par des poids qui déterminent l'importance
de l'entrée de chaque neurone pour la sortie du neurone suivant.
45
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024
46
Niveau: 1DNI
Exercice 2 A.U. 2023/2024
Exercice 2:
Soit la base de données suivante:
1. Donner les informations nécessaires sur
Country Age Salaire Purchased cette base de données.
France 44 72000 No 2. Combien de types de variables contient-
Spain 27 48000 Yes elle.
Germany 30 54000 No 3. Quel est le type de ces données
Spain 38 61000 No 4. Quelles sont les étapes nécessaires pour
Germany 102 52000 Yes l’analyse de cette base de données.
France Nan Nan Nan 5. Expliquer brièvement ces étapes.
Spain Nan 58000 Yes 6. Effectuer les prétraitements nécessaires.
Germany 50 83000 Yes 7. Effectuer un encodage des variables
Germany 50 83000 Yes catégorielles si nécessaire.
France 37 Nan No 8. Quel est le type d’apprentissage qu’on
peut effectuer pour prédire l’achat ou non
selon la région, l'âge et le salaire .
47
Niveau: 1DNI
Exercice 2 A.U. 2023/2024
Correction 2:
1. Il s’agit d’une base de données sur les salaires et les comportements d'achat dans différents pays, comportant 11
lignes et 4 colonnes, cette base de données contient des données manquantes, des données aberrantes, des valeurs
inutiles et des doublons.
2. Cette base contient deux types de variable, des variables numériques et des variables catégorielles.
3. Ce sont des données structurées sont des données organisées dans un format tabulaire avec des lignes et des
colonnes.
4. Les étapes sont:
✓ Nettoyage de données avec la suppression des doublons, gestion des valeurs aberrantes
✓ Gestion des valeurs manquantes avec la suppression des lignes contenant des valeurs manquantes,
imputation de la moyenne ou de la médiane pour remplacer les valeurs manquantes
48
Niveau: 1DNI
Exercice 2 A.U. 2023/2024
Correction 2:
6. Country Age Salaire Purchased
France 44 72000 0
No
Spain 27 48000 1
Yes
Germany 30 54000 0
No
Spain 38 61000 0
No
Germany 44 52000 1
Yes
Spain 44 58000 1
Yes
Germany 50 83000 1
Yes
Germany 50 83000 1
Yes
France 37 63875 0
No
49
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024
Prétraitement
Choisir le modèle
Interpréter le modèle
𝑦𝑖 𝑣𝑎𝑙𝑒𝑢𝑟 𝑟é𝑒𝑙𝑙𝑒, observation 𝑦ෝ𝑖 𝑣𝑎𝑙𝑒𝑢𝑟 𝑝𝑟é𝑑𝑖𝑡𝑒 𝑒𝑡 𝑦ത 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑑𝑒𝑠 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑟é𝑒𝑙𝑙𝑒
Base de données
Ensemble d'apprentissage : « Training set »
➢ C’est l’ensemble de données utilisé dans le processus de formation (apprentissage) du modèle.
➢ Chaque échantillon de cet ensemble est appelé échantillon d’apprentissage. 52
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024
Base de données
Les données de cet ensemble sont utilisées pour évaluer les performances du modèle entrainé. Si l’erreur
augmente on arrête prématurément l’apprentissage. Dans le cas contraire, on continue l’apprentissage en
utilisant l’ensemble de formation. Cet ensemble est utilisé pour la régularisation et pour éviter le surajustement.
53
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024
𝑦𝑖 𝑣𝑎𝑙𝑒𝑢𝑟 𝑟é𝑒𝑙𝑙𝑒, observation 𝑦ෝ𝑖 𝑣𝑎𝑙𝑒𝑢𝑟 𝑝𝑟é𝑑𝑖𝑡𝑒 𝑒𝑡 𝑦ത 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑑𝑒𝑠 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑟é𝑒𝑙𝑙𝑒
𝑉𝑃 𝑉𝑃 2 × 𝑃𝑟 × 𝑅𝑎𝑝 (1 + 𝛽 2 ) × 𝑃𝑟 × 𝑅𝑎𝑝
𝑃𝑟 = 𝑅𝑎𝑝 = 𝐹1 = 𝐹𝛽 =
𝑉𝑃 + 𝐹𝑃 𝑉𝑃 + 𝐹𝑁 𝑃𝑟 + 𝑅𝑎𝑝 𝛽² × 𝑃𝑟 + 𝑅𝑎𝑝
56
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024
Evaluation de la classification
❑ Sensitivité (Sensitivity), Spécificité (Specifity) et Moyenne géométrique (Geometric Mean)
➢ La Sensitivité (Se) n’est autre que le Rappel.
➢ La Spécificité (Sp) est le taux des éléments négatifs correctement identifiés
➢ Moyenne géométrique ou G-Mean : Combinaison de la sensibilité et la spécificité.
➔Un seul score qui équilibre les deux préoccupations.
➔ Contrairement à la justesse, G-Mean est utilisée si les données sont reparties presque
équitablement sur 2 classes
𝑉𝑃 𝑉𝑁
𝑆𝑒 =
𝑉𝑃 + 𝐹𝑁
𝑆𝑝 =
𝑉𝑁 + 𝐹𝑃 𝐺 − 𝑀𝑒𝑎𝑛 = 𝑆𝑒 × 𝑆𝑝
57
Niveau: 1DNI
Exercice 3 A.U. 2023/2024
Exercice 3:
Soit un modèle entrainé pour reconnaitre les différents types de fleurs d’Iris. Les résultats
du test de validation sur une base d’images de test a donné la matrice de confusion
suivante : Setosa Virginica Versicolore
Setosa 32 0 0
Virginica 0 30 2
Versicolore 0 4 32
Compléter les tableaux suivants :
V F VP VN FP FN
Setosa 32 68 32 68 0 0
30
Virginica 30+2=32 68 68-4=64 4 2
32
Versicolore 32+4=36 64 64-2=62 2 4
GLOBAL
58
Niveau: 1DNI
Exercice 3 A.U. 2023/2024
Exercice 3:
Soit un modèle entrainé pour reconnaitre les différents types de fleurs d’Iris. Les résultats
du test de validation sur une base d’images de test a donné la matrice de confusion
suivante : Setosa Virginica Versicolore
Setosa 32 0 0
Virginica 0 30 2
Versicolore 0 4 32
Compléter les tableaux suivants :
V F VP VN FP FN
Setosa 32 68 32 68 0 0
Virginica 30+2=32 68 30 64 4 2
Versicolore 32+4=36 100-36=64 32 62 2 4
Prétraitement
Choisir le modèle
Interpréter le modèle
61