FOUILLE DE DONNÉES
Master I – IA
KESSIRA D.
Département d’Informatique
Université de Béjaia
2021/2022
Organisation du module :
• Cours :
Présence obligatoire
Clé d’inscription sur e-learning: FD0322
• TD :
Note TD = 𝑛𝑖=1 𝑛𝑜𝑡𝑒𝐼𝑛𝑡𝑒𝑟𝑟𝑜𝑖
• TP :
Langage: Python,
Bibliothèque: Anaconda3,
IDE : Spyder
Note TP = 𝑚 𝑖=1 𝑛𝑜𝑡𝑒𝑇𝑒𝑠𝑡𝑖
Référence :
Ce cours (cours/TD/TP) est largement basé sur :
- Introduction to Data Mining. Pang-Ning Tan,
Michael Steinbach, Anuj Karpatne, and Vipin Kumar.
2018. (2nd Edition).
Contenu du cours
Introduction à Données
01 la FD 02 - Types de données
- Définition, tâches - Mesures de similarité/Distances
- KDD & FD - Prétraitement
- Exemples d’applications
Règles Classification
- Définitions
03 d’association 04 - Techniques
- Algos : KNN,,…
- Exemples
Clustering Réduction des
- Définitions
05 - Techniques 06 données
- Algos : Kmeans, hierarchique,… - Définitions
- Exemples - Algo: ACP
Clause de non-responsabilité
POSER VOS QUESTIONS !
Je ne suis ni voyante ni mentaliste
1
Chapitre 1:
Introduction au Data
Mining
16/03/2022 Fouille de données
1
Objectifs
• C’est quoi la Fouille de données?
• Le processus d’extraction de connaissances?
• Les tâches effectuées?
• Applications?
16/03/2022 Fouille de données 7
1
Introduction
• Les progrès rapides des technologies de collecte et
de stockage des données ont permis d'accumuler
de grandes quantités de données.
• Tendance : Recueillir toutes les données possibles,
partout et à tout moment.
• Attentes : Les données collectées auront de la
valeur, soit pour l'objectif visé, soit pour un objectif
non envisagé.
16/03/2022 Fouille de données 8
1
Exemples des sources de données
• Commerce: e-commerce, transactions par carte
de crédit, cartes de fidélité, coupons de
réduction, appels de réclamation des clients,…
• Science: capteurs, satellites, …
• Réseaux sociaux, informations, …
16/03/2022 Fouille de données 9
1
Les données à grande échelle sont partout !
16/03/2022 Fouille de données 10
1
Les données à grande échelle sont partout !
‘‘ We are drawning in data, but
starving for knowledge ’’
• Cependant, l'extraction d'informations utiles
s'est avérée extrêmement difficile.
16/03/2022 Fouille de données 11
1
Définitions de FD
‘‘ Extraction d'informations ou de
modèles intéressants (non triviaux,
Définition 1
implicites, précédemment inconnus
et potentiellement utiles) à partir de
données
’’
‘‘ Exploration et analyse, par des
Définition 2 moyens automatiques ou semi-
automatiques, de grandes quantités
de données afin de découvrir des
informations ou des modèles
significatifs
’’
16/03/2022 Fouille de données 13
1
Ce qui n’est pas FD
• Le traitement (déductif) des requêtes (BDD/
Information Retrieval).
• Systèmes experts
• Statistiques
16/03/2022 Fouille de données 14
1
Extraction de connaissance (KDD) & FD
Processus d’extraction de connaissances
16/03/2022 Fouille de données 15
1
Tâches effectuées par FD
• Méthodes de description
– Trouver des modèles interprétables par l'homme
qui décrivent les données.
• Méthodes de prédiction
– Utiliser certains attributs pour prédire les valeurs
inconnues ou futures d'autres attributs.
16/03/2022 Fouille de données 16
1
Tâches effectuées par FD
Data
Tid Refund Marital Taxable
Status Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
11 No Married 60K No
12 Yes Divorced 220K No
13 No Single 85K Yes
14 No Married 75K No
15 No Single 90K Yes
10
Milk
16/03/2022 Fouille de données 17
1
Modélisation prédictive : Classification
• Trouver un modèle pour l'attribut Classe en fonction des
valeurs des autres attributs.
Employed
Class
# years at Yes
Level of Credit No
Tid Employed present
Education Worthy
address
1 Yes Graduate 5 Yes No Education
2 Yes High School 2 No
3 No Undergrad 1 No { High school,
Graduate
Undergrad }
4 Yes High School 10 Yes
… … … … … Number of Number of
10
years years
> 3 yr < 3 yr > 7 yrs < 7 yrs
Yes No Yes No
16/03/2022 Fouille de données 18
1
Modélisation prédictive : Classification
# years at
Level of Credit
Tid Employed present
Education Worthy
address
1 Yes Undergrad 7 ?
# years at 2 No Graduate 3 ?
Level of Credit
Tid Employed present
Education Worthy
address 3 Yes High School 2 ?
1 Yes Graduate 5 Yes … … … … …
2 Yes High School 2 No
10
3 No Undergrad 1 No
4 Yes High School 10 Yes
… … … … …
10
Test
Set
Learn
Training
Model
Set Classifier
16/03/2022 Fouille de données 19
1
Classification : Exemples
• Classification des transactions par carte de crédit comme
légitimes ou frauduleuses.
• Classification de la couverture terrestre (plans d'eau,
zones urbaines, forêts, etc.) à l'aide de données
satellitaires.
• Classer les articles d'actualité dans les catégories
suivantes : finances, météo, divertissement, sports, etc.
• Identifier les intrus dans le cyberespace
• Prédire si des cellules tumorales sont bénignes ou
malignes.
• Classer les structures secondaires des protéines en
alpha-helix, beta-sheet ou bobine aléatoire.
16/03/2022 Fouille de données 20
1
Classification : Exemple 1
• Détection des fraudes
– Objectif : Prédire les cas frauduleux dans les
transactions par carte de crédit.
– Approche :
• Utiliser les transactions par carte de crédit et les informations
sur le titulaire du compte comme attributs : quand un client
achète, ce qu'il achète, à quelle fréquence il paie à temps,
etc.
• Étiqueter les transactions passées comme des transactions
frauduleuses ou légitimes. Cela forme l'attribut de classe.
• Apprenez un modèle pour la classe des transactions.
• Utilisez ce modèle pour détecter la fraude en observant les
transactions par carte de crédit sur un compte.
16/03/2022 Fouille de données 21
1
Classification : Exemple 2
• Étude du ciel
– Objectif : Prédire la classe (étoile ou galaxie) des objets
du ciel, en particulier ceux qui sont visuellement
faibles, en se basant sur les images télescopiques (de
l'observatoire Palomar).
• 3000 images de 23.040 x 23.040 pixels par image.
– Approche :
• Segmenter l'image.
• Mesurer les attributs de l'image (caractéristiques) - 40 par
objet.
• Modélisation de la classe sur la base de ces caractéristiques.
• Découverte de 16 nouveaux quasars, parmi les objets les plus
éloignés et les plus difficiles à trouver.
16/03/2022 Fouille de données 22
1
Classification : Exemple 3
• Classification des phases de formation des galaxies:
Early Intermediate Late
Data Size: Class: Attributes:
• 72 million stars, 20 million galaxies • Stages of Formation • Image features,
• Object Catalog: 9 GB • Characteristics of light
• Image Database: 150 GB waves received, etc.
16/03/2022 Fouille de données 23
1
Modélisation prédictive : Régression
• Prédire la valeur d'un attribut à valeur continue en
fonction des valeurs d'autres variables, en
construisant un modèle de dépendance linéaire ou
non linéaire.
• Exemples :
– Prédire le montant des ventes d'un nouveau produit sur
la base des dépenses publicitaires.
– Prévision de la vitesse du vent en fonction de la
température, de l'humidité, de la pression
atmosphérique, etc.
– Prédiction de séries temporelles d'indices boursiers.
16/03/2022 Fouille de données 24
1
Clustering
• Trouver des groupes d'objets tels que les objets
d'un groupe seront similaires les uns aux autres
et dissimilaires des objets des autres groupes.
Inter-cluster
Intra-cluster distances are
distances are maximized
minimized
16/03/2022 Fouille de données 25
1
Clustering : Exemples
• Compréhension
– Profilage personnalisé pour un marketing ciblé
– Regroupement de documents connexes pour la
navigation
– Regrouper les gènes et les protéines qui ont une
fonctionnalité similaire
– Regrouper les actions dont les balancements de prix
sont similaires
• Compression/synthèse
– Réduire la taille des grands ensembles de données
– Segmentation d’image
16/03/2022 Fouille de données 26
1
Clustering : Exemple 1
• Segmentation du marché :
– Objectif : subdiviser un marché en sous-ensembles
distincts de clients, chaque sous-ensemble peut être
sélectionné comme cible de marché.
– Approche :
• Collecter les différents attributs des clients : leurs
informations géographiques et de leur style de vie.
• Trouver des groupes de clients similaires.
• Mesurez la qualité du regroupement en observant les
habitudes d'achat des clients d'un même groupe par
rapport à ceux de groupes différents.
16/03/2022 Fouille de données 27
1
Clustering : Exemple 2
• Regroupement de documents :
– Objectif : Trouver des groupes de documents
similaires les uns aux autres sur la base des termes
importants qui y apparaissent.
– Approche :
• Identifier les termes qui apparaissent fréquemment dans
chaque document.
• Former une mesure de similarité basée sur les fréquences des
différents termes.
• L'utiliser pour regrouper.
16/03/2022 Fouille de données 28
1
Règles d’association
• Découvrir des modèles qui décrivent des
caractéristiques fortement associées dans les
données.
Règle d’association:
{Diapers} {Milk}
16/03/2022 Fouille de données 29
1
Règles d’association : Exemples
• Analyse des paniers
– Les règles sont utilisées pour la promotion des
ventes, la gestion des rayons et la gestion des
stocks.
• Informatique médicale
– Les règles sont utilisées pour trouver de
combinaisons de symptômes et de résultats de
tests associés à certaines maladies.
– La recherche de groupes de gènes ayant une
fonctionnalité liée.
16/03/2022 Fouille de données 30
1
Détection d’anomalies
• Détecter les déviations significatives par
rapport au comportement normal
• Applications :
– Détection de la fraude par carte de crédit
– Détection des intrusions dans les réseaux
– Identifier les comportements anormaux des réseaux
de capteurs pour le contrôle et la surveillance.
– Détection des changements dans la couverture
forestière mondiale.
16/03/2022 Fouille de données 31
1
Défis du FD
• Scalabilité
• Haute dimensionnalité
• Données hétérogènes et complexes
• Propriété et distribution des données
• Analyse non traditionnelle
16/03/2022 Fouille de données 32