0% ont trouvé ce document utile (0 vote)

97 vues31 pages

Introduction à la Fouille de Données

Ce document présente un cours sur la fouille de données. Il décrit les objectifs du cours, donne des définitions de la fouille de données, présente les tâches effectuées comme la classification et la modélisation prédictive, et donne des exemples d'applications.

Transféré par

MaSs INi Ssa

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

97 vues31 pages

Introduction à la Fouille de Données

Transféré par

MaSs INi Ssa

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

FOUILLE DE DONNÉES

Master I – IA
KESSIRA D.
Département d’Informatique
Université de Béjaia
2021/2022
Organisation du module :
• Cours :
Présence obligatoire
Clé d’inscription sur e-learning: FD0322
• TD :
Note TD = 𝑛𝑖=1 𝑛𝑜𝑡𝑒𝐼𝑛𝑡𝑒𝑟𝑟𝑜𝑖
• TP :
Langage: Python,
Bibliothèque: Anaconda3,
IDE : Spyder
Note TP = 𝑚 𝑖=1 𝑛𝑜𝑡𝑒𝑇𝑒𝑠𝑡𝑖
Référence :
Ce cours (cours/TD/TP) est largement basé sur :

- Introduction to Data Mining. Pang-Ning Tan,

Michael Steinbach, Anuj Karpatne, and Vipin Kumar.
2018. (2nd Edition).
Contenu du cours
Introduction à Données
01 la FD 02 - Types de données
- Définition, tâches - Mesures de similarité/Distances
- KDD & FD - Prétraitement
- Exemples d’applications

Règles Classification
- Définitions
03 d’association 04 - Techniques
- Algos : KNN,,…
- Exemples

Clustering Réduction des

- Définitions
05 - Techniques 06 données
- Algos : Kmeans, hierarchique,… - Définitions
- Exemples - Algo: ACP
Clause de non-responsabilité

POSER VOS QUESTIONS !

Je ne suis ni voyante ni mentaliste
1

Chapitre 1:
Introduction au Data
Mining

16/03/2022 Fouille de données

Objectifs
• C’est quoi la Fouille de données?
• Le processus d’extraction de connaissances?
• Les tâches effectuées?
• Applications?

16/03/2022 Fouille de données 7

Introduction
• Les progrès rapides des technologies de collecte et
de stockage des données ont permis d'accumuler
de grandes quantités de données.

• Tendance : Recueillir toutes les données possibles,

partout et à tout moment.
• Attentes : Les données collectées auront de la
valeur, soit pour l'objectif visé, soit pour un objectif
non envisagé.

16/03/2022 Fouille de données 8

Exemples des sources de données

• Commerce: e-commerce, transactions par carte

de crédit, cartes de fidélité, coupons de
réduction, appels de réclamation des clients,…
• Science: capteurs, satellites, …
• Réseaux sociaux, informations, …

16/03/2022 Fouille de données 9

Les données à grande échelle sont partout !

16/03/2022 Fouille de données 10

Les données à grande échelle sont partout !

‘‘ We are drawning in data, but

starving for knowledge ’’

• Cependant, l'extraction d'informations utiles

s'est avérée extrêmement difficile.

16/03/2022 Fouille de données 11

Définitions de FD
‘‘ Extraction d'informations ou de
modèles intéressants (non triviaux,
Définition 1
implicites, précédemment inconnus
et potentiellement utiles) à partir de
données
’’
‘‘ Exploration et analyse, par des
Définition 2 moyens automatiques ou semi-
automatiques, de grandes quantités
de données afin de découvrir des
informations ou des modèles
significatifs
’’
16/03/2022 Fouille de données 13
1

Ce qui n’est pas FD

• Le traitement (déductif) des requêtes (BDD/
Information Retrieval).
• Systèmes experts
• Statistiques

16/03/2022 Fouille de données 14

Extraction de connaissance (KDD) & FD

Processus d’extraction de connaissances

16/03/2022 Fouille de données 15

Tâches effectuées par FD

• Méthodes de description
– Trouver des modèles interprétables par l'homme
qui décrivent les données.

• Méthodes de prédiction
– Utiliser certains attributs pour prédire les valeurs
inconnues ou futures d'autres attributs.

16/03/2022 Fouille de données 16

Tâches effectuées par FD

Data
Tid Refund Marital Taxable
Status Income Cheat

1 Yes Single 125K No

2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
11 No Married 60K No
12 Yes Divorced 220K No
13 No Single 85K Yes
14 No Married 75K No
15 No Single 90K Yes
10

Milk

16/03/2022 Fouille de données 17

Modélisation prédictive : Classification

• Trouver un modèle pour l'attribut Classe en fonction des
valeurs des autres attributs.
Employed
Class
# years at Yes
Level of Credit No
Tid Employed present
Education Worthy
address
1 Yes Graduate 5 Yes No Education
2 Yes High School 2 No
3 No Undergrad 1 No { High school,
Graduate
Undergrad }
4 Yes High School 10 Yes
… … … … … Number of Number of
10

years years

> 3 yr < 3 yr > 7 yrs < 7 yrs

Yes No Yes No

16/03/2022 Fouille de données 18

Modélisation prédictive : Classification

# years at
Level of Credit
Tid Employed present
Education Worthy
address
1 Yes Undergrad 7 ?
# years at 2 No Graduate 3 ?
Level of Credit
Tid Employed present
Education Worthy
address 3 Yes High School 2 ?
1 Yes Graduate 5 Yes … … … … …
2 Yes High School 2 No
10

3 No Undergrad 1 No
4 Yes High School 10 Yes
… … … … …
10

Test
Set

Learn
Training
Model
Set Classifier

16/03/2022 Fouille de données 19

Classification : Exemples
• Classification des transactions par carte de crédit comme
légitimes ou frauduleuses.
• Classification de la couverture terrestre (plans d'eau,
zones urbaines, forêts, etc.) à l'aide de données
satellitaires.
• Classer les articles d'actualité dans les catégories
suivantes : finances, météo, divertissement, sports, etc.
• Identifier les intrus dans le cyberespace
• Prédire si des cellules tumorales sont bénignes ou
malignes.
• Classer les structures secondaires des protéines en
alpha-helix, beta-sheet ou bobine aléatoire.

16/03/2022 Fouille de données 20

Classification : Exemple 1
• Détection des fraudes
– Objectif : Prédire les cas frauduleux dans les
transactions par carte de crédit.
– Approche :
• Utiliser les transactions par carte de crédit et les informations
sur le titulaire du compte comme attributs : quand un client
achète, ce qu'il achète, à quelle fréquence il paie à temps,
etc.
• Étiqueter les transactions passées comme des transactions
frauduleuses ou légitimes. Cela forme l'attribut de classe.
• Apprenez un modèle pour la classe des transactions.
• Utilisez ce modèle pour détecter la fraude en observant les
transactions par carte de crédit sur un compte.

16/03/2022 Fouille de données 21

Classification : Exemple 2
• Étude du ciel
– Objectif : Prédire la classe (étoile ou galaxie) des objets
du ciel, en particulier ceux qui sont visuellement
faibles, en se basant sur les images télescopiques (de
l'observatoire Palomar).
• 3000 images de 23.040 x 23.040 pixels par image.
– Approche :
• Segmenter l'image.
• Mesurer les attributs de l'image (caractéristiques) - 40 par
objet.
• Modélisation de la classe sur la base de ces caractéristiques.
• Découverte de 16 nouveaux quasars, parmi les objets les plus
éloignés et les plus difficiles à trouver.

16/03/2022 Fouille de données 22

Classification : Exemple 3
• Classification des phases de formation des galaxies:
Early Intermediate Late

Data Size: Class: Attributes:

• 72 million stars, 20 million galaxies • Stages of Formation • Image features,
• Object Catalog: 9 GB • Characteristics of light
• Image Database: 150 GB waves received, etc.

16/03/2022 Fouille de données 23

Modélisation prédictive : Régression

• Prédire la valeur d'un attribut à valeur continue en
fonction des valeurs d'autres variables, en
construisant un modèle de dépendance linéaire ou
non linéaire.

• Exemples :
– Prédire le montant des ventes d'un nouveau produit sur
la base des dépenses publicitaires.
– Prévision de la vitesse du vent en fonction de la
température, de l'humidité, de la pression
atmosphérique, etc.
– Prédiction de séries temporelles d'indices boursiers.

16/03/2022 Fouille de données 24

Clustering
• Trouver des groupes d'objets tels que les objets
d'un groupe seront similaires les uns aux autres
et dissimilaires des objets des autres groupes.
Inter-cluster
Intra-cluster distances are
distances are maximized
minimized

16/03/2022 Fouille de données 25

Clustering : Exemples
• Compréhension
– Profilage personnalisé pour un marketing ciblé
– Regroupement de documents connexes pour la
navigation
– Regrouper les gènes et les protéines qui ont une
fonctionnalité similaire
– Regrouper les actions dont les balancements de prix
sont similaires
• Compression/synthèse
– Réduire la taille des grands ensembles de données
– Segmentation d’image

16/03/2022 Fouille de données 26

Clustering : Exemple 1
• Segmentation du marché :
– Objectif : subdiviser un marché en sous-ensembles
distincts de clients, chaque sous-ensemble peut être
sélectionné comme cible de marché.
– Approche :
• Collecter les différents attributs des clients : leurs
informations géographiques et de leur style de vie.
• Trouver des groupes de clients similaires.
• Mesurez la qualité du regroupement en observant les
habitudes d'achat des clients d'un même groupe par
rapport à ceux de groupes différents.
16/03/2022 Fouille de données 27
1

Clustering : Exemple 2
• Regroupement de documents :
– Objectif : Trouver des groupes de documents
similaires les uns aux autres sur la base des termes
importants qui y apparaissent.
– Approche :
• Identifier les termes qui apparaissent fréquemment dans
chaque document.
• Former une mesure de similarité basée sur les fréquences des
différents termes.
• L'utiliser pour regrouper.

16/03/2022 Fouille de données 28

Règles d’association
• Découvrir des modèles qui décrivent des
caractéristiques fortement associées dans les
données.

Règle d’association:
{Diapers}  {Milk}

16/03/2022 Fouille de données 29

Règles d’association : Exemples

• Analyse des paniers
– Les règles sont utilisées pour la promotion des
ventes, la gestion des rayons et la gestion des
stocks.
• Informatique médicale
– Les règles sont utilisées pour trouver de
combinaisons de symptômes et de résultats de
tests associés à certaines maladies.
– La recherche de groupes de gènes ayant une
fonctionnalité liée.

16/03/2022 Fouille de données 30

Détection d’anomalies
• Détecter les déviations significatives par
rapport au comportement normal

• Applications :
– Détection de la fraude par carte de crédit
– Détection des intrusions dans les réseaux
– Identifier les comportements anormaux des réseaux
de capteurs pour le contrôle et la surveillance.
– Détection des changements dans la couverture
forestière mondiale.

16/03/2022 Fouille de données 31

Défis du FD
• Scalabilité
• Haute dimensionnalité
• Données hétérogènes et complexes
• Propriété et distribution des données
• Analyse non traditionnelle

16/03/2022 Fouille de données 32

Vous aimerez peut-être aussi

Cours Fouille de Données Partie2
Pas encore d'évaluation
Cours Fouille de Données Partie2
83 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
96 pages
Fouilles de Données Part1 Concepts D Base
Pas encore d'évaluation
Fouilles de Données Part1 Concepts D Base
16 pages
Cours de Fouille de Données Avancée
Pas encore d'évaluation
Cours de Fouille de Données Avancée
96 pages
Cours - Fouille de Données Avancée - Abdelhamid DJEFFAL (Université de Biskra, 2015)
Pas encore d'évaluation
Cours - Fouille de Données Avancée - Abdelhamid DJEFFAL (Université de Biskra, 2015)
13 pages
Azizi Cour FD
Pas encore d'évaluation
Azizi Cour FD
48 pages
Complement DM.2
Pas encore d'évaluation
Complement DM.2
158 pages
Techniques de Fouille de Données 2022
Pas encore d'évaluation
Techniques de Fouille de Données 2022
46 pages
Introduction au Data Mining et ses Techniques
Pas encore d'évaluation
Introduction au Data Mining et ses Techniques
8 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
48 pages
Cours
Pas encore d'évaluation
Cours
58 pages
Cours1 Intro À La Fouille de Données
Pas encore d'évaluation
Cours1 Intro À La Fouille de Données
29 pages
Cours-Data-Mining Master BIBDA 2017 2018
Pas encore d'évaluation
Cours-Data-Mining Master BIBDA 2017 2018
164 pages
Cours LEDMI Makhlouf
Pas encore d'évaluation
Cours LEDMI Makhlouf
75 pages
Introduction à la Classification en Data Mining
Pas encore d'évaluation
Introduction à la Classification en Data Mining
29 pages
Chap 4
Pas encore d'évaluation
Chap 4
46 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
88 pages
Cours Fouille de DonnÃes L2 BI 2024
Pas encore d'évaluation
Cours Fouille de DonnÃes L2 BI 2024
31 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
131 pages
Chap 1
Pas encore d'évaluation
Chap 1
19 pages
Cours de Data Mining en Master 2
Pas encore d'évaluation
Cours de Data Mining en Master 2
20 pages
Cours de Data Mining - 1
Pas encore d'évaluation
Cours de Data Mining - 1
37 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
131 pages
Ch2 Data Mining
Pas encore d'évaluation
Ch2 Data Mining
61 pages
Introduction au Data Mining et ses Applications
Pas encore d'évaluation
Introduction au Data Mining et ses Applications
43 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
17 pages
Cours de Fouille de Données: Concepts et Applications
Pas encore d'évaluation
Cours de Fouille de Données: Concepts et Applications
27 pages
Cours DM (VF 01 05 2025)
Pas encore d'évaluation
Cours DM (VF 01 05 2025)
207 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
31 pages
DM 2016 Chapitre 1
Pas encore d'évaluation
DM 2016 Chapitre 1
21 pages
Cours de Dataming
Pas encore d'évaluation
Cours de Dataming
16 pages
Techniques de Data Mining Essentielles
Pas encore d'évaluation
Techniques de Data Mining Essentielles
20 pages
Cours Big Data&Data Scinece - PPSX
Pas encore d'évaluation
Cours Big Data&Data Scinece - PPSX
22 pages
Introduction au Data Mining et KDD
Pas encore d'évaluation
Introduction au Data Mining et KDD
34 pages
Présentation Module 1 Principes Fondamentaux de Lanalyse Des Données Version Longue
Pas encore d'évaluation
Présentation Module 1 Principes Fondamentaux de Lanalyse Des Données Version Longue
68 pages
Introduction au Data Mining et IA
Pas encore d'évaluation
Introduction au Data Mining et IA
185 pages
Chap1-Introduction Au DataMining Sahbi
Pas encore d'évaluation
Chap1-Introduction Au DataMining Sahbi
47 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
15 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
254 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
6 pages
Chapitre 1 DM
Pas encore d'évaluation
Chapitre 1 DM
73 pages
Chapitre 1-1
Pas encore d'évaluation
Chapitre 1-1
107 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
25 pages
Introduction au Big Data Analytics
Pas encore d'évaluation
Introduction au Big Data Analytics
47 pages
FDD Cours PDF
Pas encore d'évaluation
FDD Cours PDF
94 pages
Slidesgo Analyse Et Fouille de Donnees Concepts Principes Et Techniques Illustrees Par Des Exemples 20250102201613hTJk
Pas encore d'évaluation
Slidesgo Analyse Et Fouille de Donnees Concepts Principes Et Techniques Illustrees Par Des Exemples 20250102201613hTJk
13 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
83 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
16 pages
"Fouille de Données à Madagascar"
Pas encore d'évaluation
"Fouille de Données à Madagascar"
41 pages
Data Mining
Pas encore d'évaluation
Data Mining
36 pages
06 - Introduction Au DM
Pas encore d'évaluation
06 - Introduction Au DM
24 pages
Introduction au Data Mining et ses enjeux
Pas encore d'évaluation
Introduction au Data Mining et ses enjeux
26 pages
Visualisation et Prétraitement des Données
Pas encore d'évaluation
Visualisation et Prétraitement des Données
26 pages
Chapitre 1 Fouille de Données
Pas encore d'évaluation
Chapitre 1 Fouille de Données
36 pages
Cours DM-v14 09 2023
Pas encore d'évaluation
Cours DM-v14 09 2023
30 pages
Introduction au Data Mining et Modélisation
Pas encore d'évaluation
Introduction au Data Mining et Modélisation
115 pages
Méthodologie de la Fouille de Données
Pas encore d'évaluation
Méthodologie de la Fouille de Données
2 pages
Techniques de Fouille de Données Essentielles
Pas encore d'évaluation
Techniques de Fouille de Données Essentielles
8 pages
Introduction au Logiciel R et Manipulation d'Objets
Pas encore d'évaluation
Introduction au Logiciel R et Manipulation d'Objets
97 pages
Facture Farfetch PDF
Pas encore d'évaluation
Facture Farfetch PDF
1 page
Modélisation Des Menaces
Pas encore d'évaluation
Modélisation Des Menaces
39 pages
67 Cybersecurity Acronyms FR
Pas encore d'évaluation
67 Cybersecurity Acronyms FR
5 pages
Comprendre les données personnelles et leur protection
Pas encore d'évaluation
Comprendre les données personnelles et leur protection
10 pages
Sécurité des SI en Santé : Cadres et Pratiques
Pas encore d'évaluation
Sécurité des SI en Santé : Cadres et Pratiques
81 pages
Recommandation de Services Cloud Sociaux
Pas encore d'évaluation
Recommandation de Services Cloud Sociaux
90 pages
Détection D'anomalies D'un Réseau Mobile MEGHERBI KHALEF
Pas encore d'évaluation
Détection D'anomalies D'un Réseau Mobile MEGHERBI KHALEF
27 pages
Sécuriser Les Réseaux IoT Basés Sur La Technologie 5G
100% (1)
Sécuriser Les Réseaux IoT Basés Sur La Technologie 5G
76 pages
Elektor - 0155
Pas encore d'évaluation
Elektor - 0155
68 pages
Introduction à OpenStack par Objectif Libre
Pas encore d'évaluation
Introduction à OpenStack par Objectif Libre
12 pages
TP01
Pas encore d'évaluation
TP01
6 pages
Sécurité Réseau : Pare-feu, NAT, DMZ
Pas encore d'évaluation
Sécurité Réseau : Pare-feu, NAT, DMZ
6 pages
Authentification JWT Dans React Avec React-Router - Communauté DEV
Pas encore d'évaluation
Authentification JWT Dans React Avec React-Router - Communauté DEV
48 pages
UX Bootcamp 2022 1
Pas encore d'évaluation
UX Bootcamp 2022 1
17 pages
Plateforme IoT pour Smart Light
Pas encore d'évaluation
Plateforme IoT pour Smart Light
61 pages
Virtualisation Totale des Datacenters
Pas encore d'évaluation
Virtualisation Totale des Datacenters
3 pages
Droits d'accès dans le système de fichiers Linux
Pas encore d'évaluation
Droits d'accès dans le système de fichiers Linux
23 pages
Routage statique sur Cisco et Packet Tracer
Pas encore d'évaluation
Routage statique sur Cisco et Packet Tracer
19 pages
Mode D'emploi FR 05
Pas encore d'évaluation
Mode D'emploi FR 05
20 pages
Oim 1 Fondamentaux
Pas encore d'évaluation
Oim 1 Fondamentaux
21 pages
Creer Des Agents Ia Le Guide Complet Etape Par Etape
Pas encore d'évaluation
Creer Des Agents Ia Le Guide Complet Etape Par Etape
30 pages
Sujet E1 Situation 2
Pas encore d'évaluation
Sujet E1 Situation 2
5 pages
Alphorm 210517133350
Pas encore d'évaluation
Alphorm 210517133350
264 pages
25cielaecri - Sujet 17
Pas encore d'évaluation
25cielaecri - Sujet 17
1 page
Esp 1 Sic 2025
Pas encore d'évaluation
Esp 1 Sic 2025
2 pages
Imen GHZAIEL INGENIEURE Web Full Stack
Pas encore d'évaluation
Imen GHZAIEL INGENIEURE Web Full Stack
1 page
Développeur Fullstack Java/React
Pas encore d'évaluation
Développeur Fullstack Java/React
2 pages
Chapitre 5
Pas encore d'évaluation
Chapitre 5
14 pages
Réseaux Pair-à-Pair : Avantages et Légalité
Pas encore d'évaluation
Réseaux Pair-à-Pair : Avantages et Légalité
3 pages