0% ont trouvé ce document utile (0 vote)
110 vues27 pages

Cours de Fouille de Données: Concepts et Applications

Ce document présente une introduction au cours de fouille de données. Il définit la fouille de données, ses domaines d'application et son processus qui comprend la compréhension du problème, la collecte et le prétraitement des données, l'estimation de modèles et l'interprétation des résultats. Le document décrit également les différentes tâches de fouille de données comme la classification, l'estimation, la représentation et la segmentation.

Transféré par

Womexy apps
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
110 vues27 pages

Cours de Fouille de Données: Concepts et Applications

Ce document présente une introduction au cours de fouille de données. Il définit la fouille de données, ses domaines d'application et son processus qui comprend la compréhension du problème, la collecte et le prétraitement des données, l'estimation de modèles et l'interprétation des résultats. Le document décrit également les différentes tâches de fouille de données comme la classification, l'estimation, la représentation et la segmentation.

Transféré par

Womexy apps
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

02/04/2023

Data Mining
Cours Fouille de données
Master: Sciences et ingénierie de données
Pr A.Riadsolh
2022/2023

Pr A.Riad Solh 1

Introduction Fouille de données

• Quoi ?
Rechercher des informations
• Laquelle ?
Les informations précieuses et utiles (corrélation, pattern,
tendances, ...)
• Ou ?
Dans les grandes quantités de données stockées par les SI
• Comment ?
En utilisant les statistiques, IA, Reconnaissance des formes,
...etc.

Pr A.Riad Solh 2

1
02/04/2023

Introduction
Ingénierie et recherche scientifique moderne
• Surveiller suffisamment un système

• Stocker un historique de son comportements (entrées


et sorties)

• Exploiter ces données pour extraire des modelés qui


décrivent le système

Pr A.Riad Solh 3

Introduction
Outils de fouille de données

4
Pr A.Riad Solh

2
02/04/2023

Introduction Domaines d'utilisation de la fouille


de donnees(1)
• Attribution de crédits (Credit Scoring)
• Optimisation du nombre de places dans les avions, hôtels, ... )
surréservation
• Organisation des rayonnages dans les supermarchés : "les
clients qui achètent le produit X en fin de semaine, pendant
l’été, achètent généralement également le produit Y" ;
• Organisation de campagne de publicité, promotions, ciblage
des offres, acquisition des clients, rétention
• Diagnostic médical : "les patients ayant tels et tels symptômes
et demeurant dans des villes de plus de 104 habitants
développent couramment telle pathologie" ;
5
Pr A.Riad Solh

Introduction Domaines d'utilisation de la fouille


de données(2)
• Classification d'objets (industrie, sécurité, astronomie, ...)
• Commerce électronique
• Analyser les pratiques et stratégies commerciales et leurs
impacts sur les ventes
• Moteur de recherche sur internet : Web mining
• extraction d’information depuis des textes : fouille de
textes
• évolution dans le temps de données : fouille de séquences

Pr A.Riad Solh 6

3
02/04/2023

Processus du data mining


Processus KDD

7
Pr A.Riad Solh

Introduction Fouille de données


Processus de data mining: CRISP-DM (Cross-Industry
Standard Process for Data Mining)

Pr A.Riad Solh 8

4
02/04/2023

Processus du data mining

1. Définition et compréhension du problème


• Compréhension indispensable
• La plupart des problèmes sont dus a la mal
compréhension du problème
• Généralement, comprendre le domaine d'application
(banques, médecine, biologie, marketing, ...etc)
• La compréhension est cruciale pour l'explication des
résultats et l’estimation des coûts
• Pouvoir évaluer les résultats obtenus et convaincre
l'utilisateur de leur rentabilité
Pr A.Riad Solh 9

Processus du data mining


2. Collecte des données
• Sélection des données à utiliser selon le problème
défini
• Attention ! ! plusieurs formats et structures (textes,
BDD, pages web, images, vidéo, ...etc)
• Parfois : prendre une copie du système en cours de
fonctionnement
• Subdiviser les données en deux parties : Données
d'analyse et données de test

Pr A.Riad Solh 10

5
02/04/2023

Processus du data mining


3. Prétraitement
• Souvent, données bruitées (erreurs de frappe, erreurs système, ...)

• Données incohérentes (qui sortent des intervalles permis)


• Unification des poids [0,1] ou [0,100], Lissage
• Réduction des données, verticale et horizontale (ACP)
• tendance centrale des données (moyenne, médiane), le
maximum et le minimum,
• Courbes, diagrammes, graphes,... etc, peuvent aider a la
sélection et le nettoyage des données.
• Stockage des Entrepôts de données (data warehouse)
Pr A.Riad Solh 11

Processus du data mining


4. Estimation du modele
• Choisir la bonne technique pour extraire les
connaissances
• Réseaux de neurones, Arbres de décision, Réseaux
bayésiens, Clustering, ...
• Utilisation plusieurs techniques

Pr A.Riad Solh 12

6
02/04/2023

Processus du data mining


5. Interprétation du modelé et établissement des conclusions

Fournir des modèles compréhensibles aux utilisateurs


 Modelés simples plus compréhensibles mais moins
précis
 Modèles complexes plus précis mais difficiles à
interpréter.

Pr A.Riad Solh 13

Quel type de données fouiller ?


Echantillons, enregistrements, exemples, ensemble de données

• Une donnée est :


• Individu en statistique
• Instance objets informatique
• Tuple bases de données
• Point ou vecteur en géométrie

Pr A.Riad Solh 14

7
02/04/2023

Quel type de données fouiller ?


Attributs, Champs, Caractéristiques

Une donnée est caractérise par un ensemble de :

• Champs en bases e données


• Caractéristiques statistiques
• Attributs oriente objet

Pr A.Riad Solh 15

Quel type de données fouiller ?


Types d'attributs
• Deux types
Numérique comportent les variables réelles ou entières tel que la
longueur, le poids, l'Age, ...
– relation d'ordre (5 < 7,5)
– mesure de distance (D(5; 7,5) = 2,5).
– Calcul de moyenne, variance, écart-type, ...
catégoriels (appelées aussi symboliques) tel que la couleur,
,le groupe sanguin…
– Pas de relation d'ordre (Egalité ou différence)
– Distance spécifique (nombre de caractères en commun,...)
– Utilisation du mode : la valeur la plus fréquente
Deux variables catégorielles ne peuvent être que égales ou
différentes.
16
Pr A.Riad Solh

8
02/04/2023

Tâches de la fouille de données


Tâches (supervisées, non supervisées)

Datamining

Modélisation descriptive Modélisation prédictive

Représentation Segmentation Association Classification Estimation

Pr A.Riad Solh 17

Tâches de la fouille de données


Classification et estimation

Pr A.Riad Solh 18

9
02/04/2023

Tâches de la fouille de données


Classification et estimation

Pr A.Riad Solh 19

Tâches de la fouille de données


Estimation

• Classification + variable de sortie numérique


• Estimer la valeur d'une Action dans une bourse
• Estimer la tension d'un passion

Pr A.Riad Solh 20

10
02/04/2023

Tâches de la fouille de données


Règles d’association

Pr A.Riad Solh 21

Tâches de la fouille de données


Analyse des clusters

Pr A.Riad Solh 22

11
02/04/2023

Tâches de la fouille de données


Analyse des clusters

Pr A.Riad Solh 23

Recherche des modèles fréquents


et
les règles d’associations

Pr A.Riad Solh 24

12
02/04/2023

Rappel: Applications

• L'analyse du panier du marche, pour comprendre les habitudes des


clients afin de mieux organiser les rayons d'articles, organiser les
promotions, ...etc,
• Analyse des comportements des internautes pour mieux organiser les
sites,
• L'analyse du climat en météorologie afin de mieux orienter
l'agriculture

Pr A.Riad Solh 25

Rappel: Applications

• Les motifs fréquents (fréquent itemsets) sont des motifs ou patterns qui
apparaissent fréquemment dans un ensemble de données.
Exemples :
• Ensemble d'items fréquent : le lait et le pain qui apparaissent souvent dans
une base de transactions dans un supermarché.
• Ensemble de pages web visitées souvent ensemble,
• Symptômes souvent lies chez des patients,
Trouver de tels motifs représente une Tâche importante dans le Data mining
Exemple de règles d'association pour l'analyse du panier de la ménagère :
• SI un client achète des plantes ALORS il achète des engrais
• SI un client achète une télévision, ALORS il achètera une caméra dans un an

Pr A.Riad Solh 26

13
02/04/2023

BD formelle

• BD relationnelle booléenne,
• La recherche des motifs fréquents
• définie par un triplet (O; P;R)
– O est un ensemble ni d'objets.
– P est un ensemble fini de propriétés.
– R est une relation sur O x P qui permet d'indiquer si un objet x a
une propriété p (note x R p) ou non.

• Exemple d'un supermarché : O ensemble des transactions


d'achat, P ensemble d'articles et R la relation indiquant si un
article a est acheté dans la transaction t.

Pr A.Riad Solh 27

BD formelle

Pr A.Riad Solh 28

14
02/04/2023

Motifs

Pr A.Riad Solh 29

Motifs

Pr A.Riad Solh 30

15
02/04/2023

Motifs

Pr A.Riad Solh 31

Connexion de Galois

Pr A.Riad Solh 32

16
02/04/2023

Connexion de Galois

Pr A.Riad Solh 33

Support d’un motif

Pr A.Riad Solh 34

17
02/04/2023

Support d’un motif

Pr A.Riad Solh 35

Support d’un motif

Pr A.Riad Solh 36

18
02/04/2023

Motif fréquent

Pr A.Riad Solh 37

Algorithme apriori

Pr A.Riad Solh 38

19
02/04/2023

Algorithme apriori

Pr A.Riad Solh 39

Algorithme apriori

Pr A.Riad Solh 40

20
02/04/2023

Algorithme apriori

Pr A.Riad Solh 41

Algorithme apriori

Pr A.Riad Solh 42

21
02/04/2023

Remarque: Algorithme apriori

Pr A.Riad Solh 43

Motif fréquent

• Motif fréquent fermé

• Motif fréquent Maximal:

Pr A.Riad Solh 44

22
02/04/2023

Règles d’ association

Pr A.Riad Solh 45

Règles d’ association

Pr A.Riad Solh 46

23
02/04/2023

Définition d’une règle

Pr A.Riad Solh 47

Support d’une règle

Pr A.Riad Solh 48

24
02/04/2023

La confiance d’une règle

Pr A.Riad Solh 49

Calcul des règles d’association

Pr A.Riad Solh 50

25
02/04/2023

Calcul des règles d’association

Pr A.Riad Solh 51

Exemple

Pr A.Riad Solh 52

26
02/04/2023

Génération des règles

Pr A.Riad Solh 53

Pr A.Riad Solh 54

27

Vous aimerez peut-être aussi