02/04/2023
Data Mining
Cours Fouille de données
Master: Sciences et ingénierie de données
Pr A.Riadsolh
2022/2023
Pr A.Riad Solh 1
Introduction Fouille de données
• Quoi ?
Rechercher des informations
• Laquelle ?
Les informations précieuses et utiles (corrélation, pattern,
tendances, ...)
• Ou ?
Dans les grandes quantités de données stockées par les SI
• Comment ?
En utilisant les statistiques, IA, Reconnaissance des formes,
...etc.
Pr A.Riad Solh 2
1
02/04/2023
Introduction
Ingénierie et recherche scientifique moderne
• Surveiller suffisamment un système
• Stocker un historique de son comportements (entrées
et sorties)
• Exploiter ces données pour extraire des modelés qui
décrivent le système
Pr A.Riad Solh 3
Introduction
Outils de fouille de données
4
Pr A.Riad Solh
2
02/04/2023
Introduction Domaines d'utilisation de la fouille
de donnees(1)
• Attribution de crédits (Credit Scoring)
• Optimisation du nombre de places dans les avions, hôtels, ... )
surréservation
• Organisation des rayonnages dans les supermarchés : "les
clients qui achètent le produit X en fin de semaine, pendant
l’été, achètent généralement également le produit Y" ;
• Organisation de campagne de publicité, promotions, ciblage
des offres, acquisition des clients, rétention
• Diagnostic médical : "les patients ayant tels et tels symptômes
et demeurant dans des villes de plus de 104 habitants
développent couramment telle pathologie" ;
5
Pr A.Riad Solh
Introduction Domaines d'utilisation de la fouille
de données(2)
• Classification d'objets (industrie, sécurité, astronomie, ...)
• Commerce électronique
• Analyser les pratiques et stratégies commerciales et leurs
impacts sur les ventes
• Moteur de recherche sur internet : Web mining
• extraction d’information depuis des textes : fouille de
textes
• évolution dans le temps de données : fouille de séquences
Pr A.Riad Solh 6
3
02/04/2023
Processus du data mining
Processus KDD
7
Pr A.Riad Solh
Introduction Fouille de données
Processus de data mining: CRISP-DM (Cross-Industry
Standard Process for Data Mining)
Pr A.Riad Solh 8
4
02/04/2023
Processus du data mining
1. Définition et compréhension du problème
• Compréhension indispensable
• La plupart des problèmes sont dus a la mal
compréhension du problème
• Généralement, comprendre le domaine d'application
(banques, médecine, biologie, marketing, ...etc)
• La compréhension est cruciale pour l'explication des
résultats et l’estimation des coûts
• Pouvoir évaluer les résultats obtenus et convaincre
l'utilisateur de leur rentabilité
Pr A.Riad Solh 9
Processus du data mining
2. Collecte des données
• Sélection des données à utiliser selon le problème
défini
• Attention ! ! plusieurs formats et structures (textes,
BDD, pages web, images, vidéo, ...etc)
• Parfois : prendre une copie du système en cours de
fonctionnement
• Subdiviser les données en deux parties : Données
d'analyse et données de test
Pr A.Riad Solh 10
5
02/04/2023
Processus du data mining
3. Prétraitement
• Souvent, données bruitées (erreurs de frappe, erreurs système, ...)
• Données incohérentes (qui sortent des intervalles permis)
• Unification des poids [0,1] ou [0,100], Lissage
• Réduction des données, verticale et horizontale (ACP)
• tendance centrale des données (moyenne, médiane), le
maximum et le minimum,
• Courbes, diagrammes, graphes,... etc, peuvent aider a la
sélection et le nettoyage des données.
• Stockage des Entrepôts de données (data warehouse)
Pr A.Riad Solh 11
Processus du data mining
4. Estimation du modele
• Choisir la bonne technique pour extraire les
connaissances
• Réseaux de neurones, Arbres de décision, Réseaux
bayésiens, Clustering, ...
• Utilisation plusieurs techniques
Pr A.Riad Solh 12
6
02/04/2023
Processus du data mining
5. Interprétation du modelé et établissement des conclusions
Fournir des modèles compréhensibles aux utilisateurs
Modelés simples plus compréhensibles mais moins
précis
Modèles complexes plus précis mais difficiles à
interpréter.
Pr A.Riad Solh 13
Quel type de données fouiller ?
Echantillons, enregistrements, exemples, ensemble de données
• Une donnée est :
• Individu en statistique
• Instance objets informatique
• Tuple bases de données
• Point ou vecteur en géométrie
Pr A.Riad Solh 14
7
02/04/2023
Quel type de données fouiller ?
Attributs, Champs, Caractéristiques
Une donnée est caractérise par un ensemble de :
• Champs en bases e données
• Caractéristiques statistiques
• Attributs oriente objet
Pr A.Riad Solh 15
Quel type de données fouiller ?
Types d'attributs
• Deux types
Numérique comportent les variables réelles ou entières tel que la
longueur, le poids, l'Age, ...
– relation d'ordre (5 < 7,5)
– mesure de distance (D(5; 7,5) = 2,5).
– Calcul de moyenne, variance, écart-type, ...
catégoriels (appelées aussi symboliques) tel que la couleur,
,le groupe sanguin…
– Pas de relation d'ordre (Egalité ou différence)
– Distance spécifique (nombre de caractères en commun,...)
– Utilisation du mode : la valeur la plus fréquente
Deux variables catégorielles ne peuvent être que égales ou
différentes.
16
Pr A.Riad Solh
8
02/04/2023
Tâches de la fouille de données
Tâches (supervisées, non supervisées)
Datamining
Modélisation descriptive Modélisation prédictive
Représentation Segmentation Association Classification Estimation
Pr A.Riad Solh 17
Tâches de la fouille de données
Classification et estimation
Pr A.Riad Solh 18
9
02/04/2023
Tâches de la fouille de données
Classification et estimation
Pr A.Riad Solh 19
Tâches de la fouille de données
Estimation
• Classification + variable de sortie numérique
• Estimer la valeur d'une Action dans une bourse
• Estimer la tension d'un passion
Pr A.Riad Solh 20
10
02/04/2023
Tâches de la fouille de données
Règles d’association
Pr A.Riad Solh 21
Tâches de la fouille de données
Analyse des clusters
Pr A.Riad Solh 22
11
02/04/2023
Tâches de la fouille de données
Analyse des clusters
Pr A.Riad Solh 23
Recherche des modèles fréquents
et
les règles d’associations
Pr A.Riad Solh 24
12
02/04/2023
Rappel: Applications
• L'analyse du panier du marche, pour comprendre les habitudes des
clients afin de mieux organiser les rayons d'articles, organiser les
promotions, ...etc,
• Analyse des comportements des internautes pour mieux organiser les
sites,
• L'analyse du climat en météorologie afin de mieux orienter
l'agriculture
Pr A.Riad Solh 25
Rappel: Applications
• Les motifs fréquents (fréquent itemsets) sont des motifs ou patterns qui
apparaissent fréquemment dans un ensemble de données.
Exemples :
• Ensemble d'items fréquent : le lait et le pain qui apparaissent souvent dans
une base de transactions dans un supermarché.
• Ensemble de pages web visitées souvent ensemble,
• Symptômes souvent lies chez des patients,
Trouver de tels motifs représente une Tâche importante dans le Data mining
Exemple de règles d'association pour l'analyse du panier de la ménagère :
• SI un client achète des plantes ALORS il achète des engrais
• SI un client achète une télévision, ALORS il achètera une caméra dans un an
Pr A.Riad Solh 26
13
02/04/2023
BD formelle
• BD relationnelle booléenne,
• La recherche des motifs fréquents
• définie par un triplet (O; P;R)
– O est un ensemble ni d'objets.
– P est un ensemble fini de propriétés.
– R est une relation sur O x P qui permet d'indiquer si un objet x a
une propriété p (note x R p) ou non.
• Exemple d'un supermarché : O ensemble des transactions
d'achat, P ensemble d'articles et R la relation indiquant si un
article a est acheté dans la transaction t.
Pr A.Riad Solh 27
BD formelle
Pr A.Riad Solh 28
14
02/04/2023
Motifs
Pr A.Riad Solh 29
Motifs
Pr A.Riad Solh 30
15
02/04/2023
Motifs
Pr A.Riad Solh 31
Connexion de Galois
Pr A.Riad Solh 32
16
02/04/2023
Connexion de Galois
Pr A.Riad Solh 33
Support d’un motif
Pr A.Riad Solh 34
17
02/04/2023
Support d’un motif
Pr A.Riad Solh 35
Support d’un motif
Pr A.Riad Solh 36
18
02/04/2023
Motif fréquent
Pr A.Riad Solh 37
Algorithme apriori
Pr A.Riad Solh 38
19
02/04/2023
Algorithme apriori
Pr A.Riad Solh 39
Algorithme apriori
Pr A.Riad Solh 40
20
02/04/2023
Algorithme apriori
Pr A.Riad Solh 41
Algorithme apriori
Pr A.Riad Solh 42
21
02/04/2023
Remarque: Algorithme apriori
Pr A.Riad Solh 43
Motif fréquent
• Motif fréquent fermé
• Motif fréquent Maximal:
Pr A.Riad Solh 44
22
02/04/2023
Règles d’ association
Pr A.Riad Solh 45
Règles d’ association
Pr A.Riad Solh 46
23
02/04/2023
Définition d’une règle
Pr A.Riad Solh 47
Support d’une règle
Pr A.Riad Solh 48
24
02/04/2023
La confiance d’une règle
Pr A.Riad Solh 49
Calcul des règles d’association
Pr A.Riad Solh 50
25
02/04/2023
Calcul des règles d’association
Pr A.Riad Solh 51
Exemple
Pr A.Riad Solh 52
26
02/04/2023
Génération des règles
Pr A.Riad Solh 53
Pr A.Riad Solh 54
27