INF 4097 : Fouille de données II
(DATAMINING)
Par N. TSOPZE
• Constat :
• De plus en plus de données
• L’accroissement des expertises et de la technicité :
• … font perdre l’approche globale
• … obligent à stocker de plus en plus de données pour les
besoins opérationnels de la gestion quotidienne
• Mais : « trop de données tue la donnée »
• De moins en moins de connaissance de nos clients
• Explosion du nombre de rapports et tableaux de bord
• Mais : perte du contact avec le client
Question??
«La nécessité est la mère de l’invention» Platon.
Analyser le passé pour prédire l’avenir
Demain commence aujourd’hui!!
Motivations
«La nécessité est la mère de l’invention» Platon.
• Extraction de la connaissance (utile et
inconnue) de gros volumes de données
stockées dans des bases ou des entrepôts de
données; « riche en données et pauvre en
connaissance »
• Aide à la décision;
• diverses applications : analyse du panier de la
ménagère, détection des fraudes, contrôle du
Programme
1. Introduction
2. Prétraitement
3. Règles d’association
4. Techniques de classification
1. Naive Bayes
2. K-NN
3. réseau de neurones
4. Arbres de décision
5. Random Forest
5. Clustering
1. K-mean,
2. DBSCAN
3. Clustering hiérarchique
4. Bi clustering
Travaux Pratiques avec R
Bibliographie
1. Jiawei Han, Micheline Kamber and Jian Pei.
Data Mining: Concepts and Techniques, A
volume in The Morgan Kaufmann Series in Data
Management Systems 3rd Edition 2012
2. Ian H. Witten,Eibe Frank. Data Mining: Practical
Machine Learning Tools and Techniques,
Second Edition, 2005
Motivations des entreprises
• Besoin des entreprises
accéder à toutes les données de l’entreprise
regrouper les informations disséminées dans les
bases
analyser et prendre des décisions rapidement
(OLAP)
• Exemples d'applications concernées
Bancaire : suivi des clients, gestion de portefeuilles
mailing ciblés pour le marketing
• Le data mining est l’ensemble des algorithmes et méthodes
automatiques ou sémi-automatiques
• … destinés à l’exploration et l’analyse de grandes bases de données
informatiques
• … sans a priori
• … en vue de détecter des règles, des tendances inconnues ou
cachées, des structures particulières restituant de façon concise
l’essentiel de l’information utile
• … pour l’aide à la décision
• Fouille de données ---- « Forage » de données
• Selon le MIT, le DM est l’une des 10 technologies émergentes qui
changeront le monde au 21ème siècle
fouille de données – résultats
attendus
• Fouille descriptive:
Résumé des données, cas extrême,
Évolution des données
Motifs fréquents, associations et corrélations
Partition des données
• Fouille prédictive
Classification : Concept ou description de classe –
caractérisation ou discrimination
Généralités
• Stockage des données dans différentes BD et
autres support
• Intégration des données provenant des
diverses sources en Dataware house.
• Observation du dataware house suivant
différents points (« angles ») pour la prise de
décision.
• Exemples: web, application bancaire,
supermarché, restaurant,…
Généralités
Besoins décisionnels
contrôle d’info. analyse ad-hoc, info. découverte de
détaillées et récentes, globalisées, prise de connaissance
rapports standardisés décisions « Data Mining »
« interrogation et « OLAP - EIS»
rapports »
données Data Warehouse fichiers du
opérationnelles logiciel DM
Datawarehouse
Ensemble de données historisées variant dans
le temps, organisé par sujets, consolidé dans
une base de données unique, géré dans un
environnement de stockage particulier,
aidant à la prise de décision dans l’entreprise.
Trois fonctions essentielles :
• collecte de données de bases existantes et
chargement
• Ce que l’on veut savoir :
• Avant :
• « combien de clients ont acheté tel produit pendant
telle période ? »
• Maintenant :
• « quel est leur profil ? »
• « quels autres produits les intéresseront ? »
• « quand seront-ils intéressés ? »
Interrogation OLAP
et rapports (EIS) Data Mining
Requête sur des Analyse, détection
données de détail de problèmes et
et peu consolidées opportunités
“Visualisation” “Analyse” “Connaissance et
prévision”
Combien de Quelle est l’évolution Quels clients
mouvements sur 5 ans du nombre clôtureront leur
chaque client a-t-il mensuel de mouve- compte au cours
effectué au cours ments pour chaque des 6 prochains
du dernier mois ? catégorie de clients ? mois ?
• Data mining ≠ Statistiques descriptives
• Profils clientèle = profils complexes
• Pas seulement oppositions « jeunes/séniors », «
citadins/ruraux », … (tâtonner sur stats)
• Mais des combinaisons plus complexes (difficiles à
découvrir par hazard)
• Le DM fait passer :
• d’analyses confirmatoires
• …. à des analyses exploratoires
• Data mining ≠ Statistiques descriptives
• Techniques de DM sont plus complexes que de simples
statistiques descriptives
• outils d’intelligence artificielle (réseaux de neurones, arbres de
décision, …)
• algorithmes sophistiqués (algorithmes génétiques, …)
• théorie de l’information (gain d’information, …)
• beaucoup d’analyse de données « traditionnelle »
• Analyse factorielle
• Classification
Modélisation multidimensionnelle
• Dimensions:
Temps
Géographie
Produits
Clients
Canaux de ventes.....
• Indicateurs:
Nombre d’unités vendues
CA
Granularité
Exprimer le degré de finesse de l’analyse
Age
profession
Revenu
adresse
Prise en compte
• Un ensemble de données pertinentes : totalité
des données ou sélection d’une partie
• Le type de connaissance à extraire :
discrimination, caractérisation, association,…
• Les connaissances du domaine : guide la
recherche
• Les mesures d’intérêts et les seuils de ces
mesures
Eléments de statistique
Mesure de description des données
Mesure de la tendance centrale
1. La moyenne : centre de la distribution
2. La médiane
3. Le mode
Mesure de dispersion
1. Le rang
2. Le kième pourcent d’un ensemble de données
Etapes de la fouille
• Nettoyage de données (suppression de bruits
et des données inconsistantes)
• Intégration des données (combinaison de
plusieurs sources)
• Sélection des données (données pertinentes)
• Transformation des données
Etapes de la fouille
- Fouille proprement dite (application des
algorithmes de fouille)
- Evaluation (mesurer l’intérêt des
connaissances extraites)
- Représentation des connaissances
(visualisation et représentation)
Prétraitement
• Les données réelles tendent à être
incomplètes, bruitées ou inconsistantes. Le
nettoyage propose des méthodes pour
corriger ces erreurs.
• Opérations:
Nettoyage de données
Intégration des données
Sélection des données
Nettoyage des données
• But: traiter les données manquantes et
supprimer les bruits.
• Données manquantes: absence de valeur
(donnée) pour un attribut décrivant un objet.
• Bruit: erreur aléatoire introduite dans la
mesure d’une donnée.
Traitement des données
manquantes
• Ignorer l’enregistrement : utilisé quand la
classe de l’enregistrement n’est pas connue et
le pourcentage des données manquantes est
négligeable.
• Ignorer les attributs présentant des valeurs
manquantes
Traitement des données
manquantes
Manuellement
Utiliser une constante globale pour remplacer (unknow
dans SQL)
Utiliser la moyenne générale
Utiliser la moyenne de l’attribut en ne considérant rien
que les enregistrements de sa classe.
Utiliser la valeur la plus fréquente.
Utiliser un modèle de régression pour estimer la valeur.
Traitement des données bruitées
• Le voisinage (Binning) : attribuer la valeur
correcte la plus proche. Par exemple
rapprocher à la moyenne, à un centile, à la
médiane, à la borne,…
• La régression : les valeurs suivent une certaine
fonction. Par exemple en régression linéaire,
on projette sur la droite de régression.
• Partitionnement : les valeurs sont dans un
espace, puis on affecte la donnée bruitée à
Intégration des données
Intégration : combiner des données de sources
multiples en un ensemble cohérent de données.
Sources : Bases de Données, les fichiers.
Problème : identification de l’entité.
1. comment savoir que deux attributs sont
équivalents?
2. comment savoir que deux valeurs sont
équivalentes?
Solution: utiliser une ontologie, ou faire appel à
Transformation des données
mettre les données dans une forme appropriée
pour la fouille.
• Suppression de bruit
• Agrégation / généralisation : mettre les
données à une granularité supérieure;
remplacer les concepts de bas niveau par les
concepts de niveau supérieur.
Transformation des données
Normalisation : ranger les données dans
l’intervalle -1 à 1 ou 0 à 1. Les techniques
sont :
normalisation min-max(v)=(v-min) / (max-min).
normalisation z-score(v)=(v-moyenne(xi))/écart-
type(xi).
La discrétisation : elle consiste à transformer les
données continues en données discrètes.
Binarisation : passer aux bianaires
Réduction du nombre de variables
• Présence de variables superflues
• Coût algorithmique de traitement
Sélection des variables (ou réduction
de dimension) pertinentes.
• Attributs fortement corrélés
• Attributs non pertinents
La réduction des données
• Avoir une représentation des données dans un
espace de dimension réduite sans perte
l’intégrité des données, la taille de données
réduites doit être plus faible que la taille des
données originale
• Permet de visualiser facilement les données.
Vocabulaire
• Attribut: propriété ou caractéristique utilisée
pour décrire un objet, un phénomène,…
• Exemple ou enregistrement ou instance:
description d’un objet, ensemble d’attributs
(chacun ayant pris une valeur) d’un objet
(pattern ou vecteur).
Vocabulaire
Domaine d’attribut: ensemble de valeurs
possibles que cet attribut peut prendre
Données: étiquetées si un attribut particulier a
des valeurs à prédire, non-étiquetées sinon.
Classe: étiquette d’un exemple.
Types de données
• Nominal ou symbolique ou catégorique
Binaire
Énuméré (nombre ou chaine de caractères) ou
ordonné
• Continue
Entier
Réel
Chaines de caractères (nombre de valeurs infini)
Opérations de datamining
• Classification supervisée : problème de
décision (statistique), classification (en
anglais) Apprentissage + classement
• Classification non supervisée: classification
(statistique), clustering (en anglais)
Partitionnement
• Régression: prédiction d’une valeur continue
• Règle d’association, motifs fréquents,…