0% ont trouvé ce document utile (0 vote)
530 vues36 pages

Data Mining

Transféré par

Sorelle Kana
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
530 vues36 pages

Data Mining

Transféré par

Sorelle Kana
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

INF 4097 : Fouille de données II

(DATAMINING)
Par N. TSOPZE
• Constat :
• De plus en plus de données
• L’accroissement des expertises et de la technicité :
• … font perdre l’approche globale
• … obligent à stocker de plus en plus de données pour les
besoins opérationnels de la gestion quotidienne
• Mais : « trop de données tue la donnée »
• De moins en moins de connaissance de nos clients
• Explosion du nombre de rapports et tableaux de bord
• Mais : perte du contact avec le client
Question??

«La nécessité est la mère de l’invention» Platon.

Analyser le passé pour prédire l’avenir

Demain commence aujourd’hui!!


Motivations

«La nécessité est la mère de l’invention» Platon.


• Extraction de la connaissance (utile et
inconnue) de gros volumes de données
stockées dans des bases ou des entrepôts de
données; « riche en données et pauvre en
connaissance »
• Aide à la décision;
• diverses applications : analyse du panier de la
ménagère, détection des fraudes, contrôle du
Programme
1. Introduction

2. Prétraitement

3. Règles d’association
4. Techniques de classification
1. Naive Bayes
2. K-NN
3. réseau de neurones
4. Arbres de décision
5. Random Forest
5. Clustering
1. K-mean,
2. DBSCAN
3. Clustering hiérarchique
4. Bi clustering
Travaux Pratiques avec R
Bibliographie
1. Jiawei Han, Micheline Kamber and Jian Pei.
Data Mining: Concepts and Techniques, A
volume in The Morgan Kaufmann Series in Data
Management Systems 3rd Edition 2012

2. Ian H. Witten,Eibe Frank. Data Mining: Practical


Machine Learning Tools and Techniques,
Second Edition, 2005
Motivations des entreprises
• Besoin des entreprises
 accéder à toutes les données de l’entreprise
 regrouper les informations disséminées dans les
bases
 analyser et prendre des décisions rapidement
(OLAP)

• Exemples d'applications concernées


 Bancaire : suivi des clients, gestion de portefeuilles
 mailing ciblés pour le marketing
• Le data mining est l’ensemble des algorithmes et méthodes
automatiques ou sémi-automatiques
• … destinés à l’exploration et l’analyse de grandes bases de données
informatiques
• … sans a priori
• … en vue de détecter des règles, des tendances inconnues ou
cachées, des structures particulières restituant de façon concise
l’essentiel de l’information utile
• … pour l’aide à la décision

• Fouille de données ---- « Forage » de données


• Selon le MIT, le DM est l’une des 10 technologies émergentes qui
changeront le monde au 21ème siècle
fouille de données – résultats
attendus
• Fouille descriptive:
 Résumé des données, cas extrême,
 Évolution des données
 Motifs fréquents, associations et corrélations
 Partition des données

• Fouille prédictive
 Classification : Concept ou description de classe –
caractérisation ou discrimination
Généralités

• Stockage des données dans différentes BD et


autres support
• Intégration des données provenant des
diverses sources en Dataware house.
• Observation du dataware house suivant
différents points (« angles ») pour la prise de
décision.
• Exemples: web, application bancaire,
supermarché, restaurant,…
Généralités

Besoins décisionnels

contrôle d’info. analyse ad-hoc, info. découverte de


détaillées et récentes, globalisées, prise de connaissance
rapports standardisés décisions « Data Mining »
« interrogation et « OLAP - EIS»
rapports »

données Data Warehouse fichiers du


opérationnelles logiciel DM
Datawarehouse

Ensemble de données historisées variant dans


le temps, organisé par sujets, consolidé dans
une base de données unique, géré dans un
environnement de stockage particulier,
aidant à la prise de décision dans l’entreprise.

Trois fonctions essentielles :


• collecte de données de bases existantes et
chargement
• Ce que l’on veut savoir :
• Avant :
• « combien de clients ont acheté tel produit pendant
telle période ? »

• Maintenant :
• « quel est leur profil ? »
• « quels autres produits les intéresseront ? »
• « quand seront-ils intéressés ? »
Interrogation OLAP
et rapports (EIS) Data Mining
Requête sur des Analyse, détection
données de détail de problèmes et
et peu consolidées opportunités

“Visualisation” “Analyse” “Connaissance et


prévision”

Combien de Quelle est l’évolution Quels clients


mouvements sur 5 ans du nombre clôtureront leur
chaque client a-t-il mensuel de mouve- compte au cours
effectué au cours ments pour chaque des 6 prochains
du dernier mois ? catégorie de clients ? mois ?
• Data mining ≠ Statistiques descriptives
• Profils clientèle = profils complexes
• Pas seulement oppositions « jeunes/séniors », «
citadins/ruraux », … (tâtonner sur stats)
• Mais des combinaisons plus complexes (difficiles à
découvrir par hazard)

• Le DM fait passer :
• d’analyses confirmatoires
• …. à des analyses exploratoires
• Data mining ≠ Statistiques descriptives
• Techniques de DM sont plus complexes que de simples
statistiques descriptives

• outils d’intelligence artificielle (réseaux de neurones, arbres de


décision, …)

• algorithmes sophistiqués (algorithmes génétiques, …)

• théorie de l’information (gain d’information, …)

• beaucoup d’analyse de données « traditionnelle »


• Analyse factorielle

• Classification
Modélisation multidimensionnelle
• Dimensions:
 Temps
 Géographie
 Produits
 Clients
 Canaux de ventes.....
• Indicateurs:
 Nombre d’unités vendues
 CA
Granularité

Exprimer le degré de finesse de l’analyse


Age

profession

Revenu

adresse
Prise en compte

• Un ensemble de données pertinentes : totalité


des données ou sélection d’une partie
• Le type de connaissance à extraire :
discrimination, caractérisation, association,…
• Les connaissances du domaine : guide la
recherche
• Les mesures d’intérêts et les seuils de ces
mesures
Eléments de statistique
Mesure de description des données
 Mesure de la tendance centrale
1. La moyenne : centre de la distribution
2. La médiane
3. Le mode

 Mesure de dispersion
1. Le rang
2. Le kième pourcent d’un ensemble de données
Etapes de la fouille

• Nettoyage de données (suppression de bruits


et des données inconsistantes)
• Intégration des données (combinaison de
plusieurs sources)
• Sélection des données (données pertinentes)
• Transformation des données
Etapes de la fouille

- Fouille proprement dite (application des


algorithmes de fouille)
- Evaluation (mesurer l’intérêt des
connaissances extraites)
- Représentation des connaissances
(visualisation et représentation)
Prétraitement

• Les données réelles tendent à être


incomplètes, bruitées ou inconsistantes. Le
nettoyage propose des méthodes pour
corriger ces erreurs.
• Opérations:
 Nettoyage de données
 Intégration des données
 Sélection des données
Nettoyage des données

• But: traiter les données manquantes et


supprimer les bruits.
• Données manquantes: absence de valeur
(donnée) pour un attribut décrivant un objet.
• Bruit: erreur aléatoire introduite dans la
mesure d’une donnée.
Traitement des données
manquantes
• Ignorer l’enregistrement : utilisé quand la
classe de l’enregistrement n’est pas connue et
le pourcentage des données manquantes est
négligeable.
• Ignorer les attributs présentant des valeurs
manquantes
Traitement des données
manquantes
Manuellement
Utiliser une constante globale pour remplacer (unknow
dans SQL)
Utiliser la moyenne générale
Utiliser la moyenne de l’attribut en ne considérant rien
que les enregistrements de sa classe.
Utiliser la valeur la plus fréquente.
Utiliser un modèle de régression pour estimer la valeur.
Traitement des données bruitées

• Le voisinage (Binning) : attribuer la valeur


correcte la plus proche. Par exemple
rapprocher à la moyenne, à un centile, à la
médiane, à la borne,…
• La régression : les valeurs suivent une certaine
fonction. Par exemple en régression linéaire,
on projette sur la droite de régression.
• Partitionnement : les valeurs sont dans un
espace, puis on affecte la donnée bruitée à
Intégration des données
Intégration : combiner des données de sources
multiples en un ensemble cohérent de données.
Sources : Bases de Données, les fichiers.
Problème : identification de l’entité.
1. comment savoir que deux attributs sont
équivalents?
2. comment savoir que deux valeurs sont
équivalentes?
Solution: utiliser une ontologie, ou faire appel à
Transformation des données

mettre les données dans une forme appropriée


pour la fouille.
• Suppression de bruit
• Agrégation / généralisation : mettre les
données à une granularité supérieure;
remplacer les concepts de bas niveau par les
concepts de niveau supérieur.
Transformation des données

Normalisation : ranger les données dans


l’intervalle -1 à 1 ou 0 à 1. Les techniques
sont :
 normalisation min-max(v)=(v-min) / (max-min).
 normalisation z-score(v)=(v-moyenne(xi))/écart-
type(xi).

La discrétisation : elle consiste à transformer les


données continues en données discrètes.
Binarisation : passer aux bianaires
Réduction du nombre de variables

• Présence de variables superflues


• Coût algorithmique de traitement

Sélection des variables (ou réduction


de dimension) pertinentes.
• Attributs fortement corrélés
• Attributs non pertinents
La réduction des données

• Avoir une représentation des données dans un


espace de dimension réduite sans perte
l’intégrité des données, la taille de données
réduites doit être plus faible que la taille des
données originale
• Permet de visualiser facilement les données.
Vocabulaire

• Attribut: propriété ou caractéristique utilisée


pour décrire un objet, un phénomène,…
• Exemple ou enregistrement ou instance:
description d’un objet, ensemble d’attributs
(chacun ayant pris une valeur) d’un objet
(pattern ou vecteur).
Vocabulaire

Domaine d’attribut: ensemble de valeurs


possibles que cet attribut peut prendre
Données: étiquetées si un attribut particulier a
des valeurs à prédire, non-étiquetées sinon.
Classe: étiquette d’un exemple.
Types de données

• Nominal ou symbolique ou catégorique


 Binaire
 Énuméré (nombre ou chaine de caractères) ou
ordonné

• Continue
 Entier
 Réel
 Chaines de caractères (nombre de valeurs infini)
Opérations de datamining

• Classification supervisée : problème de


décision (statistique), classification (en
anglais) Apprentissage + classement
• Classification non supervisée: classification
(statistique), clustering (en anglais)
Partitionnement
• Régression: prédiction d’une valeur continue
• Règle d’association, motifs fréquents,…

Vous aimerez peut-être aussi