0% ont trouvé ce document utile (0 vote)

208 vues46 pages

Exploration des Données: Guide Essentiel

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

208 vues46 pages

Exploration des Données: Guide Essentiel

Transféré par

jack barl

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

Le Data Mining: Méthodologie

Définition et introduction
Principales applications
Méthodologie du DM
Exemples de fonctionnement

1
1. Emergence du domaine

 Workshops
 1991, 1993, 1994
 International Conf. on KDD and DM
 1995, 1996, 1997, 1998, 1999
 Data Mining and Knowledge Discovery Journal
(1997)
 Special Interest Group Knowledge Discovery in
Databases (1999) de l’Association for Computing
Machinery (ACM)
2
Métaphore

 Par analogie à la recherche des pépites d ’or

dans un gisement, la fouille de données vise :
 à extraire des informations cachées par analyse
globale
 à découvrir des modèles (“patterns”) difficiles à
percevoir car:
 le volume de données est très grand
 le nombre de variables à considérer est important

 ces “patterns” sont imprévisibles (même à titre

d ’hypothèse à vérifier)
3
Définition

 Data mining
 ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen

Données Data
entrepôt mining Connaissances
Découverte de Compréhension
modèles Prédiction
4
Découverte de modèles

x1 c Confiance
Entrées x2
x3 y
Sortie
MODELE
x1 x2 x3 y
1 10 100 alpha
2 20 200 beta
5
Découverte et Exploitation
Training Data Mining Model Data to Predict

DM DM
Engine Engine

Mining Model Mining Model Predicted Data

6
Connaissances

 Knowledge Discovery in Databases (KDD)

 Processus complet d’Extraction de Connaissance des
Données (ECD)
 Comprend plusieurs phases dont le data mining
 Exemples
 analyses (distribution du trafic en fonction de l ’heure)
 scores (fidélité d ’un client), classes (mauvais payeurs)
 règles (si facture > 10000 et mécontent > 0.5 alors
départ à 70%)

7
Le processus de KDD

8
Etapes du processus

 1. Compréhension du domaine d’application

 2. Création du fichier cible (target data set)
 3. Traitement des données brutes (data cleaning and preprocessing)
 4. Réduction des données (data reduction and projection)
 5. Définition des tâches de fouille de données
 6. Choix des algorithmes appropriés de fouille de données
 7. Fouille de données (data mining)
 8. Interprétation des formes extraites (mined patterns)
 9. Validation des connaissances extraites
 (source : Fayyat et al., 1996, p. 1-34)

9
Mécanismes de base

 Déduction : base des systèmes experts

 schéma logique permettant de déduire un théorème à
partir d'axiomes
 le résultat est sûr, mais la méthode nécessite la
connaissance de règles
 Induction : base du data mining
 méthode permettant de tirer des conclusions à partir
d'une série de faits
 généralisation un peu abusive
 indicateurs de confiance permettant la pondération

10
2. Domaines d'application

 De plus en plus de domaines

 explosion des données historisées
 puissance des machines support
 nombreux datawarehouses
 OLAP limité
 nécessité de mieux comprendre
 rapports sophistiqués, prédictions
 aide efficace aux managers
11
Quelques domaines réputés

 Analyse de risque (Assurance)

 Marketing
 Grande distribution
 Médecine, Pharmacie
 Analyse financière
 Gestion de stocks
 Maintenance
 Contrôle de qualité
12
Exemples

 Targeted ads
 “What banner should I display to this visitor?”
 Cross sells
 “What other products is this customer likely to buy?
 Fraud detection
 “Is this insurance claim a fraud?”
 Churn analysis
 “Who are those customers likely to churn?”
 Risk Management
 “Should I approve the loan to this customer?”
13
Churn Analysis

 Application de télécom
 Bases de données des clients et des appels
 Fichiers des réclamations
 Qui sont les clients le plus susceptibles de
partir ?
 Application de techniques de DM
 Fichiers de 1000 clients les plus risqués
 600 ont quittés dans les 3 mois
14
Trading Advisor

 Application boursière
 conseil en achat / vente d'actions
 Données de base
 historique des cours
 portefeuille client
 Analyse du risque
 Analyse technique du signal
 Conseils d'achat – vente
 Mise à disposition sur portail Web
15
3. Méthodologie -1

 1. Identifier le  2. Préparer les données

problème  préciser les sources
 cerner les objectifs  collecter les données
 trouver les sources  nettoyer les données
 définir les cibles  transformer les données
 vérifier les besoins  intégrer les données

16
Méthodologie - 2

 3. Explorer des modèles  5. Suivre le modèle

 choisir une technique  bâtir des estimateurs
 échantillonner sur un groupe
 corriger et affiner le
 valider sur le reste (5% à
1/3) modèle
 calculer le  d ’erreurs
 4. Utiliser le modèle
 observer la réalité
 recommander des actions

17
Explorer des modèles :
SEMMA
 Sampling = Échantillonner
 tirer un échantillon significatif pour extraire les modèles
 Exploration = Explorer
 devenir familier avec les données (patterns)
 Manipulation = Manipuler
 ajouter des informations, coder, grouper des attributs
 Modelling = Modéliser
 construire des modèles (statistiques, réseaux de neuronnes, arbres
de décisions, règles associatives, …)
 Assessment = Valider
 comprendre, valider, expliquer, répondre aux questions

18
Validation d’un modèle

 Matrice de confusion
 comparaison des cas observés par rapport aux prédictions
 exemple : prédiction de factures impayées
Prédit Observé
Payé Retardé Impayé Total
Payé 80 15 5 100
Retardé 1 17 2 20
Impayé 5 2 23 30
Total 86 34 30 150
 Validité du modèle
 nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
19
Principales Techniques

 Dérivées
 des statistiques (e.g., réseaux bayésiens)
 de l'analyse de données (e.g., analyse en composantes)
 de l'intelligence artificielle (e.g., arbres de décision, réseaux
de neurones)
 des bases de données (e.g., règles associatives)
 Appliquées aux grandes bases de données
 Difficultés :
 passage à l'échelle et performance
 fonctionnement avec échantillon > qq milliers
 présentation et validation des résultats
20
4. Quelques produits

 Intelligent Miner d'IBM  Oracle 10g ODM

 modélisation prédictive (stat.),
groupage, segmentation,
analyse d'associations,
détection de déviation, analyse  SQL Server DM
de texte libre
 SAS de SAS
 Statistiques, groupage, arbres  DB2 V8
de décision, réseaux de
neurones, associations, ...
 SPSS de SPSS
 statistiques, classification,
réseaux de neurones

21
SAS

22
INPUT

 Choix des variables

23
SAMPLING

 Choix du type d'échantillon

24
INSIGHT

 Analyse des données en 4D

25
TRANSFORM

 Transformation pour préparer

26
PARTITION

 Création de partition d'exploration parallèle

27
REGRESSION

 Sélection de la méthode de régression

28
DECISION TREE

 Construction d'un arbre par 2

29
NEURONES

 Spécification d'un réseau de neurones

30
ASSESSMENT

 Validation des résultats

31
Approches

 De multiples approches:
 Statistiques
 Classification
 Clustering
 Règles associatives
 …

32
Méthodes d'analyse
1 ... J ... p
1
.
.
Table
Table = i
.
.
n

1 ... J ... p 1 ... J ... p

1 1
. .
. .
Table = i Table = i
. .
. .
n n

Points dans Rp Points dans Rn

33
Familles de méthodes

Nuage de points

Visualisation dans Regroupement

Le meilleur espace réduit dans tout l'espace

METHODES STATISTIQUES METHODES DE CLASSIFICATION,

ET FACTORIELLES SUPERVISEE OU NON …
34
5. Méthodes statistiques

 Quelques techniques de base

 A la limite du DM

 Calculs d'information sophistiqués

35
Fonctions Statistiques

 Espérance
 permet de calculer la moyenne pondérée d'une
colonne pi = 1/N par défaut
 Variance
 traduit la dispersion de la distribution de la v.a.
autour de sa valeur moyenne.
 Variable centrée réduite
 Permet d'éliminer le facteur dimension
36
Diagrammes en bâtons
Catégorie d'employé
400

 Comptage de fréquence 300

 COUNT 200

 Extension aux calculs 100

Fréquence
d'agrégats 0
Secrétariat Cadre Responsable

AVG, MIN, MAX, …

Catégorie d'employé


 Possibilité d'étendre au
100

3D 80
60
North
East
West
40
North
 Apporte une vision
West
20
East
0
1st 2nd 3rd 4th

synthétique Qtr Qtr Qtr Qtr

37
Tableaux croisés
(Vision 2D du Datacube)
Tableau croisé Catégorie d'employé * Sexe de l'employé * Classe minoritaire ?

Classe minoritaire ?: Non

Effectif Effectif théorique
Catégorie Secrétariat Sexe de l'employé Masculin 110 144,7
d'employé Féminin 166 131,3
Total 276 276,0
Cadre Sexe de l'employé Masculin 14 7,3
Féminin 0 6,7
Total 14 14,0
Responsable Sexe de l'employé Masculin 70 41,9
Féminin 10 38,1
Total 80 80,0
Total Sexe de l'employé Masculin 194 194,0
Féminin 176 176,0
Total 370 370,0

Effectif théorique = calculé par une loi de distribution

(uniforme)
38
Corrélation

 Covariance
 La covariance peut être vue comme le moment centré
conjoint d'ordre 1 de deux v.a.
 Si les deux v.a. sont indépendantes, alors leur covariance
est nulle (mais la réciproque n'est pas vraie en général).
 Coefficient de corrélation
 Elimine le facteur dimension
 mesure la qualité de la relation linéaire entre deux
variables aléatoires

39
Droite de régression

$160,000
Salaire actuel = 1928,21 + 1,91 * saldeb
Régression linéaire
R-Deux = 0,77
199


$120,000
Y=aX+b
120

70
Salaire actuel

 


  

 
 
$80,000 
   
    
     
   
       
      
     
    
 
 
$40,000    
  
  
 
 




$20,000 $40,000 $60,000 $80,000

Salaire d'embauche

40
Test du 2

 Détermine l'existence d'une dépendance

entre deux variables
 Exemple : salaire d'embauche, niveau d'étude
 Compare la distribution des variables par
rapport à une courbe théorique supposant
l'indépendance

41
De nombreuses fonctions

 Test t sur moyenne

 ANOVA
 Analyses de variance sophistiquées
 Corrélation partielle
 Régresion logistique
 Séries chronologiques
 Lissage exponentiel, Moyenne mobile, …
 Comparaison
…
42
Calculs en SQL

 Introduction de fonctions d'agrégats

 AVG = moyenne
 MAVG = moyenne mobile
 STDDEV = écart type
 VARIANCE = variance
 COVARIANCE = covariance
 …
 Exemple
 SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB)
 FROM EMPLOYEE
 WHERE GRADE = "ingénieur"
 GROUP BY SEXE
43
Statistiques: Conclusion

 Calculs statistiques sur variables

 Mono ou bi-variées
 Résumé des données
 Observation de dépendances
 Peu de modèles prédictifs ...
 La plupart sont faisables avec SQL OLAP
 Extensions cube et rollup
 Extensions avec fonctions d'agrégats
44
6. Conclusion

 Le data mining vise à  Questions ?

découvrir des modèles à
partir de grandes bases de
 Quoi de nouveau par
faits connus rapport à l'IA et aux
(datawarehouse) statistiques ?
 Le processus de
construction de modèles est
complexe
 préparer les données
 modéliser 1/3 de la base
 valider sur 2/3
 expérimenter plusieurs
modèles
45
DM, Stat., IA
DM Stat. IA
Tableau individu -variable Formalisme de la logique
Calculs numériques Induction/déduction
Recherche de règles Méthodes de discrimination Apprentissage supervisé/ex.
de classement Réseaux de neuronnes -Génèr° de règles
Segmentation -Constr° d'arbre de décision
-Raisonnement à base de cas
Régression Méthodes de régression
Réseaux de neuronnes _
Classification Classif° automatique hiérarchique Apprentissage non supervisé
automatique Partitionnement -Classif° conceptuelle
Réseaux de neuronnes
Description Stat. Élémentaire (histogramme, Apprentissage non supervisé
synthétique moy, écart-type) -Généralisation
Outils d'interprét° de classes
Méthodes factorielles (ACP)
Recherche de Corrélations Apprentissage non supervisé
dépendances Analyse factorielles des corr. -Généralisation
(AFC) -Recherche d'associations
Réseaux bayésiens
Détection de Test stat sur les écarts
déviations
_
46

Vous aimerez peut-être aussi

Chapitre 1 Fouille de Données
Pas encore d'évaluation
Chapitre 1 Fouille de Données
36 pages
01 Introduction DM
Pas encore d'évaluation
01 Introduction DM
26 pages
Data Mining
Pas encore d'évaluation
Data Mining
55 pages
Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
Chap 4
Pas encore d'évaluation
Chap 4
46 pages
Analyse de Données IA avec Python
Pas encore d'évaluation
Analyse de Données IA avec Python
22 pages
4-Préparation Données
100% (1)
4-Préparation Données
55 pages
Chapitre 1 DM
Pas encore d'évaluation
Chapitre 1 DM
73 pages
Introduction aux KNN en Machine Learning
Pas encore d'évaluation
Introduction aux KNN en Machine Learning
8 pages
Chap4-Ingénierie Des Donnéesnov2023
Pas encore d'évaluation
Chap4-Ingénierie Des Donnéesnov2023
53 pages
DataMining Part2 ECD
100% (1)
DataMining Part2 ECD
38 pages
TD1 Apriori
100% (1)
TD1 Apriori
2 pages
Ch1-Extraction Des Connaissances À Partir Des Données
Pas encore d'évaluation
Ch1-Extraction Des Connaissances À Partir Des Données
53 pages
Le Processus de Science Des Donnees
Pas encore d'évaluation
Le Processus de Science Des Donnees
16 pages
Chapitre1 DM Rebbah
Pas encore d'évaluation
Chapitre1 DM Rebbah
19 pages
Analyse de Données - Cours Introductif
Pas encore d'évaluation
Analyse de Données - Cours Introductif
35 pages
ACP : Guide d'Analyse Multivariée et Visualisation
Pas encore d'évaluation
ACP : Guide d'Analyse Multivariée et Visualisation
18 pages
Data Mining Training
Pas encore d'évaluation
Data Mining Training
63 pages
Support Cours & TD Datawarehouse: Pr. A. Elouardighi
Pas encore d'évaluation
Support Cours & TD Datawarehouse: Pr. A. Elouardighi
17 pages
Pretraitement Des Donnees
100% (1)
Pretraitement Des Donnees
27 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
102 pages
Rapport DataMining
Pas encore d'évaluation
Rapport DataMining
31 pages
Intro Data Mining v2
Pas encore d'évaluation
Intro Data Mining v2
69 pages
File D Attente
Pas encore d'évaluation
File D Attente
43 pages
Questions clés en Machine Learning
Pas encore d'évaluation
Questions clés en Machine Learning
8 pages
TP 2 Clustering
Pas encore d'évaluation
TP 2 Clustering
2 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
Modèles de Datamining : Régression et Classification
100% (2)
Modèles de Datamining : Régression et Classification
14 pages
Chap - Analyse D'associations - Partie 01-18-19
Pas encore d'évaluation
Chap - Analyse D'associations - Partie 01-18-19
12 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
Comprendre l'algorithme k-ppv
Pas encore d'évaluation
Comprendre l'algorithme k-ppv
26 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
16 pages
Data Mining Projet-M
Pas encore d'évaluation
Data Mining Projet-M
12 pages
Classification Clients en Microfinance
Pas encore d'évaluation
Classification Clients en Microfinance
63 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
Mémoire Corrigé
Pas encore d'évaluation
Mémoire Corrigé
50 pages
Cours BDRENSI
100% (1)
Cours BDRENSI
214 pages
TPPré-traitement Des Donnée
Pas encore d'évaluation
TPPré-traitement Des Donnée
23 pages
Chapitre 3-Apprentissage Non Supervisé
Pas encore d'évaluation
Chapitre 3-Apprentissage Non Supervisé
85 pages
Partie 3-Data Mining - DRC - 2021-2022
Pas encore d'évaluation
Partie 3-Data Mining - DRC - 2021-2022
47 pages
MONDRIAN Jpivot Final
Pas encore d'évaluation
MONDRIAN Jpivot Final
26 pages
Chap.01 Intro 18-19 2
Pas encore d'évaluation
Chap.01 Intro 18-19 2
9 pages
K-Means et méthode du coude
Pas encore d'évaluation
K-Means et méthode du coude
47 pages
Data Mining CAH
Pas encore d'évaluation
Data Mining CAH
18 pages
Traitement Image 2
Pas encore d'évaluation
Traitement Image 2
74 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
16 pages
Algorithmes de Régression en ML
Pas encore d'évaluation
Algorithmes de Régression en ML
5 pages
Azizi Cour FD
Pas encore d'évaluation
Azizi Cour FD
48 pages
Système décisionnel pour gestion des ventes
Pas encore d'évaluation
Système décisionnel pour gestion des ventes
36 pages
Data Warehouse Data Mining-Série 1 PDF
100% (2)
Data Warehouse Data Mining-Série 1 PDF
2 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
164 pages
Cours Analyse de Données
Pas encore d'évaluation
Cours Analyse de Données
39 pages
Support TP DataPreprocessing
100% (1)
Support TP DataPreprocessing
2 pages
Introduction au Data Mining et Machine Learning
Pas encore d'évaluation
Introduction au Data Mining et Machine Learning
42 pages
Data Mining Chapitre 2 - Méthodes de Prétraitements Et Préparation de Données
50% (2)
Data Mining Chapitre 2 - Méthodes de Prétraitements Et Préparation de Données
10 pages
TP1: Python et Machine Learning
Pas encore d'évaluation
TP1: Python et Machine Learning
2 pages
Apprentissage: Régression Logistique
Pas encore d'évaluation
Apprentissage: Régression Logistique
3 pages
IA Appliquée pour Ingénieurs GE
Pas encore d'évaluation
IA Appliquée pour Ingénieurs GE
42 pages
ML PR
Pas encore d'évaluation
ML PR
66 pages
Exploration des Données et KDD
100% (1)
Exploration des Données et KDD
46 pages
Resume Du Cours Mef
Pas encore d'évaluation
Resume Du Cours Mef
20 pages
Syllabus Politique de Financement L3 STCF 2021
Pas encore d'évaluation
Syllabus Politique de Financement L3 STCF 2021
4 pages
Refroidisseurs À Vis À Condensation Par Eau Et Pompes À Chaleur Eau-Eau Xstream™
Pas encore d'évaluation
Refroidisseurs À Vis À Condensation Par Eau Et Pompes À Chaleur Eau-Eau Xstream™
20 pages
Analyse Granulométrique des Sols
50% (2)
Analyse Granulométrique des Sols
12 pages
Tp25 - CR Cosmeto A Completer
Pas encore d'évaluation
Tp25 - CR Cosmeto A Completer
7 pages
Jenny Final
Pas encore d'évaluation
Jenny Final
17 pages
Problèmes de Trajectoires de Projectiles
Pas encore d'évaluation
Problèmes de Trajectoires de Projectiles
1 page
Support de Cours de DAO L1 Construction ISPT
Pas encore d'évaluation
Support de Cours de DAO L1 Construction ISPT
70 pages
Étude Circuits Sinusoïdaux Permanents
Pas encore d'évaluation
Étude Circuits Sinusoïdaux Permanents
24 pages
Guide des Cotes de Fabrication
Pas encore d'évaluation
Guide des Cotes de Fabrication
9 pages
Statistique Chapitre 1 2
Pas encore d'évaluation
Statistique Chapitre 1 2
23 pages
Tests de Logique Psychotechnique
Pas encore d'évaluation
Tests de Logique Psychotechnique
6 pages
2eme Seance 18 Sept2017 Diagrammes Unaires Suite Introduction Diagrammes Binaires
Pas encore d'évaluation
2eme Seance 18 Sept2017 Diagrammes Unaires Suite Introduction Diagrammes Binaires
32 pages
Fabrication de La Brique
0% (1)
Fabrication de La Brique
6 pages
Lase9 Stat + Exos Et Exam Corriges
Pas encore d'évaluation
Lase9 Stat + Exos Et Exam Corriges
21 pages
Marchés Financiers et Gestion de Portefeuille
100% (3)
Marchés Financiers et Gestion de Portefeuille
54 pages
Presentation - Mémoire 27 - 10 - 2018 Kra Franck
100% (1)
Presentation - Mémoire 27 - 10 - 2018 Kra Franck
12 pages
Caractéristiques de sécurité routière
Pas encore d'évaluation
Caractéristiques de sécurité routière
11 pages
TARF-00-QAC-QCP-011 Rév.B2 - QCP MONTAGE CABLE ELECTRIQUE
Pas encore d'évaluation
TARF-00-QAC-QCP-011 Rév.B2 - QCP MONTAGE CABLE ELECTRIQUE
12 pages
Finesse du Ciment: Mesure et Impact
Pas encore d'évaluation
Finesse du Ciment: Mesure et Impact
5 pages
Exercice 1:: CPGE-Lycée Technique Settat Année Scolaire 2024/2025
Pas encore d'évaluation
Exercice 1:: CPGE-Lycée Technique Settat Année Scolaire 2024/2025
2 pages
Pdfslide - Tips Maths Au Ce2 p1 Maths Au Ce2 Calculs 81 278569 Je Sais Poser Et Calculer Des
Pas encore d'évaluation
Pdfslide - Tips Maths Au Ce2 p1 Maths Au Ce2 Calculs 81 278569 Je Sais Poser Et Calculer Des
16 pages
Controle N1S1 2024.25 - CORRECTION
Pas encore d'évaluation
Controle N1S1 2024.25 - CORRECTION
3 pages
Depannage Perkins
Pas encore d'évaluation
Depannage Perkins
160 pages
Note de Calcul Locaux
Pas encore d'évaluation
Note de Calcul Locaux
20 pages
CGU Boulogne-sur-Mer : Licence Économie-Gestion
Pas encore d'évaluation
CGU Boulogne-sur-Mer : Licence Économie-Gestion
22 pages
Titrage du Fer II par Permanganate de Potassium
Pas encore d'évaluation
Titrage du Fer II par Permanganate de Potassium
4 pages
TD Induction
Pas encore d'évaluation
TD Induction
5 pages
Introduction à la cytométrie en flux
Pas encore d'évaluation
Introduction à la cytométrie en flux
56 pages
L. de Heusch Claude Lévi-Strauss, Les Structures Élémentaires de La Parenté - The Elementary Structures of Kinship
Pas encore d'évaluation
L. de Heusch Claude Lévi-Strauss, Les Structures Élémentaires de La Parenté - The Elementary Structures of Kinship
10 pages