0% ont trouvé ce document utile (0 vote)
134 vues81 pages

Applications et méthodologie du Data Mining

Ce document décrit le processus de fouille de données (data mining). Il introduit le sujet, définit les termes clés, présente les principales étapes de la méthodologie et donne des exemples d'applications du data mining.

Transféré par

Salma Bennour
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
134 vues81 pages

Applications et méthodologie du Data Mining

Ce document décrit le processus de fouille de données (data mining). Il introduit le sujet, définit les termes clés, présente les principales étapes de la méthodologie et donne des exemples d'applications du data mining.

Transféré par

Salma Bennour
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

Data Mining

 Introduction générale
Principales applications
Méthodologie du DM
Exemples de fonctionnement

1
Introduction générale

 Par analogie à la recherche des pépites d ’or


dans un gisement, la fouille de données vise :
 à extraire des informations cachées par analyse
globale
 à découvrir des modèles (“patterns”) difficiles à
percevoir car:
 le volume de données est très grand
 le nombre de variables à considérer est important

 ces “patterns” sont imprévisibles (même à titre


d ’hypothèse à vérifier)
2
Introduction générale

 Le data mining, dans sa forme et compréhension


actuelle, à la fois comme champ scientifique et
industriel, est apparu au début des années 90.
 la combinaison de nombreux facteurs à la fois
technologiques, économiques et même
sociopolitiques.
 nécessité imposée par le besoin des entreprises de
valoriser les données qu’elles accumulent dans
leurs bases.
3
Introduction générale

 data mining VS knowledge discovery in


data bases (KDD)
Le data mining est l’un des maillons de la
chaîne de traitement pour la découverte des
connaissances à partir des données. Sous
forme imagée, nous pourrions dire que
l’ECD est un véhicule dont le data mining est
le moteur.
4
Introduction générale

Data mining VS informatique décisionnelle


L’informatique décisionnelle (… BI pour Business
Intelligence) désigne les moyens, les outils et les méthodes qui
permettent de collecter, consolider, modéliser et restituer les
données d'une entreprise en vue d'offrir une aide à la décision
et de permettre aux responsables de la stratégie d'une entreprise
d’avoir une vue d’ensemble de l’activité traitée.
Le Data Mining est proche de ce cadre, mais
il introduit une dimension supplémentaire
qui est la modélisation « exploratoire »
(détection des liens de cause à effet,
validation de leur reproductibilité)!

5
Définition

 Data mining
 ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen

Données Data Connaissances


entrepôt mining
Découverte de Compréhension
modèles Prédiction
6
Définitions

 Les données peuvent être stockées dans des


entrepôts (data warehouse), dans des bases de
données distribuées ou sur Internet.
 Le data mining ne se limite pas au traitement des
données structurées sous forme de tables
numériques; il offre des moyens pour aborder les
corpus en langage naturel (text mining), les images
(image mining), le son (sound mining) ou la vidéo et
dans ce cas, on parle alors plus généralement de
multimedia mining.
7
Définitions

 Knowledge Discovery in Databases (KDD)


 Processus complet d’Extraction de Connaissance des
Données (ECD)
 Comprend plusieurs phases dont le data mining
 Exemples
 analyses (distribution du trafic en fonction de l ’heure)
 scores (fidélité d ’un client), classes (mauvais payeurs)
 règles (si facture > 10000 et mécontent > 0.5 alors
départ à 70%)

8
Définitions

 L’ECD est un processus complexe qui se


déroule suivant une série d’opérations.
 Des étapes de pré-traitement ont lieu avant
le data mining en tant que tel.
 Le pré-traitement porte sur l’accès aux
données en vue de construire des datamarts,
des corpus de données spécifiques.
.
9
Définitions

 Le prétraitement concerne la mise en forme


des données entrées selon leur type
(numériques, symboliques, images, textes,
sons), ainsi que le nettoyage des données, le
traitement des données manquantes, la
sélection d’attributs ou la sélection
d’instances.

10
Les premières phases sont cruciales car du
Le processus de KDD
choix des descripteurs et de la connaissance
précise de la population va dépendre la mise
au point des modèles de prédiction.
L’information nécessaire à la construction
d’un bon modèle de prévision peut être
disponible dans les données mais un choix
inapproprié de variables ou d’échantillon
d’apprentissage peut faire échouer
l’opération!

11
Etapes du processus KDD

 1. Compréhension du domaine d’application


 2. Création du fichier cible (target data set)
 3. Traitement des données brutes (data cleaning and preprocessing)
 4. Réduction des données (data reduction and projection)
 5. Définition des tâches de fouille de données
 6. Choix des algorithmes appropriés de fouille de données
 7. Fouille de données (data mining)
 8. Interprétation des formes extraites (mined patterns)
 9. Validation des connaissances extraites
 (source : Fayyat et al., 1996, p. 1-34)

12
2. Domaines d'application

 Les techniques de data mining ont été employées


avec beaucoup de succès dans de grands secteurs
d’application : la gestion de la relation client (GRC)
– ou customer relationship management (CRM) –,
la gestion des connaissances – knowledge
management – ou l’indexation de documents.
Aucun domaine d’application n’est a priori exclu
car dès que nous sommes en présence de données
empiriques, le data mining peut rendre de
nombreux services.
13
Domaines d'application

 De plus en plus avec :


 explosion des données historisées
 puissance des machines support
 nombreux datawarehouses
 OLAP limité
 nécessité de mieux comprendre
 rapports sophistiqués, prédictions
 aide efficace aux managers
14
Quelques domaines réputés

 Analyse de risque (Assurance)


 Marketing
 Médecine, Pharmacie
 Analyse financière
 Gestion de stock
 Contrôle de qualité
…

15
Churn Analysis

 Application de télécom
 Bases de données des clients et des appels
 Fichiers des réclamations
 Qui sont les clients les plus susceptibles de
partir ?
 Application de techniques de DM
 Fichiers de 1000 clients les plus risqués
 600 ont quittés dans les 3 mois
16
3. Méthodologie -1

 1. Identifier le  2. Préparer les données


problème  préciser les sources
 cerner les objectifs  collecter les données
 trouver les sources  nettoyer les données
 définir les cibles  transformer les données
 vérifier les besoins  intégrer les données

17
Méthodologie - 2

 3. Explorer des modèles  5. Suivre le modèle


 choisir une technique  bâtir des estimateurs
 échantillonner sur un groupe
 corriger et affiner le
 valider sur le reste (5% à
1/3) modèle
 calculer le  d ’erreurs
 4. Utiliser le modèle
 observer la réalité
 recommander des actions

18
Préparation des données

 Acquisition
 Les données peuvent être localisées sur des sites différents de celui où s’effectue
l’ECD.
 Elles peuvent être stockées selon des architectures variées: dans des bases de
données relationnelles, dans des entrepôts de données, sur le web ou dans des
banques de données spécialisées (images, bibliothèques ou librairies
numériques, base de données génomiques).
 Elles peuvent être structurées ou non selon différents types: données tabulaires
ou textuelles, images, sons ou séquences vidéo.
 En ECD, l’analyste, qu’il soit ingénieur de la connaissance ou statisticien, doit
avoir un problème relativement bien délimité. Il ne se lance pas dans l’ECD sans
avoir une certaine idée des objectifs de son opération et des moyens
informationnels et technologiques dont il dispose.

19
Préparation des données

 Acquisition
 Exemple : Si on souhaite comprendre pourquoi certains de ses clients se sont tournés vers
une entreprise concurrente ou on cherche à mieux connaître son activité selon différents
critères. Toutes les données disponibles et accessibles au niveau de l’entrepôt ne sont
certainement pas utiles dans leur intégralité pour traiter son problème particulier. Il ne
viendrait à l’esprit d’aucun spécialiste en data mining de télécharger tout le contenu du
web (évalué à plusieurs milliards de pages) pour en extraire des connaissances, d’autant
plus que le contenu du web change quasiment à tout instant.
 La phase d’acquisition vise ainsi à cibler, même de façon grossière, l’espace des données
qui va être exploré, le spécialiste du data mining agit ainsi un peu à l’image du géologue
qui définit des zones de prospection
 certaines parties de données seront probablement vite abandonnées car elles ne recèlent
aucun ou peu de minerais.
 L’acquisition met en œuvre des requêtes ad hoc pour rapatrier les données potentiellement
utiles selon le point de vue de l’expert. Le processus d’ECD n’est pas linéaire car il arrive
aussi que l’on revienne, après analyse, rechercher de nouvelles données
20
Préparation des données
 Pré-traitement
 Les données issues des entrepôts ne sont pas nécessairement toutes exploitables par des
techniques de fouille de données.
 la plus part des techniques DM ne traitent que des tableaux de données numériques
rangées sous forme lignes/colonnes.
 Certaines méthodes sont plus contraignantes que d’autres. Elles peuvent par exemple
exiger des données binaires, comme c’est le cas des premières techniques de recherche de
règles d’association.
 Les données acquises depuis l’entrepôt peuvent être de types différents. On peut y trouver
des textes de longueur variables, des images, des enregistrements quantitatifs ou des
séquences vidéo.
21
Préparation des données

 Pré-traitement
 Homogénéiser les données et les disposer en tableau lignes/colonne.
 chaque ligne/colonne peut être considérée comme un objet vecteur ayant
un nombre fixe de composantes.
Les principales opérations de préparation peuvent être listées comme suit:
 Sélection de ligne/colonne
 Le traitement des données manquantes ou aberrantes
 Les transformations d’attributs
 La construction d’agrégats
 Le traitement des données complexes.

22
Préparation des données
 Pré-traitement
Sélection de ligne/colonne
 Elle s’effectue sur des données qui sont déjà sous forme tabulaire.
 Il s’agit ensuite de définir un filtre qui permet de sélectionner un sous-ensemble de
lignes ou de colonnes.
 L’objectif est soit de réduire le nombre de données soit de sélectionner les lignes ou
colonnes les plus pertinentes par rapport aux préoccupations de l’expert.
 Les techniques mises en œuvre dans ce but relèvent des méthodes statistiques
d’échantillonnage, de sélection d’instances ou de sélection d’attributs.
 Cette sélection peut également s’effectuer selon des conditions exprimées par
l’utilisateur.
Exemple : on peut ne garder que les attributs dont la moyenne est supérieure à un seuil
donné ou ne conserver que les attributs qui ont un lien statistique significatif avec un
attribut particulier. Ce lien sera évalué à l’aide d’une mesure d’association comme le
khi-2 de Pearson ou le gain informationnel.

23
Préparation des données

 Pré-traitement
Le traitement des données manquantes ou aberrantes
 Certaines données peuvent être absentes et gêner ainsi l’analyse.
 Définir des règles pour gérer ou pour remplacer ces données
manquantes.
 De nombreuses solutions sont proposées, comme le remplacement, dans
le cas des données numériques continues, de toute donnée manquante
par le mode de la distribution statistique (la valeur la plus fréquente) de
l’attribut concerné,
 On peut également chercher à estimer ces valeurs manquantes par des
méthodes d’induction comme la régression, les réseaux de neurones
simples ou multicouches, ou les graphes d’induction.

24
Préparation des données

 Pré-traitement
Le traitement des données manquantes ou aberrantes
 Pour le traitement des données aberrantes, il faut d’abord repérer ces
dernières au moyen d’une règle préétablie. Par exemple, toutes les
données numériques dont la valeur sur un attribut donné s’écarte de la
valeur moyenne plus deux fois l’écart-type, pourraient être considérées
comme des données possiblement aberrantes et qu’il conviendrait de
traiter.
 « Une valeur aberrante est une valeur extrême, anormalement différente de la
distribution d’une variable. En d’autres termes, la valeur de cette observation diffère
grandement des autres valeurs de la même variable »

25
Préparation des données

 Pré-traitement
Les transformations d’attributs
 Il s’agit de transformer un attribut A en une autre variable A’ qui serait,
selon les objectifs de l’étude, plus appropriée.
 Différentes méthodes sont pratiquées comme la discrétisation qui
consiste à transformer des attributs continus en découpant le domaine de
valeurs de ces attributs en intervalles afin d’obtenir des attributs
qualitatifs.

26
Préparation des données

 Pré-traitement
La construction d’agrégats
• Dans certaines situations particulières, il peut s’avérer que des agrégats
d’attributs soient très importants pour la tâche d’analyse.
• Un agrégat d’attribut est un nouvel attribut obtenu selon une
transformation précise.
Exemple : le prix au mètre-carré d’un appartement, défini par le rapport
entre le prix de l’appartement et la surface totale de l’appartement,
fournit une indication assez pertinente pour comparer les appartements
ou les quartiers dans les bases de données spatiales. Parmi les méthodes
de construction d’agrégats les plus utilisées, les méthodes factorielles
telles que l’analyse en composantes principales (ACP) ou l’analyse des
correspondances multiples (ACM) sont largement utilisées.
27
Explorer des modèles :
‘SEMMA , CRISP…
 Dans l'environnement des affaires, les projets de data
mining complexes peuvent nécessiter de coordonner les
efforts de divers experts, investisseurs ou départements
d'une organisation toute entière.

 Dans la littérature sur le data mining, plusieurs "cadres


généraux" sont proposés en tant que "bleus" sur la manière
d'organiser le processus de récupération des données,
d'analyse des données, de répartition des résultats,
d'implémentation des résultats et de contrôle des
améliorations
28
Explorer des modèles :
‘SEMMA , CRISP…
 L'un de ces modèles, CRISP (Cross-Industry
Standard Process pour data mining), a été
proposé au milieu des années 1990 par un
consortium Européen de compagnies pour être
utilisé en tant que modèle non propriétaire de
traitement standard pour le data mining. Cette
approche générale postule la séquence
d'étapes suivante pour les projets de data
mining
29
Explorer des modèles :
‘SEMMA , CRISP…

30
Explorer des modèles :
‘SEMMA , CRISP…
 Une autre approche - la méthodologie Six Sigma - est une
méthodologie bien structurée, basée sur les données pour
éliminer les pièces défectueuses, les déchets ou les
problèmes de contrôle qualité de tous ordres dans la
production, les sociétés de service, et autres activités
commerciales. Ce modèle est récemment devenu très
populaire (en raison de ses développements réussis) dans
diverses industries Américaines, et il semble gagner les
faveurs du monde entier. Il postule une séquence d'étapes
appelée DMAIC –

31
Explorer des modèles :
‘SEMMA , CRISP…

Un autre cadre de ce type (vraiment similaire à Six


Sigma) est l'approche proposée par SAS Institute,
appelée SEMMA -

32
Explorer des modèles :
‘SEMMA , CRISP…
 Sampling = Échantillonner
 tirer un échantillon significatif pour extraire les modèles
 Exploration = Explorer
 devenir familier avec les données (patterns)
 Manipulation = Manipuler
 ajouter des informations, coder, grouper des attributs
 Modelling = Modéliser
 construire des modèles (statistiques, réseaux de neuronnes, arbres
de décisions, règles associatives, …)
 Assessment = Valider
 comprendre, valider, expliquer, répondre aux questions

33
Explorer des modèles

 Exploration de données
 Cette phase fait appel à de multiples méthodes issues de la statistique, de
l’apprentissage automatique, de la reconnaissance de formes ou de la
visualisation.
 Les méthodes de data mining permettent de découvrir ce que
contiennent les données comme informations ou modèles utiles.
 Trois catégories de méthodes de fouille de données, se distinguent :
Les méthodes de visualisation et de description.
Les méthodes de classification et de structuration.
Les méthodes d’explication et de prédiction.

34
Explorer des modèles

 Exploration de données

NB: Certaines méthodes sont mieux adaptées à


des données numériques continues alors que
d’autres sont plus généralement dédiées aux
traitements de tableaux de données
qualitatives.

35
Explorer des modèles

 Les méthodes de visualisation et de


description
 L’objectif de ces méthodes est de permettre à l’analyste
d’avoir une compréhension synthétique de l’ensemble de ses
données.
 Il s’agit donc principalement d’outils de synthèse
d’information. Cette synthèse peut s’exprimer par des
indicateurs statistiques. Par exemple, pour des attributs
quantitatifs, les indicateurs les plus utilisés sont la moyenne,
l’écart-type, le mode et la médiane
36
Explorer des modèles

 Pour des attributs qualitatifs, on associe généralement la


distribution selon les modalités de l’attribut. Ces indicateurs
statistiques, qu’ils soient descriptifs de la tendance centrale,
des positions ou de la dispersion nous renseignent
pleinement sur une caractéristique particulière de la
population. Ils sont généralement représentés par des
graphiques, car plus faciles à interpréter, comme les boites
de Tuckey, les distributions (densités ou fonctions de
répartition), les nuages de points. On trouve dans les
logiciels de data mining une kyrielle de formes
géométriques et de styles de présentation de ces concepts.
37
Explorer des modèles

 Exp : Considérons le cas d’une banque qui


enregistre l’ensemble des transactions
commerciales, soit plusieurs millions par an,
qu’elle réalise avec ses clients: retraits, prêts,
dépôts, etc. Cette banque souhaite
développer un plan d’étude visant à mieux
connaître sa clientèle.

38
Explorer des modèles

 Parmi les facteurs qui intéressent la banque dans le


cadre d’une première approche du problème
figurent l’âge des clients, les montants des crédits
qui leur sont alloués, les villes de résidences des
clients, les destinations des prêts (acquisition d’une
maison, d’une voiture ou d’un équipement
domestique) et la période de l’année (par exemple
le numéro du trimestre).

39
Explorer des modèles

Le schéma de la figure suivante représente un processus de


data mining orienté vers la visualisation et la description. Pour
simplifier la présentation, le tableau des données (CREDITS)
ne contient que 1000 clients. Les traitements qui figurent aux
extrémités des flèches synthétiseront les données des clients de
cette banque selon différentes caractéristiques, qu’elles soient
numériques ou graphiques.

40
Explorer des modèles

41
Explorer des modèles

 Les représentations graphiques


 Statistiques élémentaires: Elles sont
calculées sur deux attributs quantitatifs: l’âge
du client et le montant du crédit qui lui a été
alloué.

42
Explorer des modèles
 Nuage de points: Il croise les attributs durée et
montant du crédit. Il s’agit là d’une description
bidimensionnelle.
 Elle permet de visualiser, entre autre, si un lien
existe ou pas entre ces deux facteurs. Sur ce
graphique on peut déjà noter l’existence de points
marginaux (des points isolés) sur lesquels on peut
s’interroger : est-ce qu’il s’agit de points aberrants
ou de points atypiques ?
 Une liaison faible existe entre le montant et la
durée. En bref, ce type de graphique peut être enrichi
en faisant figurer par exemple, pour chaque point,
une couleur différente selon que le client est un
homme ou une femme. On peut complexifier encore
davantage le graphique mais il ne faut pas perdre de
vue l’objectif d’une telle représentation :
comprendre en un coup d’œil ce qu’il y a
d’informatif dans les données.
43
Explorer des modèles
 Graphe de
contingence: Il donne
les effectifs croisés entre le
type d’activité (employé,
sans qualification, avec
qualification, encadrement)
et le statut familial (homme
ou femme, célibataire,
marié(e), divorcé(e) ou
veuf(ve)).

44
Explorer des modèles
 Graphe de contingence La hauteur de la barre est
proportionnelle à l’effectif qui se trouve au croisement de
deux modalités. Le concept des tableaux de contingence a
été relativement bien exploité dans le domaine de la
visualisation des données multidimensionnelles. En effet,
les systèmes OLAP exploitent essentiellement des tableaux
de contingence tri-dimensionnels appelés des cubes. A
l’intersection d’un ensemble, ou tuple, de trois modalités,
appelées dans la terminologie OLAP « dimensions », se
trouve un indicateur comme l’effectif ou la moyenne d’un
quatrième attribut.

45
Explorer des modèles

Les cubes de données : Les attributs


statut, achat et profession en sont les
dimensions. Sur Chaque case, croisement
de 3 modalités, figure l’agrégat.
Dans ce cas, il s’agit de l’effectif mais on
aurait pu imaginer afficher le montant
moyen des crédits demandés par les
individus de cette case ou la distribution
des montants demandés.

46
Explorer des modèles

 Exp : explorer une sous population particulière par


une opération appelée roll up dans la terminologie
OLAP, on regroupe les modalités mariés et
célibataires afin d’avoir hommes d’un côté et les
femmes de l’autre.

47
Explorer des modèles

 Exp : par une opération de drill down ,on


peut approfondir l’analyse sur un niveau de
détail plus fin. Par exemple, sur la figure on
a détaillé le solde moyen mensuel au lieu du
trimestriel.

48
Explorer des modèles

49
Explorer des modèles
 Les arbres
 On peut imaginer d’autres opérations sur des tableaux à p
dimensions. Dans ce cas, il faudra utiliser une représentation
par un arbre n-aire.

50
Explorer des modèles

 Sur un arbre, chaque nœud correspond à une


cellule de l’hyper-cube. Nous pouvons
représenter qu’une partie de l’arbre qui nous
intéresse. A l’intérieur de chaque feuille ou
sommet de l’arbre il est possible de
représenter des informations statistiques
numériques ou graphiques sur des agrégats.

51
Explorer des modèles

 L’analyse des données multidimensionnelles


 Il arrive très souvent qu’une description selon un ou deux
attributs ne soit pas satisfaisante et que l’utilisateur souhaite
prendre en compte simultanément la totalité des attributs.
Nos possibilités visuelles ne nous permettent
malheureusement pas de voir des objets qui sont dans des
espaces à plus de 3 dimensions.
 L’analyse des données multidimensionnelles nous fournit le
moyen d’accéder à cette description et de visualiser au
mieux les données sous leur forme résumée.

52
Explorer des modèles

 Les méthodes d’analyse des données multidimensionnelles opèrent sur


des tableaux numériques.
 Il peut s’agir d’un tableau de p mesures prises sur un ensemble de n
individus. Par exemple, sur l’ensemble des clients d’une banque, nous
disposons de l’âge, du montant moyen des retraits par mois, du montant
du découvert maximum constaté, du solde moyen, etc. Ainsi, un client
est alors caractérisé par un vecteur à p composantes.

 On peut considérer chaque client comme un point de l’espace euclidien


Rp

 L’ensemble des n clients forme alors un nuage de points plongé dans


Rp,
53
Explorer des modèles

 Les deux nuages de points ne sont pas visibles à l’œil nu dès


lors que p et n dépassent 3. Pour contourner cet handicap,
nous devons les projeter dans des espaces de faibles
dimensions: une droite, un plan ou un espace à trois
dimensions

54
Explorer des modèles

 Cette opération de projection est analogue à la prise d’une


photo par une caméra : des points de l’espace à trois
dimensions sont projetés sur la plaque photographique qui
est à deux dimensions.
 Indépendamment des considérations artistiques, les
différentes prises de vues d’une scène ne révèlent pas la
même information. Si nous cherchons un résumé qui se veut
être le plus fidèle possible de la réalité, nous devons
rechercher le sous espace de dimension 1, 2 ou 3 qui
conserve au mieux les proximités originales entre les points.
Sur la figure suivante, nous avons ainsi cherché le «
meilleur » plan de projection des points clients. 55
Explorer des modèles

Les axes Z1 et Z2 sont appelés des


facteurs. Ils fournissent une
représentation qui déforme le moins
possible les distances originales entre
points. Les principales méthodes utilisées
pour extraire ces facteurs sont l’analyse
en composantes principales et l’analyse
des. Elles s’appuient essentiellement sur
les résultats et les propriétés de l’algèbre
linéaire

56
Explorer des modèles

 Les méthodes de structuration et de classification


 En ECD, sans doute plus qu’ailleurs, nous avons affaire à
une profusion de données.
 Décrire ces données s’avère parfois difficile à cause de cette
volumétrie.
 L’utilisateur cherche souvent à identifier des groupes
d’objets semblables au sens d’une métrique donnée.
 Ces groupes peuvent par exemple correspondre à une réalité
ou à des concepts particuliers.

57
Explorer des modèles
 Les méthodes de structuration et de classification

58
Explorer des modèles

 Exemple : dans le domaine du marketing, il


est impensable de construire un message
spécifique pour chaque client potentiel. Un
service de marketing va chercher à identifier
des groupes d’individus semblables selon
différents critères de telle sorte que la
campagne soit ciblée sur quelques groupes.

59
Explorer des modèles
 Dans la réalité, l'homme a souvent beaucoup de mal à mémoriser de façon
individualisée un ensemble d'objets, surtout quand ils sont en très grand nombre.
 Par exemple, mémoriser toutes les espèces végétales ou animales est une tâche
extrêmement laborieuse, voire impossible, pour un humain.
 L'homme préfère généralement catégoriser ces objets en classes en fonction de
certaines propriétés communes ou en fonction d'un critère donné. Ces classes ou
ces catégories d'objets sont ensuite nommées.
 Par exemple, le monde animal est structuré en groupes: vertébrés ou invertébrés,
mammifères ou non, etc. Ainsi, toutes les espèces sont ventilées en fonction de
la présence ou non de certains attributs communs
 . Les techniques employées pour des opérations de classification relèvent de ce
que nous appelons l’apprentissage non supervisé. Nous parlons d'apprentissage
non supervisé car l'utilisateur ne sait pas a priori quelles classes, groupes ou
catégories il va obtenir. Ce mode d'apprentissage est également appelé «
apprentissage sans professeur »
60
Explorer des modèles

 Les méthodes de structuration et de classification


 Les principales techniques se répartissent en trois groupes: 
Les méthodes monothétiques dont l'objet est la recherche
de partitions sur l'ensemble des objets à classer, telles que
sur chaque classe, l'un des attributs Xi soit constant ou de
très faible variance.
 Par exemple, dans la classe des vertébrés, toutes les espèces
ont en commun la présence de vertèbres.
 Dans cette catégorie de méthodes, on peut citer la
segmentation de Williams et Lambert.

61
Explorer des modèles

62
Explorer des modèles
Algorithme :
Cette méthode de classification suppose que le tableau des données soit
binaire (absence/présence d’un attribut).
Le critère d’homogénéité pour caractériser les groupes est basé sur le lien
du khi-2.
L’algorithme segmente selon un attribut si les deux sous groupes générés
à partir d’un attribut binaire sont les plus homogènes au sens de ce critère.
Le processus est réitéré sur chaque nœud de manière indépendante jusqu’à
épuisement des attributs ou jusqu’à la satisfaction d’un critère d’arrêt
généralement fixé par l’utilisateur.
Le résultat est une hiérarchie de partitions où la racine de l’arbre contient
la partition grossière.

63
Validation d’un modèle

 Matrice de confusion
 comparaison des cas observés par rapport aux prédictions
 exemple : prédiction de factures impayées
Prédit Observé
Payé Retardé Impayé Total
Payé 80 15 5 100
Retardé 1 17 2 20
Impayé 5 2 23 30
Total 86 34 30 150
 Validité du modèle
 nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
64
Principales Techniques

 Dérivées
 des statistiques (e.g., réseaux bayésiens)
 de l'analyse de données (e.g., analyse en composantes)
 de l'intelligence artificielle (e.g., arbres de décision,
réseaux de neurones)
 des bases de données (e.g., règles associatives)
 Appliquées aux grandes bases de données
 Difficultés :
 passage à l'échelle et performance
 présentation et validation des résultats
65
4. Quelques produits

 Intelligent Miner d'IBM  Oracle 10g ODM


 modélisation prédictive
(stat.), groupage,
segmentation, analyse
d'associations, détection de  SQL Server DM
déviation, analyse de texte
libre
 SAS de SAS  DB2 V8
 Statistiques, groupage,
arbres de décision, réseaux
de neurones, associations, ...
 SPSS de SPSS
 statistiques, classification,
réseaux de neurones
66
Approches

 De multiples approches:
 Statistiques
 Classification
 Clustering
 Règles associatives
 …

67
Méthodes d'analyse
1 ... J ... p
1
.
.
Table
Table = i
.
.
n

1 ... J ... p 1 ... J ... p


1 1
. .
. .
Table = i Table = i
. .
. .
n n

Points dans Rp Points dans Rn


68
Familles de méthodes

Nuage de points

Visualisation dans Regroupement


Le meilleur espace réduit dans tout l'espace

METHODES STATISTIQUES METHODES DE CLASSIFICATION,


ET FACTORIELLES SUPERVISEE OU NON …
69
5. Méthodes statistiques

 Quelques techniques de base

 A la limite du DM

 Calculs d'information sophistiqués

70
Fonctions Statistiques

 Espérance
 permet de calculer la moyenne pondérée d'une
colonne pi = 1/N par défaut
 Variance
 traduit la dispersion de la distribution de la v.a.
autour de sa valeur moyenne.
 Variable centrée réduite
 Permet d'éliminer le facteur dimension
71
Diagrammes en bâtons
Catégorie d'employé
400

 Comptage de fréquence 300

 COUNT 200

 Extension aux calculs 100

Fréquence
d'agrégats 0
Secrétariat Cadre Responsable

AVG, MIN, MAX, …


Catégorie d'employé

 Possibilité d'étendre au
100

3D 80
60
North
East
West
40
North
 Apporte une vision
West
20
East
0
1st 2nd 3rd 4th

synthétique Qtr Qtr Qtr Qtr

72
Tableaux croisés
(Vision 2D du Datacube)
Tableau croisé Catégorie d'employé * Sexe de l'employé * Classe minoritaire ?

Classe minoritaire ?: Non


Effectif Effectif théorique
Catégorie Secrétariat Sexe de l'employé Masculin 110 144,7
d'employé Féminin 166 131,3
Total 276 276,0
Cadre Sexe de l'employé Masculin 14 7,3
Féminin 0 6,7
Total 14 14,0
Responsable Sexe de l'employé Masculin 70 41,9
Féminin 10 38,1
Total 80 80,0
Total Sexe de l'employé Masculin 194 194,0
Féminin 176 176,0
Total 370 370,0

Effectif théorique = calculé par une loi de distribution


(uniforme)
73
Corrélation

 Covariance
 La covariance peut être vue comme le moment centré
conjoint d'ordre 1 de deux v.a.
 Si les deux v.a. sont indépendantes, alors leur covariance
est nulle (mais la réciproque n'est pas vraie en général).
 Coefficient de corrélation
 Elimine le facteur dimension
 mesure la qualité de la relation linéaire entre deux
variables aléatoires

74
Droite de régression

$160,000
Salaire actuel = 1928,21 + 1,91 * saldeb
Régression linéaire
R-Deux = 0,77
199

$120,000
Y=aX+b
120

70
Salaire actuel

 


  

 
 
$80,000 
   
  
    
   
      
     

     
   
 
   

     

$40,000    

  
  
 
 




$20,000 $40,000 $60,000 $80,000

Salaire d'embauche

75
Test du 2

 Détermine l'existence d'une dépendance


entre deux variables
 Exemple : salaire d'embauche, niveau d'étude
 Compare la distribution des variables par
rapport à une courbe théorique supposant
l'indépendance

76
De nombreuses fonctions

 Test t sur moyenne


 ANOVA
 Analyses de variance sophistiquées
 Corrélation partielle
 Régresion logistique
 Séries chronologiques
 Lissage exponentiel, Moyenne mobile, …
 Comparaison
…
77
Calculs en SQL

 Introduction de fonctions d'agrégats


 AVG = moyenne
 MAVG = moyenne mobile
 STDDEV = écart type
 VARIANCE = variance
 COVARIANCE = covariance
 …
 Exemple
 SELECT COVARIANCE(SALAIRE_ACTU,
SALAIRE_EMB)
 FROM EMPLOYEE
 WHERE GRADE = "ingénieur"
 GROUP BY SEXE
78
Statistiques: Conclusion

 Calculs statistiques sur variables


 Mono ou bi-variées
 Résumé des données
 Observation de dépendances
 Peu de modèles prédictifs ...
 La plupart sont faisables avec SQL OLAP
 Extensions cube et rollup
 Extensions avec fonctions d'agrégats
79
6. Conclusion

 Le data mining vise à  Questions ?


découvrir des modèles à
partir de grandes bases de
 Quoi de nouveau par
faits connus rapport à l'IA et aux
(datawarehouse) statistiques ?
 Le processus de
construction de modèles
est complexe
 préparer les données
 modéliser 1/3 de la base
 valider sur 2/3
 expérimenter plusieurs
modèles
80
DM, Stat., IA
DM Stat. IA
Tableau individu -variable Formalisme de la logique
Calculs numériques Induction/déduction
Recherche de règles Méthodes de discrimination Apprentissage supervisé/ex.
de classement Réseaux de neuronnes -Génèr° de règles
Segmentation -Constr° d'arbre de décision
-Raisonnement à base de cas
Régression Méthodes de régression
Réseaux de neuronnes _
Classification Classif° automatique hiérarchique Apprentissage non supervisé
automatique Partitionnement -Classif° conceptuelle
Réseaux de neuronnes
Description Stat. Élémentaire (histogramme, Apprentissage non supervisé
synthétique moy, écart-type) -Généralisation
Outils d'interprét° de classes
Méthodes factorielles (ACP)
Recherche de Corrélations Apprentissage non supervisé
dépendances Analyse factorielles des corr. -Généralisation
(AFC) -Recherche d'associations
Réseaux bayésiens
Détection de Test stat sur les écarts
déviations
_
81

Vous aimerez peut-être aussi