0% ont trouvé ce document utile (0 vote)

134 vues81 pages

Applications et méthodologie du Data Mining

Ce document décrit le processus de fouille de données (data mining). Il introduit le sujet, définit les termes clés, présente les principales étapes de la méthodologie et donne des exemples d'applications du data mining.

Transféré par

Salma Bennour

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

134 vues81 pages

Applications et méthodologie du Data Mining

Transféré par

Salma Bennour

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

Data Mining

 Introduction générale
Principales applications
Méthodologie du DM
Exemples de fonctionnement

1
Introduction générale

 Par analogie à la recherche des pépites d ’or

dans un gisement, la fouille de données vise :
 à extraire des informations cachées par analyse
globale
 à découvrir des modèles (“patterns”) difficiles à
percevoir car:
 le volume de données est très grand
 le nombre de variables à considérer est important

 ces “patterns” sont imprévisibles (même à titre

d ’hypothèse à vérifier)
2
Introduction générale

 Le data mining, dans sa forme et compréhension

actuelle, à la fois comme champ scientifique et
industriel, est apparu au début des années 90.
 la combinaison de nombreux facteurs à la fois
technologiques, économiques et même
sociopolitiques.
 nécessité imposée par le besoin des entreprises de
valoriser les données qu’elles accumulent dans
leurs bases.
3
Introduction générale

 data mining VS knowledge discovery in

data bases (KDD)
Le data mining est l’un des maillons de la
chaîne de traitement pour la découverte des
connaissances à partir des données. Sous
forme imagée, nous pourrions dire que
l’ECD est un véhicule dont le data mining est
le moteur.
4
Introduction générale

Data mining VS informatique décisionnelle

L’informatique décisionnelle (… BI pour Business
Intelligence) désigne les moyens, les outils et les méthodes qui
permettent de collecter, consolider, modéliser et restituer les
données d'une entreprise en vue d'offrir une aide à la décision
et de permettre aux responsables de la stratégie d'une entreprise
d’avoir une vue d’ensemble de l’activité traitée.
Le Data Mining est proche de ce cadre, mais
il introduit une dimension supplémentaire
qui est la modélisation « exploratoire »
(détection des liens de cause à effet,
validation de leur reproductibilité)!

5
Définition

 Data mining
 ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen

Données Data Connaissances

entrepôt mining
Découverte de Compréhension
modèles Prédiction
6
Définitions

 Les données peuvent être stockées dans des

entrepôts (data warehouse), dans des bases de
données distribuées ou sur Internet.
 Le data mining ne se limite pas au traitement des
données structurées sous forme de tables
numériques; il offre des moyens pour aborder les
corpus en langage naturel (text mining), les images
(image mining), le son (sound mining) ou la vidéo et
dans ce cas, on parle alors plus généralement de
multimedia mining.
7
Définitions

 Knowledge Discovery in Databases (KDD)

 Processus complet d’Extraction de Connaissance des
Données (ECD)
 Comprend plusieurs phases dont le data mining
 Exemples
 analyses (distribution du trafic en fonction de l ’heure)
 scores (fidélité d ’un client), classes (mauvais payeurs)
 règles (si facture > 10000 et mécontent > 0.5 alors
départ à 70%)

8
Définitions

 L’ECD est un processus complexe qui se

déroule suivant une série d’opérations.
 Des étapes de pré-traitement ont lieu avant
le data mining en tant que tel.
 Le pré-traitement porte sur l’accès aux
données en vue de construire des datamarts,
des corpus de données spécifiques.
.
9
Définitions

 Le prétraitement concerne la mise en forme

des données entrées selon leur type
(numériques, symboliques, images, textes,
sons), ainsi que le nettoyage des données, le
traitement des données manquantes, la
sélection d’attributs ou la sélection
d’instances.

10
Les premières phases sont cruciales car du
Le processus de KDD
choix des descripteurs et de la connaissance
précise de la population va dépendre la mise
au point des modèles de prédiction.
L’information nécessaire à la construction
d’un bon modèle de prévision peut être
disponible dans les données mais un choix
inapproprié de variables ou d’échantillon
d’apprentissage peut faire échouer
l’opération!

11
Etapes du processus KDD

 1. Compréhension du domaine d’application

 2. Création du fichier cible (target data set)
 3. Traitement des données brutes (data cleaning and preprocessing)
 4. Réduction des données (data reduction and projection)
 5. Définition des tâches de fouille de données
 6. Choix des algorithmes appropriés de fouille de données
 7. Fouille de données (data mining)
 8. Interprétation des formes extraites (mined patterns)
 9. Validation des connaissances extraites
 (source : Fayyat et al., 1996, p. 1-34)

12
2. Domaines d'application

 Les techniques de data mining ont été employées

avec beaucoup de succès dans de grands secteurs
d’application : la gestion de la relation client (GRC)
– ou customer relationship management (CRM) –,
la gestion des connaissances – knowledge
management – ou l’indexation de documents.
Aucun domaine d’application n’est a priori exclu
car dès que nous sommes en présence de données
empiriques, le data mining peut rendre de
nombreux services.
13
Domaines d'application

 De plus en plus avec :

 explosion des données historisées
 puissance des machines support
 nombreux datawarehouses
 OLAP limité
 nécessité de mieux comprendre
 rapports sophistiqués, prédictions
 aide efficace aux managers
14
Quelques domaines réputés

 Analyse de risque (Assurance)

 Marketing
 Médecine, Pharmacie
 Analyse financière
 Gestion de stock
 Contrôle de qualité
…

15
Churn Analysis

 Application de télécom
 Bases de données des clients et des appels
 Fichiers des réclamations
 Qui sont les clients les plus susceptibles de
partir ?
 Application de techniques de DM
 Fichiers de 1000 clients les plus risqués
 600 ont quittés dans les 3 mois
16
3. Méthodologie -1

 1. Identifier le  2. Préparer les données

problème  préciser les sources
 cerner les objectifs  collecter les données
 trouver les sources  nettoyer les données
 définir les cibles  transformer les données
 vérifier les besoins  intégrer les données

17
Méthodologie - 2

 3. Explorer des modèles  5. Suivre le modèle

 choisir une technique  bâtir des estimateurs
 échantillonner sur un groupe
 corriger et affiner le
 valider sur le reste (5% à
1/3) modèle
 calculer le  d ’erreurs
 4. Utiliser le modèle
 observer la réalité
 recommander des actions

18
Préparation des données

 Acquisition
 Les données peuvent être localisées sur des sites différents de celui où s’effectue
l’ECD.
 Elles peuvent être stockées selon des architectures variées: dans des bases de
données relationnelles, dans des entrepôts de données, sur le web ou dans des
banques de données spécialisées (images, bibliothèques ou librairies
numériques, base de données génomiques).
 Elles peuvent être structurées ou non selon différents types: données tabulaires
ou textuelles, images, sons ou séquences vidéo.
 En ECD, l’analyste, qu’il soit ingénieur de la connaissance ou statisticien, doit
avoir un problème relativement bien délimité. Il ne se lance pas dans l’ECD sans
avoir une certaine idée des objectifs de son opération et des moyens
informationnels et technologiques dont il dispose.

19
Préparation des données

 Acquisition
 Exemple : Si on souhaite comprendre pourquoi certains de ses clients se sont tournés vers
une entreprise concurrente ou on cherche à mieux connaître son activité selon différents
critères. Toutes les données disponibles et accessibles au niveau de l’entrepôt ne sont
certainement pas utiles dans leur intégralité pour traiter son problème particulier. Il ne
viendrait à l’esprit d’aucun spécialiste en data mining de télécharger tout le contenu du
web (évalué à plusieurs milliards de pages) pour en extraire des connaissances, d’autant
plus que le contenu du web change quasiment à tout instant.
 La phase d’acquisition vise ainsi à cibler, même de façon grossière, l’espace des données
qui va être exploré, le spécialiste du data mining agit ainsi un peu à l’image du géologue
qui définit des zones de prospection
 certaines parties de données seront probablement vite abandonnées car elles ne recèlent
aucun ou peu de minerais.
 L’acquisition met en œuvre des requêtes ad hoc pour rapatrier les données potentiellement
utiles selon le point de vue de l’expert. Le processus d’ECD n’est pas linéaire car il arrive
aussi que l’on revienne, après analyse, rechercher de nouvelles données
20
Préparation des données
 Pré-traitement
 Les données issues des entrepôts ne sont pas nécessairement toutes exploitables par des
techniques de fouille de données.
 la plus part des techniques DM ne traitent que des tableaux de données numériques
rangées sous forme lignes/colonnes.
 Certaines méthodes sont plus contraignantes que d’autres. Elles peuvent par exemple
exiger des données binaires, comme c’est le cas des premières techniques de recherche de
règles d’association.
 Les données acquises depuis l’entrepôt peuvent être de types différents. On peut y trouver
des textes de longueur variables, des images, des enregistrements quantitatifs ou des
séquences vidéo.
21
Préparation des données

 Pré-traitement
 Homogénéiser les données et les disposer en tableau lignes/colonne.
 chaque ligne/colonne peut être considérée comme un objet vecteur ayant
un nombre fixe de composantes.
Les principales opérations de préparation peuvent être listées comme suit:
 Sélection de ligne/colonne
 Le traitement des données manquantes ou aberrantes
 Les transformations d’attributs
 La construction d’agrégats
 Le traitement des données complexes.

22
Préparation des données
 Pré-traitement
Sélection de ligne/colonne
 Elle s’effectue sur des données qui sont déjà sous forme tabulaire.
 Il s’agit ensuite de définir un filtre qui permet de sélectionner un sous-ensemble de
lignes ou de colonnes.
 L’objectif est soit de réduire le nombre de données soit de sélectionner les lignes ou
colonnes les plus pertinentes par rapport aux préoccupations de l’expert.
 Les techniques mises en œuvre dans ce but relèvent des méthodes statistiques
d’échantillonnage, de sélection d’instances ou de sélection d’attributs.
 Cette sélection peut également s’effectuer selon des conditions exprimées par
l’utilisateur.
Exemple : on peut ne garder que les attributs dont la moyenne est supérieure à un seuil
donné ou ne conserver que les attributs qui ont un lien statistique significatif avec un
attribut particulier. Ce lien sera évalué à l’aide d’une mesure d’association comme le
khi-2 de Pearson ou le gain informationnel.

23
Préparation des données

 Pré-traitement
Le traitement des données manquantes ou aberrantes
 Certaines données peuvent être absentes et gêner ainsi l’analyse.
 Définir des règles pour gérer ou pour remplacer ces données
manquantes.
 De nombreuses solutions sont proposées, comme le remplacement, dans
le cas des données numériques continues, de toute donnée manquante
par le mode de la distribution statistique (la valeur la plus fréquente) de
l’attribut concerné,
 On peut également chercher à estimer ces valeurs manquantes par des
méthodes d’induction comme la régression, les réseaux de neurones
simples ou multicouches, ou les graphes d’induction.

24
Préparation des données

 Pré-traitement
Le traitement des données manquantes ou aberrantes
 Pour le traitement des données aberrantes, il faut d’abord repérer ces
dernières au moyen d’une règle préétablie. Par exemple, toutes les
données numériques dont la valeur sur un attribut donné s’écarte de la
valeur moyenne plus deux fois l’écart-type, pourraient être considérées
comme des données possiblement aberrantes et qu’il conviendrait de
traiter.
 « Une valeur aberrante est une valeur extrême, anormalement différente de la
distribution d’une variable. En d’autres termes, la valeur de cette observation diffère
grandement des autres valeurs de la même variable »

25
Préparation des données

 Pré-traitement
Les transformations d’attributs
 Il s’agit de transformer un attribut A en une autre variable A’ qui serait,
selon les objectifs de l’étude, plus appropriée.
 Différentes méthodes sont pratiquées comme la discrétisation qui
consiste à transformer des attributs continus en découpant le domaine de
valeurs de ces attributs en intervalles afin d’obtenir des attributs
qualitatifs.

26
Préparation des données

 Pré-traitement
La construction d’agrégats
• Dans certaines situations particulières, il peut s’avérer que des agrégats
d’attributs soient très importants pour la tâche d’analyse.
• Un agrégat d’attribut est un nouvel attribut obtenu selon une
transformation précise.
Exemple : le prix au mètre-carré d’un appartement, défini par le rapport
entre le prix de l’appartement et la surface totale de l’appartement,
fournit une indication assez pertinente pour comparer les appartements
ou les quartiers dans les bases de données spatiales. Parmi les méthodes
de construction d’agrégats les plus utilisées, les méthodes factorielles
telles que l’analyse en composantes principales (ACP) ou l’analyse des
correspondances multiples (ACM) sont largement utilisées.
27
Explorer des modèles :
‘SEMMA , CRISP…
 Dans l'environnement des affaires, les projets de data
mining complexes peuvent nécessiter de coordonner les
efforts de divers experts, investisseurs ou départements
d'une organisation toute entière.

 Dans la littérature sur le data mining, plusieurs "cadres

généraux" sont proposés en tant que "bleus" sur la manière
d'organiser le processus de récupération des données,
d'analyse des données, de répartition des résultats,
d'implémentation des résultats et de contrôle des
améliorations
28
Explorer des modèles :
‘SEMMA , CRISP…
 L'un de ces modèles, CRISP (Cross-Industry
Standard Process pour data mining), a été
proposé au milieu des années 1990 par un
consortium Européen de compagnies pour être
utilisé en tant que modèle non propriétaire de
traitement standard pour le data mining. Cette
approche générale postule la séquence
d'étapes suivante pour les projets de data
mining
29
Explorer des modèles :
‘SEMMA , CRISP…

30
Explorer des modèles :
‘SEMMA , CRISP…
 Une autre approche - la méthodologie Six Sigma - est une
méthodologie bien structurée, basée sur les données pour
éliminer les pièces défectueuses, les déchets ou les
problèmes de contrôle qualité de tous ordres dans la
production, les sociétés de service, et autres activités
commerciales. Ce modèle est récemment devenu très
populaire (en raison de ses développements réussis) dans
diverses industries Américaines, et il semble gagner les
faveurs du monde entier. Il postule une séquence d'étapes
appelée DMAIC –

31
Explorer des modèles :
‘SEMMA , CRISP…

Un autre cadre de ce type (vraiment similaire à Six

Sigma) est l'approche proposée par SAS Institute,
appelée SEMMA -

32
Explorer des modèles :
‘SEMMA , CRISP…
 Sampling = Échantillonner
 tirer un échantillon significatif pour extraire les modèles
 Exploration = Explorer
 devenir familier avec les données (patterns)
 Manipulation = Manipuler
 ajouter des informations, coder, grouper des attributs
 Modelling = Modéliser
 construire des modèles (statistiques, réseaux de neuronnes, arbres
de décisions, règles associatives, …)
 Assessment = Valider
 comprendre, valider, expliquer, répondre aux questions

33
Explorer des modèles

 Exploration de données
 Cette phase fait appel à de multiples méthodes issues de la statistique, de
l’apprentissage automatique, de la reconnaissance de formes ou de la
visualisation.
 Les méthodes de data mining permettent de découvrir ce que
contiennent les données comme informations ou modèles utiles.
 Trois catégories de méthodes de fouille de données, se distinguent :
Les méthodes de visualisation et de description.
Les méthodes de classification et de structuration.
Les méthodes d’explication et de prédiction.

34
Explorer des modèles

 Exploration de données

NB: Certaines méthodes sont mieux adaptées à

des données numériques continues alors que
d’autres sont plus généralement dédiées aux
traitements de tableaux de données
qualitatives.

35
Explorer des modèles

 Les méthodes de visualisation et de

description
 L’objectif de ces méthodes est de permettre à l’analyste
d’avoir une compréhension synthétique de l’ensemble de ses
données.
 Il s’agit donc principalement d’outils de synthèse
d’information. Cette synthèse peut s’exprimer par des
indicateurs statistiques. Par exemple, pour des attributs
quantitatifs, les indicateurs les plus utilisés sont la moyenne,
l’écart-type, le mode et la médiane
36
Explorer des modèles

 Pour des attributs qualitatifs, on associe généralement la

distribution selon les modalités de l’attribut. Ces indicateurs
statistiques, qu’ils soient descriptifs de la tendance centrale,
des positions ou de la dispersion nous renseignent
pleinement sur une caractéristique particulière de la
population. Ils sont généralement représentés par des
graphiques, car plus faciles à interpréter, comme les boites
de Tuckey, les distributions (densités ou fonctions de
répartition), les nuages de points. On trouve dans les
logiciels de data mining une kyrielle de formes
géométriques et de styles de présentation de ces concepts.
37
Explorer des modèles

 Exp : Considérons le cas d’une banque qui

enregistre l’ensemble des transactions
commerciales, soit plusieurs millions par an,
qu’elle réalise avec ses clients: retraits, prêts,
dépôts, etc. Cette banque souhaite
développer un plan d’étude visant à mieux
connaître sa clientèle.

38
Explorer des modèles

 Parmi les facteurs qui intéressent la banque dans le

cadre d’une première approche du problème
figurent l’âge des clients, les montants des crédits
qui leur sont alloués, les villes de résidences des
clients, les destinations des prêts (acquisition d’une
maison, d’une voiture ou d’un équipement
domestique) et la période de l’année (par exemple
le numéro du trimestre).

39
Explorer des modèles

Le schéma de la figure suivante représente un processus de

data mining orienté vers la visualisation et la description. Pour
simplifier la présentation, le tableau des données (CREDITS)
ne contient que 1000 clients. Les traitements qui figurent aux
extrémités des flèches synthétiseront les données des clients de
cette banque selon différentes caractéristiques, qu’elles soient
numériques ou graphiques.

40
Explorer des modèles

41
Explorer des modèles

 Les représentations graphiques

 Statistiques élémentaires: Elles sont
calculées sur deux attributs quantitatifs: l’âge
du client et le montant du crédit qui lui a été
alloué.

42
Explorer des modèles
 Nuage de points: Il croise les attributs durée et
montant du crédit. Il s’agit là d’une description
bidimensionnelle.
 Elle permet de visualiser, entre autre, si un lien
existe ou pas entre ces deux facteurs. Sur ce
graphique on peut déjà noter l’existence de points
marginaux (des points isolés) sur lesquels on peut
s’interroger : est-ce qu’il s’agit de points aberrants
ou de points atypiques ?
 Une liaison faible existe entre le montant et la
durée. En bref, ce type de graphique peut être enrichi
en faisant figurer par exemple, pour chaque point,
une couleur différente selon que le client est un
homme ou une femme. On peut complexifier encore
davantage le graphique mais il ne faut pas perdre de
vue l’objectif d’une telle représentation :
comprendre en un coup d’œil ce qu’il y a
d’informatif dans les données.
43
Explorer des modèles
 Graphe de
contingence: Il donne
les effectifs croisés entre le
type d’activité (employé,
sans qualification, avec
qualification, encadrement)
et le statut familial (homme
ou femme, célibataire,
marié(e), divorcé(e) ou
veuf(ve)).

44
Explorer des modèles
 Graphe de contingence La hauteur de la barre est
proportionnelle à l’effectif qui se trouve au croisement de
deux modalités. Le concept des tableaux de contingence a
été relativement bien exploité dans le domaine de la
visualisation des données multidimensionnelles. En effet,
les systèmes OLAP exploitent essentiellement des tableaux
de contingence tri-dimensionnels appelés des cubes. A
l’intersection d’un ensemble, ou tuple, de trois modalités,
appelées dans la terminologie OLAP « dimensions », se
trouve un indicateur comme l’effectif ou la moyenne d’un
quatrième attribut.

45
Explorer des modèles

Les cubes de données : Les attributs

statut, achat et profession en sont les
dimensions. Sur Chaque case, croisement
de 3 modalités, figure l’agrégat.
Dans ce cas, il s’agit de l’effectif mais on
aurait pu imaginer afficher le montant
moyen des crédits demandés par les
individus de cette case ou la distribution
des montants demandés.

46
Explorer des modèles

 Exp : explorer une sous population particulière par

une opération appelée roll up dans la terminologie
OLAP, on regroupe les modalités mariés et
célibataires afin d’avoir hommes d’un côté et les
femmes de l’autre.

47
Explorer des modèles

 Exp : par une opération de drill down ,on

peut approfondir l’analyse sur un niveau de
détail plus fin. Par exemple, sur la figure on
a détaillé le solde moyen mensuel au lieu du
trimestriel.

48
Explorer des modèles

49
Explorer des modèles
 Les arbres
 On peut imaginer d’autres opérations sur des tableaux à p
dimensions. Dans ce cas, il faudra utiliser une représentation
par un arbre n-aire.

50
Explorer des modèles

 Sur un arbre, chaque nœud correspond à une

cellule de l’hyper-cube. Nous pouvons
représenter qu’une partie de l’arbre qui nous
intéresse. A l’intérieur de chaque feuille ou
sommet de l’arbre il est possible de
représenter des informations statistiques
numériques ou graphiques sur des agrégats.

51
Explorer des modèles

 L’analyse des données multidimensionnelles

 Il arrive très souvent qu’une description selon un ou deux
attributs ne soit pas satisfaisante et que l’utilisateur souhaite
prendre en compte simultanément la totalité des attributs.
Nos possibilités visuelles ne nous permettent
malheureusement pas de voir des objets qui sont dans des
espaces à plus de 3 dimensions.
 L’analyse des données multidimensionnelles nous fournit le
moyen d’accéder à cette description et de visualiser au
mieux les données sous leur forme résumée.

52
Explorer des modèles

 Les méthodes d’analyse des données multidimensionnelles opèrent sur

des tableaux numériques.
 Il peut s’agir d’un tableau de p mesures prises sur un ensemble de n
individus. Par exemple, sur l’ensemble des clients d’une banque, nous
disposons de l’âge, du montant moyen des retraits par mois, du montant
du découvert maximum constaté, du solde moyen, etc. Ainsi, un client
est alors caractérisé par un vecteur à p composantes.

 On peut considérer chaque client comme un point de l’espace euclidien

 L’ensemble des n clients forme alors un nuage de points plongé dans

Rp,
53
Explorer des modèles

 Les deux nuages de points ne sont pas visibles à l’œil nu dès

lors que p et n dépassent 3. Pour contourner cet handicap,
nous devons les projeter dans des espaces de faibles
dimensions: une droite, un plan ou un espace à trois
dimensions

54
Explorer des modèles

 Cette opération de projection est analogue à la prise d’une

photo par une caméra : des points de l’espace à trois
dimensions sont projetés sur la plaque photographique qui
est à deux dimensions.
 Indépendamment des considérations artistiques, les
différentes prises de vues d’une scène ne révèlent pas la
même information. Si nous cherchons un résumé qui se veut
être le plus fidèle possible de la réalité, nous devons
rechercher le sous espace de dimension 1, 2 ou 3 qui
conserve au mieux les proximités originales entre les points.
Sur la figure suivante, nous avons ainsi cherché le «
meilleur » plan de projection des points clients. 55
Explorer des modèles

Les axes Z1 et Z2 sont appelés des

facteurs. Ils fournissent une
représentation qui déforme le moins
possible les distances originales entre
points. Les principales méthodes utilisées
pour extraire ces facteurs sont l’analyse
en composantes principales et l’analyse
des. Elles s’appuient essentiellement sur
les résultats et les propriétés de l’algèbre
linéaire

56
Explorer des modèles

 Les méthodes de structuration et de classification

 En ECD, sans doute plus qu’ailleurs, nous avons affaire à
une profusion de données.
 Décrire ces données s’avère parfois difficile à cause de cette
volumétrie.
 L’utilisateur cherche souvent à identifier des groupes
d’objets semblables au sens d’une métrique donnée.
 Ces groupes peuvent par exemple correspondre à une réalité
ou à des concepts particuliers.

57
Explorer des modèles
 Les méthodes de structuration et de classification

58
Explorer des modèles

 Exemple : dans le domaine du marketing, il

est impensable de construire un message
spécifique pour chaque client potentiel. Un
service de marketing va chercher à identifier
des groupes d’individus semblables selon
différents critères de telle sorte que la
campagne soit ciblée sur quelques groupes.

59
Explorer des modèles
 Dans la réalité, l'homme a souvent beaucoup de mal à mémoriser de façon
individualisée un ensemble d'objets, surtout quand ils sont en très grand nombre.
 Par exemple, mémoriser toutes les espèces végétales ou animales est une tâche
extrêmement laborieuse, voire impossible, pour un humain.
 L'homme préfère généralement catégoriser ces objets en classes en fonction de
certaines propriétés communes ou en fonction d'un critère donné. Ces classes ou
ces catégories d'objets sont ensuite nommées.
 Par exemple, le monde animal est structuré en groupes: vertébrés ou invertébrés,
mammifères ou non, etc. Ainsi, toutes les espèces sont ventilées en fonction de
la présence ou non de certains attributs communs
 . Les techniques employées pour des opérations de classification relèvent de ce
que nous appelons l’apprentissage non supervisé. Nous parlons d'apprentissage
non supervisé car l'utilisateur ne sait pas a priori quelles classes, groupes ou
catégories il va obtenir. Ce mode d'apprentissage est également appelé «
apprentissage sans professeur »
60
Explorer des modèles

 Les méthodes de structuration et de classification

 Les principales techniques se répartissent en trois groupes: 
Les méthodes monothétiques dont l'objet est la recherche
de partitions sur l'ensemble des objets à classer, telles que
sur chaque classe, l'un des attributs Xi soit constant ou de
très faible variance.
 Par exemple, dans la classe des vertébrés, toutes les espèces
ont en commun la présence de vertèbres.
 Dans cette catégorie de méthodes, on peut citer la
segmentation de Williams et Lambert.

61
Explorer des modèles

62
Explorer des modèles
Algorithme :
Cette méthode de classification suppose que le tableau des données soit
binaire (absence/présence d’un attribut).
Le critère d’homogénéité pour caractériser les groupes est basé sur le lien
du khi-2.
L’algorithme segmente selon un attribut si les deux sous groupes générés
à partir d’un attribut binaire sont les plus homogènes au sens de ce critère.
Le processus est réitéré sur chaque nœud de manière indépendante jusqu’à
épuisement des attributs ou jusqu’à la satisfaction d’un critère d’arrêt
généralement fixé par l’utilisateur.
Le résultat est une hiérarchie de partitions où la racine de l’arbre contient
la partition grossière.

63
Validation d’un modèle

 Matrice de confusion
 comparaison des cas observés par rapport aux prédictions
 exemple : prédiction de factures impayées
Prédit Observé
Payé Retardé Impayé Total
Payé 80 15 5 100
Retardé 1 17 2 20
Impayé 5 2 23 30
Total 86 34 30 150
 Validité du modèle
 nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
64
Principales Techniques

 Dérivées
 des statistiques (e.g., réseaux bayésiens)
 de l'analyse de données (e.g., analyse en composantes)
 de l'intelligence artificielle (e.g., arbres de décision,
réseaux de neurones)
 des bases de données (e.g., règles associatives)
 Appliquées aux grandes bases de données
 Difficultés :
 passage à l'échelle et performance
 présentation et validation des résultats
65
4. Quelques produits

 Intelligent Miner d'IBM  Oracle 10g ODM

 modélisation prédictive
(stat.), groupage,
segmentation, analyse
d'associations, détection de  SQL Server DM
déviation, analyse de texte
libre
 SAS de SAS  DB2 V8
 Statistiques, groupage,
arbres de décision, réseaux
de neurones, associations, ...
 SPSS de SPSS
 statistiques, classification,
réseaux de neurones
66
Approches

 De multiples approches:
 Statistiques
 Classification
 Clustering
 Règles associatives
 …

67
Méthodes d'analyse
1 ... J ... p
1
.
.
Table
Table = i
.
.
n

1 ... J ... p 1 ... J ... p

1 1
. .
. .
Table = i Table = i
. .
. .
n n

Points dans Rp Points dans Rn

68
Familles de méthodes

Nuage de points

Visualisation dans Regroupement

Le meilleur espace réduit dans tout l'espace

METHODES STATISTIQUES METHODES DE CLASSIFICATION,

ET FACTORIELLES SUPERVISEE OU NON …
69
5. Méthodes statistiques

 Quelques techniques de base

 A la limite du DM

 Calculs d'information sophistiqués

70
Fonctions Statistiques

 Espérance
 permet de calculer la moyenne pondérée d'une
colonne pi = 1/N par défaut
 Variance
 traduit la dispersion de la distribution de la v.a.
autour de sa valeur moyenne.
 Variable centrée réduite
 Permet d'éliminer le facteur dimension
71
Diagrammes en bâtons
Catégorie d'employé
400

 Comptage de fréquence 300

 COUNT 200

 Extension aux calculs 100

Fréquence
d'agrégats 0
Secrétariat Cadre Responsable

AVG, MIN, MAX, …

Catégorie d'employé


 Possibilité d'étendre au
100

3D 80
60
North
East
West
40
North
 Apporte une vision
West
20
East
0
1st 2nd 3rd 4th

synthétique Qtr Qtr Qtr Qtr

72
Tableaux croisés
(Vision 2D du Datacube)
Tableau croisé Catégorie d'employé * Sexe de l'employé * Classe minoritaire ?

Classe minoritaire ?: Non

Effectif Effectif théorique
Catégorie Secrétariat Sexe de l'employé Masculin 110 144,7
d'employé Féminin 166 131,3
Total 276 276,0
Cadre Sexe de l'employé Masculin 14 7,3
Féminin 0 6,7
Total 14 14,0
Responsable Sexe de l'employé Masculin 70 41,9
Féminin 10 38,1
Total 80 80,0
Total Sexe de l'employé Masculin 194 194,0
Féminin 176 176,0
Total 370 370,0

Effectif théorique = calculé par une loi de distribution

(uniforme)
73
Corrélation

 Covariance
 La covariance peut être vue comme le moment centré
conjoint d'ordre 1 de deux v.a.
 Si les deux v.a. sont indépendantes, alors leur covariance
est nulle (mais la réciproque n'est pas vraie en général).
 Coefficient de corrélation
 Elimine le facteur dimension
 mesure la qualité de la relation linéaire entre deux
variables aléatoires

74
Droite de régression

$160,000
Salaire actuel = 1928,21 + 1,91 * saldeb
Régression linéaire
R-Deux = 0,77
199


$120,000
Y=aX+b
120

70
Salaire actuel

 


  

 
 
$80,000 
   
  
    
   
      
     

     
   
 
   

     

$40,000    

  
  
 
 




$20,000 $40,000 $60,000 $80,000

Salaire d'embauche

75
Test du 2

 Détermine l'existence d'une dépendance

entre deux variables
 Exemple : salaire d'embauche, niveau d'étude
 Compare la distribution des variables par
rapport à une courbe théorique supposant
l'indépendance

76
De nombreuses fonctions

 Test t sur moyenne

 ANOVA
 Analyses de variance sophistiquées
 Corrélation partielle
 Régresion logistique
 Séries chronologiques
 Lissage exponentiel, Moyenne mobile, …
 Comparaison
…
77
Calculs en SQL

 Introduction de fonctions d'agrégats

 AVG = moyenne
 MAVG = moyenne mobile
 STDDEV = écart type
 VARIANCE = variance
 COVARIANCE = covariance
 …
 Exemple
 SELECT COVARIANCE(SALAIRE_ACTU,
SALAIRE_EMB)
 FROM EMPLOYEE
 WHERE GRADE = "ingénieur"
 GROUP BY SEXE
78
Statistiques: Conclusion

 Calculs statistiques sur variables

 Mono ou bi-variées
 Résumé des données
 Observation de dépendances
 Peu de modèles prédictifs ...
 La plupart sont faisables avec SQL OLAP
 Extensions cube et rollup
 Extensions avec fonctions d'agrégats
79
6. Conclusion

 Le data mining vise à  Questions ?

découvrir des modèles à
partir de grandes bases de
 Quoi de nouveau par
faits connus rapport à l'IA et aux
(datawarehouse) statistiques ?
 Le processus de
construction de modèles
est complexe
 préparer les données
 modéliser 1/3 de la base
 valider sur 2/3
 expérimenter plusieurs
modèles
80
DM, Stat., IA
DM Stat. IA
Tableau individu -variable Formalisme de la logique
Calculs numériques Induction/déduction
Recherche de règles Méthodes de discrimination Apprentissage supervisé/ex.
de classement Réseaux de neuronnes -Génèr° de règles
Segmentation -Constr° d'arbre de décision
-Raisonnement à base de cas
Régression Méthodes de régression
Réseaux de neuronnes _
Classification Classif° automatique hiérarchique Apprentissage non supervisé
automatique Partitionnement -Classif° conceptuelle
Réseaux de neuronnes
Description Stat. Élémentaire (histogramme, Apprentissage non supervisé
synthétique moy, écart-type) -Généralisation
Outils d'interprét° de classes
Méthodes factorielles (ACP)
Recherche de Corrélations Apprentissage non supervisé
dépendances Analyse factorielles des corr. -Généralisation
(AFC) -Recherche d'associations
Réseaux bayésiens
Détection de Test stat sur les écarts
déviations
_
81

Vous aimerez peut-être aussi

Cours Data
Pas encore d'évaluation
Cours Data
35 pages
01 Introduction DM
Pas encore d'évaluation
01 Introduction DM
26 pages
Concepts de Base
Pas encore d'évaluation
Concepts de Base
30 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
33 pages
Intro Data Minig2
Pas encore d'évaluation
Intro Data Minig2
25 pages
Extraction Des Connaissances À Partir Des Données (ECD)
Pas encore d'évaluation
Extraction Des Connaissances À Partir Des Données (ECD)
59 pages
Chapitre 1 Fouille de Données
Pas encore d'évaluation
Chapitre 1 Fouille de Données
36 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
30 pages
Introduction au Data Mining
100% (1)
Introduction au Data Mining
29 pages
Cours Big Data&Data Scinece - PPSX
Pas encore d'évaluation
Cours Big Data&Data Scinece - PPSX
22 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
30 pages
Chapitre 1 DM
Pas encore d'évaluation
Chapitre 1 DM
73 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
17 pages
Chapitre1 DM Rebbah
Pas encore d'évaluation
Chapitre1 DM Rebbah
19 pages
Sid Partie2
Pas encore d'évaluation
Sid Partie2
13 pages
RChapitre 1 Intro DM
Pas encore d'évaluation
RChapitre 1 Intro DM
6 pages
Data Mining
Pas encore d'évaluation
Data Mining
44 pages
Cours
Pas encore d'évaluation
Cours
58 pages
Cours Datamining P1
Pas encore d'évaluation
Cours Datamining P1
18 pages
Ok Cours-Data-Mining M2 SITW 2022 2023
100% (1)
Ok Cours-Data-Mining M2 SITW 2022 2023
325 pages
DM 2016 Chapitre 1
Pas encore d'évaluation
DM 2016 Chapitre 1
21 pages
Pfe Datamining
100% (1)
Pfe Datamining
23 pages
Chap.01 Intro 18-19 1
Pas encore d'évaluation
Chap.01 Intro 18-19 1
17 pages
Cours-Data-Mining Master BIBDA 2017 2018
Pas encore d'évaluation
Cours-Data-Mining Master BIBDA 2017 2018
164 pages
P1-Cours DM
Pas encore d'évaluation
P1-Cours DM
31 pages
Data Mining
Pas encore d'évaluation
Data Mining
34 pages
INF3712 Datamining
Pas encore d'évaluation
INF3712 Datamining
7 pages
Cours sur l'Analyse des Données
Pas encore d'évaluation
Cours sur l'Analyse des Données
46 pages
Cours de Data Mining 2024-2025
Pas encore d'évaluation
Cours de Data Mining 2024-2025
115 pages
Data Mining
Pas encore d'évaluation
Data Mining
55 pages
Data Mining Final
100% (1)
Data Mining Final
192 pages
Cours de Data Mining
Pas encore d'évaluation
Cours de Data Mining
17 pages
Partitionnement des données marketing
Pas encore d'évaluation
Partitionnement des données marketing
25 pages
Ch1-Extraction Des Connaissances À Partir Des Données
Pas encore d'évaluation
Ch1-Extraction Des Connaissances À Partir Des Données
53 pages
Cours de Data Mining - 1
Pas encore d'évaluation
Cours de Data Mining - 1
37 pages
Chap1-Introduction Au DataMining Sahbi
Pas encore d'évaluation
Chap1-Introduction Au DataMining Sahbi
47 pages
Chapitre6 Intelligence Artificielle
Pas encore d'évaluation
Chapitre6 Intelligence Artificielle
32 pages
Complement DM.2
Pas encore d'évaluation
Complement DM.2
158 pages
Résumé Courtd DM 1
Pas encore d'évaluation
Résumé Courtd DM 1
17 pages
Data Mining: Décisions Commerciales
Pas encore d'évaluation
Data Mining: Décisions Commerciales
14 pages
Chapitre 1 A
Pas encore d'évaluation
Chapitre 1 A
102 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
31 pages
Ch2 Data Mining
Pas encore d'évaluation
Ch2 Data Mining
61 pages
1 Data Mining
Pas encore d'évaluation
1 Data Mining
74 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
37 pages
ChI Data Mining - Versionre
Pas encore d'évaluation
ChI Data Mining - Versionre
31 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
6 pages
Cours Datamining: Techniques et Processus
100% (1)
Cours Datamining: Techniques et Processus
49 pages
Data Mining
Pas encore d'évaluation
Data Mining
25 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
131 pages
DataMining CIPMA SAV2 SupportDeCours
Pas encore d'évaluation
DataMining CIPMA SAV2 SupportDeCours
73 pages
Cours Datamining 3ING 22-23
Pas encore d'évaluation
Cours Datamining 3ING 22-23
185 pages
Cours DM Afef Kacem Math Séance1
Pas encore d'évaluation
Cours DM Afef Kacem Math Séance1
57 pages
Cours de Fouille de Données Avancée
Pas encore d'évaluation
Cours de Fouille de Données Avancée
96 pages
Chap1Regles Association
Pas encore d'évaluation
Chap1Regles Association
88 pages
DM Chapitre 1
Pas encore d'évaluation
DM Chapitre 1
40 pages
Chap 1
Pas encore d'évaluation
Chap 1
8 pages
ML PR
Pas encore d'évaluation
ML PR
66 pages
Cours sur l'Apprentissage Profond
100% (4)
Cours sur l'Apprentissage Profond
114 pages
Big Data Et Machine Learning Manuel Du Data Scientist by Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli
100% (4)
Big Data Et Machine Learning Manuel Du Data Scientist by Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli
237 pages
QCM Introduction Machine Learning
100% (9)
QCM Introduction Machine Learning
3 pages
TD Machine Learning
100% (4)
TD Machine Learning
4 pages
Exercices SQL Corriges PDF
93% (14)
Exercices SQL Corriges PDF
13 pages
Introduction au Machine Learning
100% (1)
Introduction au Machine Learning
106 pages
(PDF) Intelligence Artificielle en Pratique Avec Python - Hugues Bersini, Eyrolles, 2nd Ed., 2022-2023 - Wawacity - Foo
100% (5)
(PDF) Intelligence Artificielle en Pratique Avec Python - Hugues Bersini, Eyrolles, 2nd Ed., 2022-2023 - Wawacity - Foo
174 pages
Algorithme Random Forest
Pas encore d'évaluation
Algorithme Random Forest
32 pages
TP: Arbres de Décision en ML
Pas encore d'évaluation
TP: Arbres de Décision en ML
6 pages
Cours Python Complet
90% (10)
Cours Python Complet
150 pages
Machine Learning Avec Scikit-Learn
100% (3)
Machine Learning Avec Scikit-Learn
314 pages
Deep Learning Avec Keras Et TensorFlow - 3e Édition - Aurélien Géron (2024)
100% (10)
Deep Learning Avec Keras Et TensorFlow - 3e Édition - Aurélien Géron (2024)
626 pages
Exercices (Entrepot - de - Donnees)
100% (6)
Exercices (Entrepot - de - Donnees)
11 pages
Chap07 DecisionTrees
Pas encore d'évaluation
Chap07 DecisionTrees
82 pages
Introduction au Clustering et K-Means
Pas encore d'évaluation
Introduction au Clustering et K-Means
61 pages
Leçon5 KNN
100% (1)
Leçon5 KNN
10 pages
Chapitre2 Classification (Suite)
Pas encore d'évaluation
Chapitre2 Classification (Suite)
9 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
161 pages
Apprentissage Statistique PDF
Pas encore d'évaluation
Apprentissage Statistique PDF
159 pages
FDD Cours PDF
Pas encore d'évaluation
FDD Cours PDF
94 pages
Bases de Données NoSQL et Big Data
Pas encore d'évaluation
Bases de Données NoSQL et Big Data
112 pages
Systèmes Distribués : Concepts Clés et Architectures
100% (1)
Systèmes Distribués : Concepts Clés et Architectures
70 pages
La Programmation Linéaire EXERCICES CORRIGES
83% (12)
La Programmation Linéaire EXERCICES CORRIGES
32 pages
Data Cleaning: Nettoyage de Données Avec Python
100% (1)
Data Cleaning: Nettoyage de Données Avec Python
5 pages
Introduction au Machine Learning
100% (1)
Introduction au Machine Learning
78 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
59 pages
Big Data Et Machine Learning (3e Éd) (Pirmin Lemberger Marc Batty (Lemberger Etc.)
100% (1)
Big Data Et Machine Learning (3e Éd) (Pirmin Lemberger Marc Batty (Lemberger Etc.)
378 pages
Examen Corrigé Analyse de Données
100% (2)
Examen Corrigé Analyse de Données
8 pages
Transition numérique et mutations sociétales
Pas encore d'évaluation
Transition numérique et mutations sociétales
28 pages
Recherche Marketing et Méthodologie
Pas encore d'évaluation
Recherche Marketing et Méthodologie
138 pages
Marketing Mobile 1
Pas encore d'évaluation
Marketing Mobile 1
18 pages
Cours ETL DW - CH1
Pas encore d'évaluation
Cours ETL DW - CH1
36 pages
Réalité Augmentée et Marketing Mobile
Pas encore d'évaluation
Réalité Augmentée et Marketing Mobile
45 pages
TD Entrepreneuriat 1
100% (1)
TD Entrepreneuriat 1
21 pages
TD Display
Pas encore d'évaluation
TD Display
25 pages
Étude de Marché en Ligne : Stratégies et Méthodes
Pas encore d'évaluation
Étude de Marché en Ligne : Stratégies et Méthodes
3 pages
Figure de Style
Pas encore d'évaluation
Figure de Style
8 pages
Guide d'installation de WordPress avec XAMP
Pas encore d'évaluation
Guide d'installation de WordPress avec XAMP
4 pages
CMS Madice S5
Pas encore d'évaluation
CMS Madice S5
54 pages
Etiqéte de Droite
Pas encore d'évaluation
Etiqéte de Droite
28 pages
Cours Edm Comportement Du Consommateur en Ligne
Pas encore d'évaluation
Cours Edm Comportement Du Consommateur en Ligne
58 pages
Examen Regional de Francais Rabat Sale Kenitra Juin 2021 12
Pas encore d'évaluation
Examen Regional de Francais Rabat Sale Kenitra Juin 2021 12
2 pages
Seo Sea TD
100% (1)
Seo Sea TD
27 pages
Droit Digital Des Affaires
Pas encore d'évaluation
Droit Digital Des Affaires
27 pages
Marketing Digital
100% (1)
Marketing Digital
13 pages
Relatif Au:module: Armee de L'Air Tunisienne
Pas encore d'évaluation
Relatif Au:module: Armee de L'Air Tunisienne
9 pages
L'impact de La Communication Digitale Sur La Fidélisation de La Clientèle
84% (32)
L'impact de La Communication Digitale Sur La Fidélisation de La Clientèle
57 pages
Modèle Dynamique et Amplificateurs EC
Pas encore d'évaluation
Modèle Dynamique et Amplificateurs EC
35 pages
Objets Communicants
100% (1)
Objets Communicants
6 pages
Optimisation linéaire avancée
Pas encore d'évaluation
Optimisation linéaire avancée
6 pages
Filtrage Pour Les Nuls
Pas encore d'évaluation
Filtrage Pour Les Nuls
63 pages
Advance Métal Modélisez Facilement Vos Ouvrages Et Produisez Automatiquement Tous Vos Plans, Listes Et Fichiers Dstv. WWW - Graitec.
Pas encore d'évaluation
Advance Métal Modélisez Facilement Vos Ouvrages Et Produisez Automatiquement Tous Vos Plans, Listes Et Fichiers Dstv. WWW - Graitec.
6 pages
DOC3102 2019-12 D - VIBGRAPH Manuel Utilisateur FR
Pas encore d'évaluation
DOC3102 2019-12 D - VIBGRAPH Manuel Utilisateur FR
121 pages
Analyse Forensic Et Logiciels Malveillants
Pas encore d'évaluation
Analyse Forensic Et Logiciels Malveillants
24 pages
1-TP N°1 - Devpt - Web - Coté - Serveur
Pas encore d'évaluation
1-TP N°1 - Devpt - Web - Coté - Serveur
4 pages
Cours de Systemes Asservis
Pas encore d'évaluation
Cours de Systemes Asservis
78 pages
Inot Actes: La Signature Numérique
Pas encore d'évaluation
Inot Actes: La Signature Numérique
27 pages
TD Proteus - Algorigramme
Pas encore d'évaluation
TD Proteus - Algorigramme
12 pages
Exercices Préfixes & Suffixes CM2
Pas encore d'évaluation
Exercices Préfixes & Suffixes CM2
3 pages
Diagrammes de Bode et systèmes linéaires
100% (1)
Diagrammes de Bode et systèmes linéaires
2 pages
Expressions régulières en JavaScript
Pas encore d'évaluation
Expressions régulières en JavaScript
13 pages
Histoire et Impact d'Instagram
Pas encore d'évaluation
Histoire et Impact d'Instagram
9 pages
Motivation Frigo Kamoa
Pas encore d'évaluation
Motivation Frigo Kamoa
4 pages
CC Matlab 2018
Pas encore d'évaluation
CC Matlab 2018
2 pages
Rapport de stage chez SAGEMCOM 2019
Pas encore d'évaluation
Rapport de stage chez SAGEMCOM 2019
27 pages
E2 - Lab - 1 - 5 - 1 Câblage D'un Réseau Et Configuration de Base Des Routeurs
Pas encore d'évaluation
E2 - Lab - 1 - 5 - 1 Câblage D'un Réseau Et Configuration de Base Des Routeurs
30 pages
TP 1 Brute Force SN1SIO
Pas encore d'évaluation
TP 1 Brute Force SN1SIO
2 pages
Guide des Termes de Topographie et Géodésie
100% (1)
Guide des Termes de Topographie et Géodésie
7 pages
Initiation à Python par le Jeu
Pas encore d'évaluation
Initiation à Python par le Jeu
3 pages
CV Intelligence D Affaires FR VF2
Pas encore d'évaluation
CV Intelligence D Affaires FR VF2
2 pages
Besoins Urgents en Matériel Informatique
Pas encore d'évaluation
Besoins Urgents en Matériel Informatique
2 pages
Impact de la Digitalisation à l'UAO
100% (1)
Impact de la Digitalisation à l'UAO
58 pages
Informatique Ueagl
Pas encore d'évaluation
Informatique Ueagl
275 pages
Microsoft PowerPoint 2019 Fundamentals
Pas encore d'évaluation
Microsoft PowerPoint 2019 Fundamentals
41 pages
12qs23dwin FR
Pas encore d'évaluation
12qs23dwin FR
86 pages