Chapitre1 : Introduction au data mining donnéées, 1ère Master RM
Fouille de donn
donnéées ?
1. Qu'est ce que la fouille de donn
Nous donnons quelques définitions existantes dans la littérature :
Data mining est un processus inductif, itératif et interactif de découverte dans les BD larges de modèles
de données valides, nouveaux, utiles et compréhensibles.
– Induction : Généralisation d’une observation ou d’un raisonnement établis à partir de cas
singuliers.
Exemple: La clio a 4 roues, La Peugeot 206 a 4 roues, La BMW M3 a 4 roues, ….
==> Toutes les voitures ont 4 roues
– ItItéératif : nécessite plusieurs passes
– Interactif : l’utilisateur est dans la boucle du processus
– Valides : valables dans le futur
– Nouveaux : non prévisibles
– Utiles : permettent à l’utilisateur de prendre des décisions
– Compr
Comprééhensibles : présentation simple
donnéées consiste à rechercher et extraire de l'information (utile et inconnue) de gros
La fouille de donn
volumes de données stockées dans des bases ou des entrepôts de données.
le data mining est un domaine pluridisciplinaire qui regroupe des techniques d’apprentissage
automatique, de la reconnaissance de forme, des statistiques, des bases de données et de visualisation
pour apporter une réponse à l’extraction d’information provenant de base de données de grande taille
le data mining est le procédé de découverte de corrélations significatives, de règles et de tendances, en
parcourant de grand volume de données stockées dans de référentiels, en utilisant des technologies de
reconnaissance de forme, mais également des techniques statistiques et mathématiques.
Le data mining est un procédé qui permet de passer des données à la connaissance.
Connaissances
Data mining
Entrep
Entrepôôt donn
donnéées
Découverte de modèles
Compréhension, prédiction
2. Concepts de bases
Donnéées
2.1 Donn
donnéées : tableau en base de donn
2.1.1 Structure de donn donnéées
• Le nom du tableau: c’est une abstraction. Par exemple, un tableau de clients, de malades, etc.
• Chaque colonne du tableau a un nom qui est un attribut du concept. On parle aussi de « propriété
» ou de « champ ». Le nom de la colonne est une abstraction (un concept).
• Pour un objet concret
concret, la colonne a une valeur particulière qui est la valeur particulière de
l’attribut pour l’objet concret..
Dépt d’informati que, Cen
tique, enttre Univer
erssit
itaaire de BBA, 2011
2011//20 12
2012 1
Chapitre1 : Introduction au data mining donnéées, 1ère Master RM
Fouille de donn
Num_etud Nom Préénom Age
Pr
01 Zaidi Ali 19
02 Said Adel 18
Colonne: attribut,
03
Ligne: champ, propri é té
proprié
04
enregistrement un
objet concret 05
, 06
donnéées : : tableau de donn
2.1.2 Structure de donn donnéées en data-mining
• les attributs des objets sont appelés : « variables ».
• un objet concret est appelé : « individu ».
• la valeur d’un attribut pour un individu est appelé : « donn
donnéée ».
• l’ensemble des individus est appelé : « population ». Un tableau de données est une population.
• Un sous-ensemble de valeurs pour un ou plusieurs attributs donnés peut être appelé :« type », «
classe », « catégorie » , « segment » ou encore « modalité »
Num_etud Nom Préénom
Pr Age
01 Zaidi Ali 19
Variable
02 Said Adel 18
03
Population 04
05
06
Individu
Classe, type,
catégorie, segment
caté
difféérents formats de donn
2.1.3 Les diff donnéées
� Donn
Donnéées continues : dont les valeurs forment un sous-ensemble infini de R
(exemple : salaire)
� Donn
Donnéées discr
discrèètes : dont les valeurs forment un sous-ensemble fini ou infini de
N (exemple : nombre d’enfants)
� Donn
Donnéées cat
catéégorielles (ou qualitatives) : dont l’ensemble des valeurs est fini — ces valeurs
sont numériques ou alphanumériques, mais quand elles sont numériques, ce ne sont que des
codes et non des quantités (ex : n° de département)
[Link] Pr
Préécisions sur les formats
• Les données continues et discrètes sont des quantités :
– on peut effectuer sur elles des opérations arithmétiques
– elles sont ordonnées (on peut les comparer par la relation d’ordre <)
• Les données catégorielles ne sont pas des quantités
– mais sont parfois ordonnées : on parle de données catégorielles ordinales (exemple : «
faible, moyen, fort »)
– Données ordinales souvent traitées comme données discrètes
Dépt d’informati que, Cen
tique, enttre Univer
erssit
itaaire de BBA, 2011
2011//20 12
2012 2
Chapitre1 : Introduction au data mining donnéées, 1ère Master RM
Fouille de donn
– les données catégorielles nominales ne sont pas ordonnées
Exemple : l’utilisation d’un ordinal peut permettre de simplifier les règles
Age prend les valeur {Jeune, Adulte, Agé}
• si age est un attribut nominal :
– if Age = Jeune then Loisirs = Yes
– if Age = Adulte then Loisirs = Yes
– if Age = Agé then Loisirs = No
• si Age est un attribut ordinal:
– if Age <= Adulte then Loisirs = Yes
– if Age = Agé then Loisirs = No
2.2 Forme des connaissances extraites
� Un mod
modèèle est un résumé global des relations entre variables permettant de comprendre des
phénomènes (description, jugement) et d’émettre des prévisions (prédiction, raisonnement).
Exemple : modèle simple : Y = aX + c, où X appartient R, a et c sont les paramètres du modèle
� motif (pattern) : résumé local d'une région de l'espace des données
� une règle R : a � c n'est valable que pour les données qui satisfont ses antécédents
ex. R1: si longueur.pétale < 2 alors iris-setosa
préévision:
2.3 La pr
On travaille sur une variable particulière appelée : « variable cible » et sur un ensemble d’autres
variables utiles pour la prédiction appelées : « prédicteurs ».
2.3.1 Variable cible
La variable cible est la variable dont on cherche à connaître la valeur.
On parle aussi de : variable à expliquer, réponse, variable dépendante.
C’est la variable « en sortie ».
2.3.2 Variables explicatives
Les variables explicatives sont les variables utilisées pour fabriquer le modèle.
On parle aussi de variables prédictives ou de prédicteurs.
Ce sont les variables « en entrée ».
3. Processus d’extraction de connaissance
Les différentes étapes du processus de découverte de connaissances sont souvent représenté par un
schéma suivant :
donnéées constitue la première étape du processus et permet de ne garder parmi les
1. La sélection des donn
données disponibles provenant souvent de plusieurs bases, que celles dont l’utilisateur a besoin, afin
d’en extraire les informations cachées.
préé-traitement constitue la seconde étape du processus et représente une phase de nettoyage des
2. Le pr
données qui a pour objectif de détecter les valeurs aberrantes, les valeurs manquantes et les valeurs
nulles.
� Les donn
donnéées manquantes : pour une variable donnée, certaines données peuvent être
manquantes
� Les donn
donnéées aberrantes : pour une variable donnée, certaines données peuvent être aberrantes
(trop grande ou trop petite).
3. La transformation des variables constitue la troisième étape du processus et permet de présenter
les données sous la forme attendue par l’algorithme d’extraction de connaissances.
Dépt d’informati que, Cen
tique, enttre Univer
erssit
itaaire de BBA, 2011
2011//20 12
2012 3
Chapitre1 : Introduction au data mining donnéées, 1ère Master RM
Fouille de donn
4. L’application d’algorithme de recherche de mod modèèles représente l’étape principale du processus et
constitue la quatrième étape de celui-ci. Elle permet de mettre en évidence les informations sous-
jacentes qui sont cachées dans les données.
interpréétation et l’é
5. L’interpr valuation des informations extraites constitue la cinquième et dernière
’évaluation
étape du processus et a pour objectif de produire de la connaissance sur le domaine d’étude en
s’assurant de la validité de la sémantique des modèles.
4. Classement des techniques du data mining
Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l’analyse de
données et de l’informatique pour explorer les données.
Premièère distinction : techniques descriptives et techniques pr
4.1 Premi préédictives
catéégories de techniques : les techniques descriptives et les
On distingue d’abord entre deux grandes cat
techniques prédictives.
a) Les techniques descriptives (arch
(archéétype : la classification)
� Décrire
crire.
� Résumer, synthétiser, réduire, classer.
� Mettre en évidence des informations présentes mais cachées par le volume des données.
� Pas de variable cible à prédire.
� On les appelle aussi : technique non supervis
superviséées.
préédictives
b) Les techniques pr
� Pr
Préédire
dire.
� Extrapoler de nouvelles informations à partir des informations présentes.
� Les techniques prédictives présentent une variable cible à prédire.
� L’objectif est de prévoir la variable cible mais aussi de classer à partir de la variable cible.
� On les appelle aussi : techniques supervis
superviséées.
� Elles sont plus délicates à mettre en œuvre que les techniques descriptives.
� Elles demandent plus d’historique que les techniques descriptives.
� Elles produisent des modèles de prédiction.
Dépt d’informati que, Cen
tique, enttre Univer
erssit
itaaire de BBA, 2011
2011//20 12
2012 4
Chapitre1 : Introduction au data mining donnéées, 1ère Master RM
Fouille de donn
4.2 Les 6 grands types de techniques du data mining
Le data mining permet d’accomplir les six types d’analyse suivants :
1 : Description 2 : Classification 3 : Association
4 : Estimation 5 : Segmentation Préévision.
6 : Pr
Ces types d’analyse se répartissent dans les techniques descriptives et prédictives :
Probl
Problèèmes de vocabulaire et de traduction
Anglais Franççais
Fran
Clustering segmentation ou classification
Classification classification ou classement
Decision trees arbres de décision ou segmentation
Le vocabulaire souligné est celui qu’on utilise dans ce cours.
Distinction entre classification et classement
• Dans un classement
classement, on sait à l’avance à quelle classe l’individu appartient car on connaît à
l’avance les classes.
• Dans une classification
classification, on ne sait pas à l’avance à quelle classe un individu appartient car on ne
connaît pas à l’avance les classes. La classification se fait en fonction de la population entière
Exemple :
On peut classer les personnes par choix de l’option internationale et de l’option messagerie. Ça définit a
priori 4 classes. C’est un classement
classement.
On peut prendre tous les attributs des clients et chercher des classes de clients en fonction de tous ces
attributs : ça donnera un nouvel attribut avec ses valeurs possibles.
Classement Classification
Ne crée pas nécessairement de nouvel attribut Crée nécessairement un nouvel attribut
Les classes sont définies à partir d’un attribut Les classes sont définies à partir d’un grand
unique ou d’un petit nombre d’attributs. nombre d’attributs
Une classe est connue à partir d’un individu Les classes sont connues à partir de la
population
Les classes et leur nombre sont connus a Les classes et leur nombre sont connus a
priori. posteriori.
La classe d’appartenance d’un individu est La classe d’appartenance d’un individu est
définie par l’individu lui-même. défini par ses relations avec la population.
Plutôt prédictif. Les données des attributs de Plutôt descriptif. Le classification crée un
classement sont utilisés pour prédire une attribut de classification qui est la variable
variable cible. cible de la classification elle-même.
4.2.1 la description (technique descriptive)
Dépt d’informati que, Cen
tique, enttre Univer
erssit
itaaire de BBA, 2011
2011//20 12
2012 5
Chapitre1 : Introduction au data mining donnéées, 1ère Master RM
Fouille de donn
Principe : La description consiste à mettre au jour
� Pour une variable donnée : la répartition de ses valeurs (tri, histogramme, moyenne, minimum,
maximum, etc.).
� Pour deux ou trois variables données : des liens entre les répartitions des valeurs des variables.
Ces liens s’appellent des « tendances ».
Intéérêt :
Int
� Favoriser la connaissance et la compréhension des données.
Méthode :
� Méthodes graphiques pour la clarté : analyse exploratoire des donn
donnéées
es.
Exemple :
� Répartition des votes par âge (lien entre les variables « vote » et « âge »).
4.2.2 la classification (technique descriptive)
Principe :
La classification (ou clustering ou segmentation
segmentation) consiste à créer des classes (c’est-à-dire des sous-
ensembles) de données similaires entre elles et différentes des données d’une autre classe (autrement dit,
l’intersection des classes entre elles doit toujours être vide).
Autrement dit, il s’agit pour n variables de créer des sous-ensembles disjoints de données. On dit aussi «
segmenter » l’ensemble entier des données.
La classification définit les grands types de regroupement et de distinction : on parle de métatypologie
(type de type).
Elle permet une vision générale de l’ensemble (de la clientèle, par exemple).
Intéérêt :
Int
� Favoriser, grâce à la métatypologie, la compréhension et la prédiction.
� Réduire les dimensions, c’est-à-dire le nombre d’attributs, quand il y en a trop au départ.
Méthodes :
� Classification hiérarchique
� Classification des K moyennes
� Réseaux de Kohonen.
� Règles d’association.
Exemple :
� Métatypologie d’une clientèle en fonction de l’âge, les revenus, le caractère urbain ou rural, la
taille des villes, etc.
4.2.3 l’association (technique descriptive)
Principe :
L’association consiste à trouver quelles valeurs des variables vont ensemble
ensemble. Par exemple, telle
valeur d’une variable va avec telle valeur d’une autre variable.
Les règles d’association sont de la forme : si antécédent, alors conséquence.
L’association ne fixe pas de variable cible. Tous les variables peuvent à la fois être prédicteurs et
variable cible.
On appelle aussi ce type d’analyse une « analyse d’affinité ».
Intéérêt :
Int
Mieux connaître les comportements.
Dépt d’informati que, Cen
tique, enttre Univer
erssit
itaaire de BBA, 2011
2011//20 12
2012 6
Chapitre1 : Introduction au data mining donnéées, 1ère Master RM
Fouille de donn
Méthodes :
� Algorithme a priori.
� Algorithme du GRI (induction de règles généralisée).
Exemple :
� Analyse du panier de la ménagère (si j’achète des fraises, alors j’achète des cerises).
4.2.4 préédictive)
l’estimation (technique pr
Principe :
L’estimation consiste à définir le lien entre un ensemble de prédicteurs et une variable cible.
Ce lien est défini à partir de données « complètes », c’est-à-dire dont les valeurs sont connues tant pour
les prédicteurs que pour la variable cible. Ensuite, on peut déduire une variable cible inconnue de la
connaissance des prédicteurs.
À la différence de la segmentation (technique prédictive suivante) qui travaille sur une variable cible
catéégorielle
cat numéérique.
gorielle, l’estimation travaille sur une variable cible num
Intéérêt :
Int
� Permettre l’estimation de valeurs inconnues.
Méthodes :
� Analyse statistique classique : régression linéaire simple, corrélation, régression multiple,
intervalle de confiance, estimation de points.
� Réseaux de neurones
Exemple :
� Estimer la pression sanguine à partir de l’âge, le sexe, le poids et le niveau de sodium dans le
sang.
4.2.5 préédictive)
le classement (technique pr
Principe :
Le classement est une estimation qui travaille sur une variable cible catégorielle.
On parle de segmentation car chaque valeur possible pour la variable cible va définir un segment (ou
type, ou classe, ou catégorie) de données.
Le classement peut être vue comme une classification supervisée.
Intéérêt :
Int
� Permettre l’estimation de valeurs inconnues.
Méthodes :
� Graphiques et nuages de points.
� Méthode des k plus proches voisins.
� Arbres de décision.
� Réseau de neurones.
Exemple :
� Segmentation par tranche de revenus : élevé, moyen et faible (3 segments). On cherche les
caractéristiques qui conduisent à ces segments.
� Déterminer si un mode de remboursement présente un bon ou un mauvais niveau de risque crédit
(deux segments).
� Placer un nouvel étudiant dans une filière particulière au regard de besoins spécifique.
4.2.6 préévision (technique pr
la pr préédictive)
Dépt d’informati que, Cen
tique, enttre Univer
erssit
itaaire de BBA, 2011
2011//20 12
2012 7
Chapitre1 : Introduction au data mining donnéées, 1ère Master RM
Fouille de donn
Principe :
La prévision est similaire à l’estimation et à le classement mise à part que pour la prévision, les résultats
portent sur le futur.
Int
Intéérêt :
� Permettre l’estimation de valeurs inconnues.
Méthodes :
� Celles de l’estimation ou de la segmentation.
Exemples :
� Prévoir le prix d’action à trois mois dans le futur.
� Prévoir le temps qu’il va faire.
� Prévoir le gagnant du championnat de football, par rapport à une comparaison des résultats des
équipes.
Dépt d’informati que, Cen
tique, enttre Univer
erssit
itaaire de BBA, 2011
2011//20 12
2012 8