0% ont trouvé ce document utile (0 vote)
62 vues9 pages

01introduction Au Data Mining

Dataminig

Transféré par

kaer
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
62 vues9 pages

01introduction Au Data Mining

Dataminig

Transféré par

kaer
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre

1
Introduction au data mining
Chapitre 1 : Introduction au data mining

1.1. Qu'est-ce que la fouille de données ?


Dans cette section, nous donnons quelques définitions du data mining existantes dans la littérature :
Data mining est un processus inductif, itératif et interactif de découverte dans les BD larges de modèles
de données valides, nouveaux, utiles et compréhensibles.
 Induction : Généralisation d’une observation ou d’un raisonnement établis à partir de cas
singuliers. Exemple: La clio a 4 roues, La Peugeot 206 a 4 roues, La BMW M3 a 4 roues, ….

==> Toutes les voitures ont 4 roues


 Itératif : nécessite plusieurs passes.
 Interactif : l’utilisateur est dans la boucle du processus.
 Valides : valables dans le futur.
 Nouveaux : non prévisibles.
 Utiles : permettent à l’utilisateur de prendre des décisions.
 Compréhensibles : présentation simple.

La fouille de données consiste à rechercher et extraire de l'information (utile et inconnue) de gros volumes
de données stockées dans des bases ou des entrepôts de données.
le data mining est un domaine pluridisciplinaire qui regroupe des techniques d’apprentissage
automatique, de la reconnaissance de forme, des statistiques, des bases de données et de visualisation pour
apporter une réponse à l’extraction d’information provenant de base de données de grande taille
le data mining est le procédé de découverte de corrélations significatives, de règles et de tendances, en
parcourant de grand volume de données stockées dans de référentiels, en utilisant des technologies de
reconnaissance de forme, mais également des techniques statistiques et mathématiques.
Le data mining est un procédé qui permet de passer des données à la connaissance.

Connaissances
Data mining
Entrepôt données

Découverte de modèles
Compréhension, prédiction

1.2. Concepts de bases


1.2.1. Données
1.2.1.1. Structure de données : tableau en base de données
 Le nom du tableau : c’est une abstraction. Par exemple, un tableau de clients, de malades,
etc.
 Chaque colonne du tableau a un nom qui est un attribut du concept. On parle aussi de «
propriété » ou de « champ ». Le nom de la colonne est une abstraction (un concept).
 Pour un objet concret, la colonne a une valeur particulière qui est la valeur particulière de
l’attribut pour l’objet concret.

Zouache Djaafar, Département d’informatique, 2016-2017 4


Chapitre 1 : Introduction au data mining

Num_etud Nom Prénom Age


01 Zaidi Ali 19
02 Said Adel 18
Colonne: attribut,
03
Ligne: champ, propriété
04
enregistrement un
objet concret 05
, 06

1.2.1.2. Structure de données : tableau de données en data-mining


 les attributs des objets sont appelés : « variables ».
 un objet concret est appelé : « individu ».
 la valeur d’un attribut pour un individu est appelée : « donnée ».
 l’ensemble des individus est appelé : « population ». Un tableau de données est une
population.
 Un sous-ensemble de valeurs pour un ou plusieurs attributs donnés peut être appelé : « type »,
« classe », « catégorie », « segment » ou encore « modalité »

Num_etud Nom Prénom Age


01 Zaidi Ali 19
Variable
02 Said Adel 18
03
Population 04
05
06
Individu
Classe, type,
catégorie, segment
1.2.1.3. Les différents formats de données
 Données continues : dont les valeurs forment un sous-ensemble infini de R (exemple : salaire)
 Données discrètes : dont les valeurs forment un sous-ensemble fini ou infini de N (exemple :
nombre d’enfants)
 Données catégorielles (ou qualitatives) : dont l’ensemble des valeurs est fini — ces valeurs sont
numériques ou alphanumériques, mais quand elles sont numériques, ce ne sont que des codes et
non des quantités (ex : n° de département)

1.2.1.3.1. Précisions sur les formats


Les données continues et discrètes sont des quantités :
 On peut effectuer sur elles des opérations arithmétiques.
 Elles sont ordonnées (on peut les comparer par la relation d’ordre <).
Les données catégorielles ne sont pas des quantités
 Mais sont parfois ordonnées : on parle de données catégorielles ordinales (exemple : « faible, moyen, fort
»).

Zouache Djaafar, Département d’informatique, 2016-2017 5


Chapitre 1 : Introduction au data mining

 Données ordinales souvent traitées comme données discrètes.


 les données catégorielles nominales ne sont pas ordonnées.

Exemple : l’utilisation d’un ordinal peut permettre de simplifier les règles


Age prend les valeurs {Jeune, Adulte, Agé}
Si âge est un attribut nominal :
if Age = Jeune then Loisirs = Yes
if Age = Adulte then Loisirs = Yes
if Age = Agé then Loisirs = No
Si Age est un attribut ordinal :
if Age <= Adulte then Loisirs = Yes
if Age = Agé then Loisirs = No

1.2.2. Forme des connaissances extraites


 Un modèle est un résumé global des relations entre variables permettant de comprendre des
phénomènes (description, jugement) et d’émettre des prévisions (prédiction, raisonnement).
Exemple : modèle simple : Y = aX + c, où X appartient R, a et c sont les paramètres du modèle
 motif (pattern) : résumé local d'une région de l'espace des données
 une règle R : a  c n'est valable que pour les données qui satisfont ses antécédents
ex. R1: si longueur.pétale < 2 alors iris-setosa

1.2.3. La prévision
On travaille sur une variable particulière appelée : « variable cible » et sur un ensemble d’autres variables
utiles pour la prédiction appelées : « prédicteurs ».

1.2.3.1. Variable cible


La variable cible est la variable dont on cherche à connaître la valeur.
On parle aussi de : variable à expliquer, réponse, variable dépendante.
C’est la variable « en sortie ».

1.2.3.2. Variables explicatives


Les variables explicatives sont les variables utilisées pour fabriquer le modèle.
On parle aussi de variables prédictives ou de prédicteurs.
Ce sont les variables « en entrée ».
1.3. Processus d’extraction de connaissance
Les différentes étapes du processus de découverte de connaissances sont souvent représenté par un schéma
suivant :
1. La sélection des données constitue la première étape du processus et permet de ne garder parmi les
données disponibles provenant souvent de plusieurs bases, que celles dont l’utilisateur a besoin, afin
d’en extraire les informations cachées.
2. Le prétraitement constitue la seconde étape du processus et représente une phase de nettoyage des
données qui a pour objectif de détecter les valeurs aberrantes, les valeurs manquantes et les valeurs
nulles.
 Les données manquantes : pour une variable donnée, certaines données peuvent être
manquantes

Zouache Djaafar, Département d’informatique, 2016-2017 6


Chapitre 1 : Introduction au data mining

 Les données aberrantes : pour une variable donnée, certaines données peuvent être aberrantes
(trop grande ou trop petite).
3. La transformation des variables constitue la troisième étape du processus et permet de présenter les
données sous la forme attendue par l’algorithme d’extraction de connaissances.
4. L’application d’algorithme de recherche de modèles représente l’étape principale du processus et
constitue la quatrième étape de celui-ci. Elle permet de mettre en évidence les informations sous-
jacentes qui sont cachées dans les données.
5. L’interprétation et l’évaluation des informations extraites constitue la cinquième et dernière étape
du processus et a pour objectif de produire de la connaissance sur le domaine d’étude en s’assurant de
la validité de la sémantique des modèles.

Sléction de
données

Prétraitement

Transformation

Recherche de
modèle

Interprétation et
évaluation des
connaissances

Figure 2.1 Processus d’extraction de connaissances à partir des données.

1.4. Classement des techniques du data mining


Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l’analyse de données
et de l’informatique pour explorer les données.

1.4.1. Première distinction : techniques descriptives et techniques prédictives


On distingue d’abord entre deux grandes catégories de techniques : les techniques descriptives et les
techniques prédictives.
a) Les techniques descriptives (archétype : la classification)
 Décrire.
 Résumer, synthétiser, réduire, classer.
 Mettre en évidence des informations présentes mais cachées par le volume des données.
 Pas de variable cible à prédire.
 On les appelle aussi : technique non supervisées.

Zouache Djaafar, Département d’informatique, 2016-2017 7


Chapitre 1 : Introduction au data mining

b) Les techniques prédictives


 Prédire.
 Extrapoler de nouvelles informations à partir des informations présentes.
 Les techniques prédictives présentent une variable cible à prédire.
 L’objectif est de prévoir la variable cible mais aussi de classer à partir de la variable cible.
 On les appelle aussi : techniques supervisées.
 Elles sont plus délicates à mettre en œuvre que les techniques descriptives.
 Elles demandent plus d’historique que les techniques descriptives.
 Elles produisent des modèles de prédiction.

1.4.2. Les 6 grands types de techniques du data mining


Le data mining permet d’accomplir les six types d’analyse suivants :
1 : Description 2 : Classification 3 : Association
4 : Estimation 5 : Segmentation 6 : Prévision.
Ces types d’analyse se répartissent dans les techniques descriptives et prédictives :
Problèmes de vocabulaire et de traduction
Anglais Français
Clustering segmentation ou classification
Classification classification ou classement
Decision trees arbres de décision ou segmentation
Le vocabulaire souligné est celui qu’on utilise dans ce polycopié.
Distinction entre classification et classement
 Dans un classement, on sait à l’avance à quelle classe l’individu appartient car on connaît à
l’avance les classes.
 Dans une classification, on ne sait pas à l’avance à quelle classe un individu appartient car on ne
connaît pas à l’avance les classes. La classification se fait en fonction de la population entière
Exemple :
On peut classer les personnes par choix de l’option internationale et de l’option messagerie. Ça définit a
priori 4 classes. C’est un classement.
On peut prendre tous les attributs des clients et chercher des classes de clients en fonction de tous ces
attributs : ça donnera un nouvel attribut avec ses valeurs possibles.
Classement Classification

Ne crée pas nécessairement de nouvel attribut Crée nécessairement un nouvel attribut

Les classes sont définies à partir d’un attribut Les classes sont définies à partir d’un grand
unique ou d’un petit nombre d’attributs. nombre d’attributs

Une classe est connue à partir d’un individu Les classes sont connues à partir de la
population

Les classes et leur nombre sont connus a Les classes et leur nombre sont connus a
priori. posteriori.

Zouache Djaafar, Département d’informatique, 2016-2017 8


Chapitre 1 : Introduction au data mining

La classe d’appartenance d’un individu est La classe d’appartenance d’un individu est
définie par l’individu lui-même. défini par ses relations avec la population.

Plutôt prédictif. Les données des attributs de Plutôt descriptif. La classification crée un
classement sont utilisés pour prédire une attribut de classification qui est la variable
variable cible. cible de la classification elle-même.

1.4.2.1. La description (technique descriptive)


Principe : La description consiste à mettre au jour
 Pour une variable donnée : la répartition de ses valeurs (tri, histogramme, moyenne, minimum,
maximum, etc.).
 Pour deux ou trois variables données : des liens entre les répartitions des valeurs des variables. Ces
liens s’appellent des « tendances ».
Intérêt :
 Favoriser la connaissance et la compréhension des données.

Méthodes :
 Méthodes graphiques pour la clarté : analyse exploratoire des données.

Exemple :
 Répartition des votes par âge (lien entre les variables « vote » et « âge »).

1.4.2.2. La classification (technique descriptive)


Principe :
La classification (ou clustering ou segmentation) consiste à créer des classes (c’est-à-dire des sous-
ensembles) de données similaires entre elles et différentes des données d’une autre classe (autrement dit,
l’intersection des classes entre elles doit toujours être vide).
Autrement dit, il s’agit pour n variables de créer des sous-ensembles disjoints de données. On dit aussi «
segmenter » l’ensemble entier des données.
La classification définit les grands types de regroupement et de distinction : on parle de méta-typologie
(type de type).
Elle permet une vision générale de l’ensemble (de la clientèle, par exemple).
Intérêt :
 Favoriser, grâce à la métatypologie, la compréhension et la prédiction.
 Réduire les dimensions, c’est-à-dire le nombre d’attributs, quand il y en a trop au départ.

Méthodes :
 Classification hiérarchique
 Classification des K moyennes
 Réseaux de Kohonen.
 Règles d’association.

Exemple :

Zouache Djaafar, Département d’informatique, 2016-2017 9


Chapitre 1 : Introduction au data mining

Méta-typologie d’une clientèle en fonction de l’âge, les revenus, le caractère urbain ou rural, la taille des
villes, etc.

1.4.2.3. L’association (technique descriptive)


Principe :
L’association consiste à trouver quelles valeurs des variables vont ensemble. Par exemple, telle valeur
d’une variable va avec telle valeur d’une autre variable.
Les règles d’association sont de la forme : si antécédent, alors conséquence.
L’association ne fixe pas de variable cible. Tous les variables peuvent à la fois être prédicteurs et variable
cible.
On appelle aussi ce type d’analyse une « analyse d’affinité ».
Intérêt :
 Mieux connaître les comportements.

Méthodes :
 Algorithme a priori.
 Algorithme du GRI (induction de règles généralisée).

Exemple :
Analyse du panier de la ménagère (si j’achète des fraises, alors j’achète des cerises).

1.4.2.4. L’estimation (technique prédictive)


Principe :
L’estimation consiste à définir le lien entre un ensemble de prédicteurs et une variable cible.
Ce lien est défini à partir de données « complètes », c’est-à-dire dont les valeurs sont connues tant pour
les prédicteurs que pour la variable cible. Ensuite, on peut déduire une variable cible inconnue de la
connaissance des prédicteurs.
À la différence de la segmentation (technique prédictive suivante) qui travaille sur une variable cible
catégorielle, l’estimation travaille sur une variable cible numérique.
Intérêt :
 Permettre l’estimation de valeurs inconnues.

Méthodes :
 Analyse statistique classique : régression linéaire simple, corrélation, régression multiple, intervalle de
confiance, estimation de points.
 Réseaux de neurones

Exemple :
Estimer la pression sanguine à partir de l’âge, le sexe, le poids et le niveau de sodium dans le sang.

1.4.2.5. Le classement (technique prédictive)


Principe :
Le classement est une estimation qui travaille sur une variable cible catégorielle.
On parle de segmentation car chaque valeur possible pour la variable cible va définir un segment (ou type,
ou classe, ou catégorie) de données.
Le classement peut être vu comme une classification supervisée.
Intérêt :

Zouache Djaafar, Département d’informatique, 2016-2017 10


Chapitre 1 : Introduction au data mining

 Permettre l’estimation de valeurs inconnues.

Méthodes :
 Graphiques et nuages de points.
 Méthode des k plus proches voisins.
 Arbres de décision.
 Réseau de neurones.

Exemple :
 Segmentation par tranche de revenus : élevé, moyen et faible (3 segments). On cherche les caractéristiques
qui conduisent à ces segments.
 Déterminer si un mode de remboursement présente un bon ou un mauvais niveau de risque crédit (deux
segments).
 Placer un nouvel étudiant dans une filière particulière au regard de besoins spécifique.

1.4.2.6. La prévision (technique prédictive)


Principe :
La prévision est similaire à l’estimation et à le classement mise à part que pour la prévision, les résultats
portent sur le futur.
Intérêt :
 Permettre l’estimation de valeurs inconnues.

Méthodes :
 Celles de l’estimation ou de la segmentation.

Exemples :
 Prévoir le prix d’action à trois mois dans le futur.
 Prévoir le temps qu’il va faire.
 Prévoir le gagnant du championnat de football, par rapport à une comparaison des résultats des équipes.

Zouache Djaafar, Département d’informatique, 2016-2017 11

Vous aimerez peut-être aussi