0% ont trouvé ce document utile (0 vote)

184 vues32 pages

Chapitre 2 Classification

Le document décrit les concepts de base de la classification, notamment la différence entre classification et prédiction, quelques méthodes de classification comme les arbres de décision, les réseaux de neurones et les plus proches voisins. Il présente également le processus de classification en deux étapes de construction du modèle et d'utilisation du modèle, ainsi que les notions d'apprentissage supervisé et non supervisé.

Transféré par

Seifeddin Lamloum

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

184 vues32 pages

Chapitre 2 Classification

Transféré par

Seifeddin Lamloum

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Ecole Centrale Polytechnique

Cours : DataMining
Chapitre 2 : La classification

Elaboré par : Houcine ESSID

Niveau : 2ème année ING Affaires et Projets

1
Classification vs prédiction

Classification
• Classification, classement , discrimination
•Prédit la catégorie d’un objet (discrètes ou nominales)
•Construit un modèle basé sur un échantillon de test (jeu d’apprentissage)
et des valeurs (noms de catégorie) et l’utilise pour classer des données
nouvelles

Prédiction
•Modélise des données numériques pour prédire des données inconnue
ou manquantes

Applications
Diagnostic médical, ciblage marketing, credit scoring, détection de fraudes
2
Classification

Quelques méthodes
Š
• arbre de décision
•Š classificateur bayésien
•Š réseau de neurones
•Š plus proches voisins

3
Classification : processus à deux étapes
• Construction du modèle
•Š chaque objet appartient à une classe connue
• jeu de données d’apprentissage : ensemble des objets utilisés pour la
construction du modèle

• Utilisation du modèle pour classer des objets nouveaux ou

inconnus
•Š estimation de la précision du modèle à l’aide du jeu de test
• les classes connues du jeu d’apprentissage sont comparées à celles
prédites
• précision : pourcentage d’objets de jeu de test correctement classés
• le jeu de test est indépendant du jeu d’apprentissage sinon risque
4
de biais (défaut)
Classification : Construction du modèle

Tenured= titulaire 5
Classification : Utilisation du modèle
Règles de classification

6
Apprentissage supervisé vs apprentissage
non supervisé

Apprentissage supervisé (classification)

• supervision : le jeu de données d’apprentissage fournit les classes des objets

• les nouveaux objets sont classés en fonction du jeu d’apprentissage

Apprentissage non supervisé (clustering)

• Pas de classes définies

• Étant donné un ensemble de mesures, d’observations, etc., essayer d’établir

l’existence de classes ou de clusters dans les données

7
Classification par les arbres de décision
Output : arbre de décision “buys_computer”
nœuds internes : test sur un attribut
9 yes branches : résultat d’un test / valeur
age? 5 no de l’attribut
feuilles : classe

<=30 31..40 >40

2 yes 4 yes 3 yes
3 no 0 no 2 no

student? yes credit rating?

no yes excellent fair 3 yes

0 yes 2 yes 0 yes
0 no
3 no 0 no 2 no
no yes yes

8
Classification par les arbres de décision:
généralité
Génération de l’arbre en 2 étapes

1. Construction
• au départ, tous les exemples du jeu d’apprentissage sont à la racine
• partitionne récursivement les exemple en sélectionnant des attributs

2. Élagage
• identification et suppression des branches correspondant à des exceptions ou
du bruit

Utilisation de l’arbre
• teste les valeurs des attributs avec l’arbre de décision

9
Algorithme pour l’induction d’arbres de
décision
• Algorithme glouton
•approche descendante récursive diviser pour régner
•au départ, tous les objets sont à la racine
• attributs catégoriels (les valeurs continues sont discrétisées à l’avance)
•les exemples sont partitionnés récursivement par la sélection d’attribut
•les attributs sont sélectionnés sur la base d’une heuristique ou d’une
mesure statistique

• Conditions d’arrêt
• tous les exemples pour un nœud appartiennent à la même classe
• plus d’attribut pour partitionner, dans ce cas la classe attribuées
correspond à celle la plus représentée

10
Induction d’arbres de décision :
Algorithme générer_arbre_décision
Input:

D : partition de données – jeu d’apprentissage et valeurs des classes

correspondantes

L : liste des attributs candidats

méthode_sélection_attribut: procédure pour déterminer le critère de

scission qui partitionne le mieux les tuples de données en classes on parle
d’attribut de scission, point de scission

Output : arbre de décision

11
Mesure pour la sélection d’attributs:

Plusieurs mesures possibles:

• Entropie ou gain informationnel (ID3, C4.5)

• Indice de concentration ou indice de GINI (CART)

• Mesure de liaison statistique (CHAID)

12
Mesure pour la sélection d’attributs:
gain d’information (ID3 et c4.5)
•L’entropie est une fonction mathématique
correspondant à la quantité d’information
contenue ou délivrée par une source
d’information.

•Elle permet de mesurer le désordre dans un

ensemble de données.

• Si la source délivre une seule information

l’entropie est nulle

•Si la source délivre deux informations :

chacune avec une probabilité égale à 0,5
l’entropie est égale à 1.

13
Mesure pour la sélection d’attributs:
gain d’information (ID3 et c4.5)
Entropie de Shannon
Shannon en 1949 a proposé une mesure d’entropie valable pour les distributions
discrètes de probabilité. Elle exprime la quantité d’information, c’est-à-dire
le nombre de bits nécessaires pour spécifier la distribution

L’entropie d'information est:

I = -  p i  log2 (p i )
i=1..k
où pi est la probabilité de la classe Ci.
Entropie d’information de S
C
I ( S ) = −  p (ci )  log 2 p (ci )
i =1
Nulle quand il n’y a qu’une classe
D’autant plus grande que les classes sont équiprobables
Vaut log2(k) quand les k classes sont équiprobables
Gain d’information : Gain(S,A)=Réduction d’entropie due à un tri suivant les
valeurs de A → l’objectif est de trouver un attribut permettant d’avoir des feuilles
14
pures cad dont l’information est la plus petite
Mesure pour la sélection d’attributs:
gain d’information (ID3 et c4.5)
◼ But: sélectionner l’attribut ayant le plus grand gain d’information
◼ Soit pi la probabilité qu’un tuple arbitraire dans D appartienne à la classe
Ci, estimé par |Ci, D|/|D| (nombre de tuples de D appartenant à Ci
divisé par le nombre de tuples de D)
◼ L’information moyenne (entropie) nécessaire pour classer un tuple dans
m
D:

Info( D) = − p log ( p )
i =1
i 2 i

◼ L’information nécessaire (en utilisant l’attribut A pour scinder D en v

partitions) pour classifier D selon A: v | D |
Info A ( D) = 
j
 Info ( D j )
j= nombre de valeurs dans A j =1 | D |
◼ Le gain d’information en partitonnant selon l’attibut A

Gain(A) = Info(D) − Info A(D) 15

Sélection d’attribut: Gain d’information
 Classe P: buys_computer = “yes” 5 4
Infoage ( D) = I (2,3) + I (4,0)
 Classe N: buys_computer = “no” 14 14
9 9 5 5 5
Info( D) = I (9,5) = − log 2 ( ) − log 2 ( ) =0.940 + I (3,2) = 0.694
14 14 14 14 14
5
age pi ni I(pi, ni) I (2,3) → “age <=30” a 5 parmi 14
<=30 2 3 0.971 14
exemples, avec 2 yes et 3 no.
31…40 4 0 0 Ainsi
>40 3 2 0.971
age income student credit_rating buys_computer Gain(age) = Info( D) − Infoage ( D) = 0.246
<=30 high no fair no
<=30 high no excellent no
31…40 high
>40 medium
no
no
fair
fair
yes
yes
On a aussi,
>40
>40
low
low
yes fair
yes excellent
yes
no Gain(income) = 0.029
31…40 low yes excellent yes
<=30
<=30
medium
low
no fair
yes fair
no
yes
Gain( student ) = 0.151
>40
<=30
medium
medium
yes fair
yes excellent
yes
yes Gain(credit _ rating ) = 0.048
31…40 medium no excellent yes
31…40 high
March 20, 2021
yes fair yes Donc on choisit l’attribut AGE 16
>40 medium no excellent no
Pour générer un arbre de décision:

1) Une base d’apprentissage

2) Une base de test

3) Utiliser une mesure statistique

• Entropie (ou gain informationnel)

• Indice de Gini

17
18
19
20
21
22
23
24
25
26
27
Dans le quadrillage ci-dessous 14 points sont dessinés, dont
7 de la classe C1, avec des ronds noirs et 7 de la classe C2,
avec des losanges.

On introduit un nouveau point A, dont on cherche la classe à

l’aide d’un algorithme des k plus proches voisins pour la
distance géométrique habituelle, en faisant varier la valeur de
k parmi 1, 3 et 5.

28
29
On cherche à prédire la couleur d’un fruit en fonction de sa largeur et de
sa hauteur.
On dispose des données d’apprentissage suivantes :

largeur hauteur couleur

2 6 red
5 6 yellow
2 5 orange
6 5 purple
1 2 red
4 2 blue
2 1 violet
6 1 green

Ces données sont placées dans un repère en abscisse, en ordonnée).

30
31
L’objectif ici est d’étudier l’influence des voisins sur la
propriété de couleur d’un fruit.

Soit le nouveau fruit de largeur L = 1, et de hauteur H = 4.

1.Indiquez pour chaque point sa couleur.

2.Quelle est sa couleur si l’on considère 1 voisin ?
3.Quelle est sa couleur si l’on considère 3 voisins ?

Vous aimerez peut-être aussi

Chap Classification Prediction
Pas encore d'évaluation
Chap Classification Prediction
42 pages
Classification DM 2015 2016
Pas encore d'évaluation
Classification DM 2015 2016
41 pages
Cours Machine Learning - Arbre de Décision
Pas encore d'évaluation
Cours Machine Learning - Arbre de Décision
71 pages
Chap 2
Pas encore d'évaluation
Chap 2
33 pages
Arbres de Décision en IA
Pas encore d'évaluation
Arbres de Décision en IA
24 pages
Arbres de Décision en Classification
Pas encore d'évaluation
Arbres de Décision en Classification
23 pages
Classification Par Arbre de Décision ID3 C4.5 EXC
Pas encore d'évaluation
Classification Par Arbre de Décision ID3 C4.5 EXC
103 pages
Chapitre 2 A
Pas encore d'évaluation
Chapitre 2 A
164 pages
Apprentissage Supervisé et Classification
Pas encore d'évaluation
Apprentissage Supervisé et Classification
83 pages
Arbres de Décisions
Pas encore d'évaluation
Arbres de Décisions
11 pages
Cours Fouille de Données
100% (1)
Cours Fouille de Données
59 pages
Chapitre 2 - Arbres - de - Décision - Part1 PDF
Pas encore d'évaluation
Chapitre 2 - Arbres - de - Décision - Part1 PDF
34 pages
Chapitre 2 Arbres de Decision
Pas encore d'évaluation
Chapitre 2 Arbres de Decision
34 pages
Méthodes de Classification en Apprentissage Supervisé
Pas encore d'évaluation
Méthodes de Classification en Apprentissage Supervisé
63 pages
Arbres de Decision PDF
Pas encore d'évaluation
Arbres de Decision PDF
43 pages
Chap3 Arbres Sahbi
Pas encore d'évaluation
Chap3 Arbres Sahbi
46 pages
Arbres de Décision et Classification
Pas encore d'évaluation
Arbres de Décision et Classification
44 pages
Cours DM - Classification
Pas encore d'évaluation
Cours DM - Classification
23 pages
Exemple d'Arbre de Décision
Pas encore d'évaluation
Exemple d'Arbre de Décision
39 pages
Classification supervisée avec R
Pas encore d'évaluation
Classification supervisée avec R
11 pages
Arbre de Décision ET KNN PDF
Pas encore d'évaluation
Arbre de Décision ET KNN PDF
47 pages
Introduction à l'Apprentissage Automatique
Pas encore d'évaluation
Introduction à l'Apprentissage Automatique
164 pages
ML3
Pas encore d'évaluation
ML3
6 pages
Arbres de Décision
100% (1)
Arbres de Décision
23 pages
Chap07 DecisionTrees
Pas encore d'évaluation
Chap07 DecisionTrees
82 pages
Arbre de Décision - GI2
Pas encore d'évaluation
Arbre de Décision - GI2
29 pages
CM5 DecisionTree
Pas encore d'évaluation
CM5 DecisionTree
29 pages
Arbre Decision
Pas encore d'évaluation
Arbre Decision
43 pages
Initiation à la Fouille de Données
Pas encore d'évaluation
Initiation à la Fouille de Données
38 pages
Chap5 - Arbres de Décision
Pas encore d'évaluation
Chap5 - Arbres de Décision
55 pages
Ad Handout PDF
Pas encore d'évaluation
Ad Handout PDF
7 pages
Arbre de décision en intelligence artificielle
Pas encore d'évaluation
Arbre de décision en intelligence artificielle
9 pages
Classification Par Arbre de Décision Cart
Pas encore d'évaluation
Classification Par Arbre de Décision Cart
48 pages
Arbres de décision en classification supervisée
Pas encore d'évaluation
Arbres de décision en classification supervisée
55 pages
Classification 1
Pas encore d'évaluation
Classification 1
29 pages
Arbres - Decision 18 19
Pas encore d'évaluation
Arbres - Decision 18 19
76 pages
Chap03.arbres Decision
Pas encore d'évaluation
Chap03.arbres Decision
75 pages
Chapitre V - Arbre de Décision - Introduction À L'apprentissage Automatique
Pas encore d'évaluation
Chapitre V - Arbre de Décision - Introduction À L'apprentissage Automatique
17 pages
Cours AA 11 Octobre
Pas encore d'évaluation
Cours AA 11 Octobre
39 pages
TD N°2 Apprentissage M1-IA DTrees 2022-2023 - Corr
Pas encore d'évaluation
TD N°2 Apprentissage M1-IA DTrees 2022-2023 - Corr
16 pages
Chapitre 3 Apprentissage A Laide Des Arbres de Decision
Pas encore d'évaluation
Chapitre 3 Apprentissage A Laide Des Arbres de Decision
37 pages
Arbre de Decision
Pas encore d'évaluation
Arbre de Decision
44 pages
Classification et Modèles de Données
Pas encore d'évaluation
Classification et Modèles de Données
34 pages
Arbres de Décision et FDD par Christelle Scharff
Pas encore d'évaluation
Arbres de Décision et FDD par Christelle Scharff
52 pages
CH 5
Pas encore d'évaluation
CH 5
119 pages
RFIA Cours3 PDF
Pas encore d'évaluation
RFIA Cours3 PDF
36 pages
ID3 Et C4.5
Pas encore d'évaluation
ID3 Et C4.5
7 pages
Cour 3
Pas encore d'évaluation
Cour 3
9 pages
chapter09.7.ML-SL-Decision Trees
Pas encore d'évaluation
chapter09.7.ML-SL-Decision Trees
30 pages
Chapitre 2 - Machine Learning - Les Arbres de Décision
Pas encore d'évaluation
Chapitre 2 - Machine Learning - Les Arbres de Décision
10 pages
Chapitre 5 - Les Arbres de D-Cision
Pas encore d'évaluation
Chapitre 5 - Les Arbres de D-Cision
33 pages
Arbres de Décision et Prédiction
Pas encore d'évaluation
Arbres de Décision et Prédiction
8 pages
Les Arbres de Decisions LE 2025
Pas encore d'évaluation
Les Arbres de Decisions LE 2025
39 pages
Techniques de Classification Supervisée
Pas encore d'évaluation
Techniques de Classification Supervisée
17 pages
Apprentissage Supervisé 1p PDF
Pas encore d'évaluation
Apprentissage Supervisé 1p PDF
122 pages
Chapitre 4 Classiication
Pas encore d'évaluation
Chapitre 4 Classiication
19 pages
Chapitre III ML Les Arbres de Decision
Pas encore d'évaluation
Chapitre III ML Les Arbres de Decision
20 pages
Partie 3 - IAApprentissage
Pas encore d'évaluation
Partie 3 - IAApprentissage
30 pages
TD 3 - TIC - Master
Pas encore d'évaluation
TD 3 - TIC - Master
2 pages
Codage et Transmission en Bande de Base
Pas encore d'évaluation
Codage et Transmission en Bande de Base
45 pages
Théorie de l'Information et Codage
100% (1)
Théorie de l'Information et Codage
64 pages
TD Master
Pas encore d'évaluation
TD Master
13 pages
Solution TD1 Codages Entropiques
Pas encore d'évaluation
Solution TD1 Codages Entropiques
14 pages
Codage Entropique et Compression d'Images
100% (1)
Codage Entropique et Compression d'Images
14 pages
Chap3 A
Pas encore d'évaluation
Chap3 A
36 pages
Série de TD 3
Pas encore d'évaluation
Série de TD 3
3 pages
Codage & Théorie de l'Information
Pas encore d'évaluation
Codage & Théorie de l'Information
6 pages
Cours 7-8 Info0603 Compression
Pas encore d'évaluation
Cours 7-8 Info0603 Compression
46 pages
Entropies et Critères Entropiques
Pas encore d'évaluation
Entropies et Critères Entropiques
26 pages
QCM Entropie
Pas encore d'évaluation
QCM Entropie
6 pages
As Arbre Decision
Pas encore d'évaluation
As Arbre Decision
25 pages
Enoncé Des TP (Codage de Source)
Pas encore d'évaluation
Enoncé Des TP (Codage de Source)
8 pages
Tor4276 PDF
Pas encore d'évaluation
Tor4276 PDF
155 pages
Entropie et sources discrètes en info
Pas encore d'évaluation
Entropie et sources discrètes en info
6 pages
Introduction à la transmission d'information
Pas encore d'évaluation
Introduction à la transmission d'information
26 pages
Techniques de Codage et Compression
Pas encore d'évaluation
Techniques de Codage et Compression
16 pages
Cours de Théorie de L'information
Pas encore d'évaluation
Cours de Théorie de L'information
96 pages
Manuel d'exercices en Théorie de l'Information et Codage
Pas encore d'évaluation
Manuel d'exercices en Théorie de l'Information et Codage
27 pages
3 Sources Markov 2023
Pas encore d'évaluation
3 Sources Markov 2023
3 pages
Cti-Cours 1
Pas encore d'évaluation
Cti-Cours 1
21 pages
Introduction aux Réseaux Informatiques
Pas encore d'évaluation
Introduction aux Réseaux Informatiques
30 pages
Histoire Des Théories de La Communication
100% (1)
Histoire Des Théories de La Communication
44 pages
Apprentissage Inductif et Arbres de Décision
Pas encore d'évaluation
Apprentissage Inductif et Arbres de Décision
30 pages
Indices de Diversité (Totaux)
Pas encore d'évaluation
Indices de Diversité (Totaux)
4 pages
ISTDI - TD Théorie de L'info Et Du Codage - Rev
Pas encore d'évaluation
ISTDI - TD Théorie de L'info Et Du Codage - Rev
4 pages
TD 1 - TIC - Master - Solution
Pas encore d'évaluation
TD 1 - TIC - Master - Solution
4 pages
Codage et Compression: Exercices et Solutions
Pas encore d'évaluation
Codage et Compression: Exercices et Solutions
7 pages
Exercices sur l'entropie et compression
Pas encore d'évaluation
Exercices sur l'entropie et compression
4 pages