Introduction à la Classification
Introduction à la Classification
M. Ledmi
m_ledmi@[Link]
Département d’Informatique Khenchela
2020/2021
Plan
1 Classification
Quelques Notation
Définition
Arbres de décision
1 Classification
Quelques Notation
Définition
Arbres de décision
Quelques Notation
Quelques Notation
Quelques Notation
Quelques Notation
Quelques Notation
Quelques Notation
Natures d’attributs
Natures d’attributs
Natures d’attributs
Natures d’attributs
Natures d’attributs
Natures d’attributs
Un attribut peut être de nature qualitative ou quantitative en fonction de
l’ensemble des valeurs qu’il peut prendre.
Attribut qualitatif
Si on ne peut pas en faire une moyenne ;
Sa valeur est d’un type défini en extension (une couleur, une
marque de voiture, . . . etc.).
Natures d’attributs
Un attribut peut être de nature qualitative ou quantitative en fonction de
l’ensemble des valeurs qu’il peut prendre.
Attribut qualitatif
Si on ne peut pas en faire une moyenne ;
Sa valeur est d’un type défini en extension (une couleur, une
marque de voiture, . . . etc.).
Natures d’attributs
Un attribut peut être de nature qualitative ou quantitative en fonction de
l’ensemble des valeurs qu’il peut prendre.
Attribut qualitatif
Si on ne peut pas en faire une moyenne ;
Sa valeur est d’un type défini en extension (une couleur, une
marque de voiture, . . . etc.).
Attribut quantitatif
L’attribut est de nature quantitative : un entier, un réel, . . . etc.
Il peut représenter un salaire, une surface, un nombre d’habitants,
. . . etc.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
Un attribut peut être de nature qualitative ou quantitative en fonction de
l’ensemble des valeurs qu’il peut prendre.
Attribut qualitatif
Si on ne peut pas en faire une moyenne ;
Sa valeur est d’un type défini en extension (une couleur, une
marque de voiture, . . . etc.).
Attribut quantitatif
L’attribut est de nature quantitative : un entier, un réel, . . . etc.
Il peut représenter un salaire, une surface, un nombre d’habitants,
. . . etc.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
Un attribut peut être de nature qualitative ou quantitative en fonction de
l’ensemble des valeurs qu’il peut prendre.
Attribut qualitatif
Si on ne peut pas en faire une moyenne ;
Sa valeur est d’un type défini en extension (une couleur, une
marque de voiture, . . . etc.).
Attribut quantitatif
L’attribut est de nature quantitative : un entier, un réel, . . . etc.
Il peut représenter un salaire, une surface, un nombre d’habitants,
. . . etc.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut nominal
Les valeurs sont des symboles (des noms)
Aucune relation (ordre ou distance) entre les nominaux n’existe.
Seuls des tests d’égalité peuvent être exécutés.
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut nominal
Les valeurs sont des symboles (des noms)
Aucune relation (ordre ou distance) entre les nominaux n’existe.
Seuls des tests d’égalité peuvent être exécutés.
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut nominal
Les valeurs sont des symboles (des noms)
Aucune relation (ordre ou distance) entre les nominaux n’existe.
Seuls des tests d’égalité peuvent être exécutés.
Exemples
Les valeurs de Temps (Ensoleillé, Pluvieux, Neigeux, Gris)
La couleur (Vert, Bleu, Rouge)
Si T emps = P luvieux alors Jouer = N on
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut nominal
Les valeurs sont des symboles (des noms)
Aucune relation (ordre ou distance) entre les nominaux n’existe.
Seuls des tests d’égalité peuvent être exécutés.
Exemples
Les valeurs de Temps (Ensoleillé, Pluvieux, Neigeux, Gris)
La couleur (Vert, Bleu, Rouge)
Si T emps = P luvieux alors Jouer = N on
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut nominal
Les valeurs sont des symboles (des noms)
Aucune relation (ordre ou distance) entre les nominaux n’existe.
Seuls des tests d’égalité peuvent être exécutés.
Exemples
Les valeurs de Temps (Ensoleillé, Pluvieux, Neigeux, Gris)
La couleur (Vert, Bleu, Rouge)
Si T emps = P luvieux alors Jouer = N on
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut nominal
Les valeurs sont des symboles (des noms)
Aucune relation (ordre ou distance) entre les nominaux n’existe.
Seuls des tests d’égalité peuvent être exécutés.
Exemples
Les valeurs de Temps (Ensoleillé, Pluvieux, Neigeux, Gris)
La couleur (Vert, Bleu, Rouge)
Si T emps = P luvieux alors Jouer = N on
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut ordinal
Une notion d’ordre s’impose sur les ordinaux.
Mais il n’est pas possible de calculer directement des distances
entre des valeurs ordinales.
Les opérations d’addition et de soustraction ne sont pas possibles.
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut ordinal
Une notion d’ordre s’impose sur les ordinaux.
Mais il n’est pas possible de calculer directement des distances
entre des valeurs ordinales.
Les opérations d’addition et de soustraction ne sont pas possibles.
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut ordinal
Une notion d’ordre s’impose sur les ordinaux.
Mais il n’est pas possible de calculer directement des distances
entre des valeurs ordinales.
Les opérations d’addition et de soustraction ne sont pas possibles.
Exemples
La température est décrite par les adjectifs chaud, froid, moyen, et
chaud > moyen > froid
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut ordinal
Une notion d’ordre s’impose sur les ordinaux.
Mais il n’est pas possible de calculer directement des distances
entre des valeurs ordinales.
Les opérations d’addition et de soustraction ne sont pas possibles.
Exemples
La température est décrite par les adjectifs chaud, froid, moyen, et
chaud > moyen > froid
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut ordinal
Une notion d’ordre s’impose sur les ordinaux.
Mais il n’est pas possible de calculer directement des distances
entre des valeurs ordinales.
Les opérations d’addition et de soustraction ne sont pas possibles.
Exemples
La température est décrite par les adjectifs chaud, froid, moyen, et
chaud > moyen > froid
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut de type intervalle
Les intervalles impliquent une notion d’ordre, et les valeurs sont
mesurées dans des unités spécifiques et fixées
La somme, la différence et le produit de deux intervalles ne sont
pas possibles.
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut de type intervalle
Les intervalles impliquent une notion d’ordre, et les valeurs sont
mesurées dans des unités spécifiques et fixées
La somme, la différence et le produit de deux intervalles ne sont
pas possibles.
Exemples
La température exprimée en degrés Celsius ou Fahrenheit
L’attribut année : (2000,2010,2014).
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut de type intervalle
Les intervalles impliquent une notion d’ordre, et les valeurs sont
mesurées dans des unités spécifiques et fixées
La somme, la différence et le produit de deux intervalles ne sont
pas possibles.
Exemples
La température exprimée en degrés Celsius ou Fahrenheit
L’attribut année : (2000,2010,2014).
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut de type intervalle
Les intervalles impliquent une notion d’ordre, et les valeurs sont
mesurées dans des unités spécifiques et fixées
La somme, la différence et le produit de deux intervalles ne sont
pas possibles.
Exemples
La température exprimée en degrés Celsius ou Fahrenheit
L’attribut année : (2000,2010,2014).
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut de type rapport (ratio)
Toutes les opérations mathématiques sont autorisées sur les
attributs de ce type.
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut de type rapport (ratio)
Toutes les opérations mathématiques sont autorisées sur les
attributs de ce type.
Exemples
L’attribut distance :
On peut comparer deux distances.
On peut additionner deux distances.
La distance entre un objet et lui-même est zéro.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut de type rapport (ratio)
Toutes les opérations mathématiques sont autorisées sur les
attributs de ce type.
Exemples
L’attribut distance :
On peut comparer deux distances.
On peut additionner deux distances.
La distance entre un objet et lui-même est zéro.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Natures d’attributs
La valeur d’un attribut est censée représenter une certaine mesure d’une
quantitée
Attribut de type rapport (ratio)
Toutes les opérations mathématiques sont autorisées sur les
attributs de ce type.
Exemples
L’attribut distance :
On peut comparer deux distances.
On peut additionner deux distances.
La distance entre un objet et lui-même est zéro.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Classification supervisée
Définition
Dans un problème de classification supervisée, la classe prend sa valeur
parmi un ensemble Y fini. Le problème consiste alors, en s’appuyant sur
l’ensemble d’exemples X = (xi , yi ) i ∈ {1 . . . N }, à prédire la classe de
toute nouvelle donnée x ∈ D.
Classification supervisée
Remarque :
On parle de classification binaire quand le nombre de classes yi est
deux .
Il peut naturellement être quelconque. Dans tous les cas, il s’agît
d’un attribut qualitatif pouvant prendre un nombre fini de valeurs.
Dans l’absolu, une donnée peut appartenir à plusieurs classes :
c’est alors un problème multi-classes.
Ici, on considère que chaque donnée appartient à une et une seule
classe.
On utilise le mot étiquette comme synonyme de classe.
Classification supervisée
Remarque :
On parle de classification binaire quand le nombre de classes yi est
deux .
Il peut naturellement être quelconque. Dans tous les cas, il s’agît
d’un attribut qualitatif pouvant prendre un nombre fini de valeurs.
Dans l’absolu, une donnée peut appartenir à plusieurs classes :
c’est alors un problème multi-classes.
Ici, on considère que chaque donnée appartient à une et une seule
classe.
On utilise le mot étiquette comme synonyme de classe.
Classification supervisée
Remarque :
On parle de classification binaire quand le nombre de classes yi est
deux .
Il peut naturellement être quelconque. Dans tous les cas, il s’agît
d’un attribut qualitatif pouvant prendre un nombre fini de valeurs.
Dans l’absolu, une donnée peut appartenir à plusieurs classes :
c’est alors un problème multi-classes.
Ici, on considère que chaque donnée appartient à une et une seule
classe.
On utilise le mot étiquette comme synonyme de classe.
Classification supervisée
Remarque :
On parle de classification binaire quand le nombre de classes yi est
deux .
Il peut naturellement être quelconque. Dans tous les cas, il s’agît
d’un attribut qualitatif pouvant prendre un nombre fini de valeurs.
Dans l’absolu, une donnée peut appartenir à plusieurs classes :
c’est alors un problème multi-classes.
Ici, on considère que chaque donnée appartient à une et une seule
classe.
On utilise le mot étiquette comme synonyme de classe.
Classification supervisée
Remarque :
On parle de classification binaire quand le nombre de classes yi est
deux .
Il peut naturellement être quelconque. Dans tous les cas, il s’agît
d’un attribut qualitatif pouvant prendre un nombre fini de valeurs.
Dans l’absolu, une donnée peut appartenir à plusieurs classes :
c’est alors un problème multi-classes.
Ici, on considère que chaque donnée appartient à une et une seule
classe.
On utilise le mot étiquette comme synonyme de classe.
Classification supervisée
Définition
Un classifieur est une procédure (un algorithme) qui, à partir d’un
ensemble d’exemples, produit une prédiction de la classe de toute donnée.
Remarque :
D’une manière générale, un classifieur procède par induction : à
partir d’exemples (donc de cas particuliers), on construit une
connaissance plus générale.
Parmi les modèles, on distingue ceux qui peuvent être interprétés
par un humain (arbre de décision ) et ceux qui ne le peuvent pas
(réseau de neurones).
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Classification supervisée
Définition
Un classifieur est une procédure (un algorithme) qui, à partir d’un
ensemble d’exemples, produit une prédiction de la classe de toute donnée.
Remarque :
D’une manière générale, un classifieur procède par induction : à
partir d’exemples (donc de cas particuliers), on construit une
connaissance plus générale.
Parmi les modèles, on distingue ceux qui peuvent être interprétés
par un humain (arbre de décision ) et ceux qui ne le peuvent pas
(réseau de neurones).
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Classification supervisée
Classification supervisée
Classification supervisée
Classification supervisée
Classification supervisée
Arbres de décision
On se donne :
un ensemble X de N exemples notés xi dont les P attributs sont
quantitatifs ou qualitatifs.
Chaque exemple x est étiqueté, c’est-à-dire qu’il lui est associée une
classe ou un attribut cible que l’on note y ∈ Y.
Arbres de décision
On se donne :
un ensemble X de N exemples notés xi dont les P attributs sont
quantitatifs ou qualitatifs.
Chaque exemple x est étiqueté, c’est-à-dire qu’il lui est associée une
classe ou un attribut cible que l’on note y ∈ Y.
Arbres de décision
Définition
A partir de ces exemples, on construit un arbre dit de décision tel
que :
Chaque noeud correspond à un test sur la valeur d’un ou plusieurs
attributs ;
Chaque branche partant d’un noeud correspond à une ou plusieurs
valeurs de ce test ;
A chaque feuille est associée une valeur de l’attribut cible.
Arbres de décision
Définition
A partir de ces exemples, on construit un arbre dit de décision tel
que :
Chaque noeud correspond à un test sur la valeur d’un ou plusieurs
attributs ;
Chaque branche partant d’un noeud correspond à une ou plusieurs
valeurs de ce test ;
A chaque feuille est associée une valeur de l’attribut cible.
Arbres de décision
Définition
A partir de ces exemples, on construit un arbre dit de décision tel
que :
Chaque noeud correspond à un test sur la valeur d’un ou plusieurs
attributs ;
Chaque branche partant d’un noeud correspond à une ou plusieurs
valeurs de ce test ;
A chaque feuille est associée une valeur de l’attribut cible.
Arbres de décision
Construction de l’arbre
Plusieurs algorithmes ont été proposés, notamment :
CART proposé par Breiman dans les années 1980 .
ID3 de Quinlan proposé en 1986 qui a été raffiné par la suite
(C4.5 puis C5) .
Arbres de décision
Construction de l’arbre
Plusieurs algorithmes ont été proposés, notamment :
CART proposé par Breiman dans les années 1980 .
ID3 de Quinlan proposé en 1986 qui a été raffiné par la suite
(C4.5 puis C5) .
Arbres de décision
Construction de l’arbre
Plusieurs algorithmes ont été proposés, notamment :
CART proposé par Breiman dans les années 1980 .
ID3 de Quinlan proposé en 1986 qui a été raffiné par la suite
(C4.5 puis C5) .
Arbres de décision
Construction de l’arbre
Plusieurs algorithmes ont été proposés, notamment :
CART proposé par Breiman dans les années 1980 .
ID3 de Quinlan proposé en 1986 qui a été raffiné par la suite
(C4.5 puis C5) .
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Entropie
Soit un ensemble X d’exemples dont une proportion p+ sont positifs et
une proportion p− sont négatifs. (Bien entendu, p+ + p− = 1.) L’entropie
de X est :
H(X ) = −p+ log2 (p+ ) − p− log2 (p− )
Quelques Notation
Classification Définition
Arbres de décision
Algorithme ID3
Entropie
Soit un ensemble X d’exemples dont une proportion p+ sont positifs et
une proportion p− sont négatifs. (Bien entendu, p+ + p− = 1.) L’entropie
de X est :
H(X ) = −p+ log2 (p+ ) − p− log2 (p− )
Remarque :
1 0 ≤ H(X ) ≤ 1 ;
2 Si p+ = 0 ou p− = 0, alors H(X ) = 0 : ainsi, si tous exemples sont
soit tous positifs, soit tous négatifs, l’entropie est nulle ;
3 Si p+ = p− = 0.5, alors H(X ) = 1 : ainsi, s’il y a autant de positifs
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Algorithme ID3
Entropie
Soit un ensemble X d’exemples dont une proportion p+ sont positifs et
une proportion p− sont négatifs. (Bien entendu, p+ + p− = 1.) L’entropie
de X est :
H(X ) = −p+ log2 (p+ ) − p− log2 (p− )
Remarque :
1 0 ≤ H(X ) ≤ 1 ;
2 Si p+ = 0 ou p− = 0, alors H(X ) = 0 : ainsi, si tous exemples sont
soit tous positifs, soit tous négatifs, l’entropie est nulle ;
3 Si p+ = p− = 0.5, alors H(X ) = 1 : ainsi, s’il y a autant de positifs
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Algorithme ID3
Entropie
Soit un ensemble X d’exemples dont une proportion p+ sont positifs et
une proportion p− sont négatifs. (Bien entendu, p+ + p− = 1.) L’entropie
de X est :
H(X ) = −p+ log2 (p+ ) − p− log2 (p− )
Remarque :
1 0 ≤ H(X ) ≤ 1 ;
2 Si p+ = 0 ou p− = 0, alors H(X ) = 0 : ainsi, si tous exemples sont
soit tous positifs, soit tous négatifs, l’entropie est nulle ;
3 Si p+ = p− = 0.5, alors H(X ) = 1 : ainsi, s’il y a autant de positifs
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Algorithme ID3
Définition
Pour une classe prenant n valeurs distinctes (numérotées de 1 à n) , no-
tons pi la proportion d’exemples dont la valeur de cet attribut est i dans
l’ensemble d’exemples considéré X . L’entropie de l’ensemble d’exemples
X est : n X
H(X ) = − pi log2 (pi )
i=1
Algorithme ID3
Remarque :
Avoir des sous-sensembles dont l’entropie est minimale est
intéressant : cela signifie que l’attribut placer à la racine discrimine
les exemples en fonction de leur classe.
Il est naturel de sommer ces entropies en les pondérant en fonction
de la proportion d’exemples dans chacun des sous-ensembles.
Voulant sélectionner l’attribut discriminant au mieux, on peut
utiliser la différence entre l’entropie de l’ensemble d’exemples initial
(utilisé pour déterminer la racine) et cette somme pondérée pour
trouver l’attribut le plus intéressant à placer dans la racine.
Algorithme ID3
Remarque :
Avoir des sous-sensembles dont l’entropie est minimale est
intéressant : cela signifie que l’attribut placer à la racine discrimine
les exemples en fonction de leur classe.
Il est naturel de sommer ces entropies en les pondérant en fonction
de la proportion d’exemples dans chacun des sous-ensembles.
Voulant sélectionner l’attribut discriminant au mieux, on peut
utiliser la différence entre l’entropie de l’ensemble d’exemples initial
(utilisé pour déterminer la racine) et cette somme pondérée pour
trouver l’attribut le plus intéressant à placer dans la racine.
Algorithme ID3
Remarque :
Avoir des sous-sensembles dont l’entropie est minimale est
intéressant : cela signifie que l’attribut placer à la racine discrimine
les exemples en fonction de leur classe.
Il est naturel de sommer ces entropies en les pondérant en fonction
de la proportion d’exemples dans chacun des sous-ensembles.
Voulant sélectionner l’attribut discriminant au mieux, on peut
utiliser la différence entre l’entropie de l’ensemble d’exemples initial
(utilisé pour déterminer la racine) et cette somme pondérée pour
trouver l’attribut le plus intéressant à placer dans la racine.
Algorithme ID3
Remarque :
L’attribut qui maximise cette différence est l’attribut qui
discrimine le mieux les exemples en fonction de leur classe.
Cette différence porte le nom de gain d’information.
Algorithme ID3
Gain d’information
Soit une population d’exemples X . Le gain d’information de X par
rapport à un attribut aj donné est la variation d’entropie causée par la
partition de X selon aj :
Xaj =v
X
Gain(X , aj ) = H(X ) − H(Xaj =v )
v∈valeurs(aj )
|X |
Algorithme ID3
Gain d’information
Soit une population d’exemples X . Le gain d’information de X par
rapport à un attribut aj donné est la variation d’entropie causée par la
partition de X selon aj :
Xaj =v
X
Gain(X , aj ) = H(X ) − H(Xaj =v )
v∈valeurs(aj )
|X |
où
Xaj =v ⊂ X est l’ensemble des exemples dont l’attribut considéré aj
prend la valeur v,
La notation |X | indique le cardinal de l’ensemble X .
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Algorithme ID3
Gain d’information
Soit une population d’exemples X . Le gain d’information de X par
rapport à un attribut aj donné est la variation d’entropie causée par la
partition de X selon aj :
Xaj =v
X
Gain(X , aj ) = H(X ) − H(Xaj =v )
v∈valeurs(aj )
|X |
où
Xaj =v ⊂ X est l’ensemble des exemples dont l’attribut considéré aj
prend la valeur v,
La notation |X | indique le cardinal de l’ensemble X .
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Algorithme ID3
Exemple :
Supposons que X soit constitué de 14 exemples, 9 positifs et 5 négatifs.
Parmi ces exemples, 6 positifs et 2 négatifs prennent la valeur oui
pour l’attribut a, tandis que les autres exemples prennent la valeur
non pour cet attribut.
Algorithme ID3
Exemple :
Supposons que X soit constitué de 14 exemples, 9 positifs et 5 négatifs.
Parmi ces exemples, 6 positifs et 2 négatifs prennent la valeur oui
pour l’attribut a, tandis que les autres exemples prennent la valeur
non pour cet attribut.
X |Xa=v |
Gain(X , a) = H(X ) − H(Xa=v )
v∈{oui,non}
|X |
Algorithme ID3
Exemple :
Supposons que X soit constitué de 14 exemples, 9 positifs et 5 négatifs.
Parmi ces exemples, 6 positifs et 2 négatifs prennent la valeur oui
pour l’attribut a, tandis que les autres exemples prennent la valeur
non pour cet attribut.
8 6
Gain(X , a) = H(X ) − H(Xa=oui ) − H(Xa=non )
14 14
Algorithme ID3
Exemple :
Supposons que X soit constitué de 14 exemples, 9 positifs et 5 négatifs.
Parmi ces exemples, 6 positifs et 2 négatifs prennent la valeur oui
pour l’attribut a, tandis que les autres exemples prennent la valeur
non pour cet attribut.
8 6
Gain(X , a) = H(X ) − H(Xa=oui ) − H(Xa=non )
14 14
6 6 2 2
H(Xa=oui ) = − log2 + log2 ≈ 0.811
8 8 8 8
Algorithme ID3
Exemple :
Supposons que X soit constitué de 14 exemples, 9 positifs et 5 négatifs.
Parmi ces exemples, 6 positifs et 2 négatifs prennent la valeur oui
pour l’attribut a, tandis que les autres exemples prennent la valeur
non pour cet attribut.
8 6
Gain(X , a) = H(X ) − H(Xa=oui ) − H(Xa=non )
14 14
6 6 2 2
H(Xa=oui ) = − log2 + log2 ≈ 0.811
8 8 8 8
3 3 3 3
H(Xa=non ) = − log2 + log2 = 1.0
6 6 6 6
Algorithme ID3
Exemple :
Supposons que X soit constitué de 14 exemples, 9 positifs et 5 négatifs.
Parmi ces exemples, 6 positifs et 2 négatifs prennent la valeur oui
pour l’attribut a, tandis que les autres exemples prennent la valeur
non pour cet attribut.
8 6
Gain(X , a) = H(X ) − H(Xa=oui ) − H(Xa=non )
14 14
8 6
Gain(X , a) ≈ 0.940 − 0.811 − ≈ 0.048
14 14
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Algorithme ID3
Attribut Gain
Ciel 0.246
Attribut Gain
Ciel 0.246
Humidité 0.151
Attribut Gain
Ciel 0.246
Humidité 0.151
Vent 0.048
Attribut Gain
Ciel 0.246
Humidité 0.151
Vent 0.048
Tempétarure 0.029
Ciel ?
Attribut Gain
Ciel 0.246
Humidité 0.151
Vent 0.048
Tempétarure 0.029
Ciel ?
Attribut Gain
Humidité 0.970
Ciel ?
Attribut Gain
Humidité 0.970
Tempétarure 0.570
Ciel ?
Attribut Gain
Humidité 0.970
Tempétarure 0.570
Vent 0.019
Ciel ?
Ciel ?
Ensoleillé
Humidité ?
Elevée
Non
Ciel ?
Ensoleillé
Humidité ?
Elevée Normale
Non oui
Ciel ?
Ensoleillé Couvert
Humidité ?
Oui
Elevée Normale
Non oui
Ciel ?
Non oui
Ciel ?
Non oui
Ciel ?
Non oui
Ciel ?
Non oui
Ciel ?
Humidité ? Vent ?
Oui
Elevée Normale Fort
Ciel ?
Humidité ? Vent ?
Oui
Elevée Normale Fort Faible
Ensemble d’apprentissage
EA = {d1 , . . . , d|EA| }
Le classifieur Φ pour les catégories C = {c1 , . . . , c|C| } est construit en
observant les caractéristiques de ces exemples.
Ensemble de Test
ET = {d|EA+1| , . . . , d|Ω| }
Il est utilisé pour tester l’efficacité des classifieurs. Chaque dj ∈ ET est
donné au classifieur, et les décisions du classifieur Φ (dj , ci ) sont compa-
rées avec les décisions d’expert.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Remarque :
Les documents de ET ne peuvent pas participer d’une façon
quelconque à la construction d’induction du classement.
Si cette condition n’était satisfaite, les résultats expérimentaux
obtenus seraient probablement trop bons, et l’évaluation n’aurait
donc pas de caractère scientifique.
La validation est une phase indispensable à tout processus
d’apprentissage.
Elle consiste à vérifier que le modèle construit sur l’ensemble
d’apprentissage permet de classer tout individu avec le minimum
d’erreurs possible.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Remarque :
Les documents de ET ne peuvent pas participer d’une façon
quelconque à la construction d’induction du classement.
Si cette condition n’était satisfaite, les résultats expérimentaux
obtenus seraient probablement trop bons, et l’évaluation n’aurait
donc pas de caractère scientifique.
La validation est une phase indispensable à tout processus
d’apprentissage.
Elle consiste à vérifier que le modèle construit sur l’ensemble
d’apprentissage permet de classer tout individu avec le minimum
d’erreurs possible.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Remarque :
Les documents de ET ne peuvent pas participer d’une façon
quelconque à la construction d’induction du classement.
Si cette condition n’était satisfaite, les résultats expérimentaux
obtenus seraient probablement trop bons, et l’évaluation n’aurait
donc pas de caractère scientifique.
La validation est une phase indispensable à tout processus
d’apprentissage.
Elle consiste à vérifier que le modèle construit sur l’ensemble
d’apprentissage permet de classer tout individu avec le minimum
d’erreurs possible.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Remarque :
Les documents de ET ne peuvent pas participer d’une façon
quelconque à la construction d’induction du classement.
Si cette condition n’était satisfaite, les résultats expérimentaux
obtenus seraient probablement trop bons, et l’évaluation n’aurait
donc pas de caractère scientifique.
La validation est une phase indispensable à tout processus
d’apprentissage.
Elle consiste à vérifier que le modèle construit sur l’ensemble
d’apprentissage permet de classer tout individu avec le minimum
d’erreurs possible.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Ensemble de validation
Ensemble de validation
Ensemble de validation
Ensemble de validation
Validation Croisée
Les k différents classifieurs Φ1 , · · · , Φk sont construits par le
partitionnement initial du corpus en k ensembles disjoints
ET1 , · · · , ETk .
La validation par test est ensuite appliquée de façon itérative sur
les paires hEAi = Ω − ETi , ETi i .
L’efficacité finale est obtenue par le calcul individuel de l’efficacité
de Φ1 , · · · , Φk .
La validation croisée ne construit pas de modèle utilisable, elle
estime juste l’erreur réelle.
En général le nombre k de parties est fixé à 10.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Ensemble de validation
Validation Croisée
Les k différents classifieurs Φ1 , · · · , Φk sont construits par le
partitionnement initial du corpus en k ensembles disjoints
ET1 , · · · , ETk .
La validation par test est ensuite appliquée de façon itérative sur
les paires hEAi = Ω − ETi , ETi i .
L’efficacité finale est obtenue par le calcul individuel de l’efficacité
de Φ1 , · · · , Φk .
La validation croisée ne construit pas de modèle utilisable, elle
estime juste l’erreur réelle.
En général le nombre k de parties est fixé à 10.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Mesures de d’éfficacité
L’efficacité de classification se mesure généralement par les paramètres
classiques du domaine de la recherche d’information :
La précision,
Le rappel.
Précision
La précision c’est un ratio entre le nombre de documents pertinents
trouvés et le nombre total de documents trouvés.
Elle mesure le bruit, et plus elle est proche de 100%, moins il y a
de bruit, et donc meilleure est la réponse.
Mesures de d’éfficacité
L’efficacité de classification se mesure généralement par les paramètres
classiques du domaine de la recherche d’information :
La précision,
Le rappel.
Précision
La précision c’est un ratio entre le nombre de documents pertinents
trouvés et le nombre total de documents trouvés.
Elle mesure le bruit, et plus elle est proche de 100%, moins il y a
de bruit, et donc meilleure est la réponse.
Mesures de d’éfficacité
L’efficacité de classification se mesure généralement par les paramètres
classiques du domaine de la recherche d’information :
La précision,
Le rappel.
Rappel
Le rappel est un ratio entre le nombre de documents pertinents
trouvés et le nombre de documents pertinents présents dans la base.
Plus il est proche de 100%, moins il y a de silence, et meilleure est
la réponse.
Mesures de d’éfficacité
L’efficacité de classification se mesure généralement par les paramètres
classiques du domaine de la recherche d’information :
La précision,
Le rappel.
Rappel
Le rappel est un ratio entre le nombre de documents pertinents
trouvés et le nombre de documents pertinents présents dans la base.
Plus il est proche de 100%, moins il y a de silence, et meilleure est
la réponse.
Mesures de d’éfficacité
Ces mésures peuvent être estimées par un tableau qui montre toutes les
possibilités d’un classifieur
Catégorie Classement de l’Expert
ci Vrai Faux
Jugement du Positif T Pi F Pi
Classifieur Négatif F Ni T Ni
F Pi : le nombre de documents de test mal classés dans la catégorie ci ,
T Ni : le nombre de documents bien classés qui n’appartiennent pas à
la catégorie ci ,
T Pi : le nombre de documents bien classés qui appartiennent à la
catégorie ci ,et
F Ni : le nombre de documents de catégorie ci non classés par le
classifieur.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Mesures de d’éfficacité
Ces mésures peuvent être estimées par un tableau qui montre toutes les
possibilités d’un classifieur
Catégorie Classement de l’Expert
ci Vrai Faux
Jugement du Positif T Pi F Pi
Classifieur Négatif F Ni T Ni
F Pi : le nombre de documents de test mal classés dans la catégorie ci ,
T Ni : le nombre de documents bien classés qui n’appartiennent pas à
la catégorie ci ,
T Pi : le nombre de documents bien classés qui appartiennent à la
catégorie ci ,et
F Ni : le nombre de documents de catégorie ci non classés par le
classifieur.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Mesures de d’éfficacité
Ces mésures peuvent être estimées par un tableau qui montre toutes les
possibilités d’un classifieur
Catégorie Classement de l’Expert
ci Vrai Faux
Jugement du Positif T Pi F Pi
Classifieur Négatif F Ni T Ni
F Pi : le nombre de documents de test mal classés dans la catégorie ci ,
T Ni : le nombre de documents bien classés qui n’appartiennent pas à
la catégorie ci ,
T Pi : le nombre de documents bien classés qui appartiennent à la
catégorie ci ,et
F Ni : le nombre de documents de catégorie ci non classés par le
classifieur.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Mesures de d’éfficacité
Ces mésures peuvent être estimées par un tableau qui montre toutes les
possibilités d’un classifieur
Catégorie Classement de l’Expert
ci Vrai Faux
Jugement du Positif T Pi F Pi
Classifieur Négatif F Ni T Ni
F Pi : le nombre de documents de test mal classés dans la catégorie ci ,
T Ni : le nombre de documents bien classés qui n’appartiennent pas à
la catégorie ci ,
T Pi : le nombre de documents bien classés qui appartiennent à la
catégorie ci ,et
F Ni : le nombre de documents de catégorie ci non classés par le
classifieur.
M. Ledmi Introduction à la fouille de données
Quelques Notation
Classification Définition
Arbres de décision
Mesures de d’éfficacité
La précision et le rappel peuvent être exprimés localement de la façon
suivante :
T Pi
πi =
T Pi + F Pi
T Pi
ρi =
T Pi + F Ni
Deux approches sont adoptées pour exprimer globalement la précision et le
rappel :
Macro-moyenne : donner un poids égal à toutes les classes.
Micro-moyenne : Donner un poids proportionnel à la fréquence de
chaque classe.
Mesures de d’éfficacité
La précision et le rappel peuvent être exprimés localement de la façon
suivante :
T Pi
πi =
T Pi + F Pi
T Pi
ρi =
T Pi + F Ni
Deux approches sont adoptées pour exprimer globalement la précision et le
rappel :
Macro-moyenne : donner un poids égal à toutes les classes.
Micro-moyenne : Donner un poids proportionnel à la fréquence de
chaque classe.
Mesures de d’éfficacité
Catégories
n o Classement de l’Expert
C = ci , · · · , c|C| Vrai Faux
P|C| P|C|
Jugement du Positif T P = i=1 T Pi F P = i=1 F Pi
P|C| P|C|
Classifieur Négatif F N = i=1 F Ni T N = i=1 T Ni
Table – Table de contingence globale
Mesures de d’éfficacité
La micro-moyenne (ang : micro-averaging) calcule les mesures rappel et
précision de façon globale : si l’on considère les tables de contingences
associées à chaque catégorie, cela revient à sommer les cases TP et FP de
chaque catégorie pour obtenir la table de contingence globale. Les
différentes mesures comme le π et ρ sont ensuite calculées à partir des
valeurs cumulées.
P|C|
TP T Pi
µ
π = = P|C| i=1
TP + FP i=1 (T Pi + F Pi )
P|C|
TP T Pi
µ
ρ = = P|C| i=1
TP + FN i=1 (T Pi + F Ni )
Mesures de d’éfficacité
Mesures de d’éfficacité
F1 peut être considéré comme le degré relatif d’importance attribué à la
précision et au rappel :
2πρ
F1 =
π+ρ
Le taux de succès (ang : accuracy rate) désigne le pourcentage d’exemples
bien classés par le classifieur :
TP + TN
A=
TP + TN + FP + FN
Taux d’erreur (ang : error rate) désigne le pourcentage d’exemples mal
classés.
FP + FN
E= =1−A
TP + TN + FP + FN
M. Ledmi Introduction à la fouille de données