0% ont trouvé ce document utile (0 vote)
142 vues9 pages

Chapitre2 Classification (Suite)

Ce document décrit l'algorithme C4.5 pour la construction d'arbres de décision, en particulier la prise en compte des attributs numériques. Il présente un exemple illustrant le déroulement de l'algorithme C4.5 sur un jeu de données contenant des attributs numériques.

Transféré par

SARA STAMBOULI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
142 vues9 pages

Chapitre2 Classification (Suite)

Ce document décrit l'algorithme C4.5 pour la construction d'arbres de décision, en particulier la prise en compte des attributs numériques. Il présente un exemple illustrant le déroulement de l'algorithme C4.5 sur un jeu de données contenant des attributs numériques.

Transféré par

SARA STAMBOULI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Ministère de l'Enseignement Supérieur et de la Recherche Scientifique

Université Abderrahmane Mira de Bejaïa


Faculté des Sciences Exactes
Département de d’Informatique

Module: Data Mining Année: 2021-2022


Nature de document: Cours N.BERMAD
Niveau: M1-RN-SIA
Chapitre: 2(suite)
Titre: Les tâches et les techniques du Data Mining

b. L'algorithme C4.5

 Prise en compte les attributs numérique


 Des attributs dont l'arité est élevée (voire infinie)
 C'est un successeur d'ID3
 Dans le cas de C4.5, un nœud de l’arbre de décision peut contenir un test du fait que la valeur d’un
attribut numérique est inferieure à un certain seuil : cela correspond donc à un nouveau pseudo-
attribut binaire. C4.5 ne dispose pas d’autres possibilités de prendre en compte ce type d’attributs.

Exemple
Nous illustrons le déroulement de l'algorithme C4.5 sur le jeu de données « jouer au tennis ? » dans
lequel les attributs «Température» et «Humidité» prennent des valeurs numérique
20

Jour Ciel Température Humidité Vent Jouer Au Tennis?


1 Ensoleillé 27.5 85 Faible Non
2 Ensoleillé 25 90 Fort Non
3 Couvert 26.5 86 Faible Oui
4 Pluie 20 96 Faible Oui
5 Pluie 19 80 Faible Oui
6 Pluie 17.5 70 Fort Non
7 Couvert 17 65 Fort Oui
8 Ensoleillé 21 95 Faible Non
9 Ensoleillé 19.5 70 Faible Oui
10 Pluie 22.5 80 Faible Oui
11 Ensoleillé 22.5 70 Fort Oui
12 Couvert 21 90 Fort Oui
13 Couvert 25.5 75 Faible Oui
14 Pluie 20.5 91 Fort Non

 Test d’un attribut numérique

Considérons les exemples dont l’attribut «Ciel» vaut «Ensoleillé», soit l’ensemble XCiel = Ensoleillé
d’exemples ayant un seul attribut numérique comme suit :

21
Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Université Abderrahmane Mira de Bejaïa
Faculté des Sciences Exactes
Département de d’Informatique

Module: Data Mining Année: 2021-2022


Nature de document: Cours N.BERMAD
Niveau: M1-RN-SIA
Chapitre: 2(suite)
Titre: Les tâches et les techniques du Data Mining

Température 19.5 21 22.5 25 27.5


Jour Température "Jouer au Tennis" Jour 9 8 11 2 1
1 27.5 Non "Jouer au tennis?" Oui Non Oui Non Non
2 25 Non
8 21 Non
9 19.5 Oui On détermine le seuil s pour partitionner cet
11 22.5 Oui ensemble d’exemples. C4.5 utilise les règles
suivantes :
On commence par trier les exemples sur la valeur de 1. Ne pas séparer deux exemples successifs
leur attribut numérique. A chaque attribut, on associe ayant la même classe ; donc, on ne peut
le numéro de son exemple associé ainsi que la valeur
couper qu’entre les exemples x9 et x8, x8 et
de l’attribut cible :
x11, x11 et x2.

22 23

2. Si on coupe entre deux valeurs V et W (V < W) Pour S = 21, le gain d’information est :
de l’attribut, le seuil S est fixé à V (on aurait
Gain en information de température :
pu aussi utiliser V+W/2)
3. Choisir S de telle manière que le gain
Gain (température)= 0.971- (1/5 * E(Ctempérature<
d’information soit maximal.
4. Une fois le seuil S fixé et le nœud créé, chaque 21 ) + 4/5 *E(Ctempérature >= 21))
sous-arbre pourra à nouveau tester la valeur de Avec:
cet attribut E(Ctempérature < 21) = - (1ln21+0ln20)=0
5. En effet, contrairement au cas des attributs
qualitatifs qui produisent des nœuds ayant et
autant de branches que l’attribut prend de E(Ctempérature >= 21)= -(1/4ln21/4+3/4ln23/4)≅0.608
valeurs différentes, l’ensemble des valeurs soit
prises par un attribut numérique est coupé en 1 4
deux : chaque partie peut donc encore être gain(C,S=21)≅ 0.971 − (5 ∗ 0 + 5 ∗
raffinée jusqu’`a ne contenir que des exemples 0.608) ≅ 0.485
ayant même valeur cible.
de la même manière, en fonction du seuil,
L’entropie de l’ensemble d’exemples est : le gain d'information est alors:

E (Cjouer
𝟐 𝟐 3 3
= oui,C jouer = non)=-−(𝟓l𝑛2 𝟓 + 5 𝑙𝑛2 5) ≅ 0.971 seuil Gain(C, température,S)
S=21 0.485
S=22.5 0.02
S=25 0.42

24 25
Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Université Abderrahmane Mira de Bejaïa
Faculté des Sciences Exactes
Département de d’Informatique

Module: Data Mining Année: 2021-2022


Nature de document: Cours N.BERMAD
Niveau: M1-RN-SIA
Chapitre: 2(suite)
Titre: Les tâches et les techniques du Data Mining

6. C4.5 effectue ce traitement pour chaque Arbres de décision avantages & inconvénients
attribut quantitatif et détermine donc pour + Compréhensible pour tout utilisateur (lisibilité du
chacun un seuil produisant un gain résultat-règles-arbre)
d’information maximal. + Justification de la classification d'une instance
7. Le gain d’information associé à chacun des + Tout type de données
attributs quantitatifs est celui pour lequel le + Robuste au bruit et aux valeurs manquantes
seuil entraine un maximum. + Attributs apparaissent dans l'ordre de pertinence
8. Finalement, l’attribut choisi (parmi les + Classification rapide (parcours d'un chemin dans
quantitatifs et les nominaux pour lesquels le un arbre)
principe est identique ID3) est celui qui +Outils disponible dans la plupart des
produit un gain d’information maximal environnements de data mining.
9. En présence d’attribut numérique ou d’attribut - Sensible au nombre de classes: performances se
d’arité élevée, ceux-ci sont automatiquement dégradent
favorisés pour être sélectionné comme test -Evolution dans le temps: si les données évoluent
dans les nœuds. Pour contrecarrer cet effet, dans le temps, il est nécessaire de relance la
C4.5 utilise le rapport de gain au lieu du gain phase d'apprentissage.
d’information pour déterminer l’attribut `a
utiliser dans un nœud.
 2.5.4. Les réseaux de neurones artificiels
Le rapport de gain est défini par:  Réseau neuronal :
𝐺𝑎𝑖𝑛(𝐶,𝐴)
𝑅𝑎𝑝𝑝𝑜𝑟𝑡 𝑑𝑒 𝑔𝑎𝑖𝑛(𝐶, 𝐴) = , où  Simule le système nerveux biologique
𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜 (𝐶,𝐴)

𝑆𝑝𝑙𝑖𝑡 𝐼𝑛𝑓𝑜(𝐶, 𝐴) =
|𝐶𝐴 = 𝑣| |𝐶𝐴 = 𝑣|
∑ 𝑙𝑛2
𝑣∈𝑣𝑎𝑙𝑒𝑢𝑟𝑠(𝐴) |𝐶 | |𝐶 |

26 27

 Un réseau de neurones est composé de plusieurs neurones ou d'unité de traitement


interconnectés entre elles. Un poids est associé à chaque arc. A chaque neurone on associe une
valeur
 Les réseaux de neurones se distinguent en particulier par la topologie des connexions et le
mécanisme d'apprentissage
 Neurone:
 Unité de calcul élémentaire
 Le vecteur d'entrée X est transformé en une variable de sortie Y, par un produit scalaire et une
fonction de transformation non linéaire

28
Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Université Abderrahmane Mira de Bejaïa
Faculté des Sciences Exactes
Département de d’Informatique

Module: Data Mining Année: 2021-2022


Nature de document: Cours N.BERMAD
Niveau: M1-RN-SIA
Chapitre: 2(suite)
Titre: Les tâches et les techniques du Data Mining

X0 w0

Σ
X1 w1
. .
F
. .
Sortie y
. .
Xn wn
Fonction
d'activation

Somme
Vecteur Vecteur poids w
pondérée
entrée x (coefficients
Synaptiques)
29

X1
W1j
X2
W2j Neurone j Yi
. .
. .

.
Wnj

Xn

30
Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Université Abderrahmane Mira de Bejaïa
Faculté des Sciences Exactes
Département de d’Informatique

Module: Data Mining Année: 2021-2022


Nature de document: Cours N.BERMAD
Niveau: M1-RN-SIA
Chapitre: 2(suite)
Titre: Les tâches et les techniques du Data Mining

 Le neurone prend un ensemble de valeur Xi en entrée et produit une sortie Yi calculée de la


manière suivante:
𝑛

𝑦𝑖 = 𝑓(∑ 𝑥𝑖𝑤𝑖𝑗 + 𝑏𝑖𝑎𝑖𝑠𝑗) OÙ 𝑓 𝑒𝑠𝑡 𝑢𝑛𝑒 𝑓𝑜𝑛𝑐𝑡𝑖𝑜𝑛 𝑑′𝑎𝑐𝑡𝑖𝑣𝑎𝑡𝑖𝑜𝑛


𝑖=1
le biais peut être assimilé à un poids W0j pour une entrée X0 qui est toujours activées(X0=1).Voici
quelques exemples de fonctions d'activation populaires:
Linéaire: 𝑓(𝑥) = 𝑎𝑥
Seuil: 𝑓(𝑥) = 1 𝑠𝑖 𝑥 > 0 𝑠𝑖𝑛𝑜𝑛 0
Sigmoïde (logistique): 𝑓(𝑥) = 1/1 + 𝑒 −𝑥 , 𝑑𝑜𝑛𝑐 𝑓(𝑥) ∈ [0. .1]
 Certains mécanismes d'apprentissage exigent que la fonction d'activation soit dérivable, ce
qui n'est pas le cas de la fonction seuil. La sortie y peut être passée à un autre neurone qui
effectue le même calcul à son tour
31

2.5.4.1.Mise en œuvre d’un réseau

Les étapes dans la mise en œuvre d’un réseau de neurones pour la prédiction ou le classement sont :
 Identification des données en entrée et en sortie
 Normalisation de ces données
 Constitution d’un réseau avec une topologie adaptée
 Apprentissage du réseau
 Test du réseau
 Application du modèle généré par l’apprentissage
 Dé normalisation des données en sortie.
2.5.4.2. Modèles de réseau de neurones:
 Le réseau à fonction radiale de base («radial basis function» RBF) est aussi utilisé pour prédire
une variable cible continue ou discrète
 Le réseau de Kohonen effectue les analyses typologiques (clustering, recherche de segments)
 etc...
Perceptron multicouches:
 Est utilisé pour prédire une variable cible continue ou discrète

32
Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Université Abderrahmane Mira de Bejaïa
Faculté des Sciences Exactes
Département de d’Informatique

Module: Data Mining Année: 2021-2022


Nature de document: Cours N.BERMAD
Niveau: M1-RN-SIA
Chapitre: 2(suite)
Titre: Les tâches et les techniques du Data Mining

33

Paradigme d'apprentissage

34
Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Université Abderrahmane Mira de Bejaïa
Faculté des Sciences Exactes
Département de d’Informatique

Module: Data Mining Année: 2021-2022


Nature de document: Cours N.BERMAD
Niveau: M1-RN-SIA
Chapitre: 2(suite)
Titre: Les tâches et les techniques du Data Mining

Algorithme d'apprentissage :Rétro-propagation  Apprentissage de réseau utilisant les


du gradient
données disponibles
 Construction de réseau:
 Représentation des entrées  Pour effectuer la classification, le réseau
 Nombre de nœuds en entrée: correspond doit être entrainé en ajustant les poids
à la dimension des données du problème (incluant les biais) à partir de
l'échantillon d'entrainement
(attributs ou leurs codages) et normaliser
 Au départ les poids peuvent être
dans l'intervalle [0,1]. initialisés de manière quelconque
 Chacun des éléments de l'échantillon est
Exemple: un attribut A prends ses valeurs {1, 2, 3,
donné en entrée et la sortie est comparée
4,5} avec la classe d'appartenance de
l'élément
 5 entrée à la valeur binaire; 3=00100  L'apprentissage est effectué en
 3 bit; 3=010 ajustant les poids en fonction de la
 1 entrée réelle;0,0.25, 0.5, 0.75, 1 différence entre la réponse produite et
 Nombre de couches cachées: ajuster pendant la bonne réponse
l'apprentissage.  Un mécanisme populaire
 Nombre de nœuds par couche: le nombre de d'ajustement des poids est la rétro-
nœuds par couche est aux moins égale à propagation de l'erreur, le principe est
deux et au plus égal au nombre de nœuds en d'ajuster les poids de manière à
entrée rapprocher la réponse du système de
 Nombre de nœuds en sortie: fonction du celle attendue
nombre de classes associées à l'application.

35 36

 En appliquant le principe d'optimisation bien connu de descente du gradient pour minimiser la


moyenne des carrés d’erreurs, on obtient les formules suivantes d'ajustement des poids

𝒘𝒊𝒋 = 𝒘𝒊𝒋 + ∆𝒘𝒊𝒋

∆𝒘𝒊𝒋 = 𝒗𝒊𝒕𝒆𝒔𝒔𝒆𝑨𝒑𝒑𝒓𝒆𝒏𝒕𝒊𝒔𝒔𝒂𝒈𝒆 ∗ 𝑬𝒓𝒓𝒆𝒖𝒓𝒋 ∗ 𝒚𝒊

𝑬𝒓𝒓𝒆𝒖𝒓𝒋 = 𝒚𝒊(𝟏 − 𝒚𝒊)(𝒗𝒂𝒍𝒆𝒖𝒓 𝒂𝒕𝒕𝒆𝒏𝒅𝒖 − 𝒚𝒊) 𝒑𝒐𝒖𝒓 𝒏𝒆𝒖𝒓𝒐𝒏𝒆 𝒋 𝒆𝒏 𝒔𝒐𝒓𝒕𝒊𝒆

= 𝒚𝒊(𝟏 − 𝒚𝒊) ∑ 𝑬𝒓𝒓𝒆𝒖𝒓𝒌𝒘𝒋𝒌 𝒑𝒐𝒖𝒓 𝒏𝒆𝒖𝒓𝒐𝒏𝒆 𝒋 𝒅𝒆 𝒍𝒂 𝒄𝒐𝒖𝒄𝒉𝒆 𝒄𝒂𝒄𝒉é𝒆

37
Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Université Abderrahmane Mira de Bejaïa
Faculté des Sciences Exactes
Département de d’Informatique

Module: Data Mining Année: 2021-2022


Nature de document: Cours N.BERMAD
Niveau: M1-RN-SIA
Chapitre: 2(suite)
Titre: Les tâches et les techniques du Data Mining

 La vitesse d'apprentissage est un paramètre ajustable dont la valeur typique entre 0 et 1.On peut
la faire décroitre graduellement afin de stabiliser l'évolution des poids. Par exemple, en prenant
une valeur 1/n où n croît avec le nombre d'élément traités
 pour le biais, les formules d'apprentissage sont:
 𝑏𝑖𝑎𝑖𝑠𝑖𝑗 = 𝑏𝑖𝑎𝑖𝑠𝑖𝑗 + ∆𝑏𝑖𝑎𝑖𝑠𝑖𝑗
 ∆𝑏𝑖𝑎𝑖𝑠𝑖𝑗 = 𝑣𝑖𝑡𝑒𝑠𝑠𝑒 𝐴𝑝𝑝𝑟𝑒𝑛𝑡𝑖𝑠𝑠𝑎𝑔𝑒 ∗ 𝐸𝑟𝑟𝑒𝑢𝑟𝑗
 L'apprentissage peut être effectué en ligne en ajustant les paramètres à chacun des patrons
d'entrée ou en lot en accumulant les ajustements pour un lot de patrons
 d'entrée. Dans l'apprentissage en lot, chacun des cycles d'apprentissage appelé une époque
 le critère d'arrêt: la tolérance définit l'erreur cible ou/et le nombre d'instances bien classés
(seuil)
 Elagage de réseau
 Réseau fortement connexe est difficile à articuler: N nœuds en entrée, h couches cachées, et m
nœuds en sortie → ℎ(𝑚 + 𝑛) 𝑎𝑟𝑐𝑠(𝑝𝑜𝑖𝑑𝑠)
 Elagage: supprimer les arcs et les nœuds qui n'affectent pas le taux d'erreur du réseau
 Interprétation des résultats

Exemple

La figure ci dessus montre un exemple de RNA pour notre problème de classification des données
de profils Internet. Le réseau prend en entrée les données qui représentent un élément à classifier et
produit en sortie une réponse qui identifie la classe d'appartenance de l'élément. Chaque ovale
représente un neurone artificiel. Un arc représente une connexion entre deux neurones et W ij est le
poids de la connexion du neurone i au neurone j .Les arcs sont implicitement orientés de gauche à
droite dans notre diagramme. La sortie d'un neurone est passée comme entrée à un autre neurone ou
encore à la sortie. Ce réseau est constitué de trois couches, une couche d'entrée, une couche cachée
et une couche de sortie. La couche d'entrée représente les données utilisées pour la classification. Il
ya un neurone pour chacun des valeurs d'un attribut. Pour représenter le fait qu'un élément possède
une valeur particulière d'attribut, une valeur 1 sera transmise en entrée au neurone et la valeur 0 sera
transmise pour les autres neurones du même attribut. Par convention, la valeur 1 en sortie du seul
neurone de la couche de sortie représente la classe internet=oui et un 0, la valeur internet=non.

38
Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Université Abderrahmane Mira de Bejaïa
Faculté des Sciences Exactes
Département de d’Informatique

Module: Data Mining Année: 2021-2022


Nature de document: Cours N.BERMAD
Niveau: M1-RN-SIA
Chapitre: 2(suite)
Titre: Les tâches et les techniques du Data Mining

Couche d'entrées Couche cachée

1 si sexe=m 0 sexe=m
sinon Wij

sexe=f

âge = jeune 0=non


internet =?
1= oui
âge = vieux
.
.
revenu=faible

..
.
revenu=élevé
..
Réseaux de neurones - Avantages
39
.
 Taux d'erreur généralement bon
 Outil disponible dans les environnements de data mining
 Robustesse (bruit)-reconnaissance de formes (son, images sur une rétine,...)
 Classification rapide (réseau étant construit)
 Combinaison avec d'autres méthodes (ex: arbre de décision pour sélection d'attributs)

Réseaux de neurones - Inconvénients


 Apprentissage très long
 Plusieurs paramètres (architecture, coefficients synaptique, ...)
 Pouvoir explicatif faible (boite noire)
 Pas facile d'incorporer les connaissances du domaine.
 Traitent facilement les attributs numériques et binaires
 Evolutivité dans le temps (phase d'apprentissage)
40

Vous aimerez peut-être aussi