0% ont trouvé ce document utile (0 vote)
98 vues61 pages

Apprentissage des Réseaux de Neurones

Ce chapitre décrit l'apprentissage des réseaux de neurones monocouches, y compris l'apprentissage non supervisé selon les règles de Hebb et de Grossberg, ainsi que l'apprentissage supervisé selon diverses méthodes. De nombreux exemples illustrent l'application de ces concepts.

Transféré par

fahd ghabi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
98 vues61 pages

Apprentissage des Réseaux de Neurones

Ce chapitre décrit l'apprentissage des réseaux de neurones monocouches, y compris l'apprentissage non supervisé selon les règles de Hebb et de Grossberg, ainsi que l'apprentissage supervisé selon diverses méthodes. De nombreux exemples illustrent l'application de ces concepts.

Transféré par

fahd ghabi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 2.

Apprentissage des Réseaux


de Neurones Monocouches

Ayachi ERRACHDI
[Link]@[Link]
plan
1. Le neurone formel
2. Apprentissage non supervisé
2-1- Loi de Hebb
2- 2- Loi de Grossberg
3. Apprentissage supervisé
3-1- Loi de gradient stochastique
3-2- Loi de gradient total
3-3- Loi de gradient instantané
4. Limite de séparation
2
plan
1. Le neurone formel
2. Apprentissage non supervisé
2-1- Loi de Hebb
2- 2- Loi de Grossberg
3. Apprentissage supervisé
3-1- Loi de gradient stochastique
3-2- Loi de gradient total
3-3- Loi de gradient instantané
4. Limite de séparation
3
1. Le neurone formel

n
y = f (z) avec z = ∑ wi xi
i =1

4
1. Le neurone formel

Le perceptron

Neurone formel

L’ADALINE

5
1. Le neurone formel -Perceptron-

Le Perceptron : C’est un réseau à deux couches (une couche


d’entrée et une couche de sortie).

n
y1 = f (∑w1i xi )
x0 W10 ∑ f
=0
ii=
n
y2 = f (∑w2i xi )
x1
∑ f
i=0
W1n
n
ym = f (∑wmi xi )
W2n
xn Wmn
∑ f
i=0

Couche d’entrée Couche de Sortie


6
1. Le neurone formel -Perceptron-

Les neurones de la couche d’entrée ont pour rôle de fournir au


réseau les données externes. Chaque neurone de la couche de
sortie effectue une somme pondérée de ses entrées.

n
yi = f ( zi ) avec z = ∑ wi xi + w0 x0
i =1

Où wij est le poids de la connexion qui relie neurone i au neurone j


f (.) : fonction d’activation

7
1. Le neurone formel -Perceptron-

La fonction d’activation est une fonction TOR unipolaire :

1 si z ≥ 0
y = f ( z) = 
0 si z < 0

L’hyperplan de dimension (n-1) et d’équation caractéristique:

∑w x
i =1
i i + w0 x0 =w1 x1 + w2 x2 + ....wn xn + b = 0

w0 = b
x0 = 1 8
1. Le neurone formel -Perceptron-

Exemple : un perceptron à deux entrées l’équation caractéristique est une


droite d’équation :
w1x1 + w2 x2 + b = 0

9
1. Le neurone formel -ADALINE-

La fonction d’activation est une fonction linéaire :

z si z ≥ 0
y = f ( z) = 
0 si z < 0

L’hyperplan de dimension (n-1) et d’équation caractéristique:

∑w x
i =1
i i + w0 x0 =w1 x1 + w2 x2 + ....wn xn + b = 0

w0 = b
x0 = 1 10
plan
1. Le neurone formel
2. Apprentissage non supervisé
2-1- Loi de Hebb
2- 2- Loi de Grossberg
3. Apprentissage supervisé
3-1- Loi de gradient stochastique
3-2- Loi de gradient total
3-3- Loi de gradient instantané
4. Limite de séparation
11
2. Apprentissage non supervisé

Définition : des données regroupées dans un vecteur sont


présentés au réseau de neurones que l’on laisse s’auto-organiser
au moyen de lois locales qui régissent l’évolution des poids
synaptiques.

Il existe de nombreuses méthodes d’apprentissage non supervisé,


les deux les plus connues sont:

-Règle de Hebb
-Règle de Grossberg

12
2. Apprentissage non supervisé
2-1- Loi de Hebb

Si deux neurones connectés sont actifs simultanément, le poids


de leur connexion est augmenté ou diminué. η est une constante
positive qui représente le coefficient d'apprentissage.

j i
w ij

wij (t + 1) = wij (t ) + ∆wij (t )

nouveau poids ancien poids

∆wij (t ) = η (t ) xi (t ) x j (t )
2. Apprentissage non supervisé
2-1- Loi de Hebb

- Algorithme de modification -
1- Initialisation des poids et du seuil b à des valeurs petites choisies au hasard
2- Présentation d’une entrée E1=(e1,e2,…,en) de la base d’apprentissage
3- Calcul de la sortie obtenue x pour cette entrée:
n
a = ∑ wi ei
i=0
x=signe(a) (si a>0 alors x=+1 sinon x=-1)
4- Si la sortie x est différente de la sortie désirée pour cet exemple d’entrée E1
alors on modifie les poids
wij (t + 1) = wij (t ) + η (t ) xi (t ) x j (t )
w0 j (t + 1) = w0 j (t ) + η (t ) x j (t )

5- Tant que tous les exemples de la base d’apprentissage ne sont pas traités
correctement, retour à l’étape 2.
2. Apprentissage non supervisé
2-1- Loi de Hebb

- exemple d’application-1-
On choisit pour les neurones un comportement binaire.
Les entrées e1 et e2 sont considérées comme des neurones:

Base d'apprentissage
pour la loi de Hebb

η = 1; w1 (0) = w2 (0) = 0; w0 = 0;
2. Apprentissage non supervisé
2-1- Loi de Hebb

- exemple d’application-1-
η =1

3/ a = w1e1 + w2 e2 − w0 = 0.0 1 + 0.0 1 − 0 = 0

w0 (1) = w1 (0) + η = 0 + 1 = 1
2. Apprentissage non supervisé
2-1- Loi de Hebb

- exemple d’application-1-

3/ a = 1.1 + 1.( −1) − 1 = −1

w1 (2) = w1 (1) + η e1 x = 1 + 1 = 2
w2 (2) = w2 (1) + η e2 x = 1 + ( −1) = 0
w0 (2) = w0 (1) + η = 1 + 1 = 2
2. Apprentissage non supervisé
2-1- Loi de Hebb

- exemple d’application-1-

L’équation caractéristique : w 1e1 + w 2 e 2 − w 0 = 0


2. Apprentissage non supervisé
2-1- Loi de Hebb

-exemple d’application-méthode2-
On veut chercher un modèle neuronal de la fonction logique ET

Base d'exemples d'apprentissage

e1 e2 x
1 1 1
1 -1 -1

η = 1; -1 1 -1
-1 -1 -1
w1 (0) = 0; w2 (0) = 0; w0 = 0
2. Apprentissage non supervisé
2-1- Loi de Hebb

-exemple d’application-méthode2-

∆w0 e1 e2 x ∆w1 ∆w2 ∆w0 w1 ( nouv ) w2 ( nouv ) w0 ( nouv )


1 1 1 1 1 1 1 1 1 1
1 1 -1 -1 -1 1 -1 0 2 0
1 -1 1 -1 1 -1 -1 1 1 -1
1 -1 -1 -1 1 1 -1 2 2 -2

∆w1 = e1 x w1 ( nouv ) = w1 ( ancien ) + ∆w1


∆w2 = e2 x w2 ( nouv ) = w2 ( ancien ) + ∆w2
∆w0 = x w0 ( nouv ) = w0 ( ancien ) + ∆w0
2. Apprentissage non supervisé
2-1- Loi de Hebb

-exemple d’application-3-
On veut chercher un modèle neuronal de la fonction logique :
ET
e1 e2 d
0 0 0
1 0 0
0 1 0
1 1 1

η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
2. Apprentissage non supervisé
2-1- Loi de Hebb

-exemple d’application-4-
On veut chercher un modèle neuronal de la fonction logique :

OU
e1 e2 d
0 0 0
1 0 1
0 1 1
1 1 1

η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
2. Apprentissage non supervisé
2-1- Loi de Hebb

-exemple d’application-5-
On veut chercher un modèle neuronal de la fonction logique :
XOR

e1 e2 d
0 0 0
1 0 1
0 1 1
1 1 0

η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
2. Apprentissage non supervisé
2- 2- Loi de Grossberg

On augmente les poids qui entrent sur l'unité gagnante


xi s'ils sont trop faibles, pour les rapprocher du vecteur
d'entrée xj. C’est la règle d’apprentissage utilisée dans
les cartes auto-organisatrices de Kohonen

j i
w ij

wij (t + 1) = wij (t ) + ∆wij (t ) ∆wij (t ) = η xi (t ) ( x j (t ) − wij (t ) )


2. Apprentissage non supervisé
2- 2- Loi de Grossberg

-exemple d’application-
-ET, OU, XOR????

ET OU XOR
e1 e2 d e1 e2 d e1 e2 d
0 0 0 0 0 0 0 0 0
1 0 0 1 0 1 1 0 1
0 1 0 0 1 1 0 1 1
1 1 1 1 1 1 1 1 0

η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
plan
1. Le neurone formel
2. Apprentissage non supervisé
2-1- Loi de Hebb
2- 2- Loi de Grossberg
3. Apprentissage supervisé
3-1- Loi de gradient stochastique
3-2- Loi de gradient total
3-3- Loi de gradient instantané
4. Limite de séparation
26
3. Apprentissage supervisé

Règle d'apprentissage DELTA pour une couche de


perceptrons: Connue sous le nom d'algorithme d'entraînement par la
rétropropagation des erreurs
Les poids synaptiques et les seuils sont ajustés de telle sorte que
l'erreur quadratique pour ce patron (entrée-sortie) soit
diminuée:

1 1
Fonction d’erreur à minimiser : E (t ) = ∑ ( ) = ∑ ( − )
2 2
e ( t ) d ( t ) y ( t )
2 2

Le processus d'apprentissage continue pour tous les exemples de


l’ensemble d'entraînement, et termine lorsque la valeur de l'erreur
totale évaluée sur l'ensemble est satisfaisante 27
3. Apprentissage supervisé

On cherche à imposer au réseau un fonctionnement donné en


forçant, à partir des entrées qui lui sont présentées, les sorties du
réseau à prendre des valeurs données en modifiant les poids
synaptiques. Les paramètres sont ajustés à partir des couples
entrée/sortie présentés.

L’adaptation des paramètres du réseau s’effectue à partir d’un


algorithme d’optimisation, l’initialisation des poids synaptiques et
les biais étant le plus souvent aléatoire.

-Règle d’une descente du gradient stochastique


-Règle d’une descente du gradient total
28
-Règle d’une descente du gradient instantané
3. Apprentissage supervisé
3-1- Loi de gradient stochastique

L’ajustement des poids synaptiques: w (t + 1) = w (t ) + ∆ w (t )

Une descente de gradient est effectuée pour diminuer l'erreur


par l'ajustement des poids synaptiques:

∂E (t )
∆ w (t ) = −η
∂ w (t )

avec :

1 1 1
E (t ) = ∑ ( e (t ) ) = ∑ ( d (t ) − y (t ) ) = d−y
2 2 2

2 2 2
3. Apprentissage supervisé
3-1- Loi de gradient stochastique
∂ E (t )
∆wij (t ) = −η
∂wij (t )
∂ E (t ) ∂ e (t )
= −η
∂e (t ) ∂wij (t )
∂ ( d (t ) − y ( t ) )
= −η e (t )
∂wij (t )
= η e(t ) xi (t )
w (t + 1) = w (t ) + η e (t ) xi (t )

La règle du gradient stochastique est appelée aussi règle de


Widrow-Hoff ou règle du DELTA de Widrow-Hoff ou règle μ-LMS
(Least Mean Square)
3. Apprentissage supervisé
3-1- Loi de gradient stochastique

-Algorithme de modification -
1- Initialisation des poids et du seuil à des valeurs petites choisies au hasard
2- Présentation d’une entrée E1=(e1,e2,…,en) de la base d’apprentissage
3- Calcul de la sortie obtenue x pour cette entrée:
n
a = ∑ ei wi
i=0
y=f(a); f est une fonction signe, cad, si a>0 alors y=+1 sinon y=-1
4- Si la sortie est y est différente de la sortie désirée d pour cet exemple
d’entrée E1 alors modification des poids
wij (t + 1) = wij (t ) + η ( d (t ) − y (t ) ) ei (t )
w0 j (t + 1) = w0 j (t ) + η ( d (t ) − y (t ) )
5- Tant que tous les exemples de la base d’apprentissage ne sont pas traités
correctement, retour à l’étape 2.
3. Apprentissage supervisé
3-1- Loi de gradient stochastique

- exemple d’application-1-
Choisissons pour les neurones un comportement binaire.
Les entrées e1 et e2 sont considérées comme des neurones:

Base d'exemples d'apprentissage

η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2;
3. Apprentissage supervisé
3-1- Loi de gradient stochastique

- exemple d’application -1-


η = 0.1; w0 = 0.2
3. Apprentissage supervisé
3-1- Loi de gradient stochastique

- exemple d’application-1-
3. Apprentissage supervisé
3-1- Loi de gradient stochastique

- exemple d’application: -1-

Partition de l'espace d'entrée de dimension 2 réalisée par un Perceptron


Les paramètres du Perceptron sont : w1 = 0.2, w2 = 0.1 et w0 = -0.2.
3. Apprentissage supervisé
3-1- Loi de gradient stochastique

-exemple d’application-2-

ET
e1 e2 d
0 0 0
1 0 0
0 1 0
1 1 1

η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; S = 0.2
3. Apprentissage supervisé
3-1- Loi de gradient stochastique

-exemple d’application-3-

OU
e1 e2 d
0 0 0
1 0 1
0 1 1
1 1 1

η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
3. Apprentissage supervisé
3-1- Loi de gradient stochastique

-exemple d’application-4-

XOR
e1 e2 d
0 0 0
1 0 1
0 1 1
1 1 0

η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
3. Apprentissage supervisé
3-2- Loi de gradient total
1 N
Etot = ∑( e(k ) )
2
L’erreur quadratique totale:
2 k =1 N

∑( e(k ))
2

Etot
L’erreur quadratique totale moyenne: Etot _ moy = = k =1

N 2N

 L 
y(k ) = f  ∑ wi (k ) xi (k ) 
avec la sortie neuronale :  i =0 
∂Etot _ moy (t )
L’algorithme du gradient : wi (t + 1) = wi (t ) − η
∂wi (t )

η N

devient, dans ce cas :


wi (t + 1) = wi (t ) +
N
∑ e(k ) x (k )
k =1
i

η N
w0 (t + 1) = w0 (t ) +
N
∑ e(k )
k =1
3. Apprentissage supervisé
3-2- Loi de gradient total

- exemple d’application-1-
Choisissons pour les neurones un comportement binaire.
Les entrées e1 et e2 sont considérées comme des neurones:

Base d'exemples d'apprentissage

e1 e2 d
-1 -1 -1
E0 = 0.02 -1 1 -1
η = 0.2; 1 -1 -1
w1 (0) = w2 (0) = w0 (0) = 0 1 1 1
3. Apprentissage supervisé
3-2- Loi de gradient total

Exemple d’application-1-

Calcul de l’erreur quadratique totale à t=1:

E=
1 N

2N k =1
2 1 4
8 k =1
2 1
8
2
(
( e(k )) = ∑( e(k )) = ( e(1)) + ( e(2)) + ( e(3)) + ( e(4))
2 2 2
)
e(1) = d (1) − y(1) = d (1) − ( w1 (0) x1 (1) + w2 (0) x2 (1) + w0 (0) ) = −1 − 0 = −1

e(2) = d (2) − y(2) = d (2) − ( w1 (0) x1 (2) + w2 (0) x2 (2) + w0 (0) ) = −1 − 0 = −1

e(3) = d (3) − y(3) = d (3) − ( w1 (0) x1 (3) + w2 (0) x2 (3) + w0 (0) ) = −1 − 0 = −1


e(4) = d (4) − y(4) = d (4) − ( w1 (0) x1 (4) + w2 (0) x2 (4) + w0 (0) ) = 1 − 0 = 1

1 4 1
E = ∑( e(k ) ) =
2

8 k =1 2
3. Apprentissage supervisé
3-2- Loi de gradient total

Exemple d’application -1-

Mise à jour des poids synaptiques et biais à t=1:


1 N
wi (t + 1) = wi (t ) + η ∑ ei (k ) xi (k )
N k =1
1 4 1
w1 (1) = w1 (0) + 0.2 ∑ e(k ) x1 (k ) = 0 + 0.2 ( (−1) *(−1) + (−1) *(−1) + (−1) *1 + 1*1) = 0.1
4 k =1 4

1 4 1
w2 (1) = w2 (0) + 0.2 ∑ e2 (k ) x2 (k ) = 0 + 0.2 ( (−1) *1 + (−1) *1 + (−1) *(−1) + 1*1) = 0.1
4 k =1 4

1 4 1
w0 (1) = w0 (0) + 0.2 ∑ e(k ) = 0 + 0.2 ( −1 − 1 − 1 + 1) = −0.1
4 k =1 4
3. Apprentissage supervisé
3-2- Loi de gradient total

Exemple d’application -1-

Calcul de l’erreur quadratique totale à t=2:

E=
1 N

2N k =1
2 1 4
8 k =1
2 1
8
2
(
( e(k )) = ∑( e(k )) = ( e(1)) + ( e(2)) + ( e(3)) + ( e(4))
2 2 2
)
e(1) = d (1) − y(1) = d (1) − ( w1 (1) x1 (1) + w2 (1) x2 (1) + w0 (1) ) = −0.7

e(2) = d (2) − y(2) = d (2) − ( w1 (1) x1 (2) + w2 (1) x2 (2) + w0 (1) ) = −0.9

e(3) = d (3) − y(3) = d (3) − ( w1 (1) x1 (3) + w2 (1) x2 (3) + w0 (1) ) = −0.9
e(4) = d (4) − y(4) = d (4) − ( w1 (1) x1 (4) + w2 (1) x2 (4) + w0 (1) ) = 0.9

1 4
E = ∑( e(k ) ) = 0.365 > E0
2

8 k =1
3. Apprentissage supervisé
3-2- Loi de gradient total

-exemple d’application-2-

ET

e1 e2 d
0 0 0
1 0 0
0 1 0
1 1 1

η = 0.1;
E0 = 0.02
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
3. Apprentissage supervisé
3-2- Loi de gradient total

-exemple d’application-3-

OU
e1 e2 d
0 0 0
1 0 1
0 1 1
1 1 1

η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2 E0 = 0.02
3. Apprentissage supervisé
3-2- Loi de gradient total

-exemple d’application-4-

XOR
e1 e2 d
0 0 0
1 0 1
0 1 1
1 1 0

η = 0.1;
E0 = 0.02
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
3. Apprentissage supervisé
3-3- Loi de gradient instantané
∂E ( t )
wij ( t + 1) = wij ( t ) −η ( t )
∂wij

1 1
L’erreur instantanée s’écrit : E(t) = e2 (t) = ( ydi (t) − yi (t))2
2 2
∂E 1
= − ( y di (t ) − yi (t )). x j (t )
∂wi 2
1
= − ei (t ). x j (t )
2

1
wij (t + 1) = wij (t ) + η ei (t ) xi (t )
2

1
b j (t + 1) = b j (t ) + η e j (t )
2
3. Apprentissage supervisé
3-3- Loi de gradient instantané

- exemple d’application-1-
Choisissons pour les neurones un comportement binaire.
Les entrées e1 et e2 sont considérées comme des neurones:

Base d'exemples d'apprentissage

e1 e2 d
-1 -1 -1
E0 = 0.02 -1 1 -1
η = 0.2; 1 -1 -1
w1 (0) = w2 (0) = w0 (0) = 0 1 1 1
3. Apprentissage supervisé
3-3- Loi de gradient instantané

Exemple d’application -1-


Calcul de l’erreur quadratique instantanée à t=1:
1
E(t ) = ( )
2
e(t )
2
e(1) = d (1) − y(1) = d (1) − ( w1 (0) x1 (1) + w2 (0) x2 (1) + w0 (0) ) = −1 − 0 = −1

w1 (1) = w1 (0) + 0.2e(1) x1 (1) = 0.2*(−1) *(−1) = 0.2

w2 (1) = w2 (0) + 0.2e(1) x2 (1) = 0.2*(−1) *(−1) = 0.2

w0 (1) = w0 (0) + 0.2e(1) = 0.2*(−1) = −0.2


3. Apprentissage supervisé
3-3- Loi de gradient instantané

Exemple d’application -1-


Calcul de l’erreur quadratique instantanée à t=2:

e(2) = d (2) − y(2) = d (2) − ( w1 (1) x1 (2) + w2 (1) x2 (2) + w0 (1) ) = −0.8

w1 (2) = w1 (1) + 0.2e(2) x1 (2) = 0.2*0.2(−0.8) *(−1) = 0.36

w2 (2) = w2 (1) + 0.2e(2) x2 (2) = 0.2*0.2*(−0.8) *(1) = 0.04

w0 (2) = w0 (1) + 0.2e(2) = −0.2 + 0.2*(−0.8) = −0.36


3. Apprentissage supervisé
3-3- Loi de gradient instantané

Exemple d’application-1-
Calcul de l’erreur quadratique instantanée à t=3:

e(3) = d (3) − y(3) = d (3) − ( w1 (2) x1 (3) + w2 (2) x2 (3) + w0 (2) ) = −0.36

w1 (3) = w1 (2) + 0.2e(3) x1 (3) = ..... = 0.168

w2 (3) = w2 (2) + 0.2e(3) x2 (3) = .... = 0.208

w0 (3) = w0 (2) + 0.2e(3) = ..... = −0.552


3. Apprentissage supervisé
3-3- Loi de gradient instantané

Exemple d’application-1-
Calcul de l’erreur quadratique instantanée à t=4:

e(4) = d (4) − y(4) = d (4) − ( w1 (3) x1 (4) + w2 (3) x2 (4) + w0 (3) ) = 1.176

w1 (4) = w1 (3) + 0.2e(4) x1 (4) = ..... = 0.403

w2 (4) = w2 (3) + 0.2e(4) x2 (4) = .... = 0.443

w0 (4) = w0 (3) + 0.2e(4) = ..... = −0.317

E (t ) =
1
2
(e ( t ) )
2
=
1
2
( e (1 ) 2
+ e (2 ) 2 + e (3 ) 2 + e (4 ) 2 )
1
= (1 + 0 .6 4 + 0 .1 2 9 + 1 .3 8 )= 1 .5 7 > E 0 = 0 .0 2
2
3. Apprentissage supervisé
3-3- Loi de gradient instantané

-exemple d’application-2-

ET

e1 e2 d
0 0 0
1 0 0
0 1 0
1 1 1

E0 = 0.02
η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
3. Apprentissage supervisé
3-3- Loi de gradient instantané

-exemple d’application-3-

OU
e1 e2 d
0 0 0
1 0 1
0 1 1
1 1 1
E0 = 0.02
η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
3. Apprentissage supervisé
3-3- Loi de gradient instantané

-exemple d’application-4-

XOR
e1 e2 d
0 0 0
1 0 1
0 1 1
1 1 0

E0 = 0.02
η = 0.1;
w1 (0) = −0.2; w2 (0) = 0.1; w0 = 0.2
3. Apprentissage supervisé

Quels que soient l’ensemble de motifs en entrée


et leur classification désirée, l’algorithme
d’apprentissage du perceptron, la règle du
DELTA, convergera vers un ensemble correct de
poids, et ceci en un nombre fini d’opérations si
un tel exemple existe [Rosenblatt1962].
plan
1. Le neurone formel
2. Apprentissage non supervisé
2-1- Loi de Hebb
2- 2- Loi de Grossberg
3. Apprentissage supervisé
3-1- Loi de gradient stochastique
3-2- Loi de gradient total
3-3- Loi de gradient instantané
4. Limite de séparation
57
4- Limite de séparation -

Le perceptron est incapable de distinguer les données


non séparables linéairement

P fonction ET logique P fonction XOR (ou exclusif)

input P 0 1 0 1 1 0 1 1 1 0

input Q 1 0 0 1
ET 0 0 0 1 0 0
0
0
1 Q
0 0
0
1
1 Q

XOR 1 1 0 0 patterns séparables linéairement patterns non séparables linéairement


4- Limite de séparation -

x1
ET
x2
OU y = x1 ⊕ x2
x1 = x1 x2 + x1 x2
ET

x2

59
4- Limite de séparation -

60
Problèmes du réseau monocouche
Solution: réseau multicouche

61

Vous aimerez peut-être aussi