0% ont trouvé ce document utile (0 vote)
96 vues13 pages

Introduction Aux Réseaux de Neurones 23062023

Ce document introduit les réseaux de neurones artificiels en décrivant leur inspiration biologique, la modélisation du neurone artificiel et les différents types d'apprentissage. Il présente également le perceptron, réseau de neurones le plus simple, ainsi que l'algorithme de rétropropagation des erreurs.

Transféré par

Euloge ABOUDOU
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
96 vues13 pages

Introduction Aux Réseaux de Neurones 23062023

Ce document introduit les réseaux de neurones artificiels en décrivant leur inspiration biologique, la modélisation du neurone artificiel et les différents types d'apprentissage. Il présente également le perceptron, réseau de neurones le plus simple, ainsi que l'algorithme de rétropropagation des erreurs.

Transféré par

Euloge ABOUDOU
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction aux Réseaux de

Neurones Artificiels

1. Introduction
Les réseaux de neurones servent aujourd’hui à toutes sortes d’applications dans
divers domaines.
Exemple :
- Auto-pilote pour avion
- Système de guidage pour automobile,
- Systèmes de lecture automatique de chèques bancaires et d’adresses
postales,
- Systèmes de traitement du signal pour différentes applications militaires,
- Systèmes pour la synthèse de la parole,
- Systèmes de vision par ordinateur,
- Systèmes pour les prévisions sur les marchés monétaires,
- Systèmes pour évaluer le risque financier ou en assurance,
- Systèmes pour le diagnostic médical,
- Systèmes pour l’exploration pétrolière ou gazière,
- Systèmes de détection d’intrusion dans les systèmes informatiques
Etc..

2. Inspiration biologique
La physiologie du cerveau montre que celui-ci est constitué de cellules (les neurones)
interconnectées.

TH. K. DAGBA, ENEAM/UAC 2023 1


Figure 1 : Modèle du neurone biologique

Un neurone biologique possède trois principales composantes : les dendrites, le corps


cellulaire et l’axone.
Les neurones reçoivent les signaux (impulsions électriques) par des extensions très
ramifiées de leur corps cellulaire (les dendrites) et envoient l'information par de longs
prolongements (les axones). Les impulsions électriques sont régénérées pendant le
parcours le long de l'axone. La durée de chaque impulsion est de l'ordre d'1 ms et son
amplitude d'environ 100 mV.
Les contacts entre deux neurones, de l'axone à une dendrite, se font par l'intermédiaire
des synapses. Chaque neurone intègre en permanence jusqu'à un millier de signaux
synaptiques. Le cerveau humain contient environ 100 milliards de neurones.
La vitesse de propagation des influx nerveux est de l'ordre de 100m/s, c'est à dire bien
inférieure à la vitesse de transmission de l'information dans un circuit électronique.

3. Le neurone artificiel
3.1. Introduction
Le neurone artificiel est une modélisation des neurones du cerveau. Elle va effectuer
une somme pondérée de ses entrées plutôt que de considérer séparément chacune des
informations.

TH. K. DAGBA, ENEAM/UAC 2023 2


3.2. Modélisation mathématique
Un neurone artificiel implémente une fonction non linéaire de ℝI sur l’intervalle [0,1]
ou [-1,1].

𝑓𝐴𝑁 : ℝ𝐼 ⟶ [0,1]
Ou
𝑓𝐴𝑁 : ℝ𝐼 ⟶ [−1,1]

Où I représente le nombre des signaux d’entrée au neurone artificiel.


Un neurone artificiel reçoit un vecteur de I signaux d’entrée
𝑋⃗ = (𝑥1 , 𝑥2 , … , 𝑥𝐼 )
de l’environnement ou d’autres neurones artificiels.
A chaque signal est associé un poids wi .
Le neurone artificiel calcule la valeur « net » du signal d’entrée et utilise une fonction
d’activation fAN pour calculer la sortie y.
Le signal de sortie est ensuite influencé part une valeur de seuil 𝜃 appelée biais.

X1 W1

X2

. W2
f(net)-θ y
.

.
WI
XI

Figure 2 : Modèle d’un neurone

TH. K. DAGBA, ENEAM/UAC 2023 3


Avec 𝑛𝑒𝑡 = ∑𝐼𝑖=1 𝑥𝑖 𝑤𝑖

3.3. Fonction d’activation

La fonction d'activation, ou fonction de transfert, est une fonction qui reçoit le signal
d’entrée «net» et le bais puis détermine la sortie du neurone.
Les fonctions d’activation les plus usuelles sont :
1
- fonction sigmoïde: 𝑓𝐴𝑁 (𝑥) =
1+𝑒 −𝜆𝑥

𝑒 𝜆𝑥 −𝑒 −𝜆𝑥
- fonction tangente hyperbolique : 𝑓𝐴𝑁 (𝑥) =
𝑒 𝜆𝑥 +𝑒 −𝜆𝑥

En général, λ = 1

3.4. Apprentissage du neurone artificiel


L’apprentissage consiste à ajuster les poids et le biais jusqu’à la satisfaction de
certains critères. Il existe trois types principaux d’apprentissage :
- Apprentissage supervisé
L’apprentissage supervisé est caractérisé par la présence d’un «professeur» qui
possède une connaissance approfondie de l’environnement dans lequel évolue le
réseau de neurones. En pratique, les connaissances de ce professeur prennent la
forme d’un ensemble de Q couples de vecteurs d’entrée et de sortie {(p1, d1), (p2,
d2), . . . , (pQ, dQ)}, où pi désigne un stimulus (entrée) et di la cible pour ce stimulus,
c’est-à-dire les sorties désirées du réseau.
Chaque couple (pi, di) correspond donc à un cas d’espèce de ce que le réseau devrait
produire (la cible) pour un stimulus donné. Pour cette raison, l’apprentissage
supervisé est aussi qualifié d’apprentissage par des exemples.
Dans l’apprentissage supervisé, on est amené ajuster les poids de manière que
l’erreur entre la sortie réelle du neurone et la valeur cible soit minimisée.

- Apprentissage non supervisé


Il est caractérisé par l’absence de professeur, c’est-à-dire qu’on ne dispose pas d’un
signal d’erreur, comme dans le cas supervisé.

TH. K. DAGBA, ENEAM/UAC 2023 4


- Apprentissage par renforcement
Le but ici est de récompenser le neurone ou une partie du réseau pour une bonne
performance, et de pénaliser le neurone pour une mauvaise performance.

Les tâches de l’apprentissage peuvent concerner : l’approximation, l’association, le


classement, la prédiction, la commande.
Pour ces différents types d’apprentissage, plusieurs règles d’apprentissage ont été
développées.

La règle du gradient descendant


Cette méthode nécessite la définition d’une fonction d’erreur pour mesurer l’erreur du
neurone dans l’approximation de la cible.
La somme des carrés des erreurs est souvent utilisée :
𝑃

𝜀 = ∑(𝑡𝑝 − 𝑓𝑝 )2
𝑝=1

tp – valeur cible pour l’instance p


fp – la sortie du neurone pour l’instance p
P – le nombre total des d’instances dans l’ensemble d’apprentissage

L’objectif de la méthode du gradient descendant est de minimiser l’erreur ε.

Les poids wi sont mise à jour en utilisant la relation suivante :


wi(t) = wi(t-1) + Δwi(t)
Avec

𝜕𝜀
Δ𝑤𝑖 (𝑡 ) = 𝜂(− )
𝜕𝑤𝑖
η désigne le taux d’apprentissage

TH. K. DAGBA, ENEAM/UAC 2023 5


4. Le perceptron
Un réseau de neurones monocouche, aussi appelé perceptron, est caractérisé de la
manière suivante.
- Il possède n informations en entrée ;
- Il est composé de p neurones, que l'on représente généralement alignés
verticalement. Chacun peut en théorie avoir une fonction d'activation différente.
En pratique, ce n'est généralement pas le cas ;
- Chacun des p neurones est connecté aux n informations d'entrée.
Le réseau de neurones possède ainsi n informations en entrée et p sorties, chaque
neurone renvoyant sa sortie.
Il existe 2 types de perceptrons : les perceptrons acycliques (feed-forward) et les
perceptrons cycliques (récurrents). Un réseau feed-foward réalise une fonction de son
entrée courante. En revanche, un réseau récurrent réalimente ses propres entrées avec
ses sorties.
Le perceptron multicouche est un des réseaux de neurones les plus utilisés pour des
problèmes d’approximation, de classification et de prédiction. Il est habituellement
constitué de deux ou trois couches de neurones totalement connectés.

Couche d‘entrée Couche cachée Couche de sortie

w0Z
Neurone 1 w1A

w1B Neurone A
wAZ

w2A

Neurone Z
Neurone 2

w2B wBZ
Neurone B
w0Z
w3A

w3A
Neurone 3 w0B

Figure 3 : Exemple de perceptron multicouche

TH. K. DAGBA, ENEAM/UAC 2023 6


L’algorithme de retro- propagation des erreurs

Le principe est basé sur la fonction sigmoïde d’activation

wij,nouveau = wij, courant + Δwij = ηδjxij

η - taux d’apprentissage
xij – i-eme entrée du j-eme neurone
δj - participation du j-eme neurone à la grandeur de l’erreur

𝑠𝑜𝑟𝑡𝑖𝑒𝑗 (1 − 𝑠𝑜𝑟𝑡𝑖𝑒𝑗 )(𝑣𝑎𝑙𝑒𝑢𝑟𝑐𝑖𝑏𝑙𝑒 − 𝑠𝑜𝑟𝑡𝑖𝑒𝑗 ) (1)


𝛿𝑗 = {
𝑠𝑜𝑟𝑡𝑖𝑒𝑗 (1 − 𝑠𝑜𝑟𝑡𝑖𝑒𝑗 ) ∑ 𝑤𝑗𝑘 𝛿𝑗 (2)
𝑑𝑒𝑠 𝑛𝑒𝑢𝑟𝑜𝑛𝑒𝑠 𝑠𝑢𝑖𝑣𝑎𝑛𝑡𝑠

(1) – neurones de la couche de sortie


(2) - neurones de la couche cachée

La démarche pour l’entraînement d’un perceptron multicouche

1. Initialiser tous les poids du réseau à de petites valeurs aléatoires.


2. Pour chaque association (pq, dq) dans la base d’apprentissage :
(a) Propager les entrées pq vers l’avant à travers les couches du réseau :
(c) Mettre à jour les poids et biais :
3. Si le critère d’arrêt est atteint, alors stop.
4. Sinon, recommencer à l’étape 2.

Critères d’arrêt de l’apprentissage

Plusieurs critères d’arrêts peuvent être utilisés avec l’algorithme de rétro-propagation


des erreurs :
- Fixer un nombre maximum de périodes d’entraînement, ce qui fixe une limite
supérieure sur la durée de l’apprentissage

TH. K. DAGBA, ENEAM/UAC 2023 7


- Fixer une borne inférieure sur l’erreur quadratique moyenne, ou encore sur la
racine carrée de cette erreur. Dépendant de l’application, il est parfois possible
de fixer a priori un objectif à atteindre. Lorsque l’indice de performance choisi
diminue en dessous de cet objectif, on considère simplement que le PMC a
suffisamment bien appris ses données et on arrête l’apprentissage.

La validation croisée
Les deux critères précédents sont utiles mais ils comportent aussi des limitations. Le
critère relatif au nombre maximum de périodes d’entraînement n’est pas lié à la
performance du réseau. Le critère relatif à l’erreur minimale obtenue mesure quant lui
un indice de performance mais ce dernier peut engendrer un phénomène dit de sur-
apprentissage qui n’est pas désirable dans la pratique, surtout si l’on ne possède pas une
grande quantité de données d’apprentissage, ou si ces dernières ne sont pas de bonne
qualité.

Une solution à ce problème consiste à utiliser un autre critère d’arrêt basé sur une
technique dite de validation croisée (en anglais «cross-validation»). Cette technique
consiste à utiliser deux ensembles indépendants de données pour entraîner le réseau : un
pour l’apprentissage (l’ajustement des poids) et l’autre pour la validation, c’est-à-dire le
calcul d’un indice de performance (une erreur, un taux de reconnaissance ou tout autre
mesure pertinente à l’application). Le critère d’arrêt consiste alors à stopper
l’apprentissage lorsque l’indice de performance calculé sur les données de validation
cesse de s’améliorer pendant plusieurs périodes d’entraînement.

TH. K. DAGBA, ENEAM/UAC 2023 8


Figure 4 : Illustration de la validation croisée
5. Types de réseaux de neurones les plus utilisés
5.1. Perceptron simple

Le perceptron est le premier modèle de réseau de neurones. Le but du perceptron est


d'associer des formes en entrée à des réponses. Le perceptron se compose de deux
couches: la couche d’entrée et la couche de sortie qui donne la réponse
correspondant à la stimulation présente en entrée. Les cellules de la première couche
répondent en oui/non. La réponse «oui» correspond à une valeur «1» et la réponse «
non» correspond à une valeur «0» à la sortie du neurone.
Les cellules d'entrée sont reliées aux cellules de sortie grâce à des synapses
d'intensité variable. L'apprentissage du perceptron s'effectue en modifiant l'intensité
de ces synapses. Les cellules de sortie évaluent l'intensité de la stimulation en
provenance des cellules de la première couche en effectuant la somme des intensités
des cellules actives.

Figure 5 : Schéma général du perceptron simple

5.2. Perceptron Multicouches

Le perceptron Multicouche est un réseau orienté de neurones artificiels organisé en


couches et où l’information voyage dans un seul sens, de la couche d’entrée vers la
couche de sortie. La couche d’entrée représente toujours une couche virtuelle associée
aux entrées du système. Elle ne contient aucun neurone. Les couches suivantes sont des
couches de neurones. Dans l’exemple d’illustration, il y a 3 entrées, 4 neurones sur la
première couche cachée, trois neurones sur la deuxième couche cachée et quatre

TH. K. DAGBA, ENEAM/UAC 2023 9


neurones sur la couche de sortie. Les sorties des neurones de la dernière couche
correspondent toujours aux sorties du système.
Dans le cas général, un perceptron Multicouche peut posséder un nombre de couches
quelconques et un nombre de neurones (ou d’entrées) par couche également quelconque.

Figure 6 : Exemple de réseau de type perceptron Multicouche

5.3. Les réseaux de neurones à Fonctions de Base Radiales (RBF)

Les réseaux à fonctions de base radiales (RBF) ou plus simplement réseaux à bases
radiales comportent une couche d'entrée, une couche cachée et une couche de sortie.
Pour un réseau comportant n entrées et m unités cachées, l'activation des neurones
cachés est donnée par une fonction de type gaussienne. Chacun de ces neurones ne
s'active donc de manière significative que pour des valeurs d'entrée relativement proches
des centres des gaussiennes. Les connexions en provenance des neurones d'entrée ne
sont pas pondérées.
L’apprentissage se fait dans ces réseaux par modification des poids des connexions entre
les neurones cachés, les neurones de sortie, les centres et les variances des gaussiennes.

TH. K. DAGBA, ENEAM/UAC 2023 10


5.4. Les réseaux de neurones bouclés (récurrents)

Un réseau bouclé ou récurrent possède la même structure qu’un réseau multicouche


munie de rétroactions. Les connexions rétroactives peuvent exister entre tous les
neurones du réseau sans distinction, ou seulement entre certains neurones (les neurones
de la couche de sortie et les neurones de la couche d’entrée ou les neurones de la même
couche par exemple).

Figure 7 : Réseaux de neurones bouclés

5.5. Réseau de neurones de convolution – Convolution Neural Network


(CNN)

Ces réseaux reposent sur des filtres de convolution (matrices numériques). Les filtres
sont appliqués aux entrées avant que celles-ci ne soient transmises aux neurones. Ces
réseaux de neurones sont utiles pour le traitement et la prévision d’images.

TH. K. DAGBA, ENEAM/UAC 2023 11


EXERCICES (Réseaux de neurones)

1) CALCUL MANUEL
On considère le réseau suivant:

Couche d‘entrée Couche cachée Couche de sortie

w0A
Neurone 1 w1A

w1B Neurone A
wAZ

w2A

Neurone Z
Neurone 2

w2B wBZ
Neurone B
w0Z
w3A

w3B
Neurone 3 w0B

Les données d’apprentissage et les poids initiaux sont donnés dans le tableau comme ci-après :

X0 = 1.0 W0A = 0.5 W0B = 0.7 W0Z = 0.5


X1 = 0.4 W1A= 0.6 W1B = 0.9 WAZ = 0.9
X2 = 0.2 W2A = 0.8 W2B =0.8 WBZ = 0.9
X3 = 0.7 W3A = 0.6 W3B = 0.4

En tenant compte des données du tableau et en utilisant la méthode du gradient descendant d’une
part et de la retro propagation d’autre part, déterminer la sortie du neurone Z après deux époques
(itérations).

La valeur cible de la sortie est 0.8

Le taux d’apprentissage η= 0.01

2) EXERCICE DE PROGRAMMATION : Utilisation de l’outil Neuroph

TH. K. DAGBA, ENEAM/UAC 2023 12


On considère un réseau feed-forward à 3 couches. La couche de sortie possède un seul neurone.

a) Déterminer le nombre optimal de neurones dans la couche cachée, nécessaire pour


l’apprentissage du réseau, en utilisant les données d’apprentissage « ionosphere data set »
disponibles sur le site de « Machine Learning Repository ».

Utiliser l’algorithme de retro-propagation pour l’apprentissage.

Indication : Faire varier (de 1 jusqu’à 100) le nombre de neurones dans la couche cachée jusqu’à la
stabilisation de l’erreur. Pour chaque cas (nombre de neurones dans la couche cachée), répéter
l’apprentissage 100 fois.

Utiliser :

- le taux d’apprentissage :
η=0.5
- l’erreur quadratique (Sum of Squared Error):
𝑃

𝑆𝑆𝐸 = ∑(𝑡𝑝 − 𝑓𝑝 )2
𝑝=1

P- nombre d’exemples pour l’apprentissage

tp - la sortie attendue (la sortie "vraie") de la part du réseau de neurones pour l’exemple p

fp - la sortie obtenue pour l’exemple p avec les poids actuels

b) Déterminer le nombre d’itérations nécessaire à l’apprentissage du réseau, pour l’architecture


déterminée précédemment.

c) Utiliser la validation croisée pour l’apprentissage du réseau

TH. K. DAGBA, ENEAM/UAC 2023 13

Vous aimerez peut-être aussi