0% ont trouvé ce document utile (0 vote)
129 vues46 pages

Cours RN

Ce document décrit les réseaux de neurones artificiels, leur inspiration biologique, et comment ils peuvent être utilisés pour approcher n'importe quelle fonction. Il explique le fonctionnement des neurones formels, du perceptron multicouche, et le théorème d'approximation universelle démontrant leur capacité à approximer des fonctions.

Transféré par

khalil
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
129 vues46 pages

Cours RN

Ce document décrit les réseaux de neurones artificiels, leur inspiration biologique, et comment ils peuvent être utilisés pour approcher n'importe quelle fonction. Il explique le fonctionnement des neurones formels, du perceptron multicouche, et le théorème d'approximation universelle démontrant leur capacité à approximer des fonctions.

Transféré par

khalil
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Réseaux de neurones

artificiels (formels)

Christian TRELEA
AgroParisTech
Plan
• L’idée – l’inspiration biologique
• Réseaux de neurones formels (artificiels)
• Apprentissage supervisé des RN
• Capacité de généralisation
• RN en classification
• Apprentissage non supervisé – autres types de RN

2
L’idée (origine ~1940)

• Les organismes vivants, même assez primitifs (ex. insectes),


réalisent des tâches complexes de traitement de
l’information
– orientation
– communication
– comportement social
– …

• La puissance de traitement de leur système nerveux vient de


l’interconnexion (ex. 1014 connexions chez l’homme)
– d’un grand nombre (ex. 1011 chez l’homme)
– d’unités de traitement simples et similaires: les neurones

3
L’idée (suite)
• La motivation initiale était de faire du neuro-mimétisme
– Toutefois, la vision des années 1940 était assez simpliste;
– la réalité biologique c’est avéré plus complexe depuis .

• En revanche, cette idée c’est avérée très féconde en mathématiques et en


ingénierie
• Aujourd’hui, les réseaux de neurones artificiels (RN) forment un ensemble
de techniques
– matures
– efficaces
– avec une base théorique solide
– largement utilisées dans de nombreux domaines
• Médecine (diagnostic, prothèses, conseils d’urgence)
• Prospection minière et pétrolière
• Reconnaissance vocale, écriture manuscrite
• Télécommunication (compression des données)
• Finance (estimation immobilier, détection fausses déclarations, prédiction des cours)
• Industrie (mesure, prédiction contrôle)
• Transports (pilotage automatique, détection de risques, détection de pannes)

4
Le neuromimétisme

5
Le neuromimétisme
• De gros projets
– SyNAPSE (Darpa)
– IBM, HP, universités de Columbia, Cornell, …
– Human Brain Project (UE, 1 G€)
– Ecole polytechnique fédérale de Lausanne + 86 partenaires

• Beaucoup de questions
– Une intelligence peut-elle émerger? Comparable, supérieure à la
notre?
– Une conscience? Des émotions?
– Un cerveau artificiel aura-t-il besoin de sommeil? Sera-t-il sujet à des
troubles mentaux?
– Aidera-t-il à comprendre les maladies mentales? Pourrat-on remplacer
un cerveau endommagé?

6
Plan
• L’idée – l’inspiration biologique
• Réseaux de neurones formels (artificiels)
• Apprentissage supervisé des RN
• Capacité de généralisation
• RN en classification
• Apprentissage non supervisé – autres types de RN

7
Neurone biologique et
neurone formel

Dendrites (103) = Entrées


Affectées de « poids »
• Excitatrices (w>0)
• Inhibitrices (w<0) Perceptron
x1 Potentiel
w1 d’activation Axone = sortie
a = ∑ wi xi
x2 w2 Synapses =
y = g(a) connexions
g

Somme Fonction
pondérée d’activation
(transfert) McCulloch & Pitts, 1943 8
Neurone biologique et
neurone formel

• L’unité de base est relativement


– simple (somme pondérée + seuil)
– lente (103 Hz dans le cerveau humain)

• La complexité du traitement, la vitesse et la tolérance aux


pannes sont dues à
– Une forte connectivité (103 synapses pour chaque neurone)
– Un parallélisme massif (1011 neurones chez l’humain, structurés en
« couches »)

9
Le perceptron multicouche
Sorties de la
Fonction d’activation couche cachée Fonction d’activation
de la couche cachée
de la couche de sortie

Poids de la Poids de la
couche cachée couche de sortie

z1 y1
x1
x2 … Sorties
Entrées … …
xm zn ym
1 1

Couche 1 Couche 2
« cachée » de sortie
10
Le perceptron multicouche
• La fonction remplie par le RN dépend de
– Structure du réseau
• Nombre de couches
• Nombre d’entrées
• Nombre de sorties
• Nombre de neurones dans chaque couche

– Valeur des poids de chaque couche Apprentissage


• Potentiel d’activation du réseau

– Fonction d’activation de chaque couche


• Sortie de chaque neurone

Tangente
Seuil Logistique hyperbolique Linéaire Radiale 11
Approximation universelle
par RN
• Théorème central
– Un perceptron à 2 couches
• Dont la couche cachée a une fonction d’activation sigmoïde (ex. logistique,
tanh, etc.)
• Dont la couche de sortie a une fonction d’activation linéaire
– Peut approximer
• uniformément
• avec une précision arbitraire
• sur un domaine fini Hornik 1989, 1990, 1991
– Toute fonction suffisamment régulière

• Remarques
– En théorie, il n’y aurait besoin d’aucune autre structure de réseau. Toutefois,
dans les applications, il peut s’avérer plus pratique d’utiliser plusieurs couches,
des sorties non linéaires, etc.

– C’est un théorème purement existentiel. Il ne dit pas comment déterminer un


nombre approprié de neurones dans la couche cachée et les valeurs des poids
pour approximer une fonction donnée avec une précision donnée !
12
Approximation par RN,
comment ça marche ?
Superposition de sigmoïdes Superposition de sigmoïdes Superposition de sigmoïdes
1.4 2 2

1.2
1.5 1.5
1
Sortie (Y)

Sortie (Y)

Sortie (Y)
0.8
1 1
0.6

0.4
0.5 0.5
0.2

0 0 0
-10 -5 0 5 10 -10 -5 0 5 10 -10 -5 0 5 10
Entrée (X) Entrée (X) Entrée (X)
Superposition de sigmoïdes Superposition de sigmoïdes Superposition de sigmoïdes

1.4 3
3
1.2 2.5

1 2 2
Sortie (Y)

Sortie (Y)
Sortie (Y)

0.8 1.5

0.6 1 1

0.4
0.5
0 -10
0.2 10
0
-10 -10 -10
0 0 0
10 0 0 0
5 0 -5 -10 10 10 10 -10 10 Entrée (X2)
Entrée (X1)
Entrée (X1)
Entrée (X2) Entrée (X2) Entrée (X1) 13
Autres approximateurs
universels
• Il existe de nombreux jeux de « fonctions de base »
dont la superposition peut approcher arbitrairement
n’importe quelle autre fonction

– Polynômes – série de Taylor


• Fonctions de base : 1, x, x2, x3, …

– Fonction trigonométriques – série de Fourrier


• Fonctions de base : 1, cos x, sin x, cos 2x, sin 2x, …

– Ondelettes

– Etc.

14
Approximation parcimonieuse
nombre de paramètres ajustables (poids) réduit
• Si l’approximation dépend des paramètres ajustables (poids) de manière
non linéaire, elle est plus parcimonieuse que si elle dépend linéairement
des poids
Barron 1993
– Le nombre de paramètres, pour une précision donnée:
• croît exponentiellement avec le nombre des variables d’entrée pour un approximateur
linéaire
• croît linéairement avec le nombre des variables d’entrée pour un approximateur non
linéaire

• Exemples
– Approximateurs linéaires par rapport aux coefficients ajustables (w)
• Taylor : y = w0 + w1x1 + w2x2 + …
• Fourrier : y = w0 + w1cos x + w2sin x + w3cos 2x + w4sin 2x + …

Fonctions de base « fixes »

– Approximateur non linéaire par rapport aux coefficients ajustables (w)


• RN : y = w1 + w2tanh (w3 + w4x) + w5tanh (w6 + w7x) …

Fonctions de base adaptées au problème en cours


15
Plan
• L’idée – l’inspiration biologique
• Réseaux de neurones formels (artificiels)
• Apprentissage supervisé des RN
• Capacité de généralisation
• RN en classification
• Apprentissage non supervisé – autres types de RN

16
Apprentissage supervisé des RN
détermination des poids d’un réseau

• Comme son modèle biologique


– un RN « apprend » (= ajuste ses poids)
– à partir d’ « exemples » (= couples (X, Y) connus)
– en renforçant ou en affaiblissant itérativement ses « synapses » (= poids)

• L’apprentissage est le paradigme central de la résolution d’un problème à l’aide de


RN artificiels:
– on ne donne pas de règles, lois, algorithmes ou méthodes,
– seulement des « exemples » de valeurs connues (= base de données)
– sur lesquels on « entraîne » le réseau (= modifie les poids)
– lequel va ensuite travailler « par analogie » (= interpolation)

• Remarques
– Une fois mis en service, un RN peut éventuellement continuer d’évoluer (apprendre) au fur et à
mesure que de nouveaux exemples deviennent disponibles
– L’apprentissage itératif peut être long, difficile et sans garantie a priori de finir avec un jeu de
poids satisfaisant. C’est le prix à payer pour la parcimonie (non linéarité par rapport aux poids).
– (Pour un approximateur linéaire par rapport aux poids, les valeurs des poids se calculent
explicitement par régression linéaire, mais leur nombre devint vite prohibitif si le nombre des
entrées et la précision demandée sont élevés)
17
Apprentissage
• Modifier les poids du réseau
– dans le sens de la diminution de l’écart
– entre la sortie du réseau et les exemples

• Calculer la sensibilité (variation) de l’écart par


rapport à la variation du poids à ajuster
∂E
∂wi
• Modifier le poids en question selon une
certaine règle
 ∂E 
winouveau = wiancien + f  
 ∂wi 
18
Apprentissage
Soit une base de données de M exemples : (X k Yk ), k = 1...M

E = ∑ ( y (X 1,k , ... X p ,k , w1 , ...wn ) − Yk )


M
2
L’écart global est :
k =1

Sortie du réseau pour Sortie connue pour


l’exemple k l’exemple k (cible)

∂E M
∂y
Sensibilité de l’écart = 2∑ ( yk − Yk ) k
par rapport au poids wi ∂wi k =1 ∂wi

Sensibilité de la sortie par rapport


au poids wi, pour l’exemple k

19
Sensibilité de la sortie par rapport aux poids
Cas 1 : le poids appartient à la couche de sortie

Potentiel
d’activation

Zi wi y = g(a)
a
g

Somme Fonction
pondérée d’activation
(transfert)

∂yk ∂g (ak )
= = g ' ( ak ) Z i , k
∂wi ∂wi
Exemples
Activation linéaire Activation logistique Activation tangente hyperbolique
1 ea − e−a
g (a) = a g (a ) = lsig (a ) = g (a ) = tanh(a ) =
1 + e −a e a + e −a
g ' (a) = 1 g ' (a ) = g (a )(1 − g (a ) ) g ' (a) = 1 + g (a) 2 20
Sensibilité de la sortie par rapport aux poids

Cas 2 : le poids appartient à la couche cachée


a2 y
a1,j wj g2
wi Zj
Xj g1

1 1

∂yk ∂g 2 (a2,k ) ∂Z j ,k
= = g 2 ' ( a2 k ) w j
∂wi ∂wi ∂wi

∂Z j ,k ∂g1 ( a1 j ,k )
= = g1 ' ( a1 j ,k ) X i ,k
∂wi ∂wi

La règle se généralise pour plusieurs couches :


Il faut calculer les dérivées en chaine : Ecart  sortie  dernière couche cachée  ….  1ère couche cachée
« Rétro-propagation du gradient » (du gradient de l’écart par rapport aux poids) 21
Ajustement des poids
Descente selon le
10 gradient
5
∂E
winouveau = wiancien − α
Ecart E

0 ∂wi
-5
Taux d’apprentissage
-10
30
20 30
20
10 10
0 0

L’ajustement des poids selon l’opposé du gradient n’a plus qu’une valeur historique
Toutefois, le calcul du gradient de l’écart par rapport aux poids est au cœur d’algorithmes
d’apprentissage beaucoup plus efficaces (Quasi-Newton, Levenberg-Marquardt, …)
22
Plan
• L’idée – l’inspiration biologique
• Réseaux de neurones formels (artificiels)
• Apprentissage supervisé des RN
• Capacité de généralisation
• RN en classification
• Apprentissage non supervisé – autres types de RN

23
Sur-paramétrage et généralisation
• De manière générale, l’ajustement d’un modèle à un jeu de données
(exemples) particulier est d’autant meilleur que le nombre de paramètres
ajustables est grand
• Toutefois, un nombre de paramètres excessif peut compromettre la
capacité de généralisation (interpolation) du modèle
Exemple: interpolation polynomiale
Interpolation polynômiale Interpolation polynômiale Interpolation polynômiale
2 2 2

1.5 Données 1.5 2 paramètres 1.5 4 paramètres


1
disponibles 1 1
Sortie (Y)

Sortie (Y)

Sortie (Y)
0.5 0.5 0.5

0 0 0

-0.5 -0.5 -0.5


-2 0 2 4 6 8 10 -2 0 2 4 6 8 10 -2 0 2 4 6 8 10
Entrée (X) Entrée (X) Entrée (X)
Interpolation polynômiale Interpolation polynômiale Interpolation polynômiale
2 2 2

1.5
8 paramètres 1.5
12 paramètres 1.5
18 paramètres
1 1 1
Sortie (Y)

Sortie (Y)

Sortie (Y)
0.5 0.5 0.5

0 0 0

-0.5
-2 0 2 4 6 8 10
-0.5
-2 0 2 4 6 8 10
-0.5
-2 0 2 4 6 8 10 24
Entrée (X) Entrée (X) Entrée (X)
Sur-paramétrage et généralisation
• Les RN sont, par nature, extrêmement sujets au sur-paramétrage

• Ils peuvent apprendre très bien un jeu d’exemples particulier mais


proposer des surfaces de réponse très « accidentées »  mauvaise
généralisation (interpolation)
– Le nombre de neurones cachés n’est par connu a priori
– Lors de l’apprentissage, les poids sont initialisés par un tirage
aléatoire. La capacité de généralisation peut être très variable d’un
tirage à l’autre

• Il peut vite devenir extrêmement fastidieux de chercher


aveuglement un nombre de neurones et un tirage initial
convenable, surtout si la base de données est grande et
l’apprentissage long

• Techniques pour améliorer la capacité de généralisation :


– Régularisation

25
Exemples : sur-paramétrage d’un RN
Sortie 1 25 neurones Sortie 1
18
cachés
16
25
14
20
12
15

Sortie 1
10
Sort

10
8
5
6

4 15 neurones 0
20 10

cachés
15
10 5
2 5
0 0
0 Entrée 2 Entrée 1
0 5 10 15 20 25
Entr

• Comme d’autres modèles, les RN sur-paramétrés produisent des surfaces


de réponse « accidentées », conduisant à une mauvaise interpolation
(généralisation)
• Toutefois, grâce aux fonctions d’activation bornées, les variations des
sorties prédites restent limitées (comparées aux polynômes par exemple)
26
Régularisation des RN
• Limiter le nombre de paramètres (neurones cachés)
– Difficile de trouver le bon nombre (sous/sur paramétrage)

• Arrêter l’apprentissage avant la convergence


– Utiliser une deuxième base d’exemples indépendants : base de
validation
– Ajuster les poids sur la base d’apprentissage, mais choisir le
réseau avec l’erreur minimale sur la base de validation :
meilleure capacité de généralisation

• Modération des poids


– Lors de l’apprentissage, se donner comme objectif
supplémentaire la réduction des valeurs moyenne des poids 
surface de réponse plus régulière

27
Exemple : régularisation par limitation du
nombre des paramètres (poids)
Sortie 1

25

20

25 neurones
15

Sortie 1
cachés
10

Sortie 1
18 5

Sortie 1 16 Sortie 1 0
20 10
20 14 15
10 5
12 5
0 0
Entrée 2 Entrée 1
10
Sort

15 neurones
3 neurones
8
20
6
15 cachés
cachés
4

2
15
0

Sortie 1
0 5 10 15 20 25
Entr
10
Sortie

10
5

2 neurones 0
5
cachés 20
8
10 6
4
2
0 Entrée 2 0 0
Entrée 1
0 5 10 15 20 25
Entrée

Demande des tâtonnements pour trouver le bon nombre de neurones cachés


Un nombre trop faible conduit à un mauvais ajustement
Un nombre trop élevé conduit à une surface de réponse irrégulière
28
Exemple : régularisation par arrêt précoce
Sortie 1

25

20

25 neurones
15

Sortie 1
cachés
10

Sortie 1
18 5

16 0
20 10
14
Sortie 1 15
10 5
Sortie 1 12
Entrée 2
5
0 0
Entrée 1
20 10
Sort

15 neurones 25 neurones
8

6 20
cachés
4

2 15
cachés
15 0
0 5 10 15 20 25
10

Sortie 1
Entr

5
Sortie

10
0
15 neurones -5

5 cachés 20
8
10 6
4
2
Entrée 2 0 0
Entrée 1
0
0 5 10 15 20 25
Entrée

Si la base de validation contient suffisamment d’exemples représentatifs, le réseau


obtenu présente une capacité de généralisation satisfaisante
(mais pas forcément une surface de réponse très régulière)
29
Principe : régularisation par modération
des poids
y = 0.3 + 0.8 tanh (-18 – 10 x)
1.5
Ecart-type des
1.2 poids = 0.5

Sortie (Y)
1
1
0.5
Sortie (Y)

0.8
0 -10
10
0.6 0
0
-10 10 Entrée (X2)
0.4 Entrée (X1)

0.2
-10 -5 0 5 10 Ecart-type des
Entrée (X)
100
poids = 50
y = 0.3 + 0.8 tanh (-1 – 0.5 x) Sortie (Y)
50

0
Les RN qui ont des poids « petits » -10 10

présentent des surfaces de 0 0

réponse « lisses » Entrée (X1)


10 -10 Entrée (X2)

30
Principe : régularisation par modération
des poids

• Trouver un compromis entre deux critères


contradictoires :
– Bon ajustement aux exemples de la base
d’apprentissage
– Surface de réponse régulière = poids « petits »

M N
E = ∑ ( yk − Yk ) + α ∑ wi2
2

k =1 i =1

31
Exemple : régularisation par modération
des poids Sortie 1

25

Sortie 1 20

25 neurones
18

16 15

Sortie 1
14
Sortie 1 cachés
10
Sortie 1 12
5
18 10
15 neurones
Sort
8
cachés
25 neurones 0
20
15
10

cachés
6 5
16 4 Pondération 20 10
5
0 0
Entrée 2 Entrée 1
2
poids = 0
14 0
0 5 10 15 20 25 15
Entr

Sortie 1
12 10
Sortie

10
15 neurones 5

8 cachés 0
20
6 Pondération 8
6
poids = 0.02
10
4 4
2
Entrée 2 0 0
Entrée 1
2
0 5 10 15 20 25
Entrée

Demande des tâtonnements pour trouver la bonne pondération


Une pondération trop forte des poids conduit à un mauvais ajustement
Une pondération trop faible des poids conduit à une surface de réponse irrégulière
Les poids « inutiles » ne sont pas forcément mis à zéro
Il existe des variantes plus élaborées de cette méthode, qui trouvent automatiquement la bonne pondération et font tendre les
poids inutiles vers zéro (idée : se baser sur la précision « attendue » de l’ajustement, ex. précision des mesures) 32
MacKay 1995
Conclusion sur la régularisation des RN
• La régularisation est un point clé pour obtenir de « bons » RN :
– Surfaces de réponse lisses
– Bonne capacité de généralisation (interpolation)

• Dans la pratique, on combine plusieurs techniques de régularisation :


– Un nombre de neurones cachés « raisonnable »
• Selon la complexité de la surface de réponse et le nombre d’exemples disponibles
• Nombre de poids réduit, calculs rapides

– Une base de validation formée d’exemples indépendants


• Assurer une bonne représentativité statistique du réseau
• Si manque de données : validation croisée

– Une modération des poids pour limiter les effets des paramètres excédentaires
• Paramètre de pondération des poids choisi selon des critères de précision attendue du
réseau, par exemple répétabilité des mesures des sorties cible

• Au final, il faut toujours analyser de manière critique le réseau obtenu


– Au minimum, tracer les surfaces de réponse

33
Distribution des exemples dans les
bases d’apprentissage et de validation
• Pour une bonne généralisation, les exemples utilisés pour mettre au point le
réseau (bases d’apprentissage et de validation) doivent être représentatifs de
l’utilisation préconisée du réseau
– Couvrir tout l’espace utile des entrées
• Etendue dans chaque dimension (pas d’extrapolation)
• Pour toutes les combinaisons (pas de trous) : difficile à atteindre si les entrées sont nombreuses

Sortie 1
Sortie 1
8

7 12

6 10

8
5
Sortie

Sortie 1
6
4
4
3
2
2 10
0
8 5
1 6
-4 -2 0 2 4 6 8 10 12 4
2 0
Entrée 0
Entrée 2 Entrée 1

• Revoir la répartition des exemples


• Ne pas utiliser le réseau dans les zones non apprises !

34
Test final du réseau
• Une fois un réseau satisfaisant trouvé
– Structure
• Entrées (éliminer entrées peu informatives)
• Sorties (un réseau à plusieurs sorties ou plusieurs réseaux)
• Nombre de neurones cachés
– Poids
• Bon ajustement sur la base d’apprentissage
• Bonne généralisation sur la base de validation

• Il est conseillé de tester le réseau sur une base d’exemples


totalement indépendante
– Base de test
– Qui n’a servi ni à l’ajustement des poids, ni à l’arrêt de l’apprentissage
– Dont les exemples sont représentatifs de l’utilisation réelle du réseau
(bonne répartition dans l’espace des entrées)

• En cas de problème revoir la structure du réseau et/ou la


répartition des exemples entre les bases (apprentissage, validation,
test)
35
Plan
• L’idée – l’inspiration biologique
• Réseaux de neurones formels (artificiels)
• Apprentissage supervisé des RN
• Capacité de généralisation
• RN en classification
• Apprentissage non supervisé – autres types de RN

36
Classification avec RN
Entrées Sorties codant
représentant les Classifieur l’appartenance
descripteurs de RN aux différentes
l’objet à classer classes possibles

• Descripteurs à utiliser = caractéristiques des objets à classer


• Mode de codage des classes
• Bases d’exemples dont la classe est connue (apprentissage, validation, test)
pour mettre au point le réseau (structure, valeur des poids)

Difficultés potentielles
• Comment détecter et que faire si la réponse du classifieur est ambiguë Quand et
(plusieurs classes possibles)? comment dire
« je ne sais pas » ?
• Comment détecter et comment répondre si un objet d’une classe inconnue
est présenté en entrée?
• Que faire si les classes possibles ne sont pas connues a priori ?  cf.
apprentissage non supervisé plus loin
37
Codage des classes
Codage linéaire : Codage « grand-mère » :
Une seule sortie, Autant de sorties que de classes,
dont la valeur dont les valeurs indiquent le degré
indique la classe d’appartenance à chaque classe

Fermeté Fermeté
0 = totalement affiné totalement affiné
Couverture 1 = affiné Couverture affiné Une seule
pH RN 2 = moyennement affiné
pH RN moyennement affiné sortie vaut 1,
3 = peu affiné peu affiné les autres 0
affinage affinage
4 = frais frais
… …

Classes ordonnées
Classes ordonnées
ou non

Comment interpréter les valeurs intermédiaires des sorties ?

38
Surface discriminante
• La réponse du RN + la règle d’attribution d’un exemple à une classe (ex. degré
d’appartenance maximum) génèrent une partition de l’espace des entrées
• Les RN permettent de discriminer des classes non séparables linéairement

Classe 1 « Surface » discriminante Classe 1


« Surface » discriminante
exemples
Entrée 2

Entrée 2
Classe 2 Classes Classe 2 Classes non
linéairement séparables
séparables linéairement
Entrée 1 Entrée 1
Entrée 2

Exemple historique de classes


non séparables linéairement :
Entrée 1 « OU » exclusif (XOR)
39
Surface discriminante et
généralisation
• Les problèmes de généralisation, de sur-paramétrisation et
de régularité (de la surface discriminante) se posent de la
même façon pour les RN utilisés en classification
Surface qui discrimine parfaitement les deux classes
sur la base d’apprentissage
Très irrégulière, peu plausible
Sur-ajustement probable

Classe 1
Entrée 2

Classe 2

Entrée 1
Surface un peu moins performante sur la base d’apprentissage
Mais régulière et plus plausible 40
Meilleures performances en validation
Plan
• L’idée – l’inspiration biologique
• Réseaux de neurones formels (artificiels)
• Apprentissage supervisé des RN
• Capacité de généralisation
• RN en classification
• Apprentissage non supervisé – autres types de RN

41
Réseaux à apprentissage
non supervisé
• Il n’y a pas de cible (sortie correcte) définie a
priori pour chaque exemple

• C’est au réseau de trouver, au cours de


l’apprentissage, des similitudes (groupes,
régularités) dans les données

• Utilisés comme techniques de réduction, de


visualisation et de classification de grandes
masses de données multidimensionnelles
(~ACP, AFD… mais non linéaire)
42
Carte auto-organisatrice de Kohonen (SOM)
Neurones
Apprentissage
Poids

• Les poids du réseau sont initialisés aléatoirement


Entrées

• Un exemple est choisi aléatoirement dans la base


d’apprentissage
– Le neurone dont les poids sont les plus similaires à l’exemple
est choisi comme neurone vainqueur
– Les poids du neurone vainqueur et d’autres neurones dans
son voisinage topologique sont modifiés pour se rapprocher
de l’exemple
• On recommence un grand nombre de fois, en
diminuant progressivement le voisinage
topologique

• La carte s’auto-organise pour que les neurones


proches topologiquement aient des poids similaires
et donc répondent à des exemples similaires
Carte auto-organisatrice de Kohonen (SOM)

Exemple
Demo – Les 3 entrés sont des coordonnées dans
l’espace colorimétrique RVB

– La carte s’auto-organise pour que les


neurones proches (typologiquement)
correspondent à des couleurs proches

– Similitude: les zones où les neurones


ont des poids proches sont coloriés en
gris clair et inversement
Exemple : carte de la qualité de vie
Base de données sur la qualité de vie dans différents pays : santé, nutrition, éducation…
Ces indicateurs constituent les entrées du réseau

Après apprentissage, les pays à qualité de vie similaire se retrouvent proches sur la carte
Les pays qui n’ont pas servi à l’apprentissage se retrouvent placés de manière cohérente
(généralisation)
45
Conclusion générale
• Les RN sont des outils puissants
– Théoriquement « universels »

• A utiliser avec discernement, quand vraiment approprié


– Données disponibles
• Nombreuses (outil statistique!)
• Représentatives de toutes les situations envisagées (l’extrapolation ne fonctionne pas)
– Relations non linéaires (sinon, un modèle linéaire est plus simple et plus
fiable)
– Connaissance a priori insuffisante ou phénomènes trop complexes (sinon, un
modèle spécifiquement adapté, construit sur la base de cette connaissance,
sera plus simple, plus précis, plus facile à manipuler et à maîtriser, présentera
une meilleure extrapolation)

• Un minimum de savoir-faire est nécessaire, sous peine de résultats


totalement fantaisistes
– Maîtriser les degrés de liberté excédentaires
• Régularisation
• Test / validation sur de jeux de données importants et représentatifs de l’utilisation réelle

46

Vous aimerez peut-être aussi