0% ont trouvé ce document utile (0 vote)

450 vues31 pages

Auto-encodeurs et Word2vec

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

450 vues31 pages

Auto-encodeurs et Word2vec

Transféré par

Al Aloui

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Auto-encodeurs et Word2vec

Philippe Giguère
Auto-encodeur
Problèmes des données étiquetées

• À date, toujours supervisé

• Nécessite beaucoup de données étiquetées
• Que faire si beaucoup de données, mais ne
sont pas étiquetées ?
• Apprentissage supervisé  non-supervisé
• Pas juste d’ordre pratique
– théorie de l’apprentissage en général

3
Pertes
• Supervisé : perte basée sur l’erreur entre
prédiction et vérité-terrain
(+régularisation)
• Non-supervisé : erreur basée sur la
reconstruction de l’entrée x
auto-encodeur

x f ( x ) h g ( h) x’ Pour éviter des

solutions
inintéressantes
Perte : L  g ( f ( x))  x + régularisation
2
4
Taxonomie
Undercomplete Overcomplete

x f ( x ) h g ( h) x’ x f ( x ) h g ( h) x’

taille x > taille h

• encodeur doit trouver une taille x < taille h
projection vers un espace • sera inutile sans
de plus petite dimension régularisation
• si f, g sont linéaire : proche • copie de x dans h
de PCA (exactement si • exemple : x bruité
f=UT, g = U, UTU=I)
• si f, g sont non-linéaires,
projections plus puissantes 6
Importance de la régularisation
• Sans régularisation, l’encodage pourrait
être inutile
– Perte de reconstruction n’influence pas
directement l’utilité de l’encodage h
– Cas pathologique théorique : encodeur-
décodeur très puissant, taille h = 1
(rappel : réseaux profonds
x  indice i  x peuvent apprendre par cœur
des jeux de données)
• Priorisation de certains aspects pertinents
de x sera souvent utile à d’autres tâches
• Régularisation explicite préférable à
diminuer la capacité des réseaux f, g 7
Variété (manifold)
• Principe d’apprentissage machine
• La plupart des données réelles vont résider dans
des sous-régions particulières de l’espace de x
pixels pigés au
hasard : uniforme
dans x
vs.

• Compression de x possible car réseau n’a pas à

gérer les cas en dehors du manifold 8
Régularisation vs. manifold
• Doit régulariser la perte de reconstruction pour
espérer apprendre ce manifold
• Idéalement, l’encodeur trouvera les variations
pertinentes dans ce manifold localement
Euclidien
– apprendre la « surface » du
manifold (tangente)
• Formuler l’entrainement ou
l’architecture pour
encourager un comportement particulier
(générer (VAE), débruiter, etc…)

9
Exemple de manifold

: plus proches voisins

10
t-SNE sur vecteur h taille 10
MNIST
6 2 4

0 9
8
7
3
1
5

L.J.P. van der Maaten and G.E. Hinton. Visualizing High-Dimensional Data Using
t-SNE. Journal of Machine Learning Research 9(Nov):2579-2605, 2008. 11
Familles auto-encodeurs (AE)
• Sparse
• Denoising
• Contractive
• Variational (VAE)

12
Auto-encodeur sparse
• Perte supplémentaire sur le code h :
J ( )  L  x, g ( f ( x))   (h)
• Exemple : perte L1
(h)    hi
i
• Cousin du sparse coding
• Constitue un prior sur les modèles de h
pour la génération des données x
• Semble aider pour des tâches connexes de
classification
13
AE denoising
• Ajoute du bruit aléatoire à l’entrée x
bruit
+
x + x f ( x ) h g ( h) perte

• Cherche quand même à reconstruire x

L  x, g ( f ( x)) 
• Fonctionne avec AE overcomplete/réseaux
très puissants
14
AE denoising
• Apprend à déplacer des entrées
corrompues x vers le manifold

Devient moins sensible aux

variations de x perpendiculaires
au manifold

Reste sensible aux déplacements

tangents au manifold
15
AE contractive
• Ajout d’une pénalité sur les gradients de
l’encodeur f
J ( )  L  x, g ( f ( x))      x hi
2

i
hi hi
vs.

x
forte pénalité faible pénalité x

• Désensibiliser l’encodeur à certaines

directions (perpendiculaires au manifold)
16
AE contractive
contraction
embedding embedding

embedding

• Pour très petits bruits, denoising AE et contractive

coïncident (pensez différentiation numérique vs analytique)
17
Variational AE (VAE)
• Processus stochastique

m
x f ( x) pige h g ( h) x’
S

Distribution normale
• Perte : Reconstruction + KL divergence (pour forcer la
distribution d’être proche d’une normale)
• L’encodeur en charge d’estimer les paramètres de
génération
• Entraînement plus complexe (reparameterization
trick) car gradient ne passe pas sampling 19
Autoencodeur : application
• Réduction de dimensionnalité pour
classification (généralisation)
• Permet de combiner non-supervisé avec
supervisé : semi-supervisé

20
Deep AE : entraînement par couche
• Si difficulté d’entraîner un AE profond,
possibilité d’y aller de manière vorace,
couche par couche

h
x f1 ( x)
1
g1 (h)

Perte
21
Deep AE : entraînement par couche
• Si difficulté d’entraîner un AE profond,
possibilité d’y aller de manière vorace,
couche par couche

h h
f 2 ( x) g 2 ( h)
1 2

Perte

22
Word2vec
Word2vec
• Encodage 1-hot n’est pas informatif
– distance entre deux mots quelconques est
TOUJOURS la même
• distance L² = 2
• distance cosine = 0
– d(poutine,arbre) = d(maison, habitation)
• Cherche représentation distribuée et continue
– 1-hot  vecteur (embedding, plongement)
– RNN fait un peu cela
• Architecture simple (pas deep), pour passage
à l’échelle
– Entraînement sur 1.6 milliards de mots, sur 125-
180 CPU en parallèle
25
Contexte du voisinage
• Vous obtenez beaucoup d’information sur
le sens d’un mot en regardant son
voisinage dans une phrase
« You shall know a word by the company it keeps »
-J.R. Firth, 1957

• Chercher un encodage (embedding) qui

permet de prédire un/des mots voisins
27
Entraînement par prédiction
• L’apprentissage des vecteurs se fera via
deux tâches
• Tâche 1 : prédire le mot au centre d’un
contexte de ±T
La nouvelle technologie blockchain
? permet les crypto-monnaies
T=3 T=3

• Tâche 2 : prédire les mots voisins d’un

mot central, pour un contexte de ±T
? ? ? blockchain ? ? ?

T=3 T=3
28
Paramètres entraînables
• Chaque mot aura deux vecteurs associés :
 va 
v 
 abaca  mapping 1-hot vers h (W)
 
  Ajuster représentation vectorielle
 vzygote 
  par descente du gradient pour
ua  optimiser les 2 tâches de
  prédiction précédentes
 uabaca  prédire mot dans voisinage (W’)
 
 
u zygote  29
Tâche 1 : prédiction d’un mot
CBOW (continuous bag-of-words)
(ne tient pas compte de l’ordre des mots) entrées 1-hot

prédire le mot
manquant
S 0
o 0
1
f
0
t .
m 0
a 0
x 0

vrais
mot au
centre

30
Réseau linéaire
Tâche 1 : prédiction d’un mot
CBOW (continuous bag-of-words)
(ne tient pas compte de l’ordre des mots) entrées 1-hot

prédire le mot perte

manquant
0

gradient
S
o 0
1
f
0
t .
m 0
a 0
x 0

vrais
mot au
centre

31
Réseau linéaire
Tâche 2 : prédire mots voisins
vrais
Architecture skip-gram mots

S 0
o 0
1
f
0
t .
m 0
prédire les mots a
x
0
0

avoisinants
S 0

gradient
o 0
0
f
0
t .
m 0
a 1
x 0

S 1
o 0
f 0
0
t
.
m
0
a 0
x 0

32
Arithmétique sur embeddings?
• Quelle est la réponse à cette énigme :

France – Paris + Italy = ?

Rome!

33
Algèbre sur ces vecteurs

France – Paris + Italy = Rome

34
Performance

Vous aimerez peut-être aussi

TD 2 Correction
Pas encore d'évaluation
TD 2 Correction
10 pages
Cours et Exercices sur Réseaux Neurones
Pas encore d'évaluation
Cours et Exercices sur Réseaux Neurones
55 pages
Apprentissage: Régression Logistique
Pas encore d'évaluation
Apprentissage: Régression Logistique
3 pages
Comparaison de Réseaux Neuronaux
Pas encore d'évaluation
Comparaison de Réseaux Neuronaux
11 pages
Apprentissage Supervise
Pas encore d'évaluation
Apprentissage Supervise
52 pages
TD N°2 Apprentissage M1-IA DTrees 2022-2023 - Corr
Pas encore d'évaluation
TD N°2 Apprentissage M1-IA DTrees 2022-2023 - Corr
16 pages
Ar Sem12 PMC
Pas encore d'évaluation
Ar Sem12 PMC
46 pages
Introduction aux Réseaux Neuronaux et Apprentissage
Pas encore d'évaluation
Introduction aux Réseaux Neuronaux et Apprentissage
5 pages
FinalProblèmes À Satisfaction de Contraintes
100% (1)
FinalProblèmes À Satisfaction de Contraintes
238 pages
Exemple Corrigé Examen Deep Learning 12 - 02 - 2024 by Nouhaila
Pas encore d'évaluation
Exemple Corrigé Examen Deep Learning 12 - 02 - 2024 by Nouhaila
7 pages
QCM CNN
Pas encore d'évaluation
QCM CNN
3 pages
Apprentissage Supervisé Avec Python: Objectifs
Pas encore d'évaluation
Apprentissage Supervisé Avec Python: Objectifs
4 pages
Apprentissage Supervisé - Introduction - vf23
Pas encore d'évaluation
Apprentissage Supervisé - Introduction - vf23
44 pages
Introduction à l'algorithme k-NN
Pas encore d'évaluation
Introduction à l'algorithme k-NN
22 pages
1 Apprentissage Supervise
100% (1)
1 Apprentissage Supervise
17 pages
Naïve Bayes Classifier 1
Pas encore d'évaluation
Naïve Bayes Classifier 1
66 pages
Corrigé-Type 18 19 OIA
Pas encore d'évaluation
Corrigé-Type 18 19 OIA
3 pages
Output 4
Pas encore d'évaluation
Output 4
3 pages
Chapitre II Machine Learning
Pas encore d'évaluation
Chapitre II Machine Learning
170 pages
COURS Fondement Machine Learning L3
100% (1)
COURS Fondement Machine Learning L3
16 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
66 pages
Cours 5-6 Perceptron-SVM
100% (1)
Cours 5-6 Perceptron-SVM
76 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
IA - Raisonnement Probabiliste
Pas encore d'évaluation
IA - Raisonnement Probabiliste
46 pages
Examen ML: Classification et Préparation
Pas encore d'évaluation
Examen ML: Classification et Préparation
6 pages
Traitement Image 2
Pas encore d'évaluation
Traitement Image 2
74 pages
Corr TP3
Pas encore d'évaluation
Corr TP3
20 pages
Syllabus m1 Gadm Azizi Module Datamining2021 2022
Pas encore d'évaluation
Syllabus m1 Gadm Azizi Module Datamining2021 2022
6 pages
Apache Mahout : Machine Learning et Big Data
Pas encore d'évaluation
Apache Mahout : Machine Learning et Big Data
85 pages
Arbres de Décision: Calculs d'Entropie et Gain d'Information
Pas encore d'évaluation
Arbres de Décision: Calculs d'Entropie et Gain d'Information
1 page
03 Cours Deep
Pas encore d'évaluation
03 Cours Deep
73 pages
Classificateurs bayésiens et estimation de densité
Pas encore d'évaluation
Classificateurs bayésiens et estimation de densité
4 pages
Cours NN
Pas encore d'évaluation
Cours NN
79 pages
Introduction aux SVM et classification
Pas encore d'évaluation
Introduction aux SVM et classification
18 pages
Introduction à la Reconnaissance d'Images
Pas encore d'évaluation
Introduction à la Reconnaissance d'Images
244 pages
TD Machine Learning
Pas encore d'évaluation
TD Machine Learning
39 pages
Chap3 CNN. Steps
Pas encore d'évaluation
Chap3 CNN. Steps
92 pages
Machine Learning CH3
Pas encore d'évaluation
Machine Learning CH3
46 pages
Optimisation par Descente du Gradient
100% (1)
Optimisation par Descente du Gradient
9 pages
Classification par arbres de décision
Pas encore d'évaluation
Classification par arbres de décision
30 pages
Complexité et Algorithmes en Informatique
100% (1)
Complexité et Algorithmes en Informatique
145 pages
Réseaux de Neurones: Exercices Pratiques
Pas encore d'évaluation
Réseaux de Neurones: Exercices Pratiques
2 pages
Deep Learning Seance 4
100% (1)
Deep Learning Seance 4
26 pages
TD 1
50% (2)
TD 1
2 pages
Cours 1
Pas encore d'évaluation
Cours 1
90 pages
Algorithme k-NN : Concepts et Applications
Pas encore d'évaluation
Algorithme k-NN : Concepts et Applications
32 pages
Td3 - Rexeaux de Neurones
Pas encore d'évaluation
Td3 - Rexeaux de Neurones
4 pages
Serie 1
Pas encore d'évaluation
Serie 1
5 pages
Quiz 02-K Nearest Neighbors
100% (1)
Quiz 02-K Nearest Neighbors
1 page
Chapitre 6 Clustering Hi-Rarchique
Pas encore d'évaluation
Chapitre 6 Clustering Hi-Rarchique
62 pages
KNN Régression : Analyse Auto-MPG et Évaluation des Modèles
Pas encore d'évaluation
KNN Régression : Analyse Auto-MPG et Évaluation des Modèles
2 pages
TD Machine Regression Python
Pas encore d'évaluation
TD Machine Regression Python
3 pages
Classification Par Arbre de Décision ID3 C4.5 EXC
Pas encore d'évaluation
Classification Par Arbre de Décision ID3 C4.5 EXC
103 pages
Notes de Cours Ensemble Learning
Pas encore d'évaluation
Notes de Cours Ensemble Learning
6 pages
Introduction aux Réseaux Bayésiens
Pas encore d'évaluation
Introduction aux Réseaux Bayésiens
19 pages
Exercice de régression linéaire en Python
Pas encore d'évaluation
Exercice de régression linéaire en Python
2 pages
Book FR
Pas encore d'évaluation
Book FR
60 pages
IDR Blier
Pas encore d'évaluation
IDR Blier
13 pages
07 Generatives
Pas encore d'évaluation
07 Generatives
103 pages
RNN et LSTM : Fonctionnement et Applications
Pas encore d'évaluation
RNN et LSTM : Fonctionnement et Applications
47 pages
Chroniques Tizi-Ouziennes (1844-1914)
Pas encore d'évaluation
Chroniques Tizi-Ouziennes (1844-1914)
2 pages
Évaluation Informatique: Sécurité et Protection des Données
Pas encore d'évaluation
Évaluation Informatique: Sécurité et Protection des Données
1 page
Planification Et Ordonnancement
Pas encore d'évaluation
Planification Et Ordonnancement
49 pages
CONTENU - m4 - FR PDF
Pas encore d'évaluation
CONTENU - m4 - FR PDF
22 pages
Ordonnance Algérie: Loi Finances 2022
Pas encore d'évaluation
Ordonnance Algérie: Loi Finances 2022
55 pages
Hallux Valgus
Pas encore d'évaluation
Hallux Valgus
16 pages
Test D'aptitude Psychologique
Pas encore d'évaluation
Test D'aptitude Psychologique
40 pages
Diapason 22.07.24.festival de Saintes: Chemins de Lumière
Pas encore d'évaluation
Diapason 22.07.24.festival de Saintes: Chemins de Lumière
3 pages
AG-L1-S2-G2 Projet Tuteuré
Pas encore d'évaluation
AG-L1-S2-G2 Projet Tuteuré
18 pages
Devis Distribution TV SAT Budget
Pas encore d'évaluation
Devis Distribution TV SAT Budget
2 pages
Releve Mars 1
Pas encore d'évaluation
Releve Mars 1
4 pages
Gestion des stocks : Calculs et stratégies
100% (3)
Gestion des stocks : Calculs et stratégies
2 pages
Alliage 6005a Fra
Pas encore d'évaluation
Alliage 6005a Fra
1 page
TP l3 Mécaflu
Pas encore d'évaluation
TP l3 Mécaflu
32 pages
1 - 1 - ENONCES Evaluation PSEJ 2022 - Module GESTION COMPTABLE ET FINANCIERE PDF
100% (1)
1 - 1 - ENONCES Evaluation PSEJ 2022 - Module GESTION COMPTABLE ET FINANCIERE PDF
2 pages
Cours de P D - Séquence 10
Pas encore d'évaluation
Cours de P D - Séquence 10
9 pages
Histoire de la voiture électrique
Pas encore d'évaluation
Histoire de la voiture électrique
46 pages
Publication
100% (1)
Publication
325 pages
DS N°4 Tspé 2024-2025 Chapitres 13 Et 07
Pas encore d'évaluation
DS N°4 Tspé 2024-2025 Chapitres 13 Et 07
4 pages
Fiche de Synthese EPP de Distribution de Manuels Scolaires PNAPAS
Pas encore d'évaluation
Fiche de Synthese EPP de Distribution de Manuels Scolaires PNAPAS
1 page
Botanique Expose Neba
Pas encore d'évaluation
Botanique Expose Neba
11 pages
Devis Descriptif Cimencam Figuil
Pas encore d'évaluation
Devis Descriptif Cimencam Figuil
27 pages
Chapitre 4
Pas encore d'évaluation
Chapitre 4
32 pages
Devoirs de Niveau 3ème S.V.T
Pas encore d'évaluation
Devoirs de Niveau 3ème S.V.T
4 pages
Deviants Tome 1 Innocence
Pas encore d'évaluation
Deviants Tome 1 Innocence
343 pages
Algorithme de prise en charge colique néphrétique
Pas encore d'évaluation
Algorithme de prise en charge colique néphrétique
1 page
Analyse Swot
Pas encore d'évaluation
Analyse Swot
6 pages
TP 1
Pas encore d'évaluation
TP 1
2 pages
Boulanger Lili Dans L'immense Tristesse
Pas encore d'évaluation
Boulanger Lili Dans L'immense Tristesse
10 pages
Différences entre métonymie et synecdoque
Pas encore d'évaluation
Différences entre métonymie et synecdoque
4 pages