Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.
Visitez [Link]/pro pour en savoir plus.
Transformateur de vision (ViT)
Shusen Wang
Institut de technologie de Stevens
[Link]
Que contient l'image ?
Réseau
𝐩
neurona
l
Réseau
neurona 𝐩
l
Confiance
0.4
0.2
0.12
0.06 0.05 0.06 0.07
0.04
Classes
oiseau voiture chie renard jet serpent tigre
chat n
Classification des images
• Les CNN, par exemple ResNet, ont été les meilleures solutions pour la
classification des images.
• Vision Transformer (ViT) [1] surpasse les CNN (de peu), si l'ensemble de
données pour le préapprentissage est suffisamment important (au
moins 100 millions d'images).
• ViT est basé sur Transformer (pour NLP) [2].
Référence
1. Dosovitskiy et al. An image is worth 16×16 words : transformers for image recognition at scale.
Dans ICLR, 2021.
2. Vaswani et al. Attention Is All You Need. In NIPS, 2017.
Diviser l'image en
parcelles
Diviser l'image en
parcelles
• Ici, les patchs ne se chevauchent pas.
Diviser l'image en
parcelles
• Ici, les patchs ne se chevauchent pas.
• Les patchs peuvent se chevaucher.
• L'utilisateur précise :
• la taille du patch, par exemple 16×16 ;
• par exemple, 16×16.
Vectorisation
Vectorisation
Vectorisation
Si les patchs sont des tenseurs𝑑 1×𝑑 2×𝑑 3, les vecteurs sont𝑑 1𝑑 2𝑑 3×1.
𝐱1 𝐱2 𝐱3 𝐱4 𝐱5 𝐱6 𝐱7 𝐱8 𝐱9
𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐳1 =𝐖𝐱 1 +𝐛
Dense
𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐱1
𝐳1 𝐳2 =𝐖𝐱 2 +𝐛
Dense Dense
𝐱3 ⋯ 𝐱𝑛
𝐱1 𝐱2
𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Partager
Dense Dense Dense ⋯ Dense Paramètres
𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
1 2 3 𝑛
Encodage positionnel :
𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Dense Dense Dense ⋯ Dense
𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ , .𝐳𝑛
𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Dense Dense Dense ⋯ Dense
𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)
𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Dense Dense Dense ⋯ Dense
𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)
𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Dense Dense Dense ⋯ Dense
𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)
① ② ③
④ ⑤ 𝐳1 ⑥ 𝐳2 𝐳3 ⋯ 𝐳𝑛
Dense Dense Dense ⋯ Dense
⑦ ⑧ ⑨
𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)
①
① ②
② ③
③
④
④ ⑤ 𝐳1 ⑥
⑤ ⑥ 𝐳2 𝐳3 ⋯ 𝐳𝑛
Dense Dense Dense ⋯ Dense
⑦
⑦ ⑧
⑧ ⑨
⑨
𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Embarq Dense Dense Dense ⋯ Dense
uer
[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
⋯
Dense ⋯
Auto-attention à plusieurs têtes
𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Embarq Dense Dense Dense ⋯ Dense
uer
[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
⋯
Dense
Transformate
Auto-attention à plusieurs têtes ⋯ ur
Encodeur
Dense ⋯ Réseau
Auto-attention à plusieurs têtes
𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Embarq Dense Dense Dense ⋯ Dense
uer
[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐜0 𝐜1 𝐜2 𝐜3 ⋯ 𝐜𝑛
Transformateur Encodeur Réseau
𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Embarq Dense Dense Dense ⋯ Dense
uer
[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐜0 𝐜1 𝐜2 𝐜3 ⋯ 𝐜𝑛
Transformateur Encodeur Réseau
𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Embarq Dense Dense Dense ⋯ Dense
uer
[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Softmax
𝐩
Classificat
𝐜0 eur
Transformateur Encodeur Réseau
𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛
Embarq Dense Dense Dense ⋯ Dense
uer
[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Softmax
𝐩
Classificat
𝐜0 eur
Confiance
0.4
0.2
0.12
0.06 0.05 0.06 0.07
0.04
Classes
oiseau voiture chat chien renard jet serpent tigre
Au hasard
Pré-
Initialisé
entraîné
Ensemble de données A
Au hasard
Pré- Un réglage
Initialisé
entraîné minutieux
Ensemble de
Ensemble formation de
de Ensemble de
données B
données A
Au hasard
Pré- Un réglage
Initialisé
entraîné minutieux
Précision du
test
Ensemble de Ensemble
Ensemble formation de de test de
de l'ensemble l'ensemble
données A de données de
B données B
Ensembles de données
# Nombre d'images # Nombre de
classes
ImageNet
1,3 million 1 millier
(petit)
d'euros
ImageNet-21K
14 millions 21 Mille
(moyenne)
JFT
300 millions 18 Mille
(Grand)
d'euros
Précision de la classification des
images
• Pré-entraîner le modèle sur l'ensemble de données A, affiner le modèle
sur l'ensemble de données B et évaluer le modèle sur l'ensemble de
données B.
• Pré-entraîné sur ImageNet (petit), ViT est légèrement moins bon que ResNet.
• Pré-entraîné sur ImageNet-21K (moyen), ViT est comparable à ResNet.
• Pré-entraîné sur JFT (grand), ViT est légèrement meilleur que ResNet.
Précision de la classification des
images
ResNet est Le ViT est
meilleur
# Nombre
d'images
pour le pré-
entraînement
Images 100M 300 millions d'images
Merci de votre attention !
[Link]