0% ont trouvé ce document utile (0 vote)
57 vues35 pages

Performances du Vision Transformer

Le document présente le Vision Transformer (ViT), qui surpasse légèrement les CNN pour la classification d'images lorsque pré-entraîné sur de grands ensembles de données. Il explique le processus de division des images en parcelles, de vectorisation et d'encodage positionnel, ainsi que la précision de ViT par rapport à ResNet selon différents ensembles de données. Enfin, il souligne l'importance de la taille de l'ensemble de données pour le pré-entraînement afin d'optimiser les performances du modèle.

Transféré par

bassendiaye511
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
57 vues35 pages

Performances du Vision Transformer

Le document présente le Vision Transformer (ViT), qui surpasse légèrement les CNN pour la classification d'images lorsque pré-entraîné sur de grands ensembles de données. Il explique le processus de division des images en parcelles, de vectorisation et d'encodage positionnel, ainsi que la précision de ViT par rapport à ResNet selon différents ensembles de données. Enfin, il souligne l'importance de la taille de l'ensemble de données pour le pré-entraînement afin d'optimiser les performances du modèle.

Transféré par

bassendiaye511
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez [Link]/pro pour en savoir plus.

Transformateur de vision (ViT)

Shusen Wang
Institut de technologie de Stevens

[Link]
Que contient l'image ?
Réseau
𝐩
neurona
l
Réseau
neurona 𝐩
l

Confiance
0.4

0.2
0.12
0.06 0.05 0.06 0.07
0.04

Classes
oiseau voiture chie renard jet serpent tigre
chat n
Classification des images

• Les CNN, par exemple ResNet, ont été les meilleures solutions pour la
classification des images.
• Vision Transformer (ViT) [1] surpasse les CNN (de peu), si l'ensemble de
données pour le préapprentissage est suffisamment important (au
moins 100 millions d'images).
• ViT est basé sur Transformer (pour NLP) [2].

Référence

1. Dosovitskiy et al. An image is worth 16×16 words : transformers for image recognition at scale.
Dans ICLR, 2021.
2. Vaswani et al. Attention Is All You Need. In NIPS, 2017.
Diviser l'image en
parcelles
Diviser l'image en
parcelles

• Ici, les patchs ne se chevauchent pas.


Diviser l'image en
parcelles

• Ici, les patchs ne se chevauchent pas.


• Les patchs peuvent se chevaucher.
• L'utilisateur précise :
• la taille du patch, par exemple 16×16 ;

• par exemple, 16×16.


Vectorisation
Vectorisation
Vectorisation

Si les patchs sont des tenseurs𝑑 1×𝑑 2×𝑑 3, les vecteurs sont𝑑 1𝑑 2𝑑 3×1.

𝐱1 𝐱2 𝐱3 𝐱4 𝐱5 𝐱6 𝐱7 𝐱8 𝐱9
𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐳1 =𝐖𝐱 1 +𝐛

Dense

𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐱1
𝐳1 𝐳2 =𝐖𝐱 2 +𝐛

Dense Dense

𝐱3 ⋯ 𝐱𝑛
𝐱1 𝐱2
𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Partager
Dense Dense Dense ⋯ Dense Paramètres

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
1 2 3 𝑛
Encodage positionnel :

𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ , .𝐳𝑛

𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)

𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)

𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)
① ② ③

④ ⑤ 𝐳1 ⑥ 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense


⑦ ⑧ ⑨

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)

① ②
② ③


④ ⑤ 𝐳1 ⑥
⑤ ⑥ 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense



⑦ ⑧
⑧ ⑨

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense


uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛

Dense ⋯
Auto-attention à plusieurs têtes

𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense


uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛

Dense
Transformate
Auto-attention à plusieurs têtes ⋯ ur
Encodeur
Dense ⋯ Réseau
Auto-attention à plusieurs têtes

𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense


uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐜0 𝐜1 𝐜2 𝐜3 ⋯ 𝐜𝑛

Transformateur Encodeur Réseau

𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense


uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐜0 𝐜1 𝐜2 𝐜3 ⋯ 𝐜𝑛

Transformateur Encodeur Réseau

𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense


uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Softmax
𝐩
Classificat
𝐜0 eur

Transformateur Encodeur Réseau

𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense


uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Softmax
𝐩
Classificat
𝐜0 eur

Confiance
0.4

0.2
0.12
0.06 0.05 0.06 0.07
0.04

Classes
oiseau voiture chat chien renard jet serpent tigre
Au hasard
Pré-
Initialisé
entraîné

Ensemble de données A
Au hasard
Pré- Un réglage
Initialisé
entraîné minutieux

Ensemble de
Ensemble formation de
de Ensemble de
données B
données A
Au hasard
Pré- Un réglage
Initialisé
entraîné minutieux
Précision du
test

Ensemble de Ensemble
Ensemble formation de de test de
de l'ensemble l'ensemble
données A de données de
B données B
Ensembles de données

# Nombre d'images # Nombre de


classes
ImageNet
1,3 million 1 millier
(petit)
d'euros
ImageNet-21K
14 millions 21 Mille
(moyenne)

JFT
300 millions 18 Mille
(Grand)
d'euros
Précision de la classification des
images

• Pré-entraîner le modèle sur l'ensemble de données A, affiner le modèle


sur l'ensemble de données B et évaluer le modèle sur l'ensemble de
données B.

• Pré-entraîné sur ImageNet (petit), ViT est légèrement moins bon que ResNet.
• Pré-entraîné sur ImageNet-21K (moyen), ViT est comparable à ResNet.
• Pré-entraîné sur JFT (grand), ViT est légèrement meilleur que ResNet.
Précision de la classification des
images

ResNet est Le ViT est


meilleur
# Nombre
d'images
pour le pré-
entraînement

Images 100M 300 millions d'images


Merci de votre attention !

[Link]

Vous aimerez peut-être aussi