0% ont trouvé ce document utile (0 vote)

57 vues35 pages

Performances du Vision Transformer

Le document présente le Vision Transformer (ViT), qui surpasse légèrement les CNN pour la classification d'images lorsque pré-entraîné sur de grands ensembles de données. Il explique le processus de division des images en parcelles, de vectorisation et d'encodage positionnel, ainsi que la précision de ViT par rapport à ResNet selon différents ensembles de données. Enfin, il souligne l'importance de la taille de l'ensemble de données pour le pré-entraînement afin d'optimiser les performances du modèle.

Transféré par

bassendiaye511

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

57 vues35 pages

Performances du Vision Transformer

Transféré par

bassendiaye511

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez [Link]/pro pour en savoir plus.

Transformateur de vision (ViT)

Shusen Wang
Institut de technologie de Stevens

[Link]
Que contient l'image ?
Réseau
𝐩
neurona
l
Réseau
neurona 𝐩
l

Confiance
0.4

0.2
0.12
0.06 0.05 0.06 0.07
0.04

Classes
oiseau voiture chie renard jet serpent tigre
chat n
Classification des images

• Les CNN, par exemple ResNet, ont été les meilleures solutions pour la
classification des images.
• Vision Transformer (ViT) [1] surpasse les CNN (de peu), si l'ensemble de
données pour le préapprentissage est suffisamment important (au
moins 100 millions d'images).
• ViT est basé sur Transformer (pour NLP) [2].

Référence

1. Dosovitskiy et al. An image is worth 16×16 words : transformers for image recognition at scale.
Dans ICLR, 2021.
2. Vaswani et al. Attention Is All You Need. In NIPS, 2017.
Diviser l'image en
parcelles
Diviser l'image en
parcelles

• Ici, les patchs ne se chevauchent pas.

Diviser l'image en
parcelles

• Ici, les patchs ne se chevauchent pas.

• Les patchs peuvent se chevaucher.
• L'utilisateur précise :
• la taille du patch, par exemple 16×16 ;

• par exemple, 16×16.

Vectorisation
Vectorisation
Vectorisation

Si les patchs sont des tenseurs𝑑 1×𝑑 2×𝑑 3, les vecteurs sont𝑑 1𝑑 2𝑑 3×1.

𝐱1 𝐱2 𝐱3 𝐱4 𝐱5 𝐱6 𝐱7 𝐱8 𝐱9
𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐳1 =𝐖𝐱 1 +𝐛

Dense

𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐱1
𝐳1 𝐳2 =𝐖𝐱 2 +𝐛

Dense Dense

𝐱3 ⋯ 𝐱𝑛
𝐱1 𝐱2
𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Partager
Dense Dense Dense ⋯ Dense Paramètres

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
1 2 3 𝑛
Encodage positionnel :

𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ , .𝐳𝑛

𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)

𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)

𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)
① ② ③

④ ⑤ 𝐳1 ⑥ 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense

⑦ ⑧ ⑨

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Ajouter des vecteurs de codage positionnel à𝐳 1,𝐳 2,⋯ ,𝐳 𝑛 . (Pourquoi
?)
①
① ②
② ③
③

④
④ ⑤ 𝐳1 ⑥
⑤ ⑥ 𝐳2 𝐳3 ⋯ 𝐳𝑛

Dense Dense Dense ⋯ Dense

⑦
⑦ ⑧
⑧ ⑨
⑨

𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense

uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
⋯
Dense ⋯
Auto-attention à plusieurs têtes

𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense

uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
⋯
Dense
Transformate
Auto-attention à plusieurs têtes ⋯ ur
Encodeur
Dense ⋯ Réseau
Auto-attention à plusieurs têtes

𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense

uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐜0 𝐜1 𝐜2 𝐜3 ⋯ 𝐜𝑛

Transformateur Encodeur Réseau

𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense

uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
𝐜0 𝐜1 𝐜2 𝐜3 ⋯ 𝐜𝑛

Transformateur Encodeur Réseau

𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense

uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Softmax
𝐩
Classificat
𝐜0 eur

Transformateur Encodeur Réseau

𝐳0 𝐳1 𝐳2 𝐳3 ⋯ 𝐳𝑛

Embarq Dense Dense Dense ⋯ Dense

uer

[CLS] 𝐱1 𝐱2 𝐱3 ⋯ 𝐱𝑛
Softmax
𝐩
Classificat
𝐜0 eur

Confiance
0.4

0.2
0.12
0.06 0.05 0.06 0.07
0.04

Classes
oiseau voiture chat chien renard jet serpent tigre
Au hasard
Pré-
Initialisé
entraîné

Ensemble de données A
Au hasard
Pré- Un réglage
Initialisé
entraîné minutieux

Ensemble de
Ensemble formation de
de Ensemble de
données B
données A
Au hasard
Pré- Un réglage
Initialisé
entraîné minutieux
Précision du
test

Ensemble de Ensemble
Ensemble formation de de test de
de l'ensemble l'ensemble
données A de données de
B données B
Ensembles de données

# Nombre d'images # Nombre de

classes
ImageNet
1,3 million 1 millier
(petit)
d'euros
ImageNet-21K
14 millions 21 Mille
(moyenne)

JFT
300 millions 18 Mille
(Grand)
d'euros
Précision de la classification des
images

• Pré-entraîner le modèle sur l'ensemble de données A, affiner le modèle

sur l'ensemble de données B et évaluer le modèle sur l'ensemble de
données B.

• Pré-entraîné sur ImageNet (petit), ViT est légèrement moins bon que ResNet.
• Pré-entraîné sur ImageNet-21K (moyen), ViT est comparable à ResNet.
• Pré-entraîné sur JFT (grand), ViT est légèrement meilleur que ResNet.
Précision de la classification des
images

ResNet est Le ViT est

meilleur
# Nombre
d'images
pour le pré-
entraînement

Images 100M 300 millions d'images

Merci de votre attention !

[Link]

Vous aimerez peut-être aussi

Deep Learning Vision Par Ordinateur
100% (1)
Deep Learning Vision Par Ordinateur
23 pages
Introduction au Vision Transformer (ViT)
Pas encore d'évaluation
Introduction au Vision Transformer (ViT)
41 pages
Cours DL
Pas encore d'évaluation
Cours DL
42 pages
Eprint 10263
Pas encore d'évaluation
Eprint 10263
98 pages
Vision Transformers
Pas encore d'évaluation
Vision Transformers
61 pages
Slide DL PDF
100% (1)
Slide DL PDF
22 pages
Classification Vidéo par Deep Learning
Pas encore d'évaluation
Classification Vidéo par Deep Learning
66 pages
Vision par ordinateur et apprentissage
Pas encore d'évaluation
Vision par ordinateur et apprentissage
55 pages
Bases Entrainement (1) Bases Entrainement
Pas encore d'évaluation
Bases Entrainement (1) Bases Entrainement
3 pages
Introduction au Deep Learning et ses concepts
Pas encore d'évaluation
Introduction au Deep Learning et ses concepts
71 pages
Inf IA 01-21
Pas encore d'évaluation
Inf IA 01-21
92 pages
Dep Leahjj
Pas encore d'évaluation
Dep Leahjj
88 pages
S2 Isffff Reseaux Denses
Pas encore d'évaluation
S2 Isffff Reseaux Denses
27 pages
Comparaison des Frameworks de Deep Learning
Pas encore d'évaluation
Comparaison des Frameworks de Deep Learning
11 pages
Vision A Séance 0
Pas encore d'évaluation
Vision A Séance 0
13 pages
Représentation D'images Et Apprentissage (Profond) (PDFDrive)
Pas encore d'évaluation
Représentation D'images Et Apprentissage (Profond) (PDFDrive)
70 pages
Génération d'Images avec GAN et VAE
Pas encore d'évaluation
Génération d'Images avec GAN et VAE
6 pages
Segmentation d'Images et DL Avancés
Pas encore d'évaluation
Segmentation d'Images et DL Avancés
15 pages
Auto-encodeurs et Word2vec
Pas encore d'évaluation
Auto-encodeurs et Word2vec
31 pages
9 Modèles de Deep Learning Essentiels
Pas encore d'évaluation
9 Modèles de Deep Learning Essentiels
3 pages
Rapport VHDL
Pas encore d'évaluation
Rapport VHDL
46 pages
Introduction au Deep Learning et outils
Pas encore d'évaluation
Introduction au Deep Learning et outils
105 pages
Introduction à la vision numérique
Pas encore d'évaluation
Introduction à la vision numérique
23 pages
Introduction DL ENSTA
Pas encore d'évaluation
Introduction DL ENSTA
122 pages
Modèles Transformer Et Langage IA
Pas encore d'évaluation
Modèles Transformer Et Langage IA
13 pages
ALEXNET
Pas encore d'évaluation
ALEXNET
8 pages
CNN
Pas encore d'évaluation
CNN
86 pages
Introduction Au Deep Learning (Notes de Cours)
Pas encore d'évaluation
Introduction Au Deep Learning (Notes de Cours)
51 pages
Thesis
Pas encore d'évaluation
Thesis
151 pages
Vision par ordinateur sur Azure : Guide complet
Pas encore d'évaluation
Vision par ordinateur sur Azure : Guide complet
68 pages
Classification d'Images par CNN avec Keras
Pas encore d'évaluation
Classification d'Images par CNN avec Keras
17 pages
Vo
Pas encore d'évaluation
Vo
26 pages
Détection de véhicules par IA et apprentissage profond
Pas encore d'évaluation
Détection de véhicules par IA et apprentissage profond
7 pages
Book FR
Pas encore d'évaluation
Book FR
60 pages
Cours CNN
Pas encore d'évaluation
Cours CNN
50 pages
Stages 2023 en Vision par Ordinateur
Pas encore d'évaluation
Stages 2023 en Vision par Ordinateur
18 pages
Réseaux de Neurones Artificiels: Guide Complet
Pas encore d'évaluation
Réseaux de Neurones Artificiels: Guide Complet
12 pages
Vecteurs Tenseurs Ia
Pas encore d'évaluation
Vecteurs Tenseurs Ia
2 pages
CNN : Représentation et Traitement d'Images
Pas encore d'évaluation
CNN : Représentation et Traitement d'Images
40 pages
Recherches de L'exposé Sur Ia
Pas encore d'évaluation
Recherches de L'exposé Sur Ia
4 pages
Cours de Deep Learning: Master Big Data Et Cloud Computing Préparé Par: Mohamed Ouazze
Pas encore d'évaluation
Cours de Deep Learning: Master Big Data Et Cloud Computing Préparé Par: Mohamed Ouazze
116 pages
Guide complet sur le Deep Learning
Pas encore d'évaluation
Guide complet sur le Deep Learning
17 pages
Classification et Détection d'Images IA
Pas encore d'évaluation
Classification et Détection d'Images IA
9 pages
Main5 PDF
Pas encore d'évaluation
Main5 PDF
87 pages
Deep Learning
Pas encore d'évaluation
Deep Learning
30 pages
Cours sur les Réseaux de Neurones Profonds
Pas encore d'évaluation
Cours sur les Réseaux de Neurones Profonds
92 pages
Projets IA pour Étudiants GSEII
Pas encore d'évaluation
Projets IA pour Étudiants GSEII
2 pages
Introduction aux CNN pour débutants
0% (1)
Introduction aux CNN pour débutants
4 pages
Deep.6 GAN
Pas encore d'évaluation
Deep.6 GAN
59 pages
Apprentissage par auto-encodeurs débruiteurs
Pas encore d'évaluation
Apprentissage par auto-encodeurs débruiteurs
116 pages
5 - Deep Learning - FR
Pas encore d'évaluation
5 - Deep Learning - FR
40 pages
Ar Sem13 Profond PDF
Pas encore d'évaluation
Ar Sem13 Profond PDF
48 pages
03 Cours Deep
Pas encore d'évaluation
03 Cours Deep
73 pages
07 Generatives
Pas encore d'évaluation
07 Generatives
103 pages
Chapitre05 Intelligence Artificielle S2
Pas encore d'évaluation
Chapitre05 Intelligence Artificielle S2
11 pages
Sujet
Pas encore d'évaluation
Sujet
8 pages
Document
Pas encore d'évaluation
Document
3 pages
Application de TensorFlow en IA
Pas encore d'évaluation
Application de TensorFlow en IA
45 pages
APC Back-UPS Pro 1400 - FR
Pas encore d'évaluation
APC Back-UPS Pro 1400 - FR
2 pages
Chapitre 1 Enveloppe Verticale
Pas encore d'évaluation
Chapitre 1 Enveloppe Verticale
36 pages
Techniques d'Extinction des Feux d'Hydrocarbures
Pas encore d'évaluation
Techniques d'Extinction des Feux d'Hydrocarbures
1 page
Traduction Manuelle Kawasaki KLR 650 Tengai Version 2
Pas encore d'évaluation
Traduction Manuelle Kawasaki KLR 650 Tengai Version 2
43 pages
Mémoire de Fin D'étude - Compressed
Pas encore d'évaluation
Mémoire de Fin D'étude - Compressed
76 pages
Optimisez la Santé Osseuse Sans Lait
Pas encore d'évaluation
Optimisez la Santé Osseuse Sans Lait
16 pages
Rapport de Suivi Des Travaux de Rehabilitation Du Projet de Rehabilitation Des Bureaux de Yodagroup
100% (4)
Rapport de Suivi Des Travaux de Rehabilitation Du Projet de Rehabilitation Des Bureaux de Yodagroup
4 pages
Cucumis Melo
Pas encore d'évaluation
Cucumis Melo
20 pages
JPN MANUEL Plantes-Medicinales-Deurope V6
Pas encore d'évaluation
JPN MANUEL Plantes-Medicinales-Deurope V6
204 pages
Semences d'Aneth Officinal Non Traitées
Pas encore d'évaluation
Semences d'Aneth Officinal Non Traitées
1 page
Impact de la Pollution de l'Eau sur l'Économie
Pas encore d'évaluation
Impact de la Pollution de l'Eau sur l'Économie
2 pages
Catalyse de la décomposition de H2O2
Pas encore d'évaluation
Catalyse de la décomposition de H2O2
3 pages
Dyspnée Laryngée de l'Adulte: Diagnostic et Prise en Charge
Pas encore d'évaluation
Dyspnée Laryngée de l'Adulte: Diagnostic et Prise en Charge
10 pages
Application de Systeme HACCP Confiture de Fraise 2 2
Pas encore d'évaluation
Application de Systeme HACCP Confiture de Fraise 2 2
41 pages
La Relation Soignant - Soigné
100% (1)
La Relation Soignant - Soigné
15 pages
Ikea Catalogue FR FR
Pas encore d'évaluation
Ikea Catalogue FR FR
108 pages
Iso 45000
Pas encore d'évaluation
Iso 45000
6 pages
Hypothermie Néonatale Contrôlée
Pas encore d'évaluation
Hypothermie Néonatale Contrôlée
11 pages
TFC Jedidia Correction Fin Corrigé.
Pas encore d'évaluation
TFC Jedidia Correction Fin Corrigé.
38 pages
Habilitation Élec
Pas encore d'évaluation
Habilitation Élec
106 pages
AG26+ThermoKing+Install+Guide+ +CBL AG ARTK
Pas encore d'évaluation
AG26+ThermoKing+Install+Guide+ +CBL AG ARTK
11 pages
MLT 741-940 - 120 Hlsu 0 FR
Pas encore d'évaluation
MLT 741-940 - 120 Hlsu 0 FR
7 pages
Z-TD Force de Laplace
Pas encore d'évaluation
Z-TD Force de Laplace
5 pages
Examen Marketing Contenu L3
Pas encore d'évaluation
Examen Marketing Contenu L3
3 pages
Granulés de Bois en Sac, 15 KG
Pas encore d'évaluation
Granulés de Bois en Sac, 15 KG
1 page
La Pénalisation de La Publicité Règlementaire2
Pas encore d'évaluation
La Pénalisation de La Publicité Règlementaire2
27 pages
Prévention de la corrosion maritime
Pas encore d'évaluation
Prévention de la corrosion maritime
28 pages
L'informatique Médicale
100% (2)
L'informatique Médicale
51 pages
Exercices de Chimie Organique avec Solutions
Pas encore d'évaluation
Exercices de Chimie Organique avec Solutions
18 pages
Cour La Digestion by Amina Raddi
Pas encore d'évaluation
Cour La Digestion by Amina Raddi
14 pages