0% ont trouvé ce document utile (0 vote)
11 vues3 pages

Ds

Le document aborde divers concepts liés aux réseaux de neurones, notamment les LSTM, CNN et Transformers, en confirmant ou infirmant des affirmations sur leurs caractéristiques. Il traite également des méthodes de régularisation, de normalisation et d'activation, ainsi que des dimensions de sortie des couches d'attention. Enfin, des questions spécifiques sur les paramètres et la taille des couches en PyTorch sont posées, avec des réponses détaillées.

Transféré par

anouaarbenyahya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats TXT, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
11 vues3 pages

Ds

Le document aborde divers concepts liés aux réseaux de neurones, notamment les LSTM, CNN et Transformers, en confirmant ou infirmant des affirmations sur leurs caractéristiques. Il traite également des méthodes de régularisation, de normalisation et d'activation, ainsi que des dimensions de sortie des couches d'attention. Enfin, des questions spécifiques sur les paramètres et la taille des couches en PyTorch sont posées, avec des réponses détaillées.

Transféré par

anouaarbenyahya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats TXT, PDF, TXT ou lisez en ligne sur Scribd

Les LSTM utilisent des portes comme la porte d'entrée, la porte d'oubli et la porte

de sortie pour gérer les dépendances à long terme.


→ Vrai

Dans un RN classique, les gradients ne peuvent pas exploser ou disparaître.


→ Faux

Les LSTM nécessitent moins de mémoire que les RNN simples car ils évitent les
calculs redondants.
→ Faux

Le CNN est un modèle séquentiel idéal pour traiter les séries temporelles.
→ Faux

Un CNN utilise principalement des couches de convolution pour extraire des


caractéristiques spatiales.
→ Vrai

La couche de max-pooling réduit la dimensionnalité des feature maps tout en


conservant les informations essentielles.
→ Vrai

Le padding "same" ajoute des zéros autour de l'image pour que la taille de sortie
reste la même que celle d'entrée.
→ Vrai

L'époque correspond à un passage complet sur l'ensemble des données d'entraînement.


→ Vrai

La dilatation dans une convolution diminue la taille effective du noyau en insérant


des zéros entre les éléments du filtre.
→ Faux

La méthode model.eval() dans PyTorch est utilisée pour passer un modèle en mode
inférence.
→ Vrai

La méthode inputs.to(device) dans PyTorch transfère les données d'entrée sur le CPU
s'il est disponible.
→ Faux

Le fine-tuning consiste à ajuster les poids d'un modèle pré-entraîné sur une tâche
spécifique en utilisant un jeu de données propre à cette tâche.
→ Vrai

Le mécanisme d'attention permet aux Transformers de modéliser des dépendances entre


des éléments éloignés d'une séquence.
→ Vrai

Le stemming et la lemmatisation produisent toujours le même résultat.


→ Faux

La tokenisation divise un texte en mots, phrases ou sous-unités appelées "tokens".


→ Vrai

Le Text Embedding convertit les mots en représentations vectorielles continues dans


un espace de dimension plus faible.
→ Vrai
Les modèles pré-entraînés sont inefficaces sur des tâches où peu de données
d'entraînement sont disponibles.
→ Faux

La régularisation consiste à ajouter une pénalité au modèle pour éviter qu'il ne


s'ajuste trop aux données d'entraînement, réduisant ainsi le risque de sur-
apprentissage.
→ Vrai

La Layer Normalization normalise les activations en utilisant la moyenne et la


variance de chaque mini-batch.
→ Faux

En mode apprentissage, le dropout est activé, tandis qu'en mode inférence, il est
désactivé.
→ Vrai

___________________________

Question 1
Quel est l'un des principaux inconvénients des Transformers ?
→ Besoins importants en mémoire

Question 2
Quel est le principal avantage de l'architecture Transformer par rapport aux RNN
traditionnels ?
→ La capacité à capturer efficacement les dépendances à longue portée

Question 3
Quelle fonction d'activation est utilisée dans la porte d'oubli (Forget Gate) d'un
réseau LSTM ?
→ Sigmoïde

Question 4
Quel est le rôle typique de l'encodeur et du décodeur dans un Transformer pour la
génération automatique de résumés ?
→ L'encodeur traite le texte source pour générer des représentations contextuelles,
et le décodeur produit le résumé à partir de ces représentations

Merci pour l'image. Je vais réévaluer et clarifier les réponses en fonction de la


capture.

Question 5
Quelle est la dimension de l'output de la couche self-attention ?

Réponse correcte : (1, 5, 3)


La sortie d'une couche self-attention a les mêmes dimensions que la matrice des
valeurs (V).
Question 6
Quelle est la dimension de la sortie d'une couche multihead attention dans un
modèle Transformer ?

Réponse correcte : (32, 10, 512)


La sortie conserve les dimensions d'entrée après concaténation des projections des
têtes d'attention.
Question 7 - Partie A
Quel est le nombre total de paramètres dans la couche depthwise separable
convolution ?

Réponse correcte : 1792


Calcul :
Depthwise :
3
×
3
×
1
×
64
=
576
3×3×1×64=576
Pointwise :
1
×
1
×
64
×
64
=
4096
1×1×64×64=4096
Total : 576 + 4096 = 1792
Partie B
Quelle est la taille de la sortie après application d'une couche MaxPool2D ?

Réponse correcte : (batch_size, 64, 14, 14)

Partie C
Comment définir une couche de GlobalMaxPooling en PyTorch ?

Réponse correcte : Aucune réponse n'est correcte


En PyTorch, il n'existe pas de méthode nn.GlobalMaxPool2d

Vous aimerez peut-être aussi