Les LSTM utilisent des portes comme la porte d'entrée, la porte d'oubli et la porte
de sortie pour gérer les dépendances à long terme.
→ Vrai
Dans un RN classique, les gradients ne peuvent pas exploser ou disparaître.
→ Faux
Les LSTM nécessitent moins de mémoire que les RNN simples car ils évitent les
calculs redondants.
→ Faux
Le CNN est un modèle séquentiel idéal pour traiter les séries temporelles.
→ Faux
Un CNN utilise principalement des couches de convolution pour extraire des
caractéristiques spatiales.
→ Vrai
La couche de max-pooling réduit la dimensionnalité des feature maps tout en
conservant les informations essentielles.
→ Vrai
Le padding "same" ajoute des zéros autour de l'image pour que la taille de sortie
reste la même que celle d'entrée.
→ Vrai
L'époque correspond à un passage complet sur l'ensemble des données d'entraînement.
→ Vrai
La dilatation dans une convolution diminue la taille effective du noyau en insérant
des zéros entre les éléments du filtre.
→ Faux
La méthode model.eval() dans PyTorch est utilisée pour passer un modèle en mode
inférence.
→ Vrai
La méthode inputs.to(device) dans PyTorch transfère les données d'entrée sur le CPU
s'il est disponible.
→ Faux
Le fine-tuning consiste à ajuster les poids d'un modèle pré-entraîné sur une tâche
spécifique en utilisant un jeu de données propre à cette tâche.
→ Vrai
Le mécanisme d'attention permet aux Transformers de modéliser des dépendances entre
des éléments éloignés d'une séquence.
→ Vrai
Le stemming et la lemmatisation produisent toujours le même résultat.
→ Faux
La tokenisation divise un texte en mots, phrases ou sous-unités appelées "tokens".
→ Vrai
Le Text Embedding convertit les mots en représentations vectorielles continues dans
un espace de dimension plus faible.
→ Vrai
Les modèles pré-entraînés sont inefficaces sur des tâches où peu de données
d'entraînement sont disponibles.
→ Faux
La régularisation consiste à ajouter une pénalité au modèle pour éviter qu'il ne
s'ajuste trop aux données d'entraînement, réduisant ainsi le risque de sur-
apprentissage.
→ Vrai
La Layer Normalization normalise les activations en utilisant la moyenne et la
variance de chaque mini-batch.
→ Faux
En mode apprentissage, le dropout est activé, tandis qu'en mode inférence, il est
désactivé.
→ Vrai
___________________________
Question 1
Quel est l'un des principaux inconvénients des Transformers ?
→ Besoins importants en mémoire
Question 2
Quel est le principal avantage de l'architecture Transformer par rapport aux RNN
traditionnels ?
→ La capacité à capturer efficacement les dépendances à longue portée
Question 3
Quelle fonction d'activation est utilisée dans la porte d'oubli (Forget Gate) d'un
réseau LSTM ?
→ Sigmoïde
Question 4
Quel est le rôle typique de l'encodeur et du décodeur dans un Transformer pour la
génération automatique de résumés ?
→ L'encodeur traite le texte source pour générer des représentations contextuelles,
et le décodeur produit le résumé à partir de ces représentations
Merci pour l'image. Je vais réévaluer et clarifier les réponses en fonction de la
capture.
Question 5
Quelle est la dimension de l'output de la couche self-attention ?
Réponse correcte : (1, 5, 3)
La sortie d'une couche self-attention a les mêmes dimensions que la matrice des
valeurs (V).
Question 6
Quelle est la dimension de la sortie d'une couche multihead attention dans un
modèle Transformer ?
Réponse correcte : (32, 10, 512)
La sortie conserve les dimensions d'entrée après concaténation des projections des
têtes d'attention.
Question 7 - Partie A
Quel est le nombre total de paramètres dans la couche depthwise separable
convolution ?
Réponse correcte : 1792
Calcul :
Depthwise :
3
×
3
×
1
×
64
=
576
3×3×1×64=576
Pointwise :
1
×
1
×
64
×
64
=
4096
1×1×64×64=4096
Total : 576 + 4096 = 1792
Partie B
Quelle est la taille de la sortie après application d'une couche MaxPool2D ?
Réponse correcte : (batch_size, 64, 14, 14)
Partie C
Comment définir une couche de GlobalMaxPooling en PyTorch ?
Réponse correcte : Aucune réponse n'est correcte
En PyTorch, il n'existe pas de méthode nn.GlobalMaxPool2d