1. Quelle méthode est utilisée pour entraîner un modèle Sequential Keras ?
A. compile()
B. summary()
C. fit()
D. predict()
Réponse : C
2. Un CNN est généralement employé lorsqu’il existe …
A. une structure spatiale dans les données
B. une dépendance purement temporelle
C. des variables catégorielles uniquement
D. des graphes hétérogènes
Réponse : A
3. L’early stopping consiste à …
A. diminuer progressivement le taux d’apprentissage
B. arrêter l’entraînement quand la perte de validation ne s’améliore plus
C. geler les premières couches du réseau
D. réinitialiser les poids après chaque époque
Réponse : B
4. Dans un LSTM, les fonctions d’activation usuelles sont …
A. tanh et sigmoid
B. ReLU et softplus
C. softmax et elu
D. selu et gelu
Réponse : A
5. Pour limiter l’overfitting, on peut …
A. augmenter la taille du modèle indéfiniment
B. utiliser la régularisation L2 ou le dropout
C. supprimer la phase de validation
D. remplacer le gradient descent par une recherche exhaustive
Réponse : B
6. Lequel des termes suivants est lié aux LSTM ?
A. Self-attention
B. Forget gate
C. Depthwise convolution
D. Label smoothing
Réponse : B
7. Quelle est une méthode courante pour régler les hyper-paramètres ?
A. Validation croisée paresseuse
B. Recherche aléatoire (Random Search)
C. Descente du gradient inverse
D. Décimation convolutive
Réponse : B
8. L’intervalle de sortie de l’activation softmax est …
A. ] −∞ ; +∞ [
B. [ 0 ; 1 ]
C. ] −1 ; 1 [
D. [ −1 ; 0 ]
Réponse : B
9. Parmi les limites d’un RNN classique, on trouve …
A. l’incapacité totale à traiter des images
B. l’explosion ou la disparition du gradient sur de longues séquences
C. la non-différentiabilité des poids
D. l’obligation d’utiliser des données étiquetées par pixel
Réponse : B
10. Une architecture CNN populaire illustrée par 16 couches convolutives est …
A. LeNet-5
B. VGG-16
C. ResNet-50
D. MobileNet-V3
Réponse : B
11. Complétez les phases d’un flux d’apprentissage :
A. Pré-traitement → Entraînement → Évaluation → Déploiement
B. Accumulation → Binarisation → Clustering → Compression
C. Testing → Debug → Shipping → Logging
D. Acquisition → Sur-échantillonnage → Indexation → Réplication
Réponse : A
12. Les trois variantes de Gradient Descent sont :
A. Central, Forward, Backward
B. Global, Local, Mixte
C. Batch, Stochastic, Mini-batch
D. Linéaire, Exponentielle, Logarithmique
Réponse : C
14. Pourquoi utilise-t-on la répartition train / validation / test ?
A. Pour réduire la latence en production
B. Pour estimer et généraliser la performance du modèle
C. Pour éviter l’emploi de données normalisées
D. Pour économiser de la mémoire GPU
Réponse : B
15. En termes de dépendance, la différence majeure RNN vs CNN est que …
A. les RNN modélisent des dépendances temporelles, les CNN spatiales
B. les RNN sont invariants aux translations, les CNN non
C. les CNN utilisent des portes, les RNN pas
D. les RNN sont toujours plus profonds que les CNN
Réponse : A
16. Fonction de perte typique pour une classification binaire :
A. Mean Squared Error
B. Binary Cross-Entropy
C. Hinge Loss
D. Kullback–Leibler Divergence
Réponse : B
17. ……………. est un algorithme de SGD basé sur l’estimation adaptative des 1ᵉʳ et 2ᵉ
moments.
A. RMSprop
B. Adam
C. Nadam
D. SGD-Momentum
Réponse : B
19. Fully-connected : 6 entrées, 6 neurones cachés, biais actifs. Nombre de paramètres
entre l’entrée et la couche cachée ?
A. 36
B. 42
C. 30
D. 12
Réponse : B
20. Une application typique du LSTM est …
A. la classification d’images satellitaires
B. la traduction automatique de phrases
C. la régression linéaire de maisons
D. l’algorithme A* de recherche de chemin
Réponse : B
21. Le Transfer Learning consiste à …
A. effacer les connaissances d’un réseau pour recommencer
B. transférer les poids appris sur un problème source vers une tâche cible
C. chiffrer les paramètres pour la confidentialité
D. accélérer la descente de gradient en double précision
Réponse : B
22. Le code Python effectuant le max-pooling illustré doit contenir :
A. AveragePooling2D(pool_size=(2,2))
B. MaxPooling2D(pool_size=(2,2))
C. Conv2D(filters=32, kernel_size=3)
D. UpSampling2D(size=(2,2))
Réponse : B
23. Dans la séquence Dropout → Dense, quelle ligne combat l’overfitting ?
A. model.add(Dense(128, activation='relu'))
B. model.add(Dropout(0.5))
C. model.add(BatchNormalization())
D. model.add(Flatten())
Réponse : B
25. La convolution sert principalement à …
A. réduire la dimension temporelle
B. extraire des caractéristiques locales
C. convertir des images en texte
D. trier les neurones par importance
Réponse : B
26. La fonction ReLU permet un passage fluide du gradient pour les valeurs strictement
négatives afin d’éviter le problème des neurones morts. Cette propriété est appelée :
A. Régularisation
B. Activation non linéaire
C. Leaky behavior
D. Propriété native de ReLU
Réponse :
27. Le code Conv2D(filters=64, kernel_size=3, padding='same') ajoute …
A. une couche de normalisation
B. une couche entièrement connectée
C. une couche de convolution 2D
D. une couche de regroupement
Réponse : C
28. Avec un padding='same' et un stride=1 sur une entrée 32 × 32, la sortie d’un noyau 3
× 3 est …
A. 30 × 30
B. 32 × 32
C. 34 × 34
D. 16 × 16
Réponse : B
29. Si l’entrée est [2, 1], poids = [[1, 3], [3, 4]], biais = [0, 1], la sortie z vaut …
A. [0, 11]
B. [2, 8]
C. [1, 10]
D. [1, 9]
Réponse : A
30. Utiliser plusieurs filtres dans une même couche convolutionnelle permet …
A. d’accélérer l’entraînement
B. de capturer des motifs variés dans les données
C. de réduire le nombre de paramètres
D. d’appliquer automatiquement le dropout
Réponse : B
31. Dans une couche conv, le stride …
A. définit la taille du noyau
B. contrôle le déplacement du filtre sur l’entrée
C. applique un décalage sur les poids
D. indique le taux de sur-échantillonnage
Réponse : B
32. L’objectif principal de la backpropagation est …
A. d’encoder la position des mots
B. d’ajuster les poids du réseau en fonction de l’erreur
C. de réduire la taille des données
D. de convertir les données en vecteurs
Réponse : B
33. Pour un Dense avec 10 entrées, 4 neurones, biais activés, le nombre total de
paramètres est …
A. 40
B. 44
C. 14
D. 400
Réponse : B
35. Laquelle n’est pas une application typique des RNN ?
A. Prédiction de séries temporelles
B. Reconnaissance vocale
C. Classification d’images statiques
D. Génération de texte
Réponse : C
36. On applique 5 filtres de taille 7×7 avec un pas (stride) de 1, sans ajout de bord
(padding), sur une image de taille 224×224×3. Que se passe-t-il ?
A. L’image devient plus petite en largeur et hauteur, et le nombre de canaux devient 5
B. L’image garde la même taille mais passe à 5 canaux
C. L’image est réduite à la moitié et garde 3 canaux
D. L’image devient carrée 32×32 avec 5 canaux
Réponse :
37. Lequel n’est pas un hyper-paramètre ?
A. Taux d’apprentissage
B. Nombre d’époques
C. Poids individuels du réseau
D. Taille des mini-lots
Réponse :
38. La profondeur d’un réseau est déterminée essentiellement par …
A. le nombre de couches successives apprenant des poids
B. la taille du dataset
C. le type de fonction d’activation
D. le format des étiquettes
Réponse : A
39. La méthode Batch Normalization …
A. supprime la rétro-propagation
B. stabilise la distribution des activations, accélérant l’apprentissage
C. augmente systématiquement le sur-apprentissage
D. rend inutiles les biais
Réponse : B
40. Complétez le code pour insérer correctement Dropout, softmax et la fonction de
perte :
A. model.compile(loss='mse')
B. model.add(Dropout(0.5)); model.add(Dense(10, activation='softmax'));
model.compile(loss='categorical_crossentropy', optimizer='adam')
C. model.add(Dense(10)); model.compile(loss='binary_crossentropy')
D. model.compile(loss='hinge')
Réponse : B