QCM Avancé - Apprentissage Artificiel
1. Fondements Théoriques
1. Quelle est la différence entre... **QCM Avancé sur l’Apprentissage Ar-
tificiel (Suite)** **Niveau : Expert** **Questions 17 à 40**
—
**4. Réseaux de Neurones Profonds (Suite)** 17. **Quelle est la princi-
pale limitation des réseaux de neurones récurrents (RNN) standard ?** a)
Incapacité à gérer des séquences longues à cause du *vanishing gradient*.
b) Coût computationnel élevé pour les entrées non séquentielles. c) Sen-
sibilité au bruit dans les données spatiales. **Réponse : a)** *Corrigé*
: Les RNN souffrent du problème de disparition du gradient, résolu en
partie par les LSTM/GRU.
18. **Quel mécanisme permet à un Transformer de capturer des dépendances
positionnelles dans une séquence ?** a) Les couches convolutives. b)
L’*encoding positionnel*. c) Les fonctions d’activation ReLU. **Réponse
: b)** *Corrigé* : L’*encoding positionnel* injecte des informations sur
la position des tokens.
—
**5. Théorie de l’Apprentissage** 19. **La VC-dimension (Vapnik-
Chervonenkis) mesure :** a) La capacité d’un modèle à surapprendre.
b) La capacité d’un modèle à shatter un ensemble de points. c) Le
temps d’entraı̂nement du modèle. **Réponse : b)** *Corrigé* : La VC-
dimension quantifie le pouvoir de représentation d’un modèle via le nombre
maximal de points qu’il peut shatter.
20. **Selon le théorème de *No Free Lunch*, que peut-on conclure sur les
algorithmes d’apprentissage ?** a) Aucun algorithme ne surpasse tous les
autres sur toutes les distributions de données. b) Les réseaux de neurones
sont toujours optimaux. c) Le surapprentissage est inévitable. **Réponse
: a)** *Corrigé* : Ce théorème montre que les performances d’un algo-
rithme dépendent de la distribution sous-jacente des données.
—
**6. Optimisation Avancée** 21. **Pourquoi utilise-t-on un *learning
rate schedule* dans la descente de gradient ?** a) Pour éviter les min-
ima locaux. b) Pour adapter dynamiquement le taux d’apprentissage
et accélérer la convergence. c) Pour régulariser les poids du modèle.
**Réponse : b)** *Corrigé* : Un *learning rate* décroissant ou adap-
tatif (comme Adam) stabilise l’apprentissage.
22. **Quelle est la différence entre *regret* et *erreur de généralisation*
en apprentissage par renforcement ?** a) Le *regret* mesure la différence
cumulée entre la politique optimale et celle apprise. b) L’erreur de généralisation
1
mesure la performance sur les états inconnus. c) Les deux termes sont syn-
onymes. **Réponse : a)** *Corrigé* : Le *regret* est spécifique au RL
et capture l’écart à l’optimalité sur un horizon temporel.
—
**7. Méthodes Bayésiennes** 23. **Qu’est-ce qu’un processus Gaussien
(GP) en apprentissage automatique ?** a) Un modèle non paramétrique
pour la régression ou la classification. b) Une méthode de clustering
hiérarchique. c) Un algorithme de boosting. **Réponse : a)** *Cor-
rigé* : Les GPs modélisent directement les distributions sur les fonctions,
utilisés pour l’inférence bayésienne.
24. **Quel avantage offre l’inférence variationnelle (VI) par rapport aux
méthodes MCMC ?** a) La VI est plus rapide mais moins précise. b)
La VI garantit une convergence globale. c) Les deux méthodes sont iden-
tiques. **Réponse : a)** *Corrigé* : L’inférence variationnelle approxime
la distribution postérieure avec un compromis vitesse/précision.
—
**8. Génération de Données** 25. **Dans un VAE (Variational Autoen-
coder), quelle distribution est apprise par l’encodeur ?** a) Une distribu-
tion gaussienne sur l’espace latent. b) Une distribution uniforme sur les
données d’entrée. c) Une distribution binomiale sur les labels. **Réponse
: a)** *Corrigé* : L’encodeur apprend q(z|x), une approximation varia-
tionnelle de la distribution latente.
26. **Qu’est-ce que le *réparametrization trick* dans les VAEs ?** a) Une
méthode pour échantillonner z sans briser le gradient. b) Une technique
de régularisation. c) Un algorithme de clustering. **Réponse : a)**
*Corrigé* : Il permet de dériver des gradients par rapport aux paramètres
de l’encodeur via z = µ + σ ⊙ ϵ.
—
**9. Apprentissage par Transfert** 27. **Pourquoi le *fine-tuning* d’un
modèle pré-entraı̂né est-il efficace ?** a) Les couches basses capturent des
caractéristiques génériques réutilisables. b) Il évite tout surapprentissage.
c) Il réduit le coût computationnel à zéro. **Réponse : a)** *Corrigé* :
Les premières couches apprennent des motifs généraux (bords, textures),
utiles pour de nouvelles tâches.
28. **Quel est l’objectif du *domain adaptation* ?** a) Adapter un
modèle à un domaine cible avec peu ou pas de données étiquetées. b)
Générer des données synthétiques. c) Optimiser les hyperparamètres.
**Réponse : a)** *Corrigé* : Le *domain adaptation* réduit l’écart entre
les distributions source et cible.
—
**10. Éthique et biais** 29. **Qu’est-ce que le *fairness through un-
awareness* ?** a) Ignorer les variables sensibles pour éviter les biais. b)
2
Corriger explicitement les biais dans les données. c) Utiliser des algo-
rithmes non supervisés. **Réponse : a)** *Corrigé* : Cette approche
naı̈ve supprime les variables sensibles (e.g., genre, race), mais ne garantit
pas l’équité.
30. **Quelle métrique mesure le biais de représentation dans un modèle
?** a) *Disparate Impact*. b) Précision. c) AUC-ROC. **Réponse : a)**
*Corrigé* : Le *Disparate Impact* compare les taux de classification entre
groupes sous-représentés.
—
**11. Questions Intégratives** 31. **Comment la théorie de l’information
est-elle utilisée dans les GANs ?** a) Via la minimisation de la divergence
de Jensen-Shannon. b) En maximisant l’entropie des prédictions. c) Par
l’utilisation de la perte *cross-entropy*. **Réponse : a)** *Corrigé* :
Les GANs minimisent une divergence entre distributions, souvent liée à la
théorie de l’information.
32. **Quel est le rôle du *teacher forcing* dans l’entraı̂nement des RNNs
?** a) Utiliser les vraies sorties passées comme entrées pendant l’entraı̂nement.
b) Régulariser les poids du réseau. c) Générer des données synthétiques.
**Réponse : a)** *Corrigé* : Le *teacher forcing* stabilise l’entraı̂nement
en injectant les vraies valeurs plutôt que les prédictions.
—
**12. Questions Techniques** 33. **Quelle est la complexité temporelle
de l’algorithme FastMAP pour l’ACP ?** a) O(n3 ). b) O(n2 ). c) O(n log n).
**Réponse : b)** *Corrigé* : FastMAP approxime l’ACP avec une com-
plexité quadratique.
34. **Dans un *Random Forest*, comment est calculée l’importance d’une
variable ?** a) Par la diminution moyenne de l’impureté (Gini ou en-
tropie). b) Par le coefficient de régression. c) Par la corrélation avec la
cible. **Réponse : a)** *Corrigé* : L’importance est mesurée par l’impact
sur l’impureté des nœuds.
—
**13. Questions de Recherche** 35. **Qu’apporte le *Neural Tangent
Kernel* (NTK) à la théorie des réseaux de neurones ?** a) Une analyse
de leur comportement en régime de largeur infinie. b) Une méthode de
compression de modèle. c) Un algorithme d’optimisation. **Réponse :
a)** *Corrigé* : Le NTK décrit la dynamique d’apprentissage des réseaux
larges comme des noyaux fixes.
36. **Qu’est-ce que l’*attention sparse* dans les Transformers ?** a) Une
attention limitée à un sous-ensemble de tokens pour réduire la complexité.
b) Une attention avec des poids aléatoires. c) Une attention normalisée
par couche. **Réponse : a)** *Corrigé* : L’*attention sparse*
√ (e.g., dans
Sparse Transformer) réduit la complexité de O(n2 ) à O(n n).
3
—
**14. Questions Avancées** 37. **Quelle est la différence entre *cali-
bration* et *discrimination* dans un modèle de classification ?** a) La
*calibration* mesure l’exactitude des probabilités prédites, la *discrimi-
nation* la capacité à séparer les classes. b) Les deux termes sont syn-
onymes. c) La *discrimination* concerne l’équité du modèle. **Réponse
: a)** *Corrigé* : Un modèle peut être bien calibré mais avoir une faible
discrimination (et vice versa).
38. **Qu’est-ce que la *PAC-Bayes theory* ?** a) Un cadre théorique
pour borner l’erreur de généralisation des modèles bayésiens. b) Une
méthode de clustering. c) Un algorithme de reinforcement learning. **Réponse
: a)** *Corrigé* : La théorie PAC-Bayes fournit des garanties statistiques
pour les modèles appris avec des approches bayésiennes.
—
**15. Questions de Synthèse** 39. **Expliquez en quoi le *bootstrap
aggregating* (Bagging) réduit la variance d’un modèle.** **Réponse** :
Le Bagging entraı̂ne plusieurs modèles sur des sous-ensembles bootstrap
des données, puis agrège leurs prédictions. La variance est réduite car
l’erreur due au bruit est moyenne.
40. **Pourquoi les autoencodeurs variationnels (VAEs) sont-ils considérés
comme des modèles génératifs ?** **Réponse** : Les VAEs apprennent
une distribution latente p(z) et peuvent générer de nouvelles données en
échantillonnant z et en utilisant le décodeur.
—
**Corrigé Complet** - **Format** : Questions variées (définitions, cal-
culs, interprétations) avec explications théoriques. - **Niveau** : Adapté
à des étudiants en master, chercheurs ou praticiens confirmés. - **Con-
seils** : - Utiliser ces questions pour préparer des examens ou des entre-
tiens techniques. - Approfondir les concepts avec des références comme
*”Deep Learning” (Goodfellow et al.)* ou *”Pattern Recognition and Ma-
chine Learning” (Bishop)*.
Pour une version PDF ou des ajustements, n’hésitez pas à demander !
Réponse : a)