Higher National School of Statistics and Applied Economy
(ENSSEA)
Second semester Exam : Introduction to Machine Learning
4th year Statistics and Data Science
duration : 1h30
Ayoub Asri
26 May 2024
English version
Part 1 : Theoretical aspects
Answer all the following questions.
Q1. Discuss three major issues in machine learning that need to be addressed. Provide examples and
potential solutions for each issue.
Q2. what is the difference between cross-validation and boostrapping ? and when can we use each one ?
Q3. what are the subfields studied in unsupervised learning ? precise at least 2 techniques of each subfield.
Q4. Explain briefly the concepts of UMAP and t-SNE, precise what is the context of using each technique
and finally what is the main difference between them and PCA ?
Q5. Is using imbalanced data sets for modeling really an issue ? Justify ! What are the implications of using
this type of dataset ?
Q6. Precise the most common ideas to solve the imbalanced data sets issues ? with details.
Q7. What is stacking ? explain its concept ! is it really beneficial in ML ?
Part 2 : Application
In this part we will focus on an application of ML to detect the popularity of a song (categorical variable)
using data for Spotify. Answer all the following questions using your knowledge.
Q1. cite all the steps used in this study, and explain the reason for each step.
Q2. Precise (and why) the size of the data set after the pre-processing step.
Q4. Analyze every step of this study.
Q4. Comment on the results presented
Q5. For each part of this study, propose an improvement.
Q6. Summarize your final thought process about the steps you would use (that you will use in the practical
part of the exam)
1
French version
Partie 1 : Aspects théoriques
Répondez à toutes les questions suivantes.
Q1. Discutez les trois problèmes de Machine Learning qui doivent être traités.
Q2. Quelle est la différence entre la validation croisée et le bootstrapping ? Et quand peut-on utiliser chacun
?
Q3. Quels sont les sous-domaines étudiés dans l’apprentissage non supervisé ? Précisez au moins deux
techniques pour chaque sous-domaine.
Q4. Expliquez brièvement les concepts de l’UMAP et du t-SNE, précisez dans quel contexte chaque technique
est utilisée et enfin quelle est la principale différence entre elles et la PCA ?
Q5. L’utilisation de base de données déséquilibrés pour la modélisation est-elle vraiment un problème ?
Justifiez ! Quelles sont les implications de l’utilisation de ce type de jeu de données ?
Q6. Précisez les idées les plus courantes pour résoudre les problèmes des bases de données déséquilibrés ?
Avec quelques détails.
Q7. Qu’est-ce que le stacking ? Expliquez son concept ! Est-ce vraiment bénéfique dans la Machine Learning?
Partie 2 : Application
Dans cette partie, nous nous concentrerons sur une application de la Machine learning pour détecter la
popularité d’une chanson (variable catégorielle) en utilisant les données de Spotify. Répondez à toutes les
questions suivantes en utilisant vos connaissances.
Q1. Citez toutes les étapes utilisées dans cette étude et expliquez la raison de chaque étape.
Q2. Précisez (et pourquoi) la taille du jeu de données après l’étape de prétraitement.
Q3. Analysez chaque étape de cette étude.
Q4. Commentez les résultats présentés.
Q5. Pour chaque partie de cette étude, proposez une amélioration.
Q6. Résumez votre processus de réflexion final sur les étapes que vous pourriez utiliser (que vous pourriez
utiliser dans la partie pratique de l’examen).
2
1. Step 1 :Data
2.Step 2 :
3.Step 3 :
4.Step 4 : right = xgboost
3
5.Step 5 : down = xgboost
6.Step 6 :
7.Step 7 :
8.Step 8 :
9.Step 9 :