0% ont trouvé ce document utile (0 vote)
332 vues4 pages

ML Exam Final

L'examen de deuxième semestre en apprentissage automatique pour les étudiants de 4e année en statistiques et science des données couvre des aspects théoriques et pratiques. La première partie aborde des questions sur les défis en apprentissage automatique, les techniques de validation, l'apprentissage non supervisé, et les problèmes de déséquilibre des données. La seconde partie se concentre sur l'application de l'apprentissage automatique pour détecter la popularité des chansons à partir des données de Spotify, en demandant aux étudiants de détailler les étapes de l'étude et d'analyser les résultats.

Transféré par

Aymen Dehimi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
332 vues4 pages

ML Exam Final

L'examen de deuxième semestre en apprentissage automatique pour les étudiants de 4e année en statistiques et science des données couvre des aspects théoriques et pratiques. La première partie aborde des questions sur les défis en apprentissage automatique, les techniques de validation, l'apprentissage non supervisé, et les problèmes de déséquilibre des données. La seconde partie se concentre sur l'application de l'apprentissage automatique pour détecter la popularité des chansons à partir des données de Spotify, en demandant aux étudiants de détailler les étapes de l'étude et d'analyser les résultats.

Transféré par

Aymen Dehimi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Higher National School of Statistics and Applied Economy

(ENSSEA)
Second semester Exam : Introduction to Machine Learning
4th year Statistics and Data Science
duration : 1h30

Ayoub Asri

26 May 2024

English version

Part 1 : Theoretical aspects

Answer all the following questions.


Q1. Discuss three major issues in machine learning that need to be addressed. Provide examples and
potential solutions for each issue.
Q2. what is the difference between cross-validation and boostrapping ? and when can we use each one ?
Q3. what are the subfields studied in unsupervised learning ? precise at least 2 techniques of each subfield.
Q4. Explain briefly the concepts of UMAP and t-SNE, precise what is the context of using each technique
and finally what is the main difference between them and PCA ?
Q5. Is using imbalanced data sets for modeling really an issue ? Justify ! What are the implications of using
this type of dataset ?
Q6. Precise the most common ideas to solve the imbalanced data sets issues ? with details.
Q7. What is stacking ? explain its concept ! is it really beneficial in ML ?

Part 2 : Application

In this part we will focus on an application of ML to detect the popularity of a song (categorical variable)
using data for Spotify. Answer all the following questions using your knowledge.
Q1. cite all the steps used in this study, and explain the reason for each step.
Q2. Precise (and why) the size of the data set after the pre-processing step.
Q4. Analyze every step of this study.
Q4. Comment on the results presented
Q5. For each part of this study, propose an improvement.
Q6. Summarize your final thought process about the steps you would use (that you will use in the practical
part of the exam)

1
French version

Partie 1 : Aspects théoriques

Répondez à toutes les questions suivantes.


Q1. Discutez les trois problèmes de Machine Learning qui doivent être traités.
Q2. Quelle est la différence entre la validation croisée et le bootstrapping ? Et quand peut-on utiliser chacun
?
Q3. Quels sont les sous-domaines étudiés dans l’apprentissage non supervisé ? Précisez au moins deux
techniques pour chaque sous-domaine.
Q4. Expliquez brièvement les concepts de l’UMAP et du t-SNE, précisez dans quel contexte chaque technique
est utilisée et enfin quelle est la principale différence entre elles et la PCA ?
Q5. L’utilisation de base de données déséquilibrés pour la modélisation est-elle vraiment un problème ?
Justifiez ! Quelles sont les implications de l’utilisation de ce type de jeu de données ?
Q6. Précisez les idées les plus courantes pour résoudre les problèmes des bases de données déséquilibrés ?
Avec quelques détails.
Q7. Qu’est-ce que le stacking ? Expliquez son concept ! Est-ce vraiment bénéfique dans la Machine Learning?

Partie 2 : Application

Dans cette partie, nous nous concentrerons sur une application de la Machine learning pour détecter la
popularité d’une chanson (variable catégorielle) en utilisant les données de Spotify. Répondez à toutes les
questions suivantes en utilisant vos connaissances.
Q1. Citez toutes les étapes utilisées dans cette étude et expliquez la raison de chaque étape.
Q2. Précisez (et pourquoi) la taille du jeu de données après l’étape de prétraitement.
Q3. Analysez chaque étape de cette étude.
Q4. Commentez les résultats présentés.
Q5. Pour chaque partie de cette étude, proposez une amélioration.
Q6. Résumez votre processus de réflexion final sur les étapes que vous pourriez utiliser (que vous pourriez
utiliser dans la partie pratique de l’examen).

2
1. Step 1 :Data

2.Step 2 :

3.Step 3 :

4.Step 4 : right = xgboost

3
5.Step 5 : down = xgboost

6.Step 6 :

7.Step 7 :

8.Step 8 :

9.Step 9 :

Vous aimerez peut-être aussi