Cours de Machine Learning
Travail à faire de machine learning :
Répondez de façon claire, précise, concise et résumée en utilisant
uniquement l'espace réservé aux réponses. Téléphone: Non. Documents:
Non. Calculatrice: Permise. Durée: 2 heures.
Question 1 (5 points). Vous disposez du jeu des données (ci-dessous)
avec deux classes (Classe A et Classe B) et une seule caractéristique sur
laquelle nous voulons effectuer la séparation (split) pour construire un
arbre de décision.
Caractéristiques Classes
2 A
3 A
4 A
5 B
6 B
7 B
8 B
Supposez qu’il vous soit demande de séparer les données à la valeur 5 de
cette caractéristique. Ce qui crée deux groupes :
Groupe 1 : (2.A), (3,4), (4.4), (5,B)
Caractéristique ≤5
Groupe 2 : (6.B), (7,8), (8.8)
Caractéristique >5
Il vous est demandé de calculer :
(1)L’impureté de Gini pour chaque groupe.
(2)L’impureté de Gini total cette séparation (split).
Question 2 (4 points). Questions de révision du cours.
(1)Quels sont les avantages et inconvénients d’un modèle simple sur
un modèle complexe ?
(2)Benjamin dispose de 10000 articles de journaux qu’il souhaite
classer par leur thématique. Doit- il utiliser un algorithme supervisé
ou non supervise ?
(3)Les données de Fidelie sont décrites par 10 variables. Elle aimerait
cependant les représenter sur un graphique en deux dimensions.
Quel type d’algorithme d’apprentissage doit-elle utiliser ?
Question 3 (4 points). Bobo teste un algorithme de classification binaire
qui retourne aléatoirement négatif ou positif avec une probabilité de 0,5
pour chacune des classes. Le jeu d’évaluation contient 85% d’exemples
positifs et 15% d'exemples négatifs. Quels seront l’accuracy, le rappel et la
précision ?
Question 4 (3 points). Donat a entraîné une régression linéaire sur ses
données. Il se rend compte que le modèle sous-apprend. Doit-il ajouter ou
enlever des variables ? Est-ce une bonne idée d’essayer une régression
polynomiale ?
Question 5 (4 points). Diego veut prédire si une boisson est un thé ou un
café. Il a recueilli les données suivantes :
Volume 250 100 125 250
(mL)
Caféine 0,025 0,010 0,050 0,100
(g)
Boisson Thé The Cafe Café
(1)En utilisant l’algorithme du plus proche voisin avec une distance
euclidienne, quelle est l’étiquette prédite pour une boisson de 125
ml. Contenant 0,015 g de caféine ?
(2)Cette classification ne lui semble pas correcte. Que peut-il faire pour
y remédier ?