0% ont trouvé ce document utile (0 vote)
330 vues2 pages

Examen M L

Transféré par

miriammbuyal
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
330 vues2 pages

Examen M L

Transféré par

miriammbuyal
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Cours de Machine Learning

Travail à faire de machine learning :

Répondez de façon claire, précise, concise et résumée en utilisant


uniquement l'espace réservé aux réponses. Téléphone: Non. Documents:
Non. Calculatrice: Permise. Durée: 2 heures.

Question 1 (5 points). Vous disposez du jeu des données (ci-dessous)


avec deux classes (Classe A et Classe B) et une seule caractéristique sur
laquelle nous voulons effectuer la séparation (split) pour construire un
arbre de décision.

Caractéristiques Classes
2 A
3 A
4 A
5 B
6 B
7 B
8 B

Supposez qu’il vous soit demande de séparer les données à la valeur 5 de


cette caractéristique. Ce qui crée deux groupes :

Groupe 1 : (2.A), (3,4), (4.4), (5,B)


Caractéristique ≤5
Groupe 2 : (6.B), (7,8), (8.8)
Caractéristique >5

Il vous est demandé de calculer :

(1)L’impureté de Gini pour chaque groupe.

(2)L’impureté de Gini total cette séparation (split).

Question 2 (4 points). Questions de révision du cours.


(1)Quels sont les avantages et inconvénients d’un modèle simple sur
un modèle complexe ?

(2)Benjamin dispose de 10000 articles de journaux qu’il souhaite


classer par leur thématique. Doit- il utiliser un algorithme supervisé
ou non supervise ?

(3)Les données de Fidelie sont décrites par 10 variables. Elle aimerait


cependant les représenter sur un graphique en deux dimensions.
Quel type d’algorithme d’apprentissage doit-elle utiliser ?

Question 3 (4 points). Bobo teste un algorithme de classification binaire


qui retourne aléatoirement négatif ou positif avec une probabilité de 0,5
pour chacune des classes. Le jeu d’évaluation contient 85% d’exemples
positifs et 15% d'exemples négatifs. Quels seront l’accuracy, le rappel et la
précision ?

Question 4 (3 points). Donat a entraîné une régression linéaire sur ses


données. Il se rend compte que le modèle sous-apprend. Doit-il ajouter ou
enlever des variables ? Est-ce une bonne idée d’essayer une régression
polynomiale ?

Question 5 (4 points). Diego veut prédire si une boisson est un thé ou un


café. Il a recueilli les données suivantes :

Volume 250 100 125 250


(mL)
Caféine 0,025 0,010 0,050 0,100
(g)
Boisson Thé The Cafe Café

(1)En utilisant l’algorithme du plus proche voisin avec une distance


euclidienne, quelle est l’étiquette prédite pour une boisson de 125
ml. Contenant 0,015 g de caféine ?

(2)Cette classification ne lui semble pas correcte. Que peut-il faire pour
y remédier ?

Vous aimerez peut-être aussi