0% ont trouvé ce document utile (0 vote)
42 vues4 pages

TD1 ML Correction

Le document explique les concepts fondamentaux du machine learning, y compris la relation entre l'IA et le ML, ainsi que les différences entre apprentissage supervisé et non supervisé, classification et régression. Il aborde également l'importance de la qualité des données et présente des exercices pratiques sur l'application du ML dans divers scénarios. Enfin, il fournit des exemples de problèmes pouvant être résolus par le machine learning et les données nécessaires pour les entraîner.

Transféré par

meryemsweet2001
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
42 vues4 pages

TD1 ML Correction

Le document explique les concepts fondamentaux du machine learning, y compris la relation entre l'IA et le ML, ainsi que les différences entre apprentissage supervisé et non supervisé, classification et régression. Il aborde également l'importance de la qualité des données et présente des exercices pratiques sur l'application du ML dans divers scénarios. Enfin, il fournit des exemples de problèmes pouvant être résolus par le machine learning et les données nécessaires pour les entraîner.

Transféré par

meryemsweet2001
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TD1 ML

1️⃣ Quelle est la relation entre l’IA et le machine learning ?

Le machine learning (ML) est une partie de l’intelligence artificielle (IA).


L’IA est le grand domaine qui vise à rendre les machines intelligentes, et le ML est une
technique qui permet à la machine d’apprendre à partir des données.

2️⃣ Différence entre apprentissage supervisé et non supervisé ?

Apprentissage supervisé : on donne les bonnes réponses (étiquettes) pendant


l'entraînement.
Apprentissage non supervisé : on ne donne pas d’étiquettes, l’algorithme doit trouver
des structures ou des groupes dans les données tout seul.

3️⃣ Différence entre classification et régression ?

Classification : on prédit une catégorie (ex : malade ou non).


Régression : on prédit une valeur numérique (ex : prix d’une maison).

4️⃣ Avoir beaucoup de données : avantage ou inconvénient ?

C’est un avantage, car plus il y a de données, plus le modèle peut mieux apprendre.
Mais seulement si les données sont de bonne qualité.

5️⃣ Pourquoi la qualité des données est-elle importante ?

Si les données sont fausses, incomplètes ou mal organisées, le modèle va apprendre de


mauvaises choses.
Résultat : mauvaises prédictions, même avec beaucoup de données.
Exercice 1 :

Un Data Scientist veut écrire un programme qui utilise la fréquence des mots « science
», « public», « accès », « université », « gouvernement », « financer », « éducation », «
budget », « justice » et« loi » pour déterminer si un article trait ou non de politique
scientifique. Il a commencé par annoterun millier d’articles selon leur sujet.

Quel genre de problème d’apprentissage automatique doit-il résoudre ?

Il s'agit d’un problème d’apprentissage supervisé.

Car le Data Scientist a annoté les articles (donc il connaît les bonnes réponses), et il veut que
le programme classe un article comme étant lié ou non à la politique scientifique.

C’est donc aussi un problème de classification.

Exercice 2 :

Un spécialiste en NLP dispose de 1️0 000 articles de journaux qu’il souhaite classer par
leur thématique. Doit-il utiliser un algorithme supervisé ou non supervisé ?

Il doit utiliser un algorithme non supervisé,


si les articles ne sont pas déjà étiquetés (c’est-à-dire qu’on ne connaît pas les thématiques à
l’avance).

L’algorithme va alors regrouper les articles en fonction de leur similarité, sans avoir besoin
des bonnes réponses.
C’est un problème de clustering.

Mais : si les thématiques sont déjà connues (par exemple "sport", "politique", "culture"),
alors il peut utiliser un algorithme supervisé.

Exercice 3 :

Un Data Scientist gère un outil qui permet d’organiser les liens HTML qui ont été
sauvegardés.Il souhaite suggérer des catégories auxquelles affecter un nouveau lien, en
fonction des catégoriesdéjà définies par l’ensemble des utilisateurs du service. Quel type
d’algorithme d’apprentissage doit-il utiliser ?

Il doit utiliser un algorithme d’apprentissage supervisé.

Pourquoi ?
Parce qu’il dispose déjà de liens avec leurs catégories (définies par les utilisateurs),
donc les données sont étiquetées.
L’algorithme pourra apprendre à partir de ces exemples pour prédire la catégorie d’un
nouveau lien.

C’est un problème de classification.


Exercice 4 :

Tom Mitchell définit le machine learning comme suit : « Un programme informatique


est dit apprendre de l’expérience E pour la tâche T et une mesure de performance P si sa
performance sur T, comme mesurée par P, s’améliore avec l’expérience E ». Fred écrit
un programme qui utilise des données bancaires dans le but de détecter la fraude
bancaire. Que sont E, T, et P ?

• E = les données utilisées pour apprendre (transactions bancaires)

• T = la tâche à faire (détecter la fraude)

• P = comment on mesure si ça marche bien (fonction de perte ou taux d’erreur)

Exercices 5 :

Les problèmes suivants se prêtent bien à être traités par le machine learning :

a. Déterminer l’horaire optimal pour poster un contenu sur une page web

b. Prédire le nombre de vélos à mettre en location à chaque station d’un système de


location de vélos citadins

c. Évaluer le prix qu’un tableau de maître pourra atteindre lors d’une vente aux
enchères

Déterminer pour chaque problème les données possibles d’entrainement pour construire
le modèlede prédiction

a. Déterminer l’horaire optimal pour poster un contenu sur une page web

• Données possibles : heures de publication passées, nombre de vues, clics, partages,


interactions à chaque heure.

b. Prédire le nombre de vélos à mettre en location à chaque station

• Données possibles : historiques de locations par station et par heure, météo, jour de la
semaine, événements spéciaux, vacances.

c. Évaluer le prix d’un tableau lors d’une vente aux enchères

• Données possibles : prix de ventes passées de tableaux similaires, artiste, taille, année
de création, état du tableau, tendance du marché.

Vous aimerez peut-être aussi