0% ont trouvé ce document utile (0 vote)
74 vues3 pages

TD 1

Le document explique les concepts fondamentaux de l'intelligence artificielle (IA) et du machine learning (ML), en détaillant les différences entre apprentissage supervisé et non supervisé, ainsi que classification et régression. Il souligne l'importance de la qualité des données pour l'apprentissage automatique et présente divers exercices illustrant ces concepts. Chaque exercice aborde des scénarios pratiques d'application du ML, mettant en évidence l'utilisation de données étiquetées ou non étiquetées.

Transféré par

Kawtar Souhail
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
74 vues3 pages

TD 1

Le document explique les concepts fondamentaux de l'intelligence artificielle (IA) et du machine learning (ML), en détaillant les différences entre apprentissage supervisé et non supervisé, ainsi que classification et régression. Il souligne l'importance de la qualité des données pour l'apprentissage automatique et présente divers exercices illustrant ces concepts. Chaque exercice aborde des scénarios pratiques d'application du ML, mettant en évidence l'utilisation de données étiquetées ou non étiquetées.

Transféré par

Kawtar Souhail
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

correction de td 1

1. Quelle est la relation entre l’IA et le machine learning ?

L'IA est le concept plus large qui consiste à permettre à une machine ou à un système de
détecter, de raisonner, d'agir ou de s'adapter comme un humain. Le ML est une application d'IA
qui permet aux machines d'extraire des connaissances à partir de données et d'en tirer des
enseignements de manière autonome.

2. Quelle est la différence fondamentale entre l’apprentissage supervisé et


non supervisé ?

Apprentissage supervisé :
Les données utilisées pour l'entraînement contiennent des étiquettes ou des réponses
connues (ex. : images de chats avec l’étiquette “chat”).
➤ L’algorithme apprend à prédire une valeur de sortie à partir d’entrées.
Apprentissage non supervisé :
Les données ne sont pas étiquetées. L’algorithme essaie de trouver des structures
cachées ou des regroupements dans les données (clustering, détection d’anomalies…).

3. Quelle est la différence fondamentale entre la classification et la


régression ?

Classification : prédire une catégorie (ex. : spam ou pas spam, chien ou chat).
Régression : prédire une valeur numérique continue (ex. : le prix d’une maison, la
température).

4. Pour un algorithme de machine learning, est-ce un avantage ou un


inconvénient d’avoir des données en quantité ?

C’est un avantage, à condition que ces données soient de bonne qualité.


Plus un algorithme a de données pertinentes, mieux il peut apprendre et généraliser à de
nouveaux cas.
NB: trop de données inutiles, bruitées ou déséquilibrées peuvent nuire aux performances.

5. Pourquoi la qualité des données est très importante en machine learning ?

Parce que la qualité des données détermine la qualité de l’apprentissage.


Une expression populaire dit :
"Garbage in, garbage out" → Si les données sont mauvaises, les résultats le seront aussi.

Des données :
erronées
incomplètes
mal étiquetées
ou non représentatives

… peuvent entraîner un biais, de mauvaises prédictions, ou même des décisions injustes.

Exercice 1 :

Ce problème correspond à un cas d’apprentissage automatique supervisé, plus précisément


à une classification binaire. Le Data Scientist cherche à prédire si un article traite ou non de
politique scientifique en se basant sur la fréquence de certains mots clés. Étant donné que les
articles sont déjà annotés selon leur sujet, il dispose donc d’un ensemble de données
étiquetées. L’objectif est d’entraîner un modèle capable de classer un nouvel article dans l’une
des deux catégories possibles : lié ou non à la politique scientifique

Exercice 2 :

Le spécialiste en NLP souhaite classer 10 000 articles de journaux selon leur thématique, mais
aucun étiquetage préalable n’est mentionné. Il s’agit donc d’un problème où les données ne sont
pas annotées, ce qui correspond à un apprentissage non supervisé. Un algorithme comme le
clustering (ex. : K-means) permettrait de regrouper les articles selon des similarités de contenu,
révélant ainsi des thématiques sous-jacentes.

Exercice 3 :

Le Data Scientist souhaite suggérer automatiquement des catégories pour de nouveaux liens
HTML, en se basant sur les catégories déjà utilisées par d’autres utilisateurs. Cela signifie qu’il
dispose de données étiquetées (liens + catégories), et qu’il souhaite prédire une étiquette pour
de nouvelles données. Ce cas correspond à un apprentissage supervisé, car il utilise des
exemples passés pour entraîner un modèle capable de généraliser à de nouveaux cas.

Exercice 4 :
Selon la définition de Tom Mitchell, pour le programme de Fred qui détecte la fraude bancaire :

E (expérience) correspond aux données bancaires utilisées pour entraîner le modèle.


T (tâche) est la détection de la fraude bancaire.
P (mesure de performance) peut être la précision, le rappel ou le taux de détection de
fraude.

Exercice 5 :

Pour chaque problème, voici les données d'entraînement possibles :


a. Déterminer l’horaire optimal pour poster un contenu :
Données possibles : l’heure de publication, le type de contenu, le jour de la semaine, les
statistiques d’interaction (likes, partages, commentaires).

b. Prédire le nombre de vélos à mettre à disposition dans chaque station :


Données possibles : date, heure, météo, événements locaux, historique d’utilisation par station,
jour de la semaine, vacances scolaires.

c. Évaluer le prix d’un tableau lors d’une vente aux enchères :


Données possibles : nom de l’artiste, époque, taille du tableau, technique utilisée, ventes
passées similaires, maison de vente, état du tableau.

Vous aimerez peut-être aussi