0% ont trouvé ce document utile (0 vote)
83 vues34 pages

CH 6

Transféré par

marwaneouzaina
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
83 vues34 pages

CH 6

Transféré par

marwaneouzaina
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction

Apprentissage Semi-Supervisé
Utilisation de K-Means
Utilisation de GMM (Gaussian Mixture Model)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Machine learning

Pr. OMARI Kamal

FACULTE POLYDISCIPLINAIRE D’OUARZAZATE

10 février 2025

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means
Utilisation de GMM (Gaussian Mixture Model)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Chapitre 6 : Apprentissage Semi-Supervisé et


Apprentissage par Renforcement

1 Introduction

2 Apprentissage Semi-Supervisé

3 Utilisation de K-Means

4 Utilisation de GMM (Gaussian Mixture Model)

5 Approches basées sur les autoencodeurs et modèles génératifs

6 Apprentissage par Renforcement

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Définition
Utilisation de GMM (Gaussian Mixture Model)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Définition
L’apprentissage automatique (Machine Learning) est un domaine clé de
l’intelligence artificielle qui vise à développer des modèles capables d’apprendre à
partir de données pour effectuer des prédictions ou prendre des décisions. Il existe
plusieurs types d’apprentissage automatique, dont les plus courants sont :
L’apprentissage supervisé : Un modèle est entraîné sur un ensemble de
données annotées (exemples avec des labels).
Exemples : classification d’e-mails (spam ou non spam), reconnaissance
d’images.
L’apprentissage non supervisé : Le modèle analyse des données non
annotées pour découvrir des structures ou des patterns cachés.
Exemples : clustering, réduction de dimensionnalité.
L’apprentissage semi-supervisé : Il combine des données annotées et non
annotées pour entraîner un modèle plus performant avec moins de labels.
L’apprentissage par renforcement : Un agent interagit avec un
environnement et apprend à prendre des décisions en recevant des
récompenses ou des pénalités.

Pr. OMARI Kamal Machine learning


Introduction Apprentissage Semi-Supervisé
Apprentissage Semi-Supervisé Techniques et Algorithmes
Utilisation de K-Means Techniques et Algorithmes
Utilisation de GMM (Gaussian Mixture Model) Apprentissage semi-supervisé basé sur le clustering
Approches basées sur les autoencodeurs et modèles génératifs
Contexte
Apprentissage par Renforcement

Définition

L’apprentissage semi-supervisé est une approche hybride qui se


situe entre l’apprentissage supervisé et l’apprentissage non
supervisé. Il est particulièrement utile lorsque l’annotation des
données est coûteuse ou difficile, mais qu’une grande quantité de
données non étiquetées est disponible.

Pr. OMARI Kamal Machine learning


Introduction Apprentissage Semi-Supervisé
Apprentissage Semi-Supervisé Techniques et Algorithmes
Utilisation de K-Means Techniques et Algorithmes
Utilisation de GMM (Gaussian Mixture Model) Apprentissage semi-supervisé basé sur le clustering
Approches basées sur les autoencodeurs et modèles génératifs
Contexte
Apprentissage par Renforcement

Pourquoi utiliser l’apprentissage semi-supervisé ?

Réduction des coûts d’annotation : L’étiquetage


manuel des données est souvent coûteux et chronophage.
Amélioration des performances : En exploitant les
données non étiquetées, on peut obtenir de meilleures
performances qu’un modèle entraîné uniquement sur des
données étiquetées.
Applicabilité à de nombreux domaines : Santé, vision
par ordinateur, reconnaissance vocale, etc.

Pr. OMARI Kamal Machine learning


Introduction Apprentissage Semi-Supervisé
Apprentissage Semi-Supervisé Techniques et Algorithmes
Utilisation de K-Means Techniques et Algorithmes
Utilisation de GMM (Gaussian Mixture Model) Apprentissage semi-supervisé basé sur le clustering
Approches basées sur les autoencodeurs et modèles génératifs
Contexte
Apprentissage par Renforcement

Approches basées sur la propagation des labels

L’idée principale est d’attribuer progressivement des labels aux


données non étiquetées en utilisant la structure des données.
Méthode des graphes : On construit un graphe où les
nœuds représentent les échantillons et les arêtes
représentent la similarité entre eux. Les labels sont
propagés aux données non étiquetées.
Label Spreading : Technique qui utilise la propagation des
labels sur un graphe pondéré.

Pr. OMARI Kamal Machine learning


Introduction Apprentissage Semi-Supervisé
Apprentissage Semi-Supervisé Techniques et Algorithmes
Utilisation de K-Means Techniques et Algorithmes
Utilisation de GMM (Gaussian Mixture Model) Apprentissage semi-supervisé basé sur le clustering
Approches basées sur les autoencodeurs et modèles génératifs
Contexte
Apprentissage par Renforcement

Exemple simple : Reconnaissance d’images (chiffres


manuscrits)
On veut classer des images de chiffres manuscrits (0 à 9). On dispose de quelques
images étiquetées et d’autres sans étiquette.
Construction du graphe
Nœuds : Chaque image est un nœud.
Arêtes : On relie deux images si elles se ressemblent (par exemple, si leur
distance en pixels est faible).
Propagation des labels
Une image de "5" est connectée à une autre image très similaire mais non
étiquetée.
L’étiquette "5" se propage à cette image.
Si cette nouvelle image "5" est aussi connectée à d’autres images similaires,
l’étiquette continue de se propager.
Ainsi, même si certaines images n’ont pas de label au départ, elles finissent par en
recevoir un en fonction de leur voisinage dans le graphe.

Pr. OMARI Kamal Machine learning


Introduction Apprentissage Semi-Supervisé
Apprentissage Semi-Supervisé Techniques et Algorithmes
Utilisation de K-Means Techniques et Algorithmes
Utilisation de GMM (Gaussian Mixture Model) Apprentissage semi-supervisé basé sur le clustering
Approches basées sur les autoencodeurs et modèles génératifs
Contexte
Apprentissage par Renforcement

Exemple simple : Classification de points en deux classes


(rouge et bleu)

On a un ensemble de points dans un espace 2D :


Quelques points sont étiquetés rouge ou bleu.
D’autres points sont non étiquetés.
On construit un graphe pondéré où les points similaires (proches) sont
connectés.
Les labels connus se propagent aux points non étiquetés en fonction de
la force de connexion entre les points.
Après plusieurs itérations, tous les points reçoivent un label en
fonction de leurs voisins.

Pr. OMARI Kamal Machine learning


Introduction Apprentissage Semi-Supervisé
Apprentissage Semi-Supervisé Techniques et Algorithmes
Utilisation de K-Means Techniques et Algorithmes
Utilisation de GMM (Gaussian Mixture Model) Apprentissage semi-supervisé basé sur le clustering
Approches basées sur les autoencodeurs et modèles génératifs
Contexte
Apprentissage par Renforcement

Apprentissage semi-supervisé basé sur le clustering

Les algorithmes de clustering peuvent être utilisés pour assigner


des labels aux données non étiquetées en fonction de leur
proximité avec les données étiquetées.
K-Means : On regroupe les données en clusters et attribue
aux points non étiquetés le label majoritaire du cluster
auquel ils appartiennent.
GMM (Gaussian Mixture Model) : Approche probabiliste
qui modélise les distributions des données et leur affecte des
probabilités d’appartenance à différentes classes.

Pr. OMARI Kamal Machine learning


Introduction Apprentissage Semi-Supervisé
Apprentissage Semi-Supervisé Techniques et Algorithmes
Utilisation de K-Means Techniques et Algorithmes
Utilisation de GMM (Gaussian Mixture Model) Apprentissage semi-supervisé basé sur le clustering
Approches basées sur les autoencodeurs et modèles génératifs
Contexte
Apprentissage par Renforcement

Contexte

On veut classifier des images de chiffres manuscrits (0 à 9).


On a quelques images étiquetées (ex. : certaines images
sont déjà identifiées comme "3", "7", "9", etc.).
La majorité des images sont non étiquetées.
On utilise le clustering pour assigner des labels aux
images non étiquetées.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Étapes
Utilisation de GMM (Gaussian Mixture Model)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Étapes
1 On applique K-Means sur les images pour former 10 groupes (un
cluster par chiffre).
2 Chaque cluster contient des images similaires en termes de

caractéristiques (pixels, formes, etc.).


3 On regarde les labels des données étiquetées dans chaque

cluster.
4 On attribue aux points non étiquetés le label majoritaire du cluster

où ils se trouvent.
Exemple
Cluster 1 contient des images de chiffres manuscrits où la majorité des
images étiquetées sont des "3" ⇒ On assigne "3" aux images non
étiquetées du cluster 1.
Cluster 2 contient majoritairement des "7" ⇒ On assigne "7"
Limite : K-Means suppose que les clusters sont bien séparés, ce qui n’est
pas toujours le cas.
Pr. OMARI Kamal Machine learning
Introduction
Apprentissage Semi-Supervisé Utilisation de GMM
Utilisation de K-Means Exemple
Utilisation de GMM (Gaussian Mixture Model) Résumé des différences
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Étapes

Au lieu d’assigner un point strictement à un seul cluster,


GMM attribue des probabilités d’appartenance à
plusieurs classes.
Cela est utile si les classes se chevauchent (ex. : un "3"
peut parfois ressembler à un "8").
On applique GMM pour modéliser les distributions des
chiffres.
Pour chaque image non étiquetée, on calcule sa
probabilité d’appartenir à chaque classe.
On attribue à l’image le label de la classe avec la plus
haute probabilité.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé Utilisation de GMM
Utilisation de K-Means Exemple
Utilisation de GMM (Gaussian Mixture Model) Résumé des différences
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Étapes

Une image de chiffre manuscrit reçoit :


70 % de chance d’être un "3"
25 % de chance d’être un "8"
5 % de chance d’être un "9"
On lui attribue le label "3" car c’est la classe avec la plus forte
probabilité. Avantage : GMM est plus flexible que K-Means,
surtout quand les classes ne sont pas bien séparées.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé Utilisation de GMM
Utilisation de K-Means Exemple
Utilisation de GMM (Gaussian Mixture Model) Résumé des différences
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Résumé des différences

Méthode Attribution des la- Hypothèse sur les


bels données
K-Means Assignation stricte au Les clusters sont bien
cluster majoritaire séparés
GMM Assignation probabi- Les classes peuvent se
liste aux classes chevaucher
Table 1 – Résumé des méthodes de clustering pour l’auto-étiquetage

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé Utilisation de GMM
Utilisation de K-Means Exemple
Utilisation de GMM (Gaussian Mixture Model) Résumé des différences
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

En pratique

K-Means est plus rapide et fonctionne bien si les groupes


sont bien distincts.
GMM est plus précis lorsque les données sont ambiguës et
mélangées.
Application réelle : Utilisé pour la classification d’images, le
traitement de texte (analyse de sentiments), et la segmentation
de clients en marketing.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Approches basées sur les autoencodeurs et modèles


génératifs
Les modèles de deep learning sont également utilisés en
apprentissage semi-supervisé.
Autoencodeurs : Réseaux de neurones capables d’apprendre
une représentation compacte des données. Ils peuvent être
utilisés pour générer des pseudo-labels pour les données non
étiquetées.
GANs (Generative Adversarial Networks) : Génération de
nouvelles données qui améliorent la robustesse du modèle.
VAE (Variational Autoencoder) : Approche générative qui
apprend à représenter les données sous forme de
distribution probabiliste.
Pr. OMARI Kamal Machine learning
Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Qu’est-ce qu’un autoencodeur ?

Un autoencodeur est un type de réseau de neurones composé de


deux parties :
L’encodeur : Transforme les données d’entrée en une
représentation compacte (appelée "embedding").
Le décodeur : Reconstruit les données d’origine à partir de
cette représentation compacte.
Les autoencodeurs peuvent être utilisés en apprentissage
semi-supervisé pour générer des pseudo-labels pour les données
non étiquetées, en apprenant une bonne représentation des
données.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Comment cela fonctionne ?

Phase d’entraînement sur données étiquetées :


L’autoencodeur est d’abord entraîné sur des données
étiquetées pour apprendre à reconstruire les entrées.
Phase de génération de pseudo-labels : L’autoencodeur
apprend à encoder et à décoder les données non étiquetées.
À partir des reconstructions, on peut attribuer des
pseudo-labels aux données non étiquetées en fonction de
leur similarité avec les classes étiquetées.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Qu’est-ce qu’un GAN ?

Les GANs sont des réseaux de neurones composés de deux


modèles :
Le générateur : Crée de nouvelles données à partir d’un
bruit aléatoire.
Le discriminateur : Évalue si les données générées sont
réalistes, c’est-à-dire proches des données réelles.
Le générateur et le discriminateur s’affrontent dans un jeu à
somme nulle, où le générateur apprend à produire des données
de plus en plus réalistes.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Utilisation en apprentissage semi-supervisé

Les GANs peuvent générer des données synthétiques qui


complètent les données étiquetées. Ces données augmentent la
diversité des données d’entraînement et améliorent la
performance des modèles.
Exemple : Données étiquetées : Quelques images de chiens et de
chats. Le générateur crée de nouvelles images de chiens et de
chats qui ne sont pas étiquetées. Le discriminateur apprend à
différencier les images réelles des images générées, et grâce à
cette interaction, le générateur crée des données plus réalistes.
Ces nouvelles images générées peuvent être utilisées pour
améliorer la classification en apportant plus de variété au
modèle.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Qu’est-ce qu’un VAE ?

Le VAE est une approche générative qui apprend à représenter


les données sous forme de distributions probabilistes plutôt que
de simples représentations fixes comme dans les autoencodeurs
classiques. Il est utilisé pour générer de nouvelles données à
partir de ces distributions.
Le VAE apprend à modéliser une distribution de données, ce qui
le rend particulièrement utile pour la génération de données
synthétiques et l’amélioration de l’apprentissage semi-supervisé.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Utilisation en apprentissage semi-supervisé

Le VAE permet de générer des échantillons synthétiques pour


les données non étiquetées, et en même temps, il apprend à
associer ces échantillons à des classes spécifiques à partir des
données étiquetées.
Exemple : Données étiquetées : Images de visages avec des
labels (heureux, triste, en colère, etc.). Le VAE apprend une
distribution de probabilité sur les caractéristiques du visage. Le
modèle peut générer de nouvelles images de visages qui n’étaient
pas présentes dans les données d’entraînement, mais qui sont
cohérentes avec les classes étiquetées existantes.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Auto-étiquetage (Self-training et Co-training)

L’auto-étiquetage est une technique d’apprentissage


semi-supervisé qui exploite un modèle initialement entraîné sur
des données étiquetées pour générer des labels sur les données
non étiquetées.
Self-training : On entraîne un modèle sur les données
étiquetées, puis il prédit les labels des données non
étiquetées. Les prédictions les plus confiantes sont ajoutées
aux données étiquetées pour réentraîner le modèle.
Co-training : Deux modèles sont entraînés sur différentes
vues des données. Chacun prédit des labels pour les
données non étiquetées et les partage avec l’autre modèle.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Self-training

Le self-training fonctionne en plusieurs étapes :


Un modèle est entraîné sur un petit ensemble de données
étiquetées.
Il prédit les labels des données non étiquetées.
Les échantillons avec les prédictions les plus confiantes sont
ajoutés au jeu de données étiqueté.
Le modèle est réentraîné avec ces nouvelles données et la
boucle continue.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Exemple : Classification de spam

Étape 1 : On entraîne un modèle sur un petit ensemble


d’emails étiquetés (spam ou non-spam).
Étape 2 : Le modèle prédit les labels des emails non étiquetés.
Étape 3 : On sélectionne les emails pour lesquels la prédiction
est la plus confiante (exemple : score de confiance > 95 %).
Étape 4 : Ces emails sont ajoutés aux données étiquetées et le
modèle est réentraîné.
Étape 5 : Le processus est répété jusqu’à convergence.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Co-training

Le co-training repose sur l’hypothèse que les données peuvent


être décrites par plusieurs représentations complémentaires
(appelées "vues"). Deux modèles sont entraînés sur des vues
différentes et s’entraident pour apprendre.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Exemple : Classification de pages web


On veut classifier des pages web en deux catégories : informative ou non
informative. Vues utilisées :
Vue 1 : Contenu textuel de la page.
Vue 2 : Liens et structure HTML de la page.
Processus :
1 Deux modèles sont entraînés séparément sur chaque vue avec les
données étiquetées.
2 Chaque modèle prédit des labels pour les données non étiquetées.
3 Un modèle sélectionne ses prédictions les plus confiantes et les partage
avec l’autre modèle.
4 L’autre modèle utilise ces nouvelles données pour améliorer son
apprentissage.
5 Le processus est répété plusieurs fois jusqu’à convergence.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Résumé des méthodes d’auto-étiquetage

Méthode Principe Exemple d’application

Self-training Un seul modèle prédit des labels Détection de spam, reconnaissance


sur les données non étiquetées et les d’images
ajoute progressivement aux données
étiquetées.

Co-training Deux modèles apprennent sur diffé- Classification de pages web, analyse
rentes vues des données et échangent multimodale (texte + image)
des labels prédits pour s’améliorer
mutuellement.

Table 2 – Résumé des méthodes d’auto-étiquetage

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Approches basées sur les autoencodeurs et modèles géné
Utilisation de GMM (Gaussian Mixture Model) Auto-étiquetage (Self-training et Co-training)
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Conclusion

Le self-training est une bonne approche lorsqu’on dispose d’un


seul type de données. Le co-training est préférable lorsque les
données ont plusieurs perspectives distinctes. Ces techniques
permettent de réduire la dépendance aux annotations manuelles
tout en améliorant la performance des modèles.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Apprentissage par Renforcement
Utilisation de GMM (Gaussian Mixture Model) Concepts Fondamentaux
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Apprentissage par Renforcement

L’apprentissage par renforcement (Reinforcement Learning, RL)


est un paradigme de l’intelligence artificielle où un agent
apprend à interagir avec un environnement pour maximiser une
récompense cumulative. Contrairement à l’apprentissage
supervisé, il n’a pas besoin d’un ensemble de données étiquetées ;
il découvre la meilleure stratégie d’action par essai-erreur.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Apprentissage par Renforcement
Utilisation de GMM (Gaussian Mixture Model) Concepts Fondamentaux
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Concepts Fondamentaux

L’apprentissage par renforcement repose sur plusieurs concepts


clés :
Agent : Entité qui prend des décisions en fonction de l’état
actuel de l’environnement.
Environnement : Le monde dans lequel l’agent évolue et
interagit.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Apprentissage par Renforcement
Utilisation de GMM (Gaussian Mixture Model) Concepts Fondamentaux
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

États, Actions et Récompenses

État (s) : Une représentation de la situation actuelle de


l’agent dans l’environnement.
Action (a) : Un choix fait par l’agent à partir d’un ensemble
d’actions possibles.
Récompense (r) : Un signal de rétroaction numérique reçu
après une action, indiquant si elle était bénéfique ou non.

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Apprentissage par Renforcement
Utilisation de GMM (Gaussian Mixture Model) Concepts Fondamentaux
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Politique

Décrit la stratégie suivie par l’agent pour sélectionner une


action en fonction d’un état. Peut être déterministe (toujours
choisir la même action pour un état donné) ou stochastique
(choisir une action avec une certaine probabilité).

Pr. OMARI Kamal Machine learning


Introduction
Apprentissage Semi-Supervisé
Utilisation de K-Means Apprentissage par Renforcement
Utilisation de GMM (Gaussian Mixture Model) Concepts Fondamentaux
Approches basées sur les autoencodeurs et modèles génératifs
Apprentissage par Renforcement

Fonction de Valeur et Fonction de Récompense

Fonction de Valeur V(s) : Estimation de la récompense


cumulée attendue à partir d’un état donné.
Fonction de Valeur d’Action Q(s, a) : Estimation de la
récompense cumulée en prenant une action spécifique dans
un état donné.

Pr. OMARI Kamal Machine learning

Vous aimerez peut-être aussi