0% ont trouvé ce document utile (0 vote)
39 vues54 pages

Semi Supervised Learning

Le document traite de l'apprentissage semi-supervisé, une méthode qui combine des données étiquetées et non étiquetées pour améliorer les performances des modèles d'apprentissage automatique. Il présente divers algorithmes tels que le self-training, co-training, et les méthodes basées sur EM et graphes, ainsi que des applications pratiques, notamment sur le dataset MNIST. La problématique centrale est l'exploitation efficace des données non étiquetées pour surmonter les défis liés à l'étiquetage manuel coûteux.

Transféré par

Hicham Elhachami
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
39 vues54 pages

Semi Supervised Learning

Le document traite de l'apprentissage semi-supervisé, une méthode qui combine des données étiquetées et non étiquetées pour améliorer les performances des modèles d'apprentissage automatique. Il présente divers algorithmes tels que le self-training, co-training, et les méthodes basées sur EM et graphes, ainsi que des applications pratiques, notamment sur le dataset MNIST. La problématique centrale est l'exploitation efficace des données non étiquetées pour surmonter les défis liés à l'étiquetage manuel coûteux.

Transféré par

Hicham Elhachami
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Apprentissage Semi-Supervisé : Théorie et Applications

Abderrahim EL AMRANI

Institut National de Statistique et d’Économie Appliquée

2 novembre 2025

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 1 / 54


Plan
1 Introduction et Problématique
2 Pourquoi l’Apprentissage Semi-Supervisé ?
3 Algorithmes d’Apprentissage Semi-Supervisé
Self-Training
Co-Training
Méthodes EM-Based
Méthodes Graph-Based
Pseudo-Labeling
4 Application Pratique : Self-Training sur MNIST
5 Comparaison des Algorithmes
6 Théorie et Garanties
7 Extensions Modernes
8 Applications Pratiques
9 Conclusion

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 2 / 54


Contexte : Les Paradigmes d’Apprentissage

Apprentissage Supervisé : Dispose d’un ensemble étiqueté


DL = {(xi , yi )}ni=1
Apprentissage Non-Supervisé : Données sans étiquettes DU = {xi }m
i=1
Apprentissage Semi-Supervisé : Combine les deux

D = D L ∪ DU

où |DL | ≪ |DU |

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 3 / 54


Problématique Principale

Le Défi de l’Étiquetage
L’étiquetage manuel est coûteux en temps et ressources
Nécessite souvent des experts du domaine
Données non-étiquetées facilement disponibles

Question Centrale
Comment exploiter efficacement les données non-étiquetées pour améliorer les
performances d’un modèle entraı̂né avec peu de données étiquetées ?

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 4 / 54


Formalisation Mathématique

Soit X l’espace des caractéristiques et Y l’espace des labels.

Objectif : Apprendre une fonction f : X → Y qui minimise le risque :

R(f ) = E(x,y )∼P(X ,Y ) [ℓ(f (x), y )]


avec accès limité à P(X , Y ) mais accès étendu à P(X ).

Hypothèse clé : La distribution marginale P(X ) contient de l’information sur


P(Y |X ).

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 5 / 54


Motivation 1 : Réduction des Coûts

Coût d’étiquetage : Clabel ≫ Ccollect


Exemple médical : Diagnostic par expert vs acquisition d’images
Exemple NLP : Annotation manuelle vs crawling web

Ratio typique
|DU |
∈ [10, 1000]
|DL |

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 6 / 54


Motivation 2 : Amélioration des Performances

Theorem (Borne de généralisation semi-supervisée)


Sous certaines hypothèses de smoothness, l’erreur de généralisation peut être
bornée par :
ϵSSL ≤ ϵSL − α · ϕ(|DU |)
où α > 0 et ϕ est une fonction croissante.

Les données non-étiquetées peuvent :


Améliorer l’estimation de la géométrie des données
Régulariser le modèle
Découvrir la structure sous-jacente

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 7 / 54


Hypothèses Fondamentales

1 Hypothèse de smoothness :

x1 ≈ x2 ⇒ P(y |x1 ) ≈ P(y |x2 )

2 Hypothèse de cluster : Les points dans le même cluster tendent à avoir le


même label
3 Hypothèse de manifold : Les données de haute dimension résident sur une
variété de basse dimension :

X ⊂ Rd , mais X ≈ M où dim(M) ≪ d

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 8 / 54


Panorama des Algorithmes

Self-Training : Auto-étiquetage itératif


Co-Training : Apprentissage avec vues multiples
Méthodes à base d’EM : Expectation-Maximization
Méthodes à base de graphes : Propagation de labels
Pseudo-Labeling : Étiquetage pseudo avec seuillage
Méthodes de consistance : Régularisation semi-supervisée

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 9 / 54


Self-Training : Principe

Algorithm 1 Self-Training
1: Entraı̂ner f0 sur DL
2: for t = 1 to T do
3: Prédire sur DU : ŷi = ft−1 (xi ) pour xi ∈ DU
4: Calculer la confiance : ci = maxy P(y |xi )
5: Sélectionner : Dconf = {(xi , ŷi ) : ci > τ }
6: DL ← DL ∪ Dconf
7: DU ← DU \ Dconf
8: Ré-entraı̂ner ft sur DL
9: end for

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 10 / 54


Self-Training : Formulation

La fonction de confiance peut être définie comme :

c(x) = max Pθ (y |x)


y ∈Y

Le critère de sélection :

St = {x ∈ DU : c(x) ≥ τt }

La fonction objectif devient :


X X
Ltotal = ℓ(fθ (x), y ) + λ ℓ(fθ (x), arg max Pθ (y |x))
y
(x,y )∈DL x∈St

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 11 / 54


Co-Training : Principe

Idée : Utiliser deux vues complémentaires des données

x = [x (1) , x (2) ]
où x (1) et x (2) sont suffisamment informatives et conditionnellement
indépendantes :

P(y |x (1) , x (2) ) = P(y |x (1) ) = P(y |x (2) )


Chaque vue entraı̂ne un classificateur qui étiquette les exemples les plus confiants
pour l’autre vue.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 12 / 54


Co-Training : Algorithme

Algorithm 2 Co-Training
1: Entraı̂ner f (1) sur DL avec vue x (1)
2: Entraı̂ner f (2) sur DL avec vue x (2)
3: for t = 1 to T do
4: f (1) prédit sur DU : obtient P (1) (top-k confiants)
5: f (2) prédit sur DU : obtient P (2) (top-k confiants)
6: DL ← DL ∪ P (1) ∪ P (2)
7: DU ← DU \ (P (1) ∪ P (2) )
8: Ré-entraı̂ner f (1) et f (2)
9: end for

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 13 / 54


EM pour l’Apprentissage Semi-Supervisé

Traiter les labels manquants comme variables latentes.

E-Step : Calculer l’espérance du log-vraisemblance complète


X X X
Q(θ|θ(t) ) = log Pθ (x, y ) + Pθ(t) (y |x) log Pθ (x, y )
(x,y )∈DL x∈DU y ∈Y

M-Step : Maximiser par rapport à θ

θ(t+1) = arg max Q(θ|θ(t) )


θ

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 14 / 54


EM : Gaussian Mixture Models

Pour un GMM avec K composantes :


K
X
P(x) = πk N (x|µk , Σk )
k=1

E-Step : Calculer les responsabilités

πk N (xi |µk , Σk )
γik = PK
j=1 πj N (xi |µj , Σj )

M-Step : Mettre à jour les paramètres


P
γik xi 1X
µk = Pi , πk = γik
i γik n
i

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 15 / 54


Label Propagation : Construction du Graphe

Construire un graphe G = (V , E , W ) où :


V = DL ∪ DU (nœuds)
Wij : poids d’arête basé sur la similarité

∥xi − xj ∥2
 
Wij = exp −
2σ 2
ou k-NN : Wij = 1 si xj ∈ kNN(xi ), sinon 0.

Matrice de transition :
Wij
Pij = P
k Wik

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 16 / 54


Label Propagation : Algorithme

Initialiser : YL (labels connus), YU (à déterminer)

Itérer jusqu’à convergence :


Y (t+1) = PY (t)
avec contrainte : YL reste fixe.

Solution fermée :
YU = (I − PUU )−1 PUL YL
où PUU et PUL sont des blocs de P.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 17 / 54


Label Spreading

Variante avec terme de régularisation :


X X
min Wij ∥Fi − Fj ∥2 + µ ∥Fi − Yi ∥2
F
i,j i∈DL

Solution itérative :
F (t+1) = αPF (t) + (1 − α)Y
où α ∈ [0, 1] contrôle l’équilibre entre propagation et labels initiaux.

Formulation matricielle :

F = (I − αP)−1 (1 − α)Y

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 18 / 54


Pseudo-Labeling : Principe

Approche simple mais efficace :

Fonction objectif combinée :


1 X λ X
L= ℓ(fθ (x), y ) + ℓ(fθ (x), ŷ )
|DL | |DU |
(x,y )∈DL x∈DU

où ŷ = arg maxy fθ (x) est le pseudo-label.

Variante avec seuillage :


X
LU = ⊮[max Pθ (y |x) > τ ] · ℓ(fθ (x), ŷ )
y
x∈DU

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 19 / 54


Temporal Ensembling

Maintenir une moyenne mobile des prédictions :


(t) (t−1) (t)
Zi = αZi + (1 − α)zi
(t) (t)
où zi = fθ (xi ) est la prédiction courante.

Loss de consistance :
Lcons = ∥fθ (x) − Z ∥2
Loss totale :
L = Lsup + w (t)Lcons
où w (t) augmente pendant l’entraı̂nement (ramp-up).

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 20 / 54


Configuration Expérimentale

Dataset : MNIST (chiffres manuscrits)


|DL | = 1000 exemples étiquetés (100 par classe)
|DU | = 10000 exemples non-étiquetés
|Dtest | = 10000 exemples de test

Modèle : Réseau de neurones convolutif (CNN)

fθ : R28×28 → R10

Architecture : Conv(32) → Pool → Conv(64) → Pool → FC(128) → FC(10)

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 21 / 54


Architecture du Modèle

Détails des couches :

h1 = ReLU(Conv3×3 (x; W1 ))
h2 = MaxPool2×2 (h1 )
h3 = ReLU(Conv3×3 (h2 ; W2 ))
h4 = MaxPool2×2 (h3 )
h5 = ReLU(W3 · Flatten(h4 ) + b3 )
ŷ = Softmax(W4 · h5 + b4 )

Paramètres : θ = {W1 , W2 , W3 , W4 , b3 , b4 }
Nombre total : ≈ 1.2M paramètres

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 22 / 54


Fonction de Perte

Cross-Entropy pour données étiquetées :


10
1 X X
Lsup (θ) = − yk log Pθ (k|x)
|DL |
(x,y )∈DL k=1

Avec régularisation L2 :
γ
Ltotal = Lsup + ∥θ∥2
2
où γ = 10−4 est le coefficient de régularisation.

Optimiseur : Adam avec β1 = 0.9, β2 = 0.999

lr = 10−3

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 23 / 54


Résultats : Apprentissage Supervisé Seul

Entraı̂nement sur DL uniquement (1000 exemples)

Époque Loss Train Accuracy Test


10 0.423 92.3%
20 0.187 94.8%
30 0.098 95.6%
40 0.065 95.9%
50 0.048 96.1%

Performance finale : 96.1% ± 0.3%

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 24 / 54


Analyse : Matrice de Confusion (Supervisé)

Erreurs principales :
Confusion 4 9 : 18 erreurs
Confusion 3 5 : 12 erreurs
Confusion 7 2 : 10 erreurs

Précision par classe :


TPk
Pk =
TPk + FPk
Classes difficiles : 5 (94.2%), 8 (94.8%)
Classes faciles : 0 (98.1%), 1 (98.5%)

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 25 / 54


Self-Training : Paramètres

Configuration :
Seuil de confiance initial : τ0 = 0.95
Décroissance du seuil : τt = τ0 · 0.95t
Nombre d’exemples ajoutés par itération : k = 200
Nombre d’itérations : T = 10

Critère de sélection :
x ∗ = arg max Pθ (ŷ |x)
x∈DU

où Pθ (ŷ |x) > τt

Ré-entraı̂nement : 20 époques après chaque ajout

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 26 / 54


Résultats : Self-Training Itératif

Itération |DL | Acc. Test Gain


0 (baseline) 1000 96.1% -
1 1200 96.8% +0.7%
2 1400 97.2% +0.4%
3 1600 97.6% +0.4%
4 1800 97.9% +0.3%
5 2000 98.1% +0.2%
6 2200 98.3% +0.2%
7 2400 98.4% +0.1%
8 2600 98.5% +0.1%
9 2800 98.5% +0.0%
10 3000 98.5% +0.0%

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 27 / 54


Évolution de la Confiance

Distribution de la confiance moyenne :


1 X
c̄t = (t)
max Pθ (y |x)
|DU | y
(t)
x∈DU

Itération c̄t σ(ct )


1 0.976 0.042
3 0.968 0.051
5 0.952 0.063
7 0.931 0.078
10 0.894 0.095
La confiance diminue : exemples faciles étiquetés en premier.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 28 / 54


Comparaison Détaillée
Performance finale :
Supervisé seul
Accuracy = 96.1% ± 0.3%
F1-Score macro = 96.0%

Self-Training (Semi-Supervisé)
Accuracy = 98.5% ± 0.2%
F1-Score macro = 98.4%

Amélioration relative :
98.5 − 96.1 2.4
= = 61.5%
100 − 96.1 3.9
de réduction de l’erreur !
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 29 / 54
Analyse des Pseudo-Labels

Qualité des pseudo-labels (validation sur labels réels) :

Itération Précision des pseudo-labels


1 99.2%
2 98.8%
3 98.3%
5 97.6%
7 96.5%
10 94.8%

Même avec ∼ 5% d’erreurs, le modèle bénéficie de l’ajout de données !

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 30 / 54


Impact sur les Classes Difficiles

Amélioration par classe :


Classe Supervisé Semi-Sup. Gain
0 98.1% 98.9% +0.8%
1 98.5% 99.1% +0.6%
2 95.8% 97.9% +2.1%
3 95.2% 97.8% +2.6%
4 95.9% 98.2% +2.3%
5 94.2% 97.5% +3.3%
6 96.7% 98.6% +1.9%
7 96.3% 98.3% +2.0%
8 94.8% 97.1% +2.3%
9 95.4% 97.6% +2.2%

Classes difficiles bénéficient le plus !

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 31 / 54


Courbes d’Apprentissage

Évolution de l’erreur de test :

ϵtest (t) = 1 − Acctest (t)

Supervisé : converge vers ϵ ≈ 0.039 (3.9%)


Self-Training : continue à décroı̂tre jusqu’à ϵ ≈ 0.015 (1.5%)

Réduction de l’erreur :

∆ϵ = 0.039 − 0.015 = 0.024 = 2.4%

Facteur d’amélioration :
ϵsup 3.9
= ≈ 2.6×
ϵsemi 1.5

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 32 / 54


Interprétation Géométrique

Les données non-étiquetées aident à :

1. Affiner la frontière de décision

B = {x : Pθ (y1 |x) = Pθ (y2 |x)}

2. Régulariser dans les zones de faible densité

min Ex∼P(X ) [∥∇x log Pθ (y |x)∥2 ]


θ

3. Exploiter la structure manifold

dM (x1 , x2 ) ≤ deucl (x1 , x2 )

où dM est la distance géodésique sur la variété.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 33 / 54


Analyse : Variance des Prédictions

Stabilité du modèle mesurée par :


Var(fθ ) = Ex∼P(X ) [Vary ∼Pθ (y |x) [y ]]

Méthode Variance moyenne


Supervisé 0.187
Self-Training 0.124

Réduction de 33.7% de la variance → prédictions plus confiantes et stables.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 34 / 54


Coût Computationnel

Temps d’entraı̂nement :
Supervisé (50 époques) : ≈ 8 minutes
Self-Training (10 itérations × 20 époques) : ≈ 42 minutes
Tempssemi ∆Acc 2.4%
Ratio coût/bénéfice : Tempssup = 5.25, Temps = 42min = 0.057%/min

Le surcoût est compensé par l’amélioration significative, surtout comparé au coût


d’étiquetage manuel !

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 35 / 54


Complexité Algorithmique

Algorithme Complexité par iter. Mémoire


Self-Training O(nL + nU ) O(nL + nU )
Co-Training O(2(nL + nU )) O(2(nL + nU ))
EM-based O(K · nU ) O(K · d)
Graph-based O(n2 ) ou O(n log n) O(n2 )
Pseudo-Label O(nL + nU ) O(nL + nU )

où n = nL + nU , K = nb. clusters, d = dimension.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 36 / 54


Avantages et Limitations

Méthode Avantages Limitations


Self-Training Simple, flexible Propagation d’erreurs
Co-Training Robuste si vues indép. Nécessite 2 vues
EM-based Cadre probabiliste rigoureux Suppose modèle génératif
Graph-based Exploite structure locale O(n2 ) mémoire
Pseudo-Label Très simple, efficace Sensible au seuil

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 37 / 54


Quand Utiliser Quelle Méthode ?

Self-Training / Pseudo-Label :
Modèle produit des probabilités fiables
Données faciles à séparer
Co-Training :
Vues multiples naturelles (texte + images, audio + vidéo)
Vues conditionnellement indépendantes
Graph-based :
Données structurées (réseaux sociaux, graphes)
Hypothèse de cluster forte
Dataset de taille modérée (n < 105 )

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 38 / 54


Borne PAC Semi-Supervisée

Theorem (Borne de généralisation)


Avec probabilité 1 − δ, pour
qtoute fonction f ∈ F :
R(f ) ≤ R̂L (f ) + Rn (F) + log(1/δ)
2nL où Rn est la complexité de Rademacher.

Les données non-étiquetées peuvent réduire Rn (F) si elles aident à sélectionner


une classe d’hypothèses plus restreinte.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 39 / 54


Condition de Régularité

[Smoothness le long de la variété] Pour tout x1 , x2 sur la variété M :


∥f (x1 ) − f (x2 )∥ ≤ L · dM (x1 , x2 )

Si M a dimension intrinsèque dM ≪ d, alors : neff = O ndM /d
Les données non-étiquetées aident à estimer M.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 40 / 54


Théorème de Convergence EM

Theorem (Monotonie de l’EM)


Soit θ(t) la séquence générée par EM. Alors : L(θ(t+1) ) ≥ L(θ(t) ) où L(θ) est la
log-vraisemblance marginale.

Preuve intuitive :
L(θ(t+1) ) ≥ Q(θ(t+1) |θ(t) ) − H(p) ≥ Q(θ(t) |θ(t) ) − H(p) = L(θ(t) )

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 41 / 54


Garanties pour Label Propagation

Theorem (Convergence de Label Propagation)


Si le graphe est connecté et P est stochastique, alors l’itération Y (t+1) = PY (t)

P une distribution2 stationnaire Y qui minimise :
converge vers
1
E (Y ) = 2 i,j Wij ∥Yi − Yj ∥

C’est une régularisation de Laplace sur le graphe : E (Y ) = Y T LY où L = D − W


est le Laplacien du graphe.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 42 / 54


Deep Semi-Supervised Learning

Méthodes récentes combinant SSL avec Deep Learning :

1. MixMatch (2019) : L = LX + λu LU où LU utilise le mixup et l’augmentation


de données.
2. FixMatch (2020) : LU = |D1U | x∈DU ⊮[max(q) ≥ τ ] · H(q̂, p) où q est la
P

prédiction sur version faiblement augmentée, p sur version fortement augmentée.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 43 / 54


Consistency Regularization

Principe : Le modèle doit être robuste aux perturbations :


Lcons = Ex,ξ,ξ′ [∥fθ (x + ξ) − fθ (x + ξ ′ )∥2 ]

Variantes :
Π-Model : Deux passes avec dropout différent
Temporal Ensembling : Moyenne mobile des prédictions
Mean Teacher : EMA des poids du modèle θt′ = αθt−1

+ (1 − α)θt

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 44 / 54


Virtual Adversarial Training (VAT)

Régularisation basée sur les exemples adverses :


LVAT (x) = DKL (Pθ (y |x)∥Pθ (y |x + radv ))
où radv est la perturbation adversariale :
radv = arg max∥r ∥≤ϵ DKL (Pθ (y |x)∥Pθ (y |x + r ))

Approximation par méthode de la puissance :


radv ≈ ϵ · ∥gg∥2 , g = ∇r DKL (Pθ (y |x)∥Pθ (y |x + r ))|r =ξ
où ξ ∼ N (0, σ 2 I ).

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 45 / 54


Contrastive Learning Semi-Supervisé

SimCLR adapté au SSL :


exp(sim(zi ,zi+ )/τ )
Li = − log P2N ⊮ exp(sim(z ,z
k=1 k̸=i i k )/τ )
où zi = g (h(xi )), h est l’encodeur, g la projection.

Pour le SSL, combiner avec loss supervisée : Ltotal = Lsup + λLcontrastive

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 46 / 54


Applications en Traitement d’Images

Classification médicale : Radiographies, IRM


Peu de données annotées par experts
Gain : 5-15% en accuracy
Détection d’objets : Annotation coûteuse
Segmentation sémantique : Annotation pixel-level très coûteuse
Reconnaissance faciale : Millions de visages non-étiquetés

Exemple concret : Détection de pneumonie


1,000 radiographies annotées + 50,000 non-annotées
Self-Training : 92% → 96% accuracy

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 47 / 54


Applications en NLP

Classification de textes : Sentiment, thèmes


Named Entity Recognition (NER) : Co-Training avec contexte
gauche/droit
T T
−→ y ′ −−Y−→X
Machine Translation : Back-translation x −−X−→Y −→ x ′
Language Modeling : GPT, BERT pré-entraı̂nés sur données non-étiquetées

Exemple : Classification de sentiments


5,000 avis étiquetés + 500,000 non-étiquetés
Pseudo-Labeling : 88% → 93% F1-Score

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 48 / 54


Applications en Bioinformatique

Prédiction de structure protéique


Peu de structures 3D connues
Beaucoup de séquences disponibles
Classification de gènes : Graph-based SSL sur réseaux d’interactions
Analyse de séquences ADN : Motifs fonctionnels
Drug Discovery : Prédiction d’activité moléculaire

Impact : AlphaFold utilise des principes semi-supervisés pour exploiter les données
évolutives non-étiquetées.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 49 / 54


Résumé des Points Clés

1 L’apprentissage semi-supervisé exploite les données non-étiquetées pour


améliorer les performances
2 Repose sur des hypothèses géométriques : smoothness, cluster, manifold
3 Plusieurs familles d’algorithmes :
Wrapper methods (Self-Training, Co-Training)
Probabilistic methods (EM)
Graph-based methods
Modern deep learning methods
4 Gains significatifs avec peu de données étiquetées
5 Applications dans tous les domaines du ML

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 50 / 54


Défis et Directions Futures

Défis actuels :
Sensibilité au bruit dans les pseudo-labels
Choix des hyperparamètres (seuils, λ, ...)
Garanties théoriques encore limitées
Scalabilité pour très grandes données

Directions futures :
SSL avec apprentissage par renforcement
SSL pour modèles de fondation (LLMs)
SSL avec données multi-modales
SSL robuste aux distributions changeantes

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 51 / 54


Recommandations Pratiques

Pour implémenter du SSL :


1 Commencer simple : Self-Training ou Pseudo-Labeling
2 Valider les hypothèses : Vérifier smoothness, clusters
3 Expérimenter les seuils : τ ∈ [0.8, 0.99]
4 Surveiller la qualité des pseudo-labels
5 Combiner avec régularisation : L2, dropout, data augmentation
6 Utiliser validation set pour éviter le sur-apprentissage

Règle d’or : Si |DU |/|DL | > 10, SSL vaut la peine !

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 52 / 54


Références Clés

Chapelle, O., Schölkopf, B., & Zien, A. (2006). Semi-supervised learning. MIT press.
Blum, A., & Mitchell, T. (1998). Combining labeled and unlabeled data with co-training. COLT.
Zhu, X., & Ghahramani, Z. (2002). Learning from labeled and unlabeled data with label propagation.
CMU-CALD.
Tarvainen, A., & Valpola, H. (2017). Mean teachers are better role models. NeurIPS.
Sohn, K., et al. (2020). FixMatch : Simplifying semi-supervised learning with consistency and
confidence. NeurIPS.
Berthelot, D., et al. (2019). MixMatch : A holistic approach to semi-supervised learning. NeurIPS.
Miyato, T., et al. (2018). Virtual adversarial training. TPAMI.

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 53 / 54


Merci pour votre attention !
Questions ?

Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 54 / 54

Vous aimerez peut-être aussi