Apprentissage Semi-Supervisé : Théorie et Applications
Abderrahim EL AMRANI
Institut National de Statistique et d’Économie Appliquée
2 novembre 2025
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 1 / 54
Plan
1 Introduction et Problématique
2 Pourquoi l’Apprentissage Semi-Supervisé ?
3 Algorithmes d’Apprentissage Semi-Supervisé
Self-Training
Co-Training
Méthodes EM-Based
Méthodes Graph-Based
Pseudo-Labeling
4 Application Pratique : Self-Training sur MNIST
5 Comparaison des Algorithmes
6 Théorie et Garanties
7 Extensions Modernes
8 Applications Pratiques
9 Conclusion
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 2 / 54
Contexte : Les Paradigmes d’Apprentissage
Apprentissage Supervisé : Dispose d’un ensemble étiqueté
DL = {(xi , yi )}ni=1
Apprentissage Non-Supervisé : Données sans étiquettes DU = {xi }m
i=1
Apprentissage Semi-Supervisé : Combine les deux
D = D L ∪ DU
où |DL | ≪ |DU |
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 3 / 54
Problématique Principale
Le Défi de l’Étiquetage
L’étiquetage manuel est coûteux en temps et ressources
Nécessite souvent des experts du domaine
Données non-étiquetées facilement disponibles
Question Centrale
Comment exploiter efficacement les données non-étiquetées pour améliorer les
performances d’un modèle entraı̂né avec peu de données étiquetées ?
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 4 / 54
Formalisation Mathématique
Soit X l’espace des caractéristiques et Y l’espace des labels.
Objectif : Apprendre une fonction f : X → Y qui minimise le risque :
R(f ) = E(x,y )∼P(X ,Y ) [ℓ(f (x), y )]
avec accès limité à P(X , Y ) mais accès étendu à P(X ).
Hypothèse clé : La distribution marginale P(X ) contient de l’information sur
P(Y |X ).
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 5 / 54
Motivation 1 : Réduction des Coûts
Coût d’étiquetage : Clabel ≫ Ccollect
Exemple médical : Diagnostic par expert vs acquisition d’images
Exemple NLP : Annotation manuelle vs crawling web
Ratio typique
|DU |
∈ [10, 1000]
|DL |
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 6 / 54
Motivation 2 : Amélioration des Performances
Theorem (Borne de généralisation semi-supervisée)
Sous certaines hypothèses de smoothness, l’erreur de généralisation peut être
bornée par :
ϵSSL ≤ ϵSL − α · ϕ(|DU |)
où α > 0 et ϕ est une fonction croissante.
Les données non-étiquetées peuvent :
Améliorer l’estimation de la géométrie des données
Régulariser le modèle
Découvrir la structure sous-jacente
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 7 / 54
Hypothèses Fondamentales
1 Hypothèse de smoothness :
x1 ≈ x2 ⇒ P(y |x1 ) ≈ P(y |x2 )
2 Hypothèse de cluster : Les points dans le même cluster tendent à avoir le
même label
3 Hypothèse de manifold : Les données de haute dimension résident sur une
variété de basse dimension :
X ⊂ Rd , mais X ≈ M où dim(M) ≪ d
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 8 / 54
Panorama des Algorithmes
Self-Training : Auto-étiquetage itératif
Co-Training : Apprentissage avec vues multiples
Méthodes à base d’EM : Expectation-Maximization
Méthodes à base de graphes : Propagation de labels
Pseudo-Labeling : Étiquetage pseudo avec seuillage
Méthodes de consistance : Régularisation semi-supervisée
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 9 / 54
Self-Training : Principe
Algorithm 1 Self-Training
1: Entraı̂ner f0 sur DL
2: for t = 1 to T do
3: Prédire sur DU : ŷi = ft−1 (xi ) pour xi ∈ DU
4: Calculer la confiance : ci = maxy P(y |xi )
5: Sélectionner : Dconf = {(xi , ŷi ) : ci > τ }
6: DL ← DL ∪ Dconf
7: DU ← DU \ Dconf
8: Ré-entraı̂ner ft sur DL
9: end for
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 10 / 54
Self-Training : Formulation
La fonction de confiance peut être définie comme :
c(x) = max Pθ (y |x)
y ∈Y
Le critère de sélection :
St = {x ∈ DU : c(x) ≥ τt }
La fonction objectif devient :
X X
Ltotal = ℓ(fθ (x), y ) + λ ℓ(fθ (x), arg max Pθ (y |x))
y
(x,y )∈DL x∈St
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 11 / 54
Co-Training : Principe
Idée : Utiliser deux vues complémentaires des données
x = [x (1) , x (2) ]
où x (1) et x (2) sont suffisamment informatives et conditionnellement
indépendantes :
P(y |x (1) , x (2) ) = P(y |x (1) ) = P(y |x (2) )
Chaque vue entraı̂ne un classificateur qui étiquette les exemples les plus confiants
pour l’autre vue.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 12 / 54
Co-Training : Algorithme
Algorithm 2 Co-Training
1: Entraı̂ner f (1) sur DL avec vue x (1)
2: Entraı̂ner f (2) sur DL avec vue x (2)
3: for t = 1 to T do
4: f (1) prédit sur DU : obtient P (1) (top-k confiants)
5: f (2) prédit sur DU : obtient P (2) (top-k confiants)
6: DL ← DL ∪ P (1) ∪ P (2)
7: DU ← DU \ (P (1) ∪ P (2) )
8: Ré-entraı̂ner f (1) et f (2)
9: end for
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 13 / 54
EM pour l’Apprentissage Semi-Supervisé
Traiter les labels manquants comme variables latentes.
E-Step : Calculer l’espérance du log-vraisemblance complète
X X X
Q(θ|θ(t) ) = log Pθ (x, y ) + Pθ(t) (y |x) log Pθ (x, y )
(x,y )∈DL x∈DU y ∈Y
M-Step : Maximiser par rapport à θ
θ(t+1) = arg max Q(θ|θ(t) )
θ
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 14 / 54
EM : Gaussian Mixture Models
Pour un GMM avec K composantes :
K
X
P(x) = πk N (x|µk , Σk )
k=1
E-Step : Calculer les responsabilités
πk N (xi |µk , Σk )
γik = PK
j=1 πj N (xi |µj , Σj )
M-Step : Mettre à jour les paramètres
P
γik xi 1X
µk = Pi , πk = γik
i γik n
i
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 15 / 54
Label Propagation : Construction du Graphe
Construire un graphe G = (V , E , W ) où :
V = DL ∪ DU (nœuds)
Wij : poids d’arête basé sur la similarité
∥xi − xj ∥2
Wij = exp −
2σ 2
ou k-NN : Wij = 1 si xj ∈ kNN(xi ), sinon 0.
Matrice de transition :
Wij
Pij = P
k Wik
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 16 / 54
Label Propagation : Algorithme
Initialiser : YL (labels connus), YU (à déterminer)
Itérer jusqu’à convergence :
Y (t+1) = PY (t)
avec contrainte : YL reste fixe.
Solution fermée :
YU = (I − PUU )−1 PUL YL
où PUU et PUL sont des blocs de P.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 17 / 54
Label Spreading
Variante avec terme de régularisation :
X X
min Wij ∥Fi − Fj ∥2 + µ ∥Fi − Yi ∥2
F
i,j i∈DL
Solution itérative :
F (t+1) = αPF (t) + (1 − α)Y
où α ∈ [0, 1] contrôle l’équilibre entre propagation et labels initiaux.
Formulation matricielle :
F = (I − αP)−1 (1 − α)Y
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 18 / 54
Pseudo-Labeling : Principe
Approche simple mais efficace :
Fonction objectif combinée :
1 X λ X
L= ℓ(fθ (x), y ) + ℓ(fθ (x), ŷ )
|DL | |DU |
(x,y )∈DL x∈DU
où ŷ = arg maxy fθ (x) est le pseudo-label.
Variante avec seuillage :
X
LU = ⊮[max Pθ (y |x) > τ ] · ℓ(fθ (x), ŷ )
y
x∈DU
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 19 / 54
Temporal Ensembling
Maintenir une moyenne mobile des prédictions :
(t) (t−1) (t)
Zi = αZi + (1 − α)zi
(t) (t)
où zi = fθ (xi ) est la prédiction courante.
Loss de consistance :
Lcons = ∥fθ (x) − Z ∥2
Loss totale :
L = Lsup + w (t)Lcons
où w (t) augmente pendant l’entraı̂nement (ramp-up).
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 20 / 54
Configuration Expérimentale
Dataset : MNIST (chiffres manuscrits)
|DL | = 1000 exemples étiquetés (100 par classe)
|DU | = 10000 exemples non-étiquetés
|Dtest | = 10000 exemples de test
Modèle : Réseau de neurones convolutif (CNN)
fθ : R28×28 → R10
Architecture : Conv(32) → Pool → Conv(64) → Pool → FC(128) → FC(10)
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 21 / 54
Architecture du Modèle
Détails des couches :
h1 = ReLU(Conv3×3 (x; W1 ))
h2 = MaxPool2×2 (h1 )
h3 = ReLU(Conv3×3 (h2 ; W2 ))
h4 = MaxPool2×2 (h3 )
h5 = ReLU(W3 · Flatten(h4 ) + b3 )
ŷ = Softmax(W4 · h5 + b4 )
Paramètres : θ = {W1 , W2 , W3 , W4 , b3 , b4 }
Nombre total : ≈ 1.2M paramètres
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 22 / 54
Fonction de Perte
Cross-Entropy pour données étiquetées :
10
1 X X
Lsup (θ) = − yk log Pθ (k|x)
|DL |
(x,y )∈DL k=1
Avec régularisation L2 :
γ
Ltotal = Lsup + ∥θ∥2
2
où γ = 10−4 est le coefficient de régularisation.
Optimiseur : Adam avec β1 = 0.9, β2 = 0.999
lr = 10−3
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 23 / 54
Résultats : Apprentissage Supervisé Seul
Entraı̂nement sur DL uniquement (1000 exemples)
Époque Loss Train Accuracy Test
10 0.423 92.3%
20 0.187 94.8%
30 0.098 95.6%
40 0.065 95.9%
50 0.048 96.1%
Performance finale : 96.1% ± 0.3%
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 24 / 54
Analyse : Matrice de Confusion (Supervisé)
Erreurs principales :
Confusion 4 9 : 18 erreurs
Confusion 3 5 : 12 erreurs
Confusion 7 2 : 10 erreurs
Précision par classe :
TPk
Pk =
TPk + FPk
Classes difficiles : 5 (94.2%), 8 (94.8%)
Classes faciles : 0 (98.1%), 1 (98.5%)
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 25 / 54
Self-Training : Paramètres
Configuration :
Seuil de confiance initial : τ0 = 0.95
Décroissance du seuil : τt = τ0 · 0.95t
Nombre d’exemples ajoutés par itération : k = 200
Nombre d’itérations : T = 10
Critère de sélection :
x ∗ = arg max Pθ (ŷ |x)
x∈DU
où Pθ (ŷ |x) > τt
Ré-entraı̂nement : 20 époques après chaque ajout
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 26 / 54
Résultats : Self-Training Itératif
Itération |DL | Acc. Test Gain
0 (baseline) 1000 96.1% -
1 1200 96.8% +0.7%
2 1400 97.2% +0.4%
3 1600 97.6% +0.4%
4 1800 97.9% +0.3%
5 2000 98.1% +0.2%
6 2200 98.3% +0.2%
7 2400 98.4% +0.1%
8 2600 98.5% +0.1%
9 2800 98.5% +0.0%
10 3000 98.5% +0.0%
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 27 / 54
Évolution de la Confiance
Distribution de la confiance moyenne :
1 X
c̄t = (t)
max Pθ (y |x)
|DU | y
(t)
x∈DU
Itération c̄t σ(ct )
1 0.976 0.042
3 0.968 0.051
5 0.952 0.063
7 0.931 0.078
10 0.894 0.095
La confiance diminue : exemples faciles étiquetés en premier.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 28 / 54
Comparaison Détaillée
Performance finale :
Supervisé seul
Accuracy = 96.1% ± 0.3%
F1-Score macro = 96.0%
Self-Training (Semi-Supervisé)
Accuracy = 98.5% ± 0.2%
F1-Score macro = 98.4%
Amélioration relative :
98.5 − 96.1 2.4
= = 61.5%
100 − 96.1 3.9
de réduction de l’erreur !
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 29 / 54
Analyse des Pseudo-Labels
Qualité des pseudo-labels (validation sur labels réels) :
Itération Précision des pseudo-labels
1 99.2%
2 98.8%
3 98.3%
5 97.6%
7 96.5%
10 94.8%
Même avec ∼ 5% d’erreurs, le modèle bénéficie de l’ajout de données !
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 30 / 54
Impact sur les Classes Difficiles
Amélioration par classe :
Classe Supervisé Semi-Sup. Gain
0 98.1% 98.9% +0.8%
1 98.5% 99.1% +0.6%
2 95.8% 97.9% +2.1%
3 95.2% 97.8% +2.6%
4 95.9% 98.2% +2.3%
5 94.2% 97.5% +3.3%
6 96.7% 98.6% +1.9%
7 96.3% 98.3% +2.0%
8 94.8% 97.1% +2.3%
9 95.4% 97.6% +2.2%
Classes difficiles bénéficient le plus !
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 31 / 54
Courbes d’Apprentissage
Évolution de l’erreur de test :
ϵtest (t) = 1 − Acctest (t)
Supervisé : converge vers ϵ ≈ 0.039 (3.9%)
Self-Training : continue à décroı̂tre jusqu’à ϵ ≈ 0.015 (1.5%)
Réduction de l’erreur :
∆ϵ = 0.039 − 0.015 = 0.024 = 2.4%
Facteur d’amélioration :
ϵsup 3.9
= ≈ 2.6×
ϵsemi 1.5
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 32 / 54
Interprétation Géométrique
Les données non-étiquetées aident à :
1. Affiner la frontière de décision
B = {x : Pθ (y1 |x) = Pθ (y2 |x)}
2. Régulariser dans les zones de faible densité
min Ex∼P(X ) [∥∇x log Pθ (y |x)∥2 ]
θ
3. Exploiter la structure manifold
dM (x1 , x2 ) ≤ deucl (x1 , x2 )
où dM est la distance géodésique sur la variété.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 33 / 54
Analyse : Variance des Prédictions
Stabilité du modèle mesurée par :
Var(fθ ) = Ex∼P(X ) [Vary ∼Pθ (y |x) [y ]]
Méthode Variance moyenne
Supervisé 0.187
Self-Training 0.124
Réduction de 33.7% de la variance → prédictions plus confiantes et stables.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 34 / 54
Coût Computationnel
Temps d’entraı̂nement :
Supervisé (50 époques) : ≈ 8 minutes
Self-Training (10 itérations × 20 époques) : ≈ 42 minutes
Tempssemi ∆Acc 2.4%
Ratio coût/bénéfice : Tempssup = 5.25, Temps = 42min = 0.057%/min
Le surcoût est compensé par l’amélioration significative, surtout comparé au coût
d’étiquetage manuel !
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 35 / 54
Complexité Algorithmique
Algorithme Complexité par iter. Mémoire
Self-Training O(nL + nU ) O(nL + nU )
Co-Training O(2(nL + nU )) O(2(nL + nU ))
EM-based O(K · nU ) O(K · d)
Graph-based O(n2 ) ou O(n log n) O(n2 )
Pseudo-Label O(nL + nU ) O(nL + nU )
où n = nL + nU , K = nb. clusters, d = dimension.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 36 / 54
Avantages et Limitations
Méthode Avantages Limitations
Self-Training Simple, flexible Propagation d’erreurs
Co-Training Robuste si vues indép. Nécessite 2 vues
EM-based Cadre probabiliste rigoureux Suppose modèle génératif
Graph-based Exploite structure locale O(n2 ) mémoire
Pseudo-Label Très simple, efficace Sensible au seuil
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 37 / 54
Quand Utiliser Quelle Méthode ?
Self-Training / Pseudo-Label :
Modèle produit des probabilités fiables
Données faciles à séparer
Co-Training :
Vues multiples naturelles (texte + images, audio + vidéo)
Vues conditionnellement indépendantes
Graph-based :
Données structurées (réseaux sociaux, graphes)
Hypothèse de cluster forte
Dataset de taille modérée (n < 105 )
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 38 / 54
Borne PAC Semi-Supervisée
Theorem (Borne de généralisation)
Avec probabilité 1 − δ, pour
qtoute fonction f ∈ F :
R(f ) ≤ R̂L (f ) + Rn (F) + log(1/δ)
2nL où Rn est la complexité de Rademacher.
Les données non-étiquetées peuvent réduire Rn (F) si elles aident à sélectionner
une classe d’hypothèses plus restreinte.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 39 / 54
Condition de Régularité
[Smoothness le long de la variété] Pour tout x1 , x2 sur la variété M :
∥f (x1 ) − f (x2 )∥ ≤ L · dM (x1 , x2 )
Si M a dimension intrinsèque dM ≪ d, alors : neff = O ndM /d
Les données non-étiquetées aident à estimer M.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 40 / 54
Théorème de Convergence EM
Theorem (Monotonie de l’EM)
Soit θ(t) la séquence générée par EM. Alors : L(θ(t+1) ) ≥ L(θ(t) ) où L(θ) est la
log-vraisemblance marginale.
Preuve intuitive :
L(θ(t+1) ) ≥ Q(θ(t+1) |θ(t) ) − H(p) ≥ Q(θ(t) |θ(t) ) − H(p) = L(θ(t) )
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 41 / 54
Garanties pour Label Propagation
Theorem (Convergence de Label Propagation)
Si le graphe est connecté et P est stochastique, alors l’itération Y (t+1) = PY (t)
∗
P une distribution2 stationnaire Y qui minimise :
converge vers
1
E (Y ) = 2 i,j Wij ∥Yi − Yj ∥
C’est une régularisation de Laplace sur le graphe : E (Y ) = Y T LY où L = D − W
est le Laplacien du graphe.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 42 / 54
Deep Semi-Supervised Learning
Méthodes récentes combinant SSL avec Deep Learning :
1. MixMatch (2019) : L = LX + λu LU où LU utilise le mixup et l’augmentation
de données.
2. FixMatch (2020) : LU = |D1U | x∈DU ⊮[max(q) ≥ τ ] · H(q̂, p) où q est la
P
prédiction sur version faiblement augmentée, p sur version fortement augmentée.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 43 / 54
Consistency Regularization
Principe : Le modèle doit être robuste aux perturbations :
Lcons = Ex,ξ,ξ′ [∥fθ (x + ξ) − fθ (x + ξ ′ )∥2 ]
Variantes :
Π-Model : Deux passes avec dropout différent
Temporal Ensembling : Moyenne mobile des prédictions
Mean Teacher : EMA des poids du modèle θt′ = αθt−1
′
+ (1 − α)θt
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 44 / 54
Virtual Adversarial Training (VAT)
Régularisation basée sur les exemples adverses :
LVAT (x) = DKL (Pθ (y |x)∥Pθ (y |x + radv ))
où radv est la perturbation adversariale :
radv = arg max∥r ∥≤ϵ DKL (Pθ (y |x)∥Pθ (y |x + r ))
Approximation par méthode de la puissance :
radv ≈ ϵ · ∥gg∥2 , g = ∇r DKL (Pθ (y |x)∥Pθ (y |x + r ))|r =ξ
où ξ ∼ N (0, σ 2 I ).
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 45 / 54
Contrastive Learning Semi-Supervisé
SimCLR adapté au SSL :
exp(sim(zi ,zi+ )/τ )
Li = − log P2N ⊮ exp(sim(z ,z
k=1 k̸=i i k )/τ )
où zi = g (h(xi )), h est l’encodeur, g la projection.
Pour le SSL, combiner avec loss supervisée : Ltotal = Lsup + λLcontrastive
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 46 / 54
Applications en Traitement d’Images
Classification médicale : Radiographies, IRM
Peu de données annotées par experts
Gain : 5-15% en accuracy
Détection d’objets : Annotation coûteuse
Segmentation sémantique : Annotation pixel-level très coûteuse
Reconnaissance faciale : Millions de visages non-étiquetés
Exemple concret : Détection de pneumonie
1,000 radiographies annotées + 50,000 non-annotées
Self-Training : 92% → 96% accuracy
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 47 / 54
Applications en NLP
Classification de textes : Sentiment, thèmes
Named Entity Recognition (NER) : Co-Training avec contexte
gauche/droit
T T
−→ y ′ −−Y−→X
Machine Translation : Back-translation x −−X−→Y −→ x ′
Language Modeling : GPT, BERT pré-entraı̂nés sur données non-étiquetées
Exemple : Classification de sentiments
5,000 avis étiquetés + 500,000 non-étiquetés
Pseudo-Labeling : 88% → 93% F1-Score
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 48 / 54
Applications en Bioinformatique
Prédiction de structure protéique
Peu de structures 3D connues
Beaucoup de séquences disponibles
Classification de gènes : Graph-based SSL sur réseaux d’interactions
Analyse de séquences ADN : Motifs fonctionnels
Drug Discovery : Prédiction d’activité moléculaire
Impact : AlphaFold utilise des principes semi-supervisés pour exploiter les données
évolutives non-étiquetées.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 49 / 54
Résumé des Points Clés
1 L’apprentissage semi-supervisé exploite les données non-étiquetées pour
améliorer les performances
2 Repose sur des hypothèses géométriques : smoothness, cluster, manifold
3 Plusieurs familles d’algorithmes :
Wrapper methods (Self-Training, Co-Training)
Probabilistic methods (EM)
Graph-based methods
Modern deep learning methods
4 Gains significatifs avec peu de données étiquetées
5 Applications dans tous les domaines du ML
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 50 / 54
Défis et Directions Futures
Défis actuels :
Sensibilité au bruit dans les pseudo-labels
Choix des hyperparamètres (seuils, λ, ...)
Garanties théoriques encore limitées
Scalabilité pour très grandes données
Directions futures :
SSL avec apprentissage par renforcement
SSL pour modèles de fondation (LLMs)
SSL avec données multi-modales
SSL robuste aux distributions changeantes
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 51 / 54
Recommandations Pratiques
Pour implémenter du SSL :
1 Commencer simple : Self-Training ou Pseudo-Labeling
2 Valider les hypothèses : Vérifier smoothness, clusters
3 Expérimenter les seuils : τ ∈ [0.8, 0.99]
4 Surveiller la qualité des pseudo-labels
5 Combiner avec régularisation : L2, dropout, data augmentation
6 Utiliser validation set pour éviter le sur-apprentissage
Règle d’or : Si |DU |/|DL | > 10, SSL vaut la peine !
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 52 / 54
Références Clés
Chapelle, O., Schölkopf, B., & Zien, A. (2006). Semi-supervised learning. MIT press.
Blum, A., & Mitchell, T. (1998). Combining labeled and unlabeled data with co-training. COLT.
Zhu, X., & Ghahramani, Z. (2002). Learning from labeled and unlabeled data with label propagation.
CMU-CALD.
Tarvainen, A., & Valpola, H. (2017). Mean teachers are better role models. NeurIPS.
Sohn, K., et al. (2020). FixMatch : Simplifying semi-supervised learning with consistency and
confidence. NeurIPS.
Berthelot, D., et al. (2019). MixMatch : A holistic approach to semi-supervised learning. NeurIPS.
Miyato, T., et al. (2018). Virtual adversarial training. TPAMI.
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 53 / 54
Merci pour votre attention !
Questions ?
Abderrahim EL AMRANI (INSEA) Apprentissage Semi-Supervisé 2 novembre 2025 54 / 54