UNET et ses variants
Parmi les CNN les plus populaires du Computer Vision
Contexte et Motivation
• Défis en imagerie médicale (grande variabilité, bruit, données
limitées).
• Importance de la segmentation précise.
• Exemples d’applications : segmentation de tumeurs, détection de
lésions cutanées.
Architecture UNET (2015)
Skips Connexions ajoute des informations du chemin
descendant au chemin ascendant.
Cette concaténation permet de récupérer les détails
fins perdus lors du pooling dans l’encodeur.
Convolutions 2D and max pooling
Upsampling: interpolation or Up
convolution
Encodeur
Encodeur
Décodeur
Décodeur
Output
“Contraction” Phase
- Increases field of view
- Lose Spatial Information
“Expansion” Phase
- Create High Resolution
Mapping
Concatenate with high-resolution feature maps
from the Contraction Phase
Variantes de UNet
• UNet++ : Meilleure connectivité entre les couches pour une
segmentation précise.
• Attention UNet : Focus sur les régions importantes de l’image.
• ResUNet : Blocs résiduels pour une convergence plus rapide.
UNet++ (2018) : Nested Unet
Dans l’UNet classique
• Les skip connections relient directement les blocs correspondants de
l’encodeur et du décodeur.
• Cela peut causer un problème : ces connexions transmettent des informations
brutes (cartes de caractéristiques) sans les ajuster ou les raffiner.
• Le modèle peut manquer de flexibilité pour capturer des relations
complexes entre les caractéristiques locales (détails) et globales
(contexte).
UNet++ résout cela en
• Raffinant progressivement les informations transmises par les skip
connections grâce à des sous-réseaux denses et intermédiaires.
• Rendant l’architecture plus efficace pour des images complexes ou
bruitées.
Qu’est-ce qui change dans
UNet++ ?
Blocs intermédiaires (nœuds
denses)
Chaque connexion entre l’encodeur et le décodeur passe par plusieurs
convolutions successives (au lieu d’être directe).
Ces convolutions intermédiaires sont appelées blocs intermédiaires ou
nœuds denses.
Ces blocs permettent de raffiner progressivement les cartes de
caractéristiques avant qu’elles soient ajoutées au décodeur.
Deep Supervision
• Supervision profonde signifie que pendant l'entraînement, au lieu
d'avoir uniquement une rétropropagation du signal de perte à la
sortie du réseau, des signaux de perte supplémentaires sont ajoutés à
des couches intermédiaires.
Types of Deep Supervision
• Accurate : Les sorties de toutes les branches de segmentation sont
moyennées
• Toutes les prédictions provenant des différentes branches de segmentation
sont combinées pour obtenir un résultat plus robuste et précis
• Cette méthode est souvent utilisée pour améliorer la précision du modèle,
en exploitant la diversité des prédictions pour obtenir un résultat plus stable.
• Fast : La sortie d'une seule branche de segmentation est
sélectionnée
• Dans cette approche, au lieu de fusionner les résultats des différentes
branches, seule une branche de segmentation spécifique est choisie comme
sortie.
• Cela permet de réduire le temps de calcul, car la sélection d'une seule
branche évite de devoir combiner plusieurs prédictions.
Attention-UNet :
Attention-UNet
• Attention-UNet résout ce problème en ajoutant des blocs d’attention
pour sélectionner dynamiquement les régions importantes à chaque
niveau de l’encodeur avant d'envoyer les caractéristiques au
décodeur.
• Chaque skip connection est modifiée pour inclure un bloc d’attention.
Attention gates
• Les Attention Gates se trouvent généralement entre l'encodeur et le
décodeur, où ils contrôlent le flux d'informations. Ces gates agissent
comme des filtres qui appliquent un poids aux informations
provenant de l'encodeur avant de les transmettre au décodeur. Les
informations moins pertinentes reçoivent un poids plus faible, et les
informations plus pertinentes reçoivent un poids plus élevé.
Attention gates
Limites et Défis
• Besoin de données annotées en grand volume.
• Sensibilité aux bruits dans les données.