Filtrage et Segmentation en Imagerie Médicale
Filtrage et Segmentation en Imagerie Médicale
Titre :
par :
Thomas Grenier
Laboratoire CREATIS
INSA LYON
Résumé
Habilitation à Diriger des Recherches
Dans ce document, je résume mes 16 ans d’activités en tant que maître de conférences au
sein de l’INSA Lyon au laboratoire CREATIS et au département Génie Electrique.
Mon enseignement de plus de 5000h est concentré sur l’informatique et le traitement du
signal et des images pour lesquels j’ai proposé de nombreux contenus, projets et assumé
plusieurs responsabilités d’option, de modules et d’un parcours international. J’ai aussi
pu m’impliquer dans plusieurs instances du département allant de la communication et la
formation aux outils numériques à la réhabilitation des locaux.
Ma recherche est focalisée sur le filtrage et la segmentation d’images médicales en non-
supervisé puis en supervisé (19 publications).
Mes contributions ont d’abord porté sur les méthodes de mean-shift et de croissance
de régions afin d’intégrer dans leurs formalismes des spécificités d’images médicales, des
contraintes d’adaptations locales et de suivi temporel. Le premier enjeu a été de proposer des
stratégies pour déterminer les paramètres d’échelles de ces approches, d’abord séparément
(filtrage mean-shift et croissance de régions) puis lorsqu’elles sont utilisées simultanément.
Appliquées au contexte de la segmentation de la zone de pénombre en IRM de l’accident
vasculaire cérébral, zone qui fournit une information sur la propagation de la région nécrosée
et donc sur l’évolution des symptômes, ces méthodes se sont révélées efficaces sur des
critères de qualité de segmentation. Ensuite, nous avons ajouté la notion de temps dans les
formalismes de mean-shift et de croissance de régions. Ceci nous a permis d’obtenir des
segmentations et classification de lésions de sclérose en plaques ainsi que des segmentations
des zones du myocarde lésées pertinentes.
Je me suis ensuite tourné vers les approches de segmentation supervisées et plus particuliè-
rement vers les méthodes d’apprentissage profond (ou deep learning). Ainsi, l’architecture
U-Net - la référence en deep learning pour la segmentation d’images médicales - a été mise
en œuvre dans plusieurs contextes de segmentation dont, dans un premier temps, en écho-
cardiographie où les performances obtenues ont dépassé l’état de l’art. Mes contributions
à ces méthodes se sont orientées sur la réduction du nombre d’images nécessaires à leur
entrainement en utilisant des techniques d’augmentation de données dont une est sélective
et s’appuie sur une mesure originale de morphologie. Pour deux approches de segmentation
supervisée (par recalage multi-atlas et par réseau de neurones U-Net), notre mesure de
morphologie permet de définir des stratégies de sélection de données spécifiques à chacune
de ces méthodes. Pour la segmentation des muscles des jambes et des épaules en IRM, ces
stratégies nous ont permis d’améliorer le comportement des méthodes en terme de temps
de calcul et de nombre d’images utilisé pour l’apprentissage, à qualité de segmentation
équivalente.
Cette problématique de segmentation par apprentissage profond fait l’objet de mes pers-
pectives de recherche qui visent à contribuer à l’aide au diagnostic et à terme au pronostic.
Remerciements
Merci aux membres du jury d’avoir accepté cette charge supplémentaire de travail dans les
conditions complexes actuelles.
J’adresse notamment mes sincères remerciements à Mme Vincent de l’université Paris Cité,
pour le travail précis de relecture de ce manuscrit.
Je témoigne aussi de ma grande reconnaissance à Mme Petitjean de l’université de Rouen,
déjà présente pour le jury de thèse d’Hoai-Thu Nguyen, qui a aussi accepté de rapporter
sur ce mémoire.
Mes remerciements particuliers vont à Mr Macaire de l’université de Lille, pour le temps
consacré à la relecture de ce mémoire et pour ceux des thèses de Ting Li et Simon Mure.
Je remercie aussi Mr Perrin de l’université de Lyon, pour les nombreux échanges autour,
notamment, de la pédagogie et qui a accepté de participer au jury de cette HDR.
Pour ce jury, je suis aussi très heureux de pouvoir compter sur la présence Mr Ducottet
de l’université Jean Monnet. Une présence qui m’est chère : l’enseignant d’informatique
lorsque j’étais étudiant, rapporteur pour ma thèse puis de plusieurs doctorants co-encadrés,
collaborateur sur différents projets... Merci une nouvelle fois pour le temps et les conseils.
Je suis aussi honoré d’avoir Mr Guttmann d’Harvard Medical School, dans ce jury. Son
expertise -entre autre- sur la sclérose en plaques, son anticipation et la cohérence sur
les études à conduire ont été de véritables sources d’inspiration pour bâtir des projets,
notamment une thèse dirigée ensemble.
Enfin, merci à Hugues Benoit-Cattin pour tout le temps passé, les discussions, les proposi-
tions, les relectures, la patience lors des différents travaux dont cette HDR ! Mais il y a
aussi tant d’autres choses hors du cadre recherche : les cours et la pédagogie, l’INSA, tes
qualités de communications et humaines ... C’est un véritable plaisir de pouvoir échanger
et réfléchir avec toi.
Je tiens aussi à remercier les collègues qui m’ont permis de m’épanouir dans ce métier.
Je remercie en premier lieu Mr Christophe Odet qui m’a transmis un bon nombre de
démarches pour la pédagogie, l’évaluation et les soutenances des étudiants, en plus de
tous les échanges en traitements du signal et des images, puis de l’informatique domaines
dans lesquels sa maitrise et ses expériences ont été (sont encore !) de véritables références.
Je tiens à remercier Mr Tanneguy Redarce et Mr Claude Richard pour la confiance et
l’autonomie qu’ils m’ont laissées au sein du département Génie Electrique afin de conduire
les projets que j’avais à cœur. J’adresse aussi tout mes remerciement à Chantal Muller qui
m’a encadré pendant ma thèse puis encore un peu après ;)
Puis il y a les -autres- collègues du 401 : Jean-Loïc Rose, Boubakeur Belaroussi, Jérome
Velut, Sorina Pop, Delphine Charpigny... merci pour les échanges, les rigolades et toutes
les interactions qu’on a depuis !
Je tiens aussi à remercier les doctorants avec qui j’ai travaillé (ou travaille encore) et sans
qui pas grand chose ne serait possible : Ting, Simon, Sarah, Clément, Thu, Léo, Valentine,
Enyi et Emile. Je n’oubli pas non plus les post-doctorants et stagiaires. La liste, sera donnée
plus loin.
Enfin, j’adresse mes remerciements aux collègues et personnels de CREATIS qui, depuis
2001, apportent un cadre scientifique et technique de haut niveau, stimulant et épanouissant.
À ma famille et mes proches,
À Myriam,
À Jade et Éthan, mes deux petits remèdes contre le travail.
Table des matières
1 Introduction Générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2 Introduction et présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Curriculum Vitae . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4 Activités d’enseignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1 Enseignements 33
4.1.1 Informatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.2 Traitement du signal et des images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.3 Tutorats au département Génie Electrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Responsabilités 37
4.2.1 Responsable de la formation IMESI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.2 Chargé de la communication au département Génie Électrique . . . . . . . . . . . . . . . . . . . 38
4.2.3 Application stage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.4 Jouvence informatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.5 Responsable de l’option Traitement des Signaux et des Images (TdSI) . . . . . . . . . . . . . . 40
4.2.6 Membre élu au conseil de département Génie Electrique . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.7 Responsable du module "Traitement des Images - Approfondissement" . . . . . . . . . . . . . . 40
4.3 Bilan 41
5 Activités de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Résumé des travaux 44
5.2 Participation à l’encadrement de post-doctorants 45
5.3 Participation à l’encadrement et à la codirection de doctorants 45
5.4 Encadrements d’étudiants en master et en projet de fin d’études 48
5.5 Projets 50
5.6 Contrats industriels 51
5.7 Responsabilités 52
6 Production scientifique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
11 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
IV Conclusion Générale
Annexes
14.1 Définition des 4 muscles à segmenter pour l’étude des quadriceps. . . . . . . . . . . . 138
14.2 Évolution des scores de DSC et HD en fonction du nombre d’atlas pour l’approche
JLF+CL sur les 4 muscles étudiés (VL, RF, VM et VI). . . . . . . . . . . . . . . . . . . . . . . . 139
14.3 Résultats de segmentation des quadriceps obtenus avec les approches de (Gilles et al.,
2016), JLF (Wang et al., 2013b) et JLF+CL pour un coureur. . . . . . . . . . . . . . . . . . 140
14.4 Evolution des scores de DSC et du temps de calcul en fonction du nombre d’atlas pour
les approches JLF (en haut) et JLF+CL (en bas). . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
14.5 Exemple de segmentations des muscles de l’épaule obtenues avec les approches JLF et
JLF+CL en utilisant 5 atlas tirés au hasard. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
14.6 Influence du nombre d’atlas sur la qualité de segmentation et le temps de calcul pour les
données MUST. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
14.7 Echocardiographie (à gauche) et sa segmentation experte (à droite) de l’épicarde du
ventricule gauche (en rouge), l’endocarde du ventricule gauche (en vert) et de l’oreillette gauche
(en bleue). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
14.8 Exemples de résultats de segmentation du ventricule gauche obtenus avec U-Net sur la
base de données électrocardiographie CAMUS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
14.9 Exemple de segmentations par U-Net obtenues par l’apprentissage suivant chacun des
plans de référence anatomique pour la base de données Epaule. . . . . . . . . . . . . . . . . . 149
14.10 Résultats de segmentation des meilleures méthodes basées U-Net sur la base de données
Epaule. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
14.11 Segmentations manuelles de 3 coupes de la base de données Epaule et les résultats de
segmentations automatiques par JLF+CL avec les 5 meilleurs atlas, et par ResU-Net101 et
supervision profonde. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
14.12 Segmentations de trois coureurs MUST avec les approches JLF+CL, U-Net et U-
Net+CL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
14.13 Utilisation de réseaux U-Net pour remplacer les étapes JLF de l’approche de (Wang
et al., 2013b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
15.1 Comparaison de segmentations d’un examen de la base MUST avec les approches JLF
et U-Net sans augmentation de données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
15.2 Stratégies d’augmentation de données pour la base de données MUST. . . . . . . . 157
15.3 Illustration sur un sujet de MUST de la caractérisation morphologique. . . . . . . . . 158
15.4 Projection bi-dimensionnnelle par ACP des vecteurs morphologiques des jambes droites
des coureurs de MUST. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
15.5 Résultats de segmentation des approches JLF et JLF+CL (Wang et al., 2013b) avec et
sans sélection d’atlas basée sur la morphologie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
15.6 Schéma de construction du jeu d’apprentissage pour la stratégie target-driven de U-Net.
163
B1 Acquisition IRM (à gauche), segmentation manuelle sur une coupe (au centre) et rendu
3D des segmentations des quadriceps et des os (à droite). . . . . . . . . . . . . . . . . . . . . . 192
B2 Illustration des 5 types d’images utilisés pour l’étude de l’inflammation des muscles de la
cuisse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
B3 Illustration de l’évolution de l’inflammation des muscles de la cuisse sur les cartographies
T2*. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
B4 Définition des 4 muscles à segmenter pour l’étude des quadriceps. . . . . . . . . . . . . 193
B5 Correction du biais avec l’algorithme N4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
B6 Pipeline proposé pour étudier l’impact du recalage sur l’extraction de caractéristiques
radiomiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
B7 Comparaison des approches de recalage pour la mise en correspondance des images
pondérées T1 et des cartographies T2 et T2*. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
B8 Exemple d’acquisitions IRM de la base de données Epaule. . . . . . . . . . . . . . . . . . 196
B9 Exemple de segmentation manuelle des 5 muscles de la base de données Epaule. . . 196
B10 Illustration des différents pré-traitements effectués sur la base de données Epaule afin
d’obtenir des images homogènes et correspondant à des épaules droites. . . . . . . . . . . . 197
Liste des tableaux
8.1 Comparaison des valeurs optimales de P SN R avec les méthodes de plug in et de recherche
exhaustive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.2 Plages des paramètres d’échelles pour la recherche exhaustive. . . . . . . . . . . . . . . . 74
8.3 Intervalles des paramètres d’échelle pour les deux stratégies de tirage aléatoire. . . . . 76
8.4 Scores de DICE suite au seuillage optimal des cartes de probabilités sur l’IRM corrompue.
77
8.5 Influence des combinaisons de paramètres IRM sur les segmentations produites par la
croissance de région (RG) et l’approche MS+RG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
14.1 Evaluation quantitative des segmentations des quadriceps basées sur le recalage d’atlas.
141
14.2 Détails des scores de DSC obtenus par les approches JLF et JLF+CL pour la base MUST.
141
14.3 Comparaison quantitative des approches JLF, JLF+CL et U-Net en longitudinal sur les
données MUST. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14.4 Résultats de segmentation des approches JLF et JLF+CL pour les données Epaule, avec
tous les patients. Moyennes et écarts types calculés pour 10 patients. . . . . . . . . . . . . . 144
14.5 Résultats de segmentation des approches JLF et JLF+CL pour les données Epaule, sans
les 3 patients faisant échouer les recalages. Moyennes et écarts types calculés pour 10 patients.
144
14.6 Comparaison des performances de huit méthodes de segmentation du ventricule gauche
en echocardiographie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
14.7 Evaluations quantitatives des segmentations U-Net obtenues par l’apprentissage suivant
chacun des plans de référence anatomique pour la base de données Epaule avec l’image "e8"
comme entrée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
14.8 Evaluations quantitatives des segmentations obtenues par les différentes variantes d’U-Net
sur la base de données Epaule. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
14.9 Evaluation quantitative des segmentations JLF, JLF+CL, U-Net et U-NET+CL sur la
base de données MUST. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Maître de conférences depuis 2006 à l’INSA Lyon, il me semble naturel de présenter mon
habilitation à diriger des recherches (HDR) afin de continuer d’évoluer dans mon engagement
institutionnel. Ce document dresse un bilan des expériences acquises en pédagogie, en
recherche et dans les différentes responsabilités exercées lors de ces 16 premières années
d’enseignant chercheur qui, je l’espère, convaincront pour obtenir le diplôme d’HDR.
Mes motivations à présenter l’HDR sont multiples.
— Avoir une reconnaissance des compétences acquises pendant ces années,
— Avoir plus d’autonomie pour l’encadrement de doctorants, tout en préservant un
encadrement partagé qui me semble particulièrement efficace et synergique,
— Postuler dans les années à venir aux postes et aux responsabilités de professeur des
universités,
— Accroitre ma légitimité au travers de ce diplôme, notamment pour le pilotage d’équipes,
projets ou work-packages,
— Prendre des responsabilités permettant de contribuer aux évolutions dans mes do-
maines d’enseignements et de recherche.
— Plus "institutionnelle" : l’enjeu pour les laboratoires du nombre d’HDR a toujours été
et -a priori restera- une quantité critique pour la reconnaissance auprès des instances
d’évaluation et des écoles doctorales, ne serait-ce que pour l’obtention de bourses de
thèse.
Je vais présenter dans la suite de ce document un résumé de mes activités d’enseignements
et de recherche ainsi que de mes implications dans les différents instances ou projets.
Depuis 2006, mon enseignement est réalisé au sein du département Génie Electrique
de l’INSA Lyon. C’est dans ce département que j’ai pu conduire de nombreux projets
pédagogiques, de communications, de gestion et organisationnels. J’y ai aussi développé ma
pratique pédagogique au travers d’une diversité d’enseignements et de création de contenus.
Pour la partie recherche, dans ce document, j’ai choisi de résumer mes activités depuis 2011.
Elles couvrent un travail sur le filtrage et la segmentation d’images médicales. On considère,
à mon sens très justement, que la segmentation d’images est l’étape la plus commune pour
22 Chapitre 1. Introduction Générale
permettre une analyse d’images, notamment médicales. La segmentation d’images est donc
une limite aux analyses. Cependant, le filtrage est un préliminaire critique pour obtenir
des segmentations de qualité et de manière fiable sur un grand nombre d’images. Ces deux
thèmes, couplés ensemble, m’apparaissent depuis la fin de ma thèse comme centraux et
constituent mon projet de recherche.
Appliquer ces méthodes à l’imagerie médicale est particulièrement stimulant par rapport à
la finalité applicative, aux spécificités de l’imagerie médicale, à la diversité des problèmes
puis à la rigueur nécessaire.
Depuis ma thèse, je teste et améliore des méthodes sur des images médicales. J’ai pu
me confronter à plusieurs modalités 2D ou 3D (principalement TEP, IRM, CT, US) et à
différentes pathologies (cancers, AVC, sclérose en plaques, inflammations musculaires) en
se focalisant sur des régions anatomiques diverses (cerveau, jambes, cœur, corps entier)
pour différents buts (mesures diagnostiques, compréhension de la pathologie, prédictions,
alimentation de simulateurs). Malgré la diversité apparente de ces applications, la démarche
est en fait assez similaire.
1. Bien comprendre l’objectif de l’étude, apprendre le contexte médical, étudier l’état de
l’art, déterminer les paramètres pertinents qui seront analysés, proposer une méthode
d’évaluation. Comprendre et arrêter le protocole d’acquisition des données.
2. Appréhender les données et savoir les lire, les représenter ; de même avec les anno-
tations des experts... quand il y en a (donc souvent : mobiliser et accompagner les
experts pour créer ou valider les annotations).
3. Proposer une chaine de traitements d’images originale permettant d’arriver à l’ex-
traction des paramètres plus efficacement que dans l’état de l’art. Cette chaine de
traitements doit prendre en compte les spécificités de l’étude (nombre d’images, bruit,
artéfacts, complexité anatomiques, reproductibilité, biais ...) ce qui conduit à une
part d’innovation et de recherche méthodologique plus ou moins fastidieuse en filtrage
et en segmentation.
4. Implémenter, tester, vérifier, re-tester, quantifier, comprendre ses erreurs d’analyse,
faire évoluer ses savoirs et intuitions sur les méthodes de segmentation et de filtrage.
5. Valoriser les travaux.
Dans ce manuscrit, seules les contributions en filtrage et segmentation sont présentées et
seulement pour quelques applications.
Ce manuscrit est organisé en trois parties. La première partie dresse un bilan de mes
activités pédagogiques (chapitre 4) et de recherche (chapitre 5) en incluant mes implications
collectives et les projets conduits. La liste des mes publications est donnée en fin de cette
première partie (chapitre 6).
La seconde partie est dédiée à mes contributions à l’imagerie médicale en filtrage et
segmentation non-supervisés basées sur le formalisme mean-shift. Ce formalisme et son
optimisation dans le cadre du filtrage et de la segmentation sont donnés au chapitre 8.
Puis, les extensions au domaine spatio-temporel en filtrage (STMS) et en segmentation
par croissance de région (STRG), sont détaillées au chapitre 9.
La troisième partie adresse mes recherches plus récentes en segmentation supervisées. Cette
partie commence par une étude d’une méthode de segmentation basée sur le recalage
d’atlas (chapitre 12). Puis, au chapitre 13, on présente le fonctionnement d’une méthode
de segmentation par apprentissage profond (U-Net). Nos principales applications de ces
méthodes à différents contextes de segmentation d’images médicales sont données au
chapitre 14. Puis, le chapitre 15 présente nos travaux sur la sélection et l’augmentation
des données particulièrement critique pour les deux approches de segmentation supervisée
étudiées dans cette troisième partie.
23
Enfin, la conclusion de ce document (chapitre 17) donne des pistes de recherche que j’aime-
rais conduire autour de ces méthodes. Ces pistes concerneraient notamment les possibles
couplages entre les approches "classiques" (mean-shift, croissance de région,...) et d’appren-
tissage automatique, puis l’interaction des algorithmes d’apprentissage avec les experts. Et
enfin, comment mieux comprendre le comportement des méthodes d’apprentissage profond
afin de pouvoir répondre aux questions sur les performances atteignables avec un réseau et
une base d’images donnée.
Synthèse des activités
I
2 Introduction et présentation . . . . . . . . . . . 27
3 Curriculum Vitae . . . . . . . . . . . . . . . . . . . . . 29
4 Activités d’enseignement . . . . . . . . . . . . . . 33
4.1 Enseignements
4.2 Responsabilités
4.3 Bilan
5 Activités de recherche . . . . . . . . . . . . . . . . 43
5.1 Résumé des travaux
5.2 Participation à l’encadrement de post-doctorants
5.3 Participation à l’encadrement et à la codirection de docto-
rants
5.4 Encadrements d’étudiants en master et en projet de fin
d’études
5.5 Projets
5.6 Contrats industriels
5.7 Responsabilités
6 Production scientifique . . . . . . . . . . . . . . . 55
2. Introduction et présentation
Cette partie est consacrée au bilan de mes activités de maître de conférences des universités
depuis ma nomination en 2006. Après avoir exposé mon curriculum vitae au chapitre 3, les
chapitres suivants donnent les détails de mes activités d’enseignement (chapitre 4) et de
recherche (chapitre 5). Cette partie se termine par une liste de ma production scientifique
(chapitre 6).
3. Curriculum Vitae
Thomas GRENIER
NUMEN : 10S0600268NYL
Né le 2 mai 1978 à Vénissieux (69)
Nationalité : Française
Concubinage, 2 enfants
Coordonnées professionnelles
e-mail : [Link]@[Link]
Téléphone : 04 72 43 64 70
Web : [Link]/~grenier
CREATIS Unité CNRS UMR 5220 – INSERM U1206
Bâtiment Léonard de Vinci
21 avenue Jean Capelle
69621 Villeurbanne cedex FRANCE
Status actuel
Diplômes
Domaines de recherche
Publications
Animations et responsabilités
2019- , Membre du Comité de Pilotage pédagogique de l’EUR MANUTECH
SLEIGHT et référent pour le département Génie Electrique,
2019- , Co-responsable du projet transversal sur la Sclérose en plaque MUSIC
au laboratoire Creatis,
2018- , Co-responsable du Work Package Formation du Labex PRIMES,
2016-2020, Responsable de l’option de 5e année du département Génie
Electrique en traitement des signaux et des images TdSI, 20 étudiants, 12
ECTS,
2016 et 2017, Coprésident des commissions d’élaboration des sujets de
baccalauréat Technologique d’enseignements technologiques transversaux
STI2D, (DEC 7),
2013-, Responsable des outils numériques pour le département Génie Elec-
trique,
2009-2013, Chargé de la communication au département Génie Electrique
(et membre de l’équipe de direction),
2007-2014, Responsable de la formation IMESI de L’INSA Lyon.
32 Chapitre 3. Curriculum Vitae
Enseignements
2006 - 2022, Maître de conférences, département Génie Electrique, 5000h de
CM/TD/TP/Projet en informatique, traitement du signal et traitement des
images,
2005 - 2006, ATER 100% IUT B Lyon, département Génie Mécanique et
Productique, 192h TP Electrotechnique,
2004 - 2005, ATER 50% IUT B Lyon, département Génie Mécanique et
Productique, 96h TD informatique et bureautique,
2001 - 2004, Moniteur, IUT B Lyon, département Génie Industriel et Main-
tenance, 96h projet électronique.
4. Activités d’enseignement
Dans cette partie, je liste mes activités liées à la pédagogie en commençant par les différents
enseignements, puis les tutorats effectués et enfin les différentes responsabilités occupées.
4.1 Enseignements
J’enseigne depuis septembre 2006 au département Génie Électrique de l’INSA Lyon ce qui
correspond à un total cumulé de plus de 5500h résumées dans les trois sous-parties ci-après.
Mes premières expériences pédagogiques ont été réalisées à l’IUT B de Lyon pendant
mes années de monitorat et d’ATER (soit environ 480h) au sein des départements Génie
Industriel et Maintenance puis Génie Mécanique et Productique. Elles consistaient princi-
palement à proposer et superviser des projets de robotique et d’électronique (192h sur 3
ans), des TP d’électrotechnique (192h) et des cours/TD de bureautique et informatique
(96h).
Depuis ma nomination en 2006 au département Génie Electrique de l’INSA Lyon, mes
enseignements sont regroupés dans deux thématiques : l’informatique et le traitement
du signal et de l’image. Génie Electrique est un département de formation au métier de
l’ingénieur sur 3 ans et dont l’effectif par promotion est de 120 étudiants en filière classique
et de 25 étudiants en filière par apprentissage (depuis 2012). Mes enseignements sont
principalement réalisés en quatrième année (dans les filières classique et en apprentissage)
et dans deux options de cinquième année : TdSI (Traitement du Signal et des Images) et
SEC (Systèmes Embarqués Communicants). L’essentiel de mon service est effectué dans la
formation d’ingénieur du département Génie Électrique.
Pendant les années 2008 à 2013, une partie de mon service s’effectuait dans la formation
IMESI 1 de l’INSA Lyon. Il s’agissait d’un parcours international en anglais, orienté
recherche sur les domaines des systèmes embarqués et du traitement de l’image médicale,
et dont j’étais le responsable. Les différentes responsabilités exercées seront données dans
la partie 4.2.
Enfin, j’effectue quelques heures dans le parcours Systèmes et Images du Master 2 recherche
MISS 2 de l’université de Lyon 1 (anciennement Master GE/GP puis EEAP).
La figure 4.1 détaille la répartition (CM, TD, TP, projet, encadrement de stagiaires/PFE,
primes) de mes services d’enseignement depuis ma nomination à l’INSA Lyon.
Je détaille ensuite les différents enseignements réalisés et mes contributions.
4.1.1 Informatique
Programmation en langage C, 3e année département Génie Électrique, 120 étu-
diants par promotion, 8 × 2hTD
Ces séances de TD permettent de pratiquer les fondamentaux de la programmation
en langage C (types, fonctions et passage de paramètres, tableaux statiques et dyna-
miques) puis la conception et réalisation de projet (organisation du code, utilisation
de bibliothèques). J’ai réalisé une très grande parties des différentes versions des
sujets de TD de ce module.
Projet de Conception Logiciel en Analyse NUmérique (CLANU), 3e année
département Génie Électrique, Projet promotion entière 120 étudiants
Il s’agit d’un projet dans la suite de la formation au langage C. Ce projet est co-
animé par les enseignants de mathématiques et d’informatique du département. Les
étudiants ont à concevoir et réaliser un programme informatique autour de l’analyse
numérique : Transformée de Fourier, équation de conduction de la chaleur, in-painting,
transformée de Radon, régression et classifications par réseau de neurones... Mon
implication se situe dans la définition du projet et plus spécifiquement sur la partie
informatique (réalisation du code de départ), puis dans le suivi et l’évaluation de la
partie informatique.
Micro-contrôleur, 3e année département Génie Électrique et filière DUT+3 (fin en
2012), 10 étudiants, 15hCM + 8 × 1hTD + 2 × 3hTP
Il s’agit de transmettre aux étudiants le fonctionnement et l’utilisation des micro-
contrôleurs. Nous nous appuyons sur une plateforme Microchip PIC16F. J’ai réalisé
2. Medical Imaging Signal and System
4.1 Enseignements 35
le cours pour les DUT+3 ainsi que les TD pour les deux filières qui, pour la filière
classique, ont évolué ces dernières années. Depuis 2017, je suis chargé d’introduire, en
5h de cours, l’utilisation du langage C sur des plateformes à base de micro-contrôleurs
(MSP430, STM32, RaspberryPi, Arietta G25, ...) et les interruptions (sans système
d’exploitation). J’ai aussi piloté l’étude de l’évolution des plateformes à base de
micro-contrôleurs pour les 3 ans de formation au département.
Modélisation Orientée Objets et Programmation en C++, 4e année départe-
ment Génie Électrique, filière classique et apprentissage, 120 étudiants par promotion,
4 × 2hCM + 6 × 2hTD
Ces 20h de face à face doivent permettre aux étudiants de connaitre les quatre prin-
cipaux paradigmes de l’orienté objet et de les maitriser pour modéliser des systèmes
en UML et les programmer en C++. J’ai réalisé le cours et les différentes versions
des séances de TD. Depuis 2014, j’utilise, pendant les cours, une plateforme de
questionnaire 3 disponible sur appareils mobiles ou PC. En plus des effets stimulants,
cela me permets par exemple de voir rapidement les concepts mal acquis lors du
questionnaire de début de cours et ainsi faire les rappels nécessaires pour aborder
plus sereinement les éléments du cours à venir.
Digital Signal Processor FPGA/DSP/GPU, 5e année département Génie
Électrique, options Traitement des signaux et des Images et Systèmes Embarqués
Communicants, 40 étudiants, 5 × 2hCM + 4 × 4hTP
L’objectif est de présenter les optimisations d’architectures des processeurs pour
réaliser efficacement les opérations élémentaires du traitement du signal et de l’infor-
mation. Quatre TP de 4h permettent aux étudiants de manipuler un DSP et un FPGA
dans le cadre du traitement du signal (filtrages IIR et FIR, MACD, accès mémoires
et pipeline) et un GPU dans le cadre du calcul en concurrence (collaboration avec
l’ENS Lyon et Emmanuel Quemener). J’ai repris le cours de DSP et inclus une partie
sur les nouvelles infrastructures de calculs (GPU, cluster et cloud computing...) ainsi
que les TP DSP.
Plateforme OMAP, 5e année département Génie Électrique, 100 étudiants par
promotion, 4hTP
Grâce à un Bonus Qualité Formation INSA de 9k€, j’ai monté en 2011 un TP
de 4h sur l’architecture OMAP de Texas Instruments permettant ainsi d’étudier
la programmation d’un ARM et d’un DSP (initiation à l’architecture des DSP et
SOC 4 , comparaison des performances des architectures, utilisation de codec vidéo,
développement sans disque) via un linux embarqué.
Multi-tache et calcul en concurrence, 5e année département Génie Électrique,
120 étudiants par promotion, 2 × 2hTD
Les séances de TD permettent aux étudiants de se confronter aux mécanismes
intellectuels de programmation concurrente (du fork à OpenMP en passant par
des "pipe") présentés en cours. J’ai rédigé ces TD et proposé une séance de 2h
d’introduction à l’utilisation d’OpenMP.
3. Socrative
4. System On Chip
36 Chapitre 4. Activités d’enseignement
afin que les étudiants puissent comprendre et s’approprier les concepts théoriques
vus en cours et TD : repliement de spectre, échantillonnage temporel et périodisation
spectrale, modulations, filtrages numériques. En plus des activité d’animations, remise
en route, petites modifications et rédaction/correction des évaluations, j’ai formé
régulièrement des vacataires et ATER sur ces TP. Depuis 2021, j’ai repris le cours
(6h) et les TD (4h) de filtrages analogiques et numériques.
Théorie de l’information, 5e année département Génie Électrique, option TdSI
(Traitement des Signaux et des Images) et SEC (Systèmes Embarqués Communicants),
40 étudiants, 4 × 2hCM + 4 × 2hTD
L’objectif est de faire découvrir la théorie de l’information, autre grande contribution
de Claude Shannon et ses applications. Les étudiants apprennent les fondamentaux
des codages de source et de canal (entropie, capacité) puis à manipuler les méthodes
classiques de codage (Huffmann, algorithmes LZW, codage de Hamming, codage-
décodage convolutif, ...). Enfin, ce cours est aussi le prétexte d’une introduction sur
la sécurité (cryptage, connexion sécurisée, faille, ...). J’ai repris cette formation en
ajoutant le turbo codage et les enjeux de sécurité pour les systèmes embarqués.
Projets d’option TdSI et SEC, 5e année en Traitement des signaux et des Images
et Systèmes Embarqués Communicants. Chaque année, je propose 3 à 4 projets se
voulant originaux dans les contextes des communications, des systèmes embarqués et
du traitement d’images à destination d’étudiants en 5e année. Notamment : localisation
par qualité de signal de modules Zigbee, codage LDPC, étude des noyaux linux temps
réel, utilisation de HackRF One, détection de visages, correction d’artéfacts en IRM,
création de version en réalité virtuelle de TP de GE, comptage de personnes dans
différents contextes urbains, segmentation de muscles en IRM... Certains de ces
projets ont été supportés par des partenariats industriels (Gambro, Bioclinica, EFi
automotive, Alstom, Biomae), d’autres ont contribué à l’avancement de projets de
recherche et d’autres ont permis l’élaboration de TP au département.
Projet de Réalisation Technologique, 4e année. Ces projets sont effectués pendant
un semestre par deux étudiants de 4e année. J’ai proposé de nombreux projets
notamment autour de la musique, d’un quadri-coptère et de l’apprentissage profond
notamment pour la reconnaissance automatique de 10 mots du domaine « Génie
Electrique » (i.e. bobine, condensateur, ...) en langage des signes (figure 4.2) ou dans
la parole.
Projet HuTech, 3e année, 1 projet par an. Ces projets de "humanité et technique"
sont réalisés par un groupe d’une dizaine d’étudiants sur toute l’année. Il s’agit
de simuler la création d’une entreprise avec un produit innovant. Depuis deux
ans, ces projets doivent répondre, en plus des contraintes standards, aux enjeux
de Développement Durable et de Responsabilité Sociétale. Pour ma part, il s’agit
d’accompagner les étudiants sur la démarche scientifique et technique, les parties
"entreprise" (analyse fonctionnelle, ...) et "DDRS" (analyse du cylce de vie, bilan
carbone, ...) étant assurées par des intervenants du centre des Humanités et des
professionnels.
4.2 Responsabilités
Cette partie précise les principales responsabilités pédagogiques que j’ai assurées au sein de
l’INSA Lyon. Pour beaucoup d’entre elles, je tiens à remercier la direction du département
Génie Electrique (Claude Richard, Tanneguy Redarce et plus récemment Lionel Petit)
pour la confiance qu’ils m’ont accordée pour conduire ces différentes actions.
38 Chapitre 4. Activités d’enseignement
Figure 4.3 – Exemple de jouvence : salle informatique E104 du département Génie Electrique de
l’INSA Lyon en septembre 2013 avril (à gauche) puis en septembre 2014 (à droite).
TdSI est une option en 5e année de formation en traitement du signal et des images au
département GE de 12 ECTS. Elle est suivie par une vingtaine d’étudiants.
Pour cette responsabilité de quatre ans (de 2016 à 2020, en biseau avec mon successeur
la dernière année), j’ai réorganisé le programme (200h de face à face), de l’animation et
organisation de l’équipe pédagogique (5 enseignants chercheurs) et des intervenants (entre 8
et 12 personnes académiques et industriels) de manière à faire face aux technologies récentes
dans cette thématique (deep learning, GPU, réalité virutelle et augmentée, RGB-D) et au
renouvellement de l’équipe pédagogique.
Les principaux changement de contenu des modules ont été la création d’un projet sup-
plémentaire axé sur l’ingénierie des technologies, l’ajout de formations en imagerie X et
ultrason, l’ajout de la composante apprentissage automatique et « réalités virtuelle et
augmentée » (organisation d’une journée à Châlon-sur-Saône au Le2i puis visite d ’une
entreprise spécialisée et du musée Nicéphore Niépce)
Ce module de 20h de face à face est une formation du Master Medical Imaging Signal
and System (MISS), parcours Systèmes et Images (depuis 2007). Définition des contenus,
recherche des intervenants (académiques et industriels), animation de l’équipe pédagogique
et intervenants ont été mes principales activités pour ce module dans lequel j’assurai
la formation en filtrage. Depuis 2019, nous avons fortement fait évoluer le contenu de
manière à intégrer le machine learning et pour ma part le deep learning et à renforcer les
fondamentaux en filtrage, segmentation et recalage.
4.3 Bilan 41
4.3 Bilan
Dans ce chapitre, j’ai présenté mes activités d’enseignements et les responsabilités péda-
gogiques que j’ai exercées depuis 2006. Elles occupent une moitié de mon temps. Même
si certaines ont été autant difficiles et stressantes qu’éloignées des missions initiales d’un
enseignant-chercheur, dans la réalité, pour avancer au sens large de la formation, il fallait
les assurer et les conduire à termes. Elles sont surtout très enrichissantes et stimulantes sur
les aspects de renouvellement intellectuel, de gestion des relations humaines, de capacités
de communication et de pédagogie puis organisationnel. Le chapitre suivant présente l’autre
moitié des mes activités d’enseignant chercheur : mes activités en recherche.
5. Activités de recherche
Mon activité de recherche est centrée sur le traitement et l’analyse d’images médicales
pour l’étude de pathologies. Plus précisément, je contribue dans ce domaine aux méthodes
de filtrage, segmentation et clustering de données multi paramétriques spatio-temporelles.
La figure 5.1 illustre les principaux travaux de recherche conduits depuis 2010.
Figure 5.1 – Synthèse des activités de recherche de 2010 à 2020 en filtrage et segmentation.
Abréviations : MS+RG : mean-shift avec croissance de région ; STMS : mean-shift spatio-temporel ;
STRG : croissance de région spatio-temporelle ; Deep Learn. : apprentissage profond
Mes activités de recherche sont résumées ci-après, suivies des encadrements effectués, des
principales collaborations et enfin des différentes responsabilités exercées.
44 Chapitre 5. Activités de recherche
Période 2001-2008
Pendant ma thèse, dans le cadre de l’étude de tumeurs osseuses, je me suis intéressé à
la segmentation automatique par croissance de régions en imagerie TEP (Tomographie à
Emission de positons) au FDG (18F-FDG : fluorodesoxyglucose marqué au fluor 18) et NaF
(18F-NaF : fluorure de sodium marqué au fluor 18), traceurs qui permettent de visualiser
respectivement l’activité métabolique du sucre et l’activité fonctionnelle du squelette. En
imagerie TEP, les volumes 3D sont relativement bruités, les contours ne sont pas nets et
les structures à segmenter peu homogènes. Afin de rendre la segmentation par croissance
de régions plus automatique et afin d’améliorer les performances, je me suis tourné vers
le filtrage mean-shift et l’analyse de ses paramètres d’échelle ainsi que de l’espace des
caractéristiques spatial-amplitude utilisés pour représenter et traiter les données (Grenier
et al., 2005a). J’ai proposé dans ce cadre un formalisme de l’approche de croissance de
région permettant de généraliser cette méthode de segmentation aux différentes spécificités
observées sur les images TEP et aux données multiparamétriques, notamment en imagerie
par ultrasons. Ainsi, il est possible de faire des liens entre clustering et segmentation et on
pouvait espérer compléter le formalisme pour exprimer le critère optimisé par les approches
de croissance de régions. Ce travail a été conduit dans le cadre de la thèse de Jean-Loïc
Rose (soutenue en 2008) et a aussi conduit à l’ajout d’apriori géométrique (Rose et al.,
2010).
Période 2008-2012
Un autre élément important est l’optimisation des paramètres d’échelles utilisés pour régler
le fonctionnement des approches de filtrage mean-shift (Li et al., 2011) et de segmentation
par croissance de région (Revol-Muller et al., 2012a). La compréhension fine des espaces
utilisés et la normalisation effectuée sur les données ont été au cœur de la thèse de Ting Li
(soutenue en 2012) avec comme application médicale, la prédiction de zones nécrosées suite
à un Accident Vasculaire Cérébral (AVC) à partir de données multiparamétriques IRM.
D’après les modèles biologiques, cette zone, dite de pénombre, peut se prédire à partir
des images IRM acquises aux premiers instants suivants la survenue de l’AVC. Malgré de
très bonnes performances sur des rats avec des AVC provoqués, l’approche a donné des
résultats mitigés sur l’homme. L’impact de l’instant de l’imagerie par rapport à la survenue
de l’AVC, du lieu de l’AVC et de la variabilité des patients expliquent ces résultats. D’un
point de vue méthodologique, l’apport de l’information temporelle dans ce type d’approche
serait d’un enjeu capital et original que nous avons étudié par la suite.
Période 2012-2016
Comprendre l’évolution des caractéristiques dans l’espace joint spatial-amplitude, puis
la formulation d’une méthode de clustering permettant de prendre en considération ces
évolutions temporelles, ont guidé mes travaux pendant cette période. Nous avons ainsi
étendu le formalisme mean-shift aux séries temporelles et introduit la notion de voisins
temporels (Mure et al., 2015b). Cette approche de filtrage (STMS) a été appliquée avec
succès à l’analyse de l’évolution des lésions de Sclérose En Plaques (SEP) au cours d’études
longitudinales en IRM. Elle permet notamment d’obtenir une segmentation fiable des
tissus évoluant de même manière et a été appliquée avec succès à d’autres problématiques
5.2 Participation à l’encadrement de post-doctorants 45
d’évolutions (thèse Simon Mure soutenue en 2016). Cependant, cette approche ajoute un
nouveau paramètre d’échelle pour l’aspect temporel et de nouvelles contraintes sur les
données pour garantir un fonctionnent robuste sur une base de données.
Pendant cette période, une problématique de segmentation et d’étiquetage automatique de
tous les os sur des scanners X corps entier, pour réaliser des modèles anatomiques en vue
de simulations, m’a conduit à utiliser un recalage d’atlas qui, contrairement aux méthodes
précédentes, est une méthode supervisée. En effet, ce problème était purement insoluble
avec les approches non-supervisées développées dont les mean-shift et la croissance de
région.
Période 2016-2021
Pendant cette période, les problèmes de segmentation rencontrés ont conduit à l’utili-
sation quasi-systématique de méthodes supervisées, soit via des recalages d’atlas soit
par apprentissage machine –en plein essor sur cette période- puis à des contributions
sur ces approches (Leclerc et al., 2019c ; Nguyen et al., 2019b). L’enjeu principal est
d’obtenir des segmentations suffisamment précises et robustes pour permettre des études
longitudinales (comme l’inflammation musculaire en IRM) ou temporelles (séquences écho-
cardiographiques ou d’IRM cardiaque). Nos approches d’augmentation de données veillant
à la diversité morphologique (thèse de Hoai-Thu Nguyen, soutenue le 15 octobre 2021) et
différentes contributions sur les réseaux de neurones basés sur l’architecture U-Net (thèse
Sarah Leclerc, soutenue en 2019) permettent d’obtenir des performances souvent suffisantes
pour les études médicales.
Delphine Charpigny
« Quantification des nanoparticules à base d’oxyde de fer pour l’IRM Approche basée sur la
déconvolution du défaut de champ magnétique »
Thèse soutenue le 11 janvier 2011. Implication sur les travaux de thèse (direction Hugues
Benoit-Cattin). Actuellement experte chez Ayming Lyon.
Pour le problème de la dé-convolution dans ce contexte, j’ai identifié deux approches de
la littérature permettant de résoudre le problème directement dans l’espace de Fourier
et qui ont permis de résoudre ce point bloquant (dé-convolution régularisée par moyenne
des erreurs quadratique (Wiener) et contraint par moindres carrées (CLS)). (Charpigny
et al., 2009 ; Charpigny et al., 2010 ; Charpigny et al., 2008).
Ting Li
« Contributions to Mean Shift filtering and segmentation, Applications to MRI ischemic
data »
Thèse soutenue le 4 avril 2012. Financement China Scholarship Council (CSC). Codirection
(50%) avec Hugues Benoit-Cattin. Actuellement chez ShangHai United-imaging Healthcare
Co., Ltd, China (développement de robots pour le médical).
Ces travaux étudient l’optimisation des paramètres d’échelle pour le filtrage mean-shift et
la segmentation basée sur la croissance de région pour des données multi-paramétriques
(principalement sur des images naturelles couleurs et sur des données issues de différentes
séquences d’IRM). Ces paramètres sont critiques pour la qualité du résultat produit par
l’une ou l’autre de ces approches ou un couplage des deux. Ces travaux établissent des liens
sur l’organisation des données dans l’espace des caractéristiques lors de d’ajout de flou et de
bruit afin de comprendre les limitations des approches et le choix des paramètres d’échelle.
Une optimisation exhaustive des paramètres d’échelle pour chacune des approches et leur
couplage a été conduite et les rapprochements avec l’estimation optimale proposée dans le
contexte statistique et la normalisation des données ont été discutés. Ces stratégies ont été
appliquées pour segmenter les différentes région d’un AVC afin de prédire l’évolution de
la région nécrosée, principal facteur de l’évolution du handicap et du choix du traitement
pharmaceutique. (Li et al., 2010a ; Li et al., 2011 ; Revol-Muller et al., 2012a).
Simon Mure
« Classification non supervisée de données spatio-temporelles multidimensionnelles. Appli-
cations à l’imagerie »
Thèse soutenue le 2 décembre 2016, financement MENRT école doctoral EEA. Codirection
(50%) avec Hugues Benoit-Cattin. Actuellement ingénieur chez Dessintey Saint-Etienne.
Il s’agissait d’apporter une formulation à l’approche mean-shift pour prendre en compte
l’information disponible dans des séquences d’images pour du filtrage et du clustering.
L’application qui a guidé cette étude est l’analyse de l’évolution de lésions de sclérose en
plaques observées par imagerie IRM. Cette méthodologie s’est révélée efficace pour de
nombreux autres problèmes d’analyse d’évolution (imagerie satellitaire, imagerie spectrale
optique). (Ameli et al., 2016 ; Mure et al., 2016a ; Mure et al., 2015a ; Mure et al.,
2016b ; Mure et al., 2016c ; Mure et al., 2016d ; Mure et al., 2015b ; Portejoie et al.,
2015), (Dolet et al., 2016 ; Dolet et al., 2018).
5.3 Participation à l’encadrement et à la codirection de doctorants 47
Sarah Leclerc
« Automatisation de la segmentation sémantique de structures cardiaques en imagerie
ultrasonore par apprentissage supervisé »
Thèse soutenue le 11 décembre 2019, financement Labex PRIMES (début octobre 2016).
Co-encadrement 30% (codirecteurs Olivier Bernard et Carole Lartizien). Actuellement
MCU 63e à Dijon.
Hoai-Thu Nguyen
« Méthodes semi-supervisées pour l’étude de la variation fonctionnelle à partir de données
d’imagerie médicale multiparamétriques et longitudinales »
Thèse soutenue le 15 octobre 2021, financement MENRT école doctorale SIS. Codirection
(50%) avec Pierre Croisille.
Valentine Wargnier-Dauchelle
« Approches d’apprentissage profond pour la détection en IRM de lésions de slécore en
plaques actives au gadolinium, sans injecter de gadolinium »
En quatrième année de thèse, financement MENRT école doctorale EDISS. Participation à
l’encadrement de thèse (codirecteurs Michael Sdika et François Cotton).
Cette thèse vise à développer des méthodes basées sur l’apprentissage profond permettant de
détecter les lésions SEP actives au Gadolinium en évitant d’injecter ce produit controversé
au patient. Une collaboration avec OFSEP 2 , nous permet de disposer d’environ 1000
patients respectant un protocole d’imagerie parfaitement adapté à cette étude. Cependant,
cette base de données n’est pas annotée et les travaux sont orientés vers les méthodes de
segmentation faiblement supervisée. Pour plus de robustesse, une étude sur l’explicabilité des
réseaux est nécessaire afin de s’assurer de la cohérence des résultats avec le fonctionnement
interne du réseau. (Wargnier-Dauchelle et al., 2021a ; Wargnier-Dauchelle et al.,
2021b)
Enyi Chen
« Développement des techniques d’analyse de la connectivité morphologique pour l’étude
des phénomènes neuro-dégénératifs dans le vieillissement normal et dans la sclérose en
plaques »
Thèse commencée le 25 octobre 2021, financement Labex PRIMES medical board. Codirec-
tion (40%) avec Dominique Sappey-Marinier.
Emile Saillard
« Approches d’apprentissage profond pour l’estimation du risque de fracture par simulation
numérique de vertèbres métastasées à partir d’images CT in vivo »
Thèse commencée le 1 octobre 2022, financement école doctorale MEGA. Codirection (50%)
avec Hélène Follet (Lyos/LBMC). Collaboration avec les Hospices Civils de Lyon.
5.5 Projets
PEPS INS2I CNRS - AAP 2013-2014
Durée de 24 mois. Montant de 16kEuros. « Classification Spatio-Temporelle d’ensemble
de données multiparamétriques. Application à la caractérisation de la phase chronique
des lésions SEP en suivi longitudinal IRM ». J’ai été porteur de ce projet qui a permis
d’accompagner les travaux de thèse de Simon Mure (achat d’ordinateur, échange avec
Harvard Medical School, différents frais de missions).
Projet Européen (FP7) PIPER
[Link]
Le budget total est de 3,8 millions d’Euros dont 2,9 financés par la commission Européenne.
Projet coordonné par Philippe Beillas (Universté de Lyon 1 - IFSTTAR) et qui regroupe
10 partenaires provenant de 5 pays différents pour une période de 3 ans et demi. Ma
contribution à ce projet a porté sur les traitements d’images médicales (scanner X corps
entier de cadavre) dans le but de produire des segmentations et d’identifier automatiquement
les os afin d’alimenter des simulateurs physiques de crash-test avec des morphologies
différentes (Moreau et al., 2016).
ANR 3DClean
[Link]
Le budget total est d’environ 1 950k€ dont une aide de l’ANR de 618k€. Projet coordonné
par Thierry Epicier (MATEIS) de 2015 à 2019 regroupant 5 unités partenaires dont l’objectif
était le développement expérimental de la microscopie électronique environnementale
appliqué à la catalyse.
J’ai été impliqué pour les problématiques liées à la tomographie : débruitage et déconvolution
des acquisitions (Feng et al., 2016), optimisation de l’acquisition par analyse d’images
(Epicier et al., 2018 ; Epicier et al., 2019 ; Koneti et al., 2019 ; Koneti et al., 2016) et
algorithme de reconstruction 3D (Banjak et al., 2018).
EUR SLEIGHT-MANUTECH Dionisos
2019 à 2021
Budget de 87,5k€. Projet coordonné par Christophe Ducottet (laboratoire Hubert Curien
St Etienne) et Thierry Epicier (MATEIS - IRCELyon). Projet sur le « Suivi de la diffusion
5.6 Contrats industriels 51
Figure 5.2 – Illustration de la segmentation par recalage d’atlas (en haut) puis détails des labels
des os dans deux coupes (en bas), Projet PIPER.
de nanoparticules sur des surfaces pour l’étude de la nanocatalyse imagée par microscopie
en transmission électronique ». Je collabore pour la segmentation et détection des nano-
particules (apprentissage profond) ainsi que les prétraitements (recalages) (Faraz et al.,
2021 ; Faraz et al., 2022).
5.7 Responsabilités
Depuis le démarrage du labex PRIMES, je suis impliqué dans le Work Package
Formation et j’en suis depuis 2018 le co-responsable. J’ai géré : le choix des 8
plateformes et leurs achats puis à leurs mises en oeuvres, la rénovation de deux salles
au sein du département GE pour accueillir ces plateformes, à la diffusion de l’offre
de formation et l’organisation son utilisation. Le budget matériel mis en place fut
d’environ 200k€. Cette salle assure 200h/an de TP spécifiques pour une dizaine de
formations universitaires différentes. Je suis à l’origine de la création de l’école d’été
en deep learning pour l’imagerie médicale. J’ai organisé celles qui se sont tenues
à Lyon (département Génie Electrique) en 2019 (figure 5.3) et en virtuel en avril
2021 (figure 5.4). Une troisième édition de cette école a eu lieu début juillet 2022 à
Montréal avec nos collaborateurs Canadiens et pour laquelle je fais parti des comités
d’organisation et scientifique 5.5. Je co-organise aussi la quatrième édition à Lyon en
avril 2023. Ces écoles se déroulent sur une semaine, incluent 4 TP et des événements
scientifiques (session posters avec buffet, table ronde, ...) et sociaux (sorties, soirée
gala, ...). Ces écoles ont chacune accueillis entre 80 et 150 participants inscrits de 20
nationalités différentes.
Depuis 2019, je suis le co-responsable du projet transversal MUSIC (MUltiple Sclerosis
and neuro Inflammation) du laboratoire CREATIS. Mon rôle est d’animer l’équipe
de recherche et d’organiser l’articulation des axes de recherches et des demandes de
financements. La dotation annuelle par le laboratoire est de 3,5k€. Ce projet regroupe
13 permanents de CREATIS (ingénieurs, chercheurs en clinique, chercheurs en IRM,
chercheurs en traitement d’images) réunis tous les deux mois pendant 2h. En 2020,
13 réponses à appel à projets ont été déposés et 5 ont obtenus un financements pour
2021 (une bourse de thèse, 80k€, temps ingénieurs et post-doc, temps machine IRM
et animaux)
Membre du CU de CREATIS de 2016 à 2021. Principalement impliqué pour les
problématiques de travaux (plan campus, réhabilitation des nouveaux locaux du
laboratoire) et de calculs GPU (recherche de fonds (projet PPAIR 40kEuros), choix
des machines GPU (Creatis et IN2P3), recommandations d’usages, mise à disposition
de bibliothèques).
Relecteur pour IEEE (5 relectures par ans depuis 2013 pour ICIP, 7 revues pour
TIP) et Elsevier (environ 20 revues pour Pattern Recognition).
5.7 Responsabilités 53
Figure 5.3 – Bandeau du site web de l’école d’été co-organisée deepimaging2019. sciencesconf.
org ayant accueilli 150 participants, 70 inscrits à l’ensembles des activités.
Figure 5.4 – Bandeau du site web de la seconde édition de l’école d’été deepimaging2021.
sciencesconf. org en mode virtuel suivie par 80 participants inscrits à toutes les activités.
Figure 5.5 – Bandeau du site web de la troisième édition de l’école d’été deepimaging2022.
sciencesconf. org à Montréal ayant avec 65 participants sur place et 70 en asynchrone.
6. Production scientifique
Chapitre de livre
Revol-Muller, C., T. Grenier, J. Rose, A. Pacureanu, F. Peyrin et C. Odet (2013).
« Region Growing : When Simplicity meets theory. Region growing revisited in feature
space and variational framework ». In : Communications in Computer and Information
Science Computer Vision, Imaging and Computer Graphics. Theory and Application.
Sous la dir. de G. Csurka, M. Kraus, R. S. Laramee, P. Richard et J. Braz.
T. 359. Springer. Chap. 426, p. 426-444.
Conférences
Charpigny, D., T. Grenier, C. Odet et H. Benoit-Cattin (2009). « Towards iron oxide
nanoparticles quantization in molecular MR images by default field deconvolution ».
In : Boston, MA, United states, p. 137-140.
— (2010). « Restoration-based iron oxide particles quantification in MR images ». English.
In : Dallas, TX, United states, p. 485-488.
Charpigny, D., T. Grenier, C. Odet, J. Pauly et H. Benoit-Cattin (2008). « Decon-
volution approach for susceptibility map building ». In : European Society for Magnetic
Resonance in Medicine and Biology, 25st Annual Scientific Meeting ESMRMB. Valencia,
Spain, in-press.
Davignon, F., T. Grenier, C. Revol-Muller, G. Gimenez et O. Basset (2005).
« Lissage et segmentation d’images multi-paramétriques ultrasonores par une approche
’Mean shift’ ». In : GRETSI’05. Louvain-La-Neuve, Belgium, p. 21-24.
Dolet, A., F. Varray, S. Mure, T. Grenier, Y. Liu, Z. Yuan, P. Tortoli et D. Vray
(2016). « Spatial and spectral regularization for multispectral photoacoustic image
clustering ». In : IEEE International Ultrasonics Symposium. Proceedings of the 2016
IEEE International Ultrasonics Symposium (IUS). Tours, France.
Dupuy, J., T. Darnanville, F. Valois, N. Arnesen, M.-P. Favre, A. Fave, J.-Y.
Cavaillé, T. Grenier, E. Dumitrescu, E. Niel et C. Odet (2011). « Le modèle In-
ternational de l’INSA de Lyon : au-delà de l’échange académique - Dédié aux personnels
et étudiants de l’Université du Tohoku à Sendai ». In : t. 10, p. 1009.
Epicier, T., T. Grenier, H. Banjak, V. Maxim, S. Koneti et L. Roiban (2019). « Very
fast acquisition of tilt series in environmental TEM tomography : tips and tricks ». In :
XVIème colloque de la Société Française des Microscopies. Poitiers, France.
Feng, Y.-M., K. Tran, S. Koneti, L. Roiban, A.-S. Gay, C. Langlois, T. Epicier,
T. Grenier et V. Maxim (2016). « Image deconvolution for fast tomography in
environmental transmission electron microscopy ». In : European Microscopy Congress
2016 : Proceedings. Wiley-VCH Verlag GmbH & Co. KGaA.
Grenier, T., C. Revol-Muller, N. Costes, M. Janier et G. Gimenez (2003). « Au-
tomated seeds location for whole body NaF PET segmentation ». English. In : t. 3.
Portland, OR, United states, p. 2210-2214.
58 Chapitre 6. Production scientifique
Autres
Grenier, T. (2020). Machine learning en imagerie Médical – Journée Thématique Machine
Learning à Lyon de la Structure de recherche IXXI, le 23-01-2020.
Grenier, T. et C. Lartizien (2010). Architecture de fusion modulaire pour l’assistance
au diagnostic médical, Réunion des GDR STIC-SANTE Thème : Signaux et Images en
santéet GDR ISIS Thème B : Image et Vision.
Grenier, T., C. Revol-Muller, N. Costes, M. Janier et G. Gimenez (2006b). 3D
robust adaptive region growing for segmenting PET images, "1st Singaporean-French
Biomedical Imaging Workshop, 2006".
Contributions au filtrage et à la
7 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 63
Dans cette partie, mes travaux sur les mean-shift et leurs adaptations dans différents
contextes méthodologiques sont synthétisés. Ils couvrent principalement les travaux de
thèse de Ting Li (2012 )et de Simon Mure (2016) que j’ai co-dirigés et qui prolongent mes
travaux de thèse (2005).
Dans un premier chapitre (chapitre 8), nous présentons le mean-shift dans le contexte
du filtrage d’images. Puis nous nous intéressons aux optimisations proposées pour cette
approche et notamment comment lui associer une méthode de segmentation. Ces contri-
butions sont appliquées à la segmentation de la zone de pénombre suite à un accident
vasculaire cérébral en IRM.
Dans un second chapitre (chapitre 9), nous abordons la problématique du spatio-temporel :
comment filtrer et segmenter des données issues d’un suivi médical ou d’une séquence
d’images ? Les approches proposées sont appliquées au filtrage et à la segmentation de
lésions de sclérose en plaques.
Nous concluons cette partie par une analyse de ces travaux et les perspectives qui en
découlent (chapitre 10).
8. Filtrage mean-shift et segmentation
8.1 Introduction
Ce chapitre dresse le contexte du filtrage d’image mean-shift et introduit les deux concepts
importants : l’espace des caractéristiques et les paramètres d’échelles.
Nous abordons ensuite la problématique de l’optimisation de ces paramètres d’échelles puis
la segmentation.
Enfin, un concept original de carte de probabilité, développé au cours des travaux de
thèse de Ting Li, est détaillé. Nous étudions ensuite l’adéquation de ces approches pour
la segmentation de la zone de pénombre observée lors d’un Accident Vasculaire Cérébral
(AVC) en utilisant plusieurs séquences IRM.
où l’on a x un pixel
et xi un pixel de son voisinage (avec xi ∈ N (x)), puis la fonction de
∥∇I t (xi )∥2
pondération exp − 2.σ2 qui va dépendre du gradient de l’intensité dans l’image à
D
l’itération t.
Cette fonction est illustrée dans la figure 8.1 avec différentes valeurs de σD qui règle la
largeur de la gaussienne et qui sera un paramètre à régler. Plus cette valeur augmente, plus
les forts gradients vont être filtrés au risque de lisser les contours des objets (le filtre va
tendre vers un filtrage moyenneur).
L’approche mean-shift se distingue de cette approche à plus d’un titre. D’une part, elle
converge et il ne sera donc pas nécessaire de fixer un nombre d’itérations maximum. D’autre
part, elle ne modifie pas uniquement les valeurs de l’intensité de l’image.
avec :
n le nombre d’échantillons xi permettant de faire l’estimation (n ne sera pas néces-
sairement le nombre de pixels de l’image).
d est une distance comme la distance Euclidienne généralisée d2(x, y, H) = (x −
y)T H−1 (x − y). Cette distance est aussi appelée distance de Mahalanobis par la
communauté mean-shift.
H est une matrice d’échelle ou de largeur de bande. Elle est carrée, symétrique et
définie positive. Elle permet de régler les échelles entre les dimensions et il s’agit des
paramètres de réglages du filtrage mean-shift. Pour réduire le temps de calcul, il est
recommandé de pré-normaliser les données x′ = H−1/2 x. La distance calculée pour
les évolutions est alors la distance Euclidienne. H se mettra généralement sous la
forme diagonale par bloc pour le filtrage d’images afin" de spécifier
# indépendamment
Hs 0
les échelles spatiales Hs et d’amplitudes Hr : H =
0 Hr
g est une fonction de pondération de R dans R qui se déduit du noyau utilisé pour
l’estimation. Les deux noyaux les plus utilisés sont le noyau Gaussien et le noyau
d’Epanechnikov qui est optimal au sens de l’erreur quadratique moyenne (g est alors la
fonction porte g(u) = 1 ssi u ≤ 1, 0 sinon). Pour le filtrage mean-shift, la principale
contrainte pour g est d’être décroissante. Ainsi, plus deux points x et y sont proches,
plus g(d(x, y)) est grand. Pour le filtrage d’images, g est séparé en deux composantes :
une pour le spatial gs et une pour les amplitudes gr avec g(x) = gs (xs ).gr (xr ).
L’équation (8.3) correspond au calcul d’une moyenne pondérée. Puisque la pondération
dépend de x[t] et d’une mesure de similarité entre x[t] et les autres points, on comprend
que x[t va se déplacer en direction des échantillons qui lui sont le plus similaires. La figure
8.2 illustre cette intuition en utilisant pour g la fonction porte.
t←t+1
[t] [t+1]
D ← D + d2 xj , xj ,H
until D < ϵ end for
end for t←t+1
until D/n < ϵ
Avec les mêmes données et les mêmes paramètres, ces deux processus ne produisent pas les
mêmes résultats comme le montre la figure 8.3 sur laquelle sont représentés les déplacements
itératifs de chaque échantillon filtré par mean-shift avec un noyau Gaussien. Dans cette
illustration, chaque échantillon (les croix bleues) est dans R3 (2 coordonnées spatiales et
une valeur d’intensité issue de l’image).
Il faut environ 100 itérations au processus non-blurring pour converger, alors que seulement
10 sont nécessaires au processus blurring. Le processus blurring converge plus rapidement
et les clusters à la convergence sont plus compacts. Cependant, le processus non-blurring,
plus facile à programmer et à paralléliser, lui a été préféré (Comaniciu et al., 2002).
La convergence pour ces processus a été étudiée dans plusieurs travaux (Carreira-
Perpinan, 2007 ; Cheng, 1995 ; Fashing et al., 2005 ; Rao et al., 2009)). En 2009, (Rao
et al., 2009) a montré que le processus non-blurring avec un noyau Gaussien minimise
l’entropie croisée de Renyi dont les solutions locales sont les modes de la densité de
probabilité. Quant au processus blurring avec un noyau Gaussien, il minimise l’entropie
quadratique de Renyi et est donc par définition instable. En fait, pour le processus blurring,
il faut absolument utiliser un noyau à support borné sinon tous les points finiront par
fusionner ensemble (g ne sera jamais nul, même si la distance d est grande ce qui conduira
inexorablement au regroupement de tous les points).
Figure 8.3 – Processus mean-shift non-blurring après 100 itérations (au centre) et blurring après 15
itérations (à droite) pour les mêmes paramètres et données (à gauche). Les croix bleues correspondent
aux échantillons utilisés et filtrés, les marques rouges aux points de convergence, les segments de
couleurs aux différents déplacements de chaque échantillon. Cette figure ne permet pas de voir
l’évolution de l’intensité des points.
(a) (b)
(c) (d)
Figure 8.4 – Illustration du filtrage Anisotrope (b) et mean-shift (c) sur une image couleur Lena
(a). L’image (d) permet d’observer la position des pixels après filtrage mean-shift (chaque pixel est
un point en couleur qui représente la valeur de la composante rouge, le noir est une absence de
point).
Afin de filtrer des images et obtenir les résultats escomptés, il est nécessaire de régler les
paramètres d’échelles qui sont les seuls paramètres influençant fortement les résultats. Leur
optimisation fait l’objet de la prochaine partie.
70 Chapitre 8. Filtrage mean-shift et segmentation
(a) Image Originale (b) P SN R = 26.10 (c) PSNR∗ = 26.19 (d) P SN R = 25.49
256x256 pixels hs = 4, hr = 20 hs = 4, hr = 40 hs = 4, hr = 80
Figure 8.5 – Filtrage mean-shift de l’image de synthèse IRM avec différents paramètres d’échelles.
(A) image originale de 256 x 256 pixels ; (E) image corrompue avec un flou gaussien (σ = 1 rayon
du filtre de 63 pixels) et bruit gaussien (σ = 10) ; (B),(C), (D) , (F), (G) et (H) montrent différents
résultats obtenus en faisant varier hs et hr . Pour chaque image, le P SN R avec l’image d’origine
est donné. Le cas (C) correspond au filtrage optimal par rapport au P SN R.
On notera que le PSNR évolue peu dans la plage des paramètres d’échelles utilisée dans
la figure 8.5. Cette évolution est illustrée dans la figure 8.6. Ce type d’évolution a été
constatée dans toutes les images étudiées.
Une première analyse de ces résultats conduit à privilégier les petites valeurs de hs (de 1 à
7) et à chercher à optimiser les valeurs de Hr .
8.4 Du filtrage mean-shift à la segmentation d’images 71
En s’appuyant sur les travaux de (Duong, 2003 ; Duong, 2007 ; Wand et al., 1995), il
est possible de déterminer, au sens de l’erreur quadratique moyenne intégrée, les valeurs
optimales de la matrice d’échelle dans le cadre de l’estimation non paramétrique (et non
du filtrage mean-shift). Cette méthode s’appelle la méthode du plug in.
Nous avons confronté les résultats obtenus avec la méthode du plug in avec ceux issus d’une
optimisation par recherche exhaustive des paramètres dans le cadre du filtrage mean-shift
d’images couleurs naturelles (Lena, Mandrill, Pepper, Lake) et de deux images de synthèse
(Tito et IRM) corrompues par du flou et du bruit.
Pour cela, nous avons considéré des valeurs fixées hs de [1; 5] et 3 formes pour le calcul de
Hr par l’approche du plug in :
— P I1D lorsque le calcul du plug in est effectué pour chacune des trois composantes
indépendamment (Hr est diagonale),
— P IDiag lorsque Hr est optimisé par le plug in en utilisant simultanément les trois
composantes d’amplitude (Hr est diagonale).
— P IF ull lorsque Hr est optimisé par le plug in en utilisant les neuf paramètres.
Pour la recherche exhaustive, les paramètres hs et hr (scalaires) sont optimisés simultané-
ment.
Dans les travaux de thèse de Ting Li, l’optimisation a été faite avec deux mesures : le
P SN R (présentée dans la table 8.1) et le SSIM de (Wang et al., 2004b). Ici, seuls les
résultats avec le P SN R sont présentés.
On observe qu’une bonne alternative à la recherche exhaustive (extrêmement coûteuse
en ressource (Li et al., 2010a)) est le P IDiag . Sans pouvoir se généraliser à toutes les
applications de filtrage d’images, le plug in semble pouvoir déterminer efficacement des
paramètres pertinents. Cette étude a aussi permis de valider la séparation hs et hr pour
l’optimisation, ainsi que l’utilisation de la forme diagonale de Hr dans le cas d’images avec
trois composantes d’amplitude (images couleurs (Li et al., 2011) ou 3 séquences IRM).
L’objectif est maintenant d’obtenir une segmentation à partir du filtrage mean-shift.
Table 8.1 – Comparaison des valeurs optimales de P SN R (en dB) obtenues à l’aides du plug in et
de la Recherche Exhaustive des paramètres d’échelle. P SN Rref correspond à la valeur du P SN R
de l’image corrompue.
partagent des positions si proches que la tâche de regroupement (ou clustering) est
grandement facilitée... c’était l’objectif de cette étape de filtrage. En utilisant les positions
spatiales d’origine des échantillons, ce clustering permettra d’obtenir une segmentation de
l’image.
Plusieurs approches permettent de fusionner les points ayant convergés et ainsi effectuer
le clustering. Parce qu’elles nécessitent de fixer le nombre de cluster k, les approches de
type k-moyennes (et ses dérivées) sont rarement utilisées (Cabria et al., 2012). Les deux
approches les plus pertinentes sont :
— la fusion des échantillons proches lors des itérations mean-shift (cette approche sera
détaillée plus loin),
— une approche de type croissance de région après le filtrage mean-shift dans l’espace
joint spatial-amplitude.
Figure 8.7 – Processus de croissance de région. Dans cet exemple, les points en rouge valident le
critère de similarité en intensité et sont ajoutés à la région pour l’itération suivante.
Au démarrage, la région initiale est constituée de quelques points souvent nommés germes.
8.4 Du filtrage mean-shift à la segmentation d’images 73
Figure 8.8 – Illustration du voisinage de y dans un ensemble de points. Les points noirs corres-
pondent aux voisins de y à une distance ϵ.
En utilisant la distance Euclidienne généralisée, plus adaptée aux mélanges des grandeurs
et dynamiques, cette expression peut se mettre sous la forme :
Ceci permet de clusteriser des données filtrées par mean-shift en utilisant des paramètres
d’échelles de croissance de région HRG dans le même espace que ceux des mean-shift
HM S . Ainsi, pour la croissance de région, on notera HsRG le paramètre spatial et HrRG le
paramètre pour les amplitudes.
P arametres Intervalles P as
hsM S 1à5 0.5
hrM S 20 à 100 20
hsRG 1à3 1
hrRG 2 à 10 2
La méthode de croissance de région est initialisée avec 9 germes dans la matière blanche.
Les couleurs sur les images (b) et (c) permettent d’évaluer visuellement la sur- et sous-
segmentation de la matière blanche, respectivement en rouge et en blanc. L’évaluation
quantitative est fait avec le score de DICE (Dice, 1945).
(a) IRM simulée (b) Segmentation (c) Segmentation (d) Matière Blanche
et 9 germes hsM S =3,hrM S =40 hsM S =5,hrM S =20
PSNR=18.73 dB hsRG =1,hrRG =4 hsRG =1,hrRG =6
DICE=0.85 DICE∗ =0.91
Figure 8.10 – Segmentation par l’approche MS+RG de la matière blanche sur l’image IRM simulée
et corrompue avec du flou et du bruit gaussiens.
Figure 8.11 – Illustration des trois stratégies d’échantillonnage des plages de paramètres d’échelles.
Pour les deux stratégies aléatoires, les paramètres d’échelles ont été choisis dans les
intervalles donnés dans la table 8.3. Pour la stratégie d’échantillonnage régulier, les plages
des paramètres sont les mêmes que précédemment (table 8.2).
Paramètres Intervalles
hsM S 1à5
hrM S √5 à 100
√
hsRG 1, 2, 2, 3, 3
hrRG 1 à 10
Table 8.3 – Intervalles des paramètres d’échelle pour les deux stratégies de tirage aléatoire.
Avec ces plages de paramètres, les cartes de probabilités obtenues pour 750 calculs, ainsi
que le seuillage optimal des cartes de probabilités pour chacune des approches, sont données
sur la figure 8.12.
.
(a) Pseudo Aléatoire (b) Grille Régulière (c) Quasi Aléatoire
(d) DICE=0.87, seuil 63% (e) DICE=0.92, seuil 59% (f) DICE=0.91, seuil 59%
Figure 8.12 – Cartes de probabilités et leurs seuillage pour les 3 différents stratégies d’échantillon-
nage des paramètres d’échelle.
Les résultats obtenus avec 100, 500 et 750 filtrages et segmentations pour les tirages
aléatoires et 750 calculs avec la grille régulière sont présentés sur la table 8.4. Pour les
tirages aléatoires, les expériences ont été répétées 30 fois pour calculer les moyennes et les
écarts types du DICE. Le temps moyen d’un calcul de filtrage et segmentation est aussi
indiqué (tous les calculs ont été faits sur la même machine).
Dans cet exemple, la stratégie de grille régulière est la plus performante mais aussi la plus
longue. Pour la suite de ce manuscrit, et notamment l’application à l’AVC, nous utiliserons
8.5 Application à l’accident vasculaire cérébral 77
la stratégie d’échantillonnage quasi aléatoire plus rapide et dont les résultats sont très
proches de ceux de la grille régulière.
Table 8.4 – Scores de DICE suite au seuillage optimal des cartes de probabilités sur l’IRM
corrompue pour les trois stratégies différentes d’échantillonnage et pour trois nombres d’échantillons.
tM SRG est le temps moyen en minute pour un filtrage et segmentation.
Nous avons utilisé la DWI et l’ADC (Apparent Diffusion Coefficient) avec des paramètres
quantitatifs et semi-quantitatifs issus de l’imagerie PWI en IRM. On parlera aussi de
cartographies quand toute une image est créée avec les valeurs de ces paramètres. On se
focalise ici sur les cinq paramètres suivants :
78 Chapitre 8. Filtrage mean-shift et segmentation
— CBV (Cerebral Blood Volume) : le volume sanguin des capillaires et des veinules
cérébraux par volume de tissu cérébral,
— CBF (Cerebral Blood Flow) : le volume sanguin délivré à une unité de masse de tissu
définie par unité de temps,
— TTP (Time To Peak) : délai au maximum de l’effet créé par le traceur,
— peak : valeur du maximum de l’effet créé par le traceur,
— MTT (Mean Transit Time) : le temps moyen qu’il faut au traceur pour parcourir une
région donnée du cerveau. Ce temps de transit dépend de la distance parcourue entre
l’entrée artérielle et la sortie veineuse et est lié au CBV et au CBF selon le principe
du volume central (Ostergaard, 2005), qui stipule que : M T T = CBV /CBF .
Différentes combinaisons de ces paramètres ont été testées en s’appuyant sur le formalisme
de l’espace des caractéristiques. Les vecteurs xi étant construits ainsi pour le filtrage et la
croissance de région :
xx
xy
# xz
"
xs xADC
x= = (8.6)
xr
..
.
xM T T
xCBV
Figure 8.14 – Segmentations optimales obtenues avec les paramètres ADC et peak sur 7 coupes du
rat ’pMCAO2’.
DICE ∗
Rat Méthode ADC, peak ADC, TTP ADC, peak, TTP
pM CAO2 RG seule 0.67 0.29 0.59
MS+RG 0.81 0.66 0.65
pM CAO4 MS+RG 0.86 0.72 0.78
dha81 (r) MS+RG 0.79 0.49 0.74
dha82 (r) MS+RG 0.81 0.53 0.76
Table 8.5 – Influence des combinaisons de paramètres IRM sur les segmentations produites par la
croissance de région (RG) et l’approche MS+RG. Les deux derniers rats marqués avec un (r) sont
les deux rats avec reperfusion.
Figure 8.15 – Cartes de probabilités de segmentation de la pénombre du rat ’pMCAO2’ pour trois
combinaisons de cartographies IRM.
8.6 Conclusion
Dans ce chapitre nous avons introduit les principales notions sur le filtrage mean-shift :
l’espace des caractéristiques (domaine joint spatial et amplitude), les paramètres d’échelles
et le formalisme mean-shift (Li et al., 2011).
Nous avons aussi cherché à optimiser les paramètres d’échelles soit au sens des statis-
tiques (avec la méthode du plug in), soit avec une recherche exhaustive (Li et al., 2010a ;
Revol-Muller et al., 2012a). Puis, afin de s’affranchir de la référence nécessaire à cette
optimisation, le concept de cartes de probabilités a été introduit et appliqué à des données
de synthèses et à des données réelles en IRM pour l’AVC.
Les résultats chez le rat ont montré l’intérêt de ces méthodes en produisant des segmenta-
tions de bonnes qualité de la zone de pénombre.
8.6 Conclusion 81
(a) DWI (b) carte ADC (c) carte CBF (d) carte CBV
(e) carte MTT (f) carte TTP (g) carte Tmax (h) T2 FLAIR
Figure 8.16 – Illustrations des séquences IRM pour un AVC chez l’homme (11e coupe du patient
171).
Figure 8.17 – Cartes probabilités sur les 20 coupes du patient 171 calculées avec les cartographies
IRM : TTP, MTT, CBF, ADC et DWI. La référence à 30 jours est donnée pour chacune des
coupes.
9.1 Introduction
Le chapitre précédent a montré l’intérêt du filtrage pour l’amélioration de la segmentation
mais aussi le besoin de l’intégration de la dimension temporelle pour certaines applications.
Dans ce chapitre nous résumons trois contributions sur cette problématique.
Les deux premières sont basées sur l’intégration de la composante temporelle dans les
filtrages anisotrope et mean-shift. Une troisième est consacrée à la croissance de région.
Ces contributions ne seront pas appliquées à l’AVC mais aux lésions de sclérose en plaques
(SEP). En effet, ces approches où l’on va considérer une évolution observée sur plusieurs
acquisitions IRM échantillonnées dans le temps, sont incompatibles avec les acquisitions
préalablement utilisées pour l’AVC.
9.2.1 Introduction
Le débruitage des images est étudié depuis plusieurs décennies dans le cadre du traitement
des images. Il s’agit d’une tâche fondamentale visant à récupérer l’image la plus propre
possible à partir d’une entrée corrompue. Un grand nombre de techniques différentes ont
été conçues pour résoudre ce problème (Buades et al., 2005b ; Prasath et al., 2014). Si la
plupart d’entre elles traitent des images en deux dimensions, d’autres techniques étendent
leur formulation à des données en trois dimensions en considérant le temps comme la
troisième dimension, comme dans les séquences d’images ou le traitement vidéo.
L’un des moyens les plus élémentaires de filtrer les images corrompues est évidemment de
les faire passer à travers un filtre gaussien, bien que cela conduise à des données floues.
La diffusion anisotrope est un moyen de résoudre ce problème : le processus de filtrage
est lié à la norme locale de gradient. Plus la norme de gradient est basse, plus l’impact
du filtre passe-bas est important. Il s’agit d’un processus itératif sans critère d’arrêt basé
84 Chapitre 9. Filtrage et segmentation spatio-temporels
∂I(x)
= c(x) ∆I(x) + ∇c(x) · ∇I(x). (9.1)
∂t
où la fonction c(x) choisie est celle recommandée par Perona and Malik :
∥∇I(x)∥2
c(x) = exp − (9.2)
K2
avec K une constante qui permet de régler la largeur de la gaussienne.
En discrétisant l’équation (9.2) avec les relations de Barash (Barash, 2002), on a l’équation
d’évolution de la diffusion anisotrope (AD) :
9.2 Diffusion Anisotrope temporelle 85
I k (xi ).c(xi )
P
I k+1
(x) = i∈N
(9.3)
i∈N c(xi )
P
Gs (x, xi ) = gs ds (x − xi ) (9.6)
Gt (t, ti ) = gt dt (t − ti ) (9.7)
Gr (Ix,t
k
, Ixki ,ti ) = gr dr (Ix,t
k
− Ixki ,ti ) (9.8)
où g (également appelée fonctions de noyau ou de profil) est une fonction positive, qui somme
à un et décroissante, et où les fonctions d sont des distances, typiquement euclidiennes
généralisées (ou de Mahalanobis). Dans le cas de la distance de Mahalanobis, des matrices
d’échelles pour les caractéristiques spatiales, temporelles et d’intensité doivent être définies.
On peut noter que notre fonction C(·) permet toujours une pré-normalisation des données
d’entrée par les matrices d’échelles.
Comme le filtrage de diffusion anisotrope n’est pas capable d’éliminer les pixels aberrants
dans les régions homogènes, dont les écarts d’intensité par rapport aux intensités moyennes
des régions dépassent la valeur de la bande passante, nous introduisons un terme de
régularisation pour réduire le bruit restant. Cela conduit à l’équation d’évolution de notre
approche RAD+t :
I k (xi , ti ).C xi , ti , I k (xi , ti )
P
i∈N
I k+1 (x) =(1 − κkx )
C(xi , ti , I k (xi , ti ))
P
i∈N (9.9)
i∈N I (xi , ti )
P k
+ κkx
|N |
où |N | représente la cardinalité de l’ensemble N .
Le terme de régularisation est la moyenne des intensités sur le voisinage de (x, t) noté
N (x, t). Il est important que cette régularisation ne soit pas appliquée systématiquement
afin de conserver la propriété de la diffusion anisotrope de préservation des contours des
objets.
Ainsi, ce terme doit être pondéré par un scalaire κkx ∈ [0; 1] qui va dépendre des valeurs
d’intensités de N (x, t). Afin d’obtenir les propriétés de filtrage désirées, κkx doit être proche
de 1 quand l’intensité de I k (x, t) est considérée comme aberrante, et proche de 0 sinon.
86 Chapitre 9. Filtrage et segmentation spatio-temporels
Ici, on utilise κkx ∈ {0; 1} et la « norme » zéro ∥.∥0 , qui compte le nombre de dimensions
non nulles dans un vecteur, pour mesurer le comportement dans le voisinage.
Le vecteur h I (x, t) ∈ R
k |N | est construit à partir de toutes les intensités de N (x, t) ainsi :
i
Ik (x, t) = I k (x1 , t1 ), I k (x2 , t2 ), . . . , I k (x|N | , t|N | ) . Le vecteur ∆Ik (x, t) est défini comme la
soustraction entre Ik (x, t) et I k (x, t). En utilisant ces notations, κkx se calcule de la manière
suivante :
SSIM (Wang et al., 2004a). Pour les images de données réelles, l’évaluation est uniquement
qualitative car il n’existe aucune vérité terrain.
Figure 9.1 – Modèle synthétique pour les tests avant floutage et bruitage.
Expérimentations
Les approches de diffusion anisotrope proposées sont comparées à la méthode BM3D
(Dabov et al., 2007) qui prend en compte le temps sur les données synthétiques. Ensuite,
les résultats de ces approches sur les données IRM réelles sont présentés.
Nous commençons par décrire les choix communs à toutes nos expériences (principalement
les fonctions décrites dans les équations (9.6), (9.7) et (9.8)), puis nous précisons les
expériences.
Nous utilisons la distance euclidienne généralisée au carré d2M pour toutes les mesures de
distance ds , dt et dr avec Hs = h2s .Is , h2t et Hr = h2r .Ir les facteurs d’échelles respectifs avec
Is et Ir les matrices identités de dimensions correspondantes aux dimensions des espaces
spatial et d’intensité. Les fonctions gs (·), gt (·) et gr (·) sont toutes la même fonction de
profil g(u) = exp(−u) avec le scalaire u égal à d2M . Ces choix nous permettent d’utiliser le
même c(x) que (9.2) généralisé à notre approche spatiotemporelle.
Pour les séquences synthétiques corrompues, les paramètres ont été optimisés par une
recherche exhaustive en minimisant l’erreur quadratique moyenne (MSE, voir l’annexe A).
Grâce aux valeurs obtenues sur les séquences corrompues, nous avons fixé manuellement les
paramètres pour les données IRM réelles. Tous les paramètres sont décrits dans le tableau
9.1. Nous précisons que N a été fixé en fonction des paramètres hs et ht de sorte que
|N | = (2hs + 1) × (2hs + 1) × (2ht + 1).
Résultats
Pour faciliter la lecture, les données et les résultats (animés) sont disponibles en ligne 1 .
La figure 9.2 présente les résultats obtenus par le filtrage de diffusion anisotrope de base
(AD), puis par notre approche de filtrage anisotrope spatiotemporel (AD+t) et par notre
1. http ://[Link]/%7egrenier/research/PortejoieICIP2015/
88 Chapitre 9. Filtrage et segmentation spatio-temporels
Paramètres
CS1 1 3 5 10 0.88 2
CS2 1 3 10 15 0.88 2
CS3 1 3 25 20 0.88 2
Real Data 1 3 5 10 0.88 2
méthode régularisée (RAD+t). La figure 9.3 présente les résultats obtenus pour les données
de synthèses et les données réelles.
Sur la base de l’évaluation visuelle et de la MSE, nous pouvons déduire que nos filtres AD+t
et RAD+t sont plus performants que AD pour la suppression du bruit et la préservation
des contours. Mais, pour obtenir de bons résultats de filtrage, six paramètres doivent être
ajustés. Cependant, d’après la recherche exhaustive sur ces données, il semble que seuls hr
et #it doivent être réglés avec soin, car les autres restent les mêmes pour les différentes
images. Nous vérifions également que la suppression du bruit sur la première et la dernière
image des séquences est affectée par les effets de bords et que ce nombre d’images est lié à
ht .
Nous avons comparé quantitativement notre approche RAD+t à BM3D (Dabov et al.,
2007) qui est l’une des approches de filtrage les plus efficaces. Nous avons appliqué cet
algorithme à nos données sans optimiser les paramètres par défaut car cette approche
ne nécessite pas de réglage. Les valeurs MSE et SSIM obtenues sont présentées dans le
tableau 9.2. Nous observons que notre approche est plus adaptée que BM3D pour ce type
particulier de séquences d’images.
Qualitativement, nous observons sur les données IRM réelles que notre approche est
efficace pour éliminer les artefacts de bruit et améliorer la qualité de l’image, nous pouvons
également noter que les détails sont plus nets.
9.2.4 Conclusion
Nous avons proposé une nouvelle méthode pour filtrer les séquences d’images, en tenant
compte des dimensions spatiales et temporelles dans le processus de filtrage par diffusion
anisotrope. Nous avons étendu la forme de Barash (Barash, 2002) en ajoutant des données
temporelles et un terme régularisation contrôlé localement dans le processus pour supprimer
les bruits aberrants dans les régions homogènes.
9.2 Diffusion Anisotrope temporelle 89
Figure 9.3 – Comparaison des filtrages BM3D et RAD+t. Image d’entrée (colonne de gauche) et
les résultats de filtrage pour BM3D (colonne du centre) et RAD+t (colonne de droite) pour le 20e
instant de CS3 (première ligne) et le 4e instant pour les données IRM réelles (ligne au centre) et un
détail sur une région d’intérêt (ligne du bas).
Table 9.2 – Résultats optimaux obtenus avec RAD+t et BM3D pour la MSE (à minimiser) et le
SSIM (à maximiser). Pour les deux mesures, les optimisations ont été faites sur la MSE.
On a montré que ces méthodes améliorent la suppression du bruit et préserve les contours
des régions dans les séquences d’images. Aussi, nous avons également montré l’efficacité de
l’utilisation du terme de régularisation pour améliorer le débruitage.
90 Chapitre 9. Filtrage et segmentation spatio-temporels
D’après nos expériences sur nos données synthétiques, nous obtenons des résultats supérieurs
à ceux obtenus avec l’une des meilleures approches (BM3D).
L’utilisation de trois paramètres d’échelles pour contrôler la diffusion anisotrope permet un
réglage intuitif. Cependant, notre approche nécessite un ajustement fin de 2 à 6 paramètres
(trois paramètres d’échelles, τ et le nombre d’itérations) qui n’est pas décrit ici.
Une partie de ces paramètres pourraient être supprimée par l’utilisation du formalisme
mean-shift à condition de l’étendre aux données spatio-temporelles. Puisque le filtrage
mean-shift a aussi montré sa supériorité par rapport au filtrage anisotrope, on peut aussi
espérer une amélioration des performances.
9.3.1 Introduction
Ces dernières années les acquisitions longitudinales ont augmenté de façon spectaculaire.
Les séquences vidéo, le suivi par système de positionnement mondial (GPS) ou le suivi
médical, ont conduit au développement de nombreuses applications d’exploration de données
de séries temporelles. Ainsi, l’analyse non supervisée de séries temporelles est devenue
très pertinente dans le but de détecter et d’identifier automatiquement des modèles ou
comportements.
Plusieurs méthodes de regroupement de séries temporelles ont été proposées pour la
prédiction, basées sur l’étude des corrélations de signaux (Papadimitriou et al., 2007),
des attributs de forme (Hautamaki et al., 2008 ; Meesrikamolkul et al., 2012) ou des
modèles d’évolution (Kalpakis et al., 2001). Les travaux présentés dans (Matsubara
et al., 2014) introduisent une méthode non supervisée et sans paramètre pour exploiter les
régimes (ou patrons ou modèles) et les transitions (discontinuités) dans de grandes séries
temporelles co-évolutives, mais ne regroupent pas les évolutions similaires.
Bien que d’après (Aggarwal et al., 2013), les seules méthodes connues qui peuvent
être généralisées au regroupement de séries temporelles multivariées sont celles proposées
dans le domaine des trajectoires spatiales (Benkert et al., 2008 ; Jeung et al., 2008 ; Li
et al., 2010b ; Zheng et al., 2013), on note que des travaux exploitant la combinaison de
l’information spatiale et couleur ont déjà été publiés dans le cadre de l’analyse de vidéos.
Notamment, de nombreuses études portant sur le filtrage ou la restauration de séquences
d’images ont été menées depuis le début des années 90 (voir (Bhagavathy et al., 2007)).
Certaines approches s’appuient sur un estimateur de mouvement. (Varghese et al., 2010) et
(Maggioni et al., 2014) ont proposé de telles approches exploitant à la fois les redondances
spatiales et temporelles des données et les ont comparées aux méthodes de filtrage vidéo
spatio-temporel les plus efficaces connues à l’époque. Néanmoins, la performance de ces
méthodes dépend principalement du choix de l’estimateur de mouvement.
D’autres approches s’appuient sur le formalisme mean-shift pour la segmentation de vidéos
en couleurs (DeMenthon et al., 2005 ; Ke et al., 2005 ; Wang et al., 2004a). Dans ces
travaux, les pixels de chaque image ont été considérés comme des échantillons indépendants,
c’est-à-dire que le mean-shift n’a pas été utilisé pour filtrer l’évolution temporelle des
caractéristiques associées à un pixel mais a plutôt été utilisé pour filtrer des volumes vidéo
(2D+t) multi-canaux (par exemple RGB) ou des caractéristiques précédemment calculées
pour chaque pixel.
9.3 Mean-shift Spatio-Temporel : STMS 91
Les travaux (Anjum et al., 2008 ; Feng et al., 2003) ont décrit comment étendre le
mean-shift au domaine espace-temps afin de filtrer des séquences vidéo et des données
spatio-temporelles. Puis pour les applications médicales, (Ai et al., 2014 ; Cheng et al., 2009 ;
Leung et al., 2006) traitent de l’analyse longitudinal d’IRM avec le mean-shift. Cependant
dans ces travaux, l’information spatio-temporelle n’est pas formulée explicitement dans le
processus.
Ici, nous allons étendre le mean-shift aux données spatio-temporelles en ajoutant une
contrainte sur l’évolution des échantillons dans le temps. Seuls les échantillons dans le
voisinage du point à filtrer partageant une évolution similaire de leurs caractéristiques
contribueront au filtrage de ce point.
Ce principe est détaillé dans la section suivante. Puis il sera testé sur des données de
synthèse et des données réelles d’IRM pour de l’analyse longitudinale de lésions SEP.
En utilisant ces notations, on propose l’équation suivante pour calculer l’évolution mean-
shift spatio-temporel de chaque échantillon :
n
[k] [k]
[k] [k]
[k]
Spi,j xs,i , xs,j · Rai,j xt,i , xt,j · xj
P
[k+1] j=1
xi = n (9.13)
[k] [k] [k] [k]
·
P
Spi,j xs,i , xs,j Rai,j xt,i , xt,j
j=1
où Spi,j (·) et Rai,j (·) sont respectivement les fonctions de pondération basées sur les
distances spatiale et temporelle entre l’échantillon d’intérêt xi et un autre échantillon xj
(xi et xj ∈ RS+T ) :
[k] [k] [k] [k]
Spi,j xs,i , xs,j = gs d2s xs,i , xs,j , Hs (9.14)
[k] [k] [k] [k]
Rai,j xt,i , xt,j = gr d2r xt,i , xt,j , Hr (9.15)
Contrairement à l’approche mean-shift classique, la même distance n’est pas utilisée pour
toutes les caractéristiques dans le cadre mean-shift spatio-temporel. Nous allons faire une
distinction entre les dimensions spatiales et de temps.
Pour la caractéristique spatiale, la distance euclidienne généralisée ds (us , vs , Hs ) est calculée
pour deux échantillons us et vs avec Hs la matrice d’échelle spatiale de taille S ×S.
En revanche, pour la caractéristique temporelle nous utilisons la norme infini :
− 12
dr (ut , vt , Hr ) =∥ Hr (ut − vt ) ∥∞ (9.16)
92 Chapitre 9. Filtrage et segmentation spatio-temporels
avec Hr la matrice d’échelle pour la caractéristique temporelle qui est carrée et de taille
T ×T . De cette manière, cette norme permet d’obtenir le plus grand écart (réduit par la
matrice Hr ) qu’il existe au cours du temps entre deux échantillons. On va ainsi pouvoir
conserver pour le calcul de la moyenne (9.13) uniquement les échantillons qui ne s’éloignent
jamais trop de l’échantillon à filtrer, ni en spatial, ni en temps.
Dans ce travail, on propose de conserver la même fonction de profil g pour pondérer les
deux distances :
[k]
L’équation (9.15) fait en sorte que Rai,j devienne nul si la distance entre deux trajectoires,
à un moment donné, est supérieure à 1. Par conséquent, les trajectoires éloignées de celle
du point à filtrer xi seront exclues pour le filtrage de xi .
Une illustration de la sélection d’échantillons décrite ci-dessus est illustrée dans la figure
9.4. Bien que les échantillons rouges soient inclus dans le voisinage spatial de l’échantillon à
filtrer (en bleu), ils ne seront pas utilisés pour le filtrage car leurs évolutions s’éloignent hors
de la limite définies par l’évolution de l’échantillon à filtrer. A contrario, les échantillons
verts sont à la fois suffisamment proches de l’échantillon de référence en spatial et dans le
temps pour participer à sa mise à jour.
Pour le mean-shift spatio-temporel (9.13), nous avons retenu le processus mean-shift
blurring. Ainsi, l’approche STMS est illustrée sur la figure 9.4 et son algorithme est décrit
dans 3.
Le processus blurring permet aussi une optimisation par fusion des échantillons similaires.
Cette optimisation va permettre d’économiser du temps de calcul et aussi produire, en plus
du filtrage, un clustering de tous les échantillons.
Quand deux échantillons sont suffisamment proches, c’est à dire Spi,j .Rai,j ̸= 0 calculés
avec des paramètres d’échelles 10 fois plus petits que ceux utilisés pour le filtrage, on peut
supposer que ces deux échantillons vont converger au même endroit et qu’il n’est donc pas
pertinent de s’occuper des deux échantillons. Une solution est de les fusionner en créant un
nouvel échantillon qui sera la moyenne des deux échantillons et qui aura deux fois plus de
poids dans le calcul de l’évolution mean-shift ou mean-shift spatio-temporel.
En pratique, il est possible de fusionner tous les échantillons suffisamment proches (au sens
du critère précédent) d’un autre échantillon et ceci à chaque itération. Une telle approche
permet en moyenne de diviser le nombre d’échantillons par deux à chaque itération et
9.3 Mean-shift Spatio-Temporel : STMS 93
évoluer à 8 instants du temps. Le fantôme et les évolutions des régions sont détaillés dans
la figure 9.5. On obtient ainsi une séquence de 256 × 256 × 8 qui va ensuite être corrompue
d’abord par une convolution avec un filtre gaussien de taille 10 × 10 et d’écart-type 0,4 puis
par l’ajout d’un bruit normal d’écart-type 0,2 (figure 9.6). Sans l’information temporelle, il
n’est pas possible de discriminer les cinq régions.
Entrée
MS
STMS
Figure 9.6 – Données synthétiques et résultats des approches MS et STMS. Sur la première du
haut : les données corrompues par ajout de flou gaussien et de bruit gaussien pour 4 instants. Lignes
du milieu et du bas : résultats du filtrage mean-shift puis mean-shift spatio-temporel.
Figure 9.7 – Coupe d’une IRM pondérée T2 d’un patient atteint de lésions de sclérose en plaques
(à gauche) et l’image de différence avec la première acquisition du suivi de ce patient (à droite). La
flèche rouge indique la lésion. La région d’intérêt autour de cette lésion est étudiée en détail sur la
figure 9.8.
La figure 9.8 permet d’observer l’efficacité du filtrage STMS sur les évolutions des intensités :
il ne reste que quatre évolutions différentes après filtrage mean-shift spatio-temporel. La
96 Chapitre 9. Filtrage et segmentation spatio-temporels
Figure 9.8 – Filtrage STMS d’une lésion sur 22 instants. En haut, représentation en séquence et
du profile des intensités d’une lésions et sa périphérie sur les 22 instants. En bas, la même zone et
les évolutions des intensités après filtrage mean-shift spatio-temporel.
figure 9.9 illustre le filtrage et le clustering sur quatre lésions. Ce clustering permet d’obtenir
une segmentation des zones de l’images se comportant de manière similaire.
9.3.5 Conclusion
Nous avons introduit l’approche mean-shift spatio-temporel et nous avons observé son
efficacité sur le filtrage de données spatio-temporelles synthétiques et réelles. Cette approche
permet aussi d’obtenir une segmentation des séquences d’images permettant d’identifier les
régions partageant un comportement similaire au long de la séquence.
Dans (Ameli et al., 2016 ; Mure et al., 2016d) ceci nous a permis d’identifier un processus
de sténose des veinules dans les lésions SEP qui impactent seulement quelques pixels.
L’approche mean-shift spatio-temporel a aussi été utilisée pour des données multi-spectrale
en photoaccoustique pour la discrimination de tissus (Dolet et al., 2016 ; Dolet et al.,
2018).
Nous avons aussi adapté STMS pour répondre à des problématiques spécifiques. Afin de
pouvoir comparer les évolutions de lésions entres elles, nous avons ajouté une étape de
calcul de déformation temporelle dynamique (ou DTW pour dynamic time warping) qui va
permettre de fusionner les régions dont le comportement est similaire à une déformation du
temps prêt (Mure et al., 2016c). Sur les quatre lésions étudiées précédemment (figure 9.8),
l’algorithme de DTW permet de regrouper sous la même classe les zones périphériques des
lésions, ce qui signifie qu’elles partagent un comportement similaire, à contrario du coeur
des lésions dont un d’entre eux est spécifique (retour à zéro de l’intensité). Cet algorithme
a aussi permis de regrouper efficacement des régions en fonction des activités humaines
dans le cadre de la surveillance du territoire par imagerie satellitaire (Mure et al., 2016b).
Ce formalise a aussi été adapté aux vidéos en ajoutant une fenêtre temporelle (proche de
ce qui a été fait pour la diffusion anisotrope) ST M S ++ pas nécessairement symétrique
par rapport à l’image à filtrer (Mure et al., 2016a) et la segmentation obtenue permet de
ré-identifier des objets ayant été occultés.
9.4 Croissance de région spatio-temporelle : STRG 97
Figure 9.9 – Filtrage et clustering STMS puis STMS et DTW pour 4 lésions de SEP. L’algorithme
de Déformation Temporelle Dynamique (DTW) permet de regrouper les régions dont l’évolution est
similaire malgré une déformation du temps.
Le code STMS (écrit en C++ et basé sur la bibliothèque ITK) est disponible sur git 2 . En
2020, une version GPU a été écrite par Claire Mouton de l’équipe info-dev de CREATIS.
Ces approches de filtrage et de clustering permettent de segmenter toute l’image. Cependant,
ceci n’est pas toujours nécessaire : on peut souhaiter se focaliser sur une seule région. Le
premier avantage est une économie en temps de calcul puisque seulement une petite partie
des pixels est analysée. Un second avantage est de faciliter les réglages de paramètres
d’échelles : quand on s’intéresse à toute l’image, il faut que les paramètres d’échelles
soient compatibles avec tout ce qui est observé dans l’image et pas uniquement l’objet
d’intérêt. Nous avons utilisé cette stratégie dans les cas des lésions de sclérose en plaques
en restreignant l’analyse spatio-temporelle à des régions d’intérêt autour des lésions.
La partie suivante présente une extension de la croissance de région aux données spatio-
temporelles.
9.4.1 Introduction
Nous considérons, encore une fois, des séquences d’images d’objets statiques dont les
intensités évoluent. Ainsi, à chaque pixel on peut associer une évolution temporelle de ses
2. git://[Link]/[Link]
98 Chapitre 9. Filtrage et segmentation spatio-temporels
Figure 9.10 – Etapes du processus de segmentation des lésions ischémiques en IRM de perfusion.
12: return Rλ ∗ , h∗
r
Figure 9.11 – Segmentations de 6 patients avec l’approche proposée dans (Daviller et al., 2019a),
(A) et (D) segmentations manuelles du myocarde (vert et rouge) et de la lésion (vert foncé), (B) et
(E) résultats de segmentation par k-means (cyan) et STRG (pixels en couleurs qui représente la
valeur de hr pour laquelle le pixel a été inclus dans la région), (C) et (F) donnent les évolutions
des intensités dans les différentes régions, la flèche violette désigne la région normale.
Les meilleurs scores de DICE ont été obtenus pour λ = 0.5, 0.6 et étaient de l’ordre de
0.64 quelle que soit la forme pathologique et la coupe étudiée, STRG conduisant à une
sur-segmentation des lésions. Ce faible DICE s’explique par la petite taille de la région
recherchée et par la difficulté à définir les bords de la lésion malgré le fait que la vérité
terrain soit un consensus de deux experts.
Pour évaluer l’apport de STRG pour cette application et critiquer ce faible DICE, la mesure
du flux sanguin myocardique (MBF) a été calculée pour six propositions de lésions obtenues
par : le consensus, les 2 experts individuellement, les segmentations STRG et k-means et
via le schéma standard de l’American Heart Association (AHA). La variabilité observée
pour l’approche STRG est la plus similaire à celle obtenue par le consensus d’experts. Ce
9.5 Conclusion du chapitre 101
qui permet d’affirmer que, en terme d’activité fonctionnelle des pixels, les sur-segmentations
proposées par STRG sont très homogènes et compatibles avec les celles définies par le
consensus, et ainsi qu’il est possible que les sur-segmentations proposées par STRG soient
cohérentes.
Figure 9.12 – Etudes de la variabilité des valeurs de MBF, pour deux types d’atteintes (micro-
vasculaire et des artères coronaires (CAD)) calculées dans les régions des lésions segmentées par : le
consensus, STRG, k-means, les deux experts médicaux individuellement et les segments du modèle
AHA.
9.4.4 Conclusion
Nous avons proposé ici une contribution à la croissance de région lui permettant de traité
des séries temporelles. Cette contribution s’appuie sur le même formalisme que celui utilisé
pour mean-shift spatio-temporel.
Utilisé pour segmenter des lésions ischémiques sur des IRM de perfusion, cette approche a
permis, sur 30 patients, d’obtenir des résultats très cohérents au sens des évolutions des
intensités.
On note que pour cette méthode, une étape manuelle de segmentation du myocarde est
nécessaire. Ensuite, la méthode est complètement automatique.
Ces approches originales ont montré leurs intérêts sur différentes données médicales (suivi
IRM, IRM de perfusion, multi-spectral) et pour différentes applications (SEP, ischémie
cardiovasculaire, caractérisation de tissus). L’approche mean-shift spatio-temporel a aussi
été utilisée avec succès sur des images satellitaires et des vidéos.
10. Conclusion de la seconde partie
Les méthodes vues dans cette partie tirent toutes leur formalisme de l’espace des carac-
téristiques et des paramètres d’échelles qui ont été étendus pour prendre en compte la
dimension temporelle. Avec seulement le réglage de quelques paramètres, ces méthodes
ont montré leur efficacité sur des données médicales en filtrage et segmentation d’images,
pouvant inclure plusieurs composantes d’intensité ainsi que l’évolution temporelle.
Ces approches permettent d’obtenir rapidement des segmentations avec très peu de connais-
sances. De part leur caractère non-supervisées, elles permettent aussi de chercher dans
les images des relations inconnues. Enfin, ces approches, avec l’utilisation des paramètres
d’échelles, sont des approches bottom-up qui effectuent des regroupements de pixels et
qui pourront être plus tard fusionnées ou séparées par une approche bénéficiant de plus
d’information ou connaissance.
Cependant, malgré le fait que les paramètres soient assez intuitifs, leur réglage peut
nécessiter une certaine expertise, surtout pour la dimension temporelle. Il faut aussi
souligner que pour une étude rigoureuse d’une cohorte, ces paramètres doivent être les
mêmes pour tous les patients. Or, pour garantir cette stabilité, il faut apporter une très
grande attention aux pré-traitements et particulièrement au recalage et à la normalisation
des intensités.
Une autre approche est de déterminer les valeurs des paramètres d’échelles automatiquement
comme nous l’avons étudié avec le plug in dans 8.3 pour le filtrage et les cartes de probabilité
dans 8.4.3.
Pour s’assurer de bonnes performances en filtrage et segmentation pour des paramètres
d’échelles donnés, il est recommandé de restreindre les traitements à des régions d’intérêt.
En effet, pour avoir un fonctionnement homogène sur tout un volume, le réglage des
paramètres d’échelles peut s’avérer extrêmement complexe. Dans les études précédentes,
on avait par exemple la définition d’un volume d’intérêt autour des lésions SEP ou la
localisation du coeur et, ensuite, la segmentation du myocarde pour le travail sur l’ischémie.
Or, ces tâches demandent soit un travail manuel, soit une expertise ou des connaissances
à priori pour guider ces méthodes. Intégrer efficacement ces a priori dans les méthodes
104 Chapitre 10. Conclusion de la seconde partie
Duong, T (2007). « ks. Kernel density estimation and kernel discriminant analysis for
multivariate data in R ». In : J Stat Soft 21.7, p. 1-16.
Fashing, M. et C. Tomasi (2005). « Mean shift is a bound optimization ». In : Pattern
Analysis and Machine Intelligence, IEEE Transactions on 27.3, p. 471-474.
Feng, W. et R.-C. Zhao (2003). « Non-rigid objects detection and segmentation in video
sequence using 3D mean shift analysis ». In : International Conference on Machine
Learning and Cybernetics. T. 5, p. 3134-3139.
Fukunaga, K. et L. D. Hostetler (1975). « Estimation of the gradient of a density func-
tion with applications in pattern recognition. » In : IEEE Transaction on Information
Theory 21.1, p. 32-40.
Gambotto, J. (1992). « A region-based spatio-temporal segmentation algorithm ». In :
11th IAPR International Conference on Pattern Recognition. Vol. III. Conference C :
Image, Speech and Signal Analysis, t. 1. Los Alamitos, CA, USA : IEEE Computer
Society, p. 189-192.
Gonzalez, R. (2011). Acute ischemic stroke : imaging and intervention. Sous la dir. de
L. Schwamm. Springer.
Guttmann, C., S. S. Ahn, L. Hsu, R. Kikinis et F. A. Jolesz (1995). « The evolution
of multiple sclerosis lesions on serial MR. » In : American journal of neuroradiology
16.7, p. 1481-1491.
Hautamaki, V., P. Nykanen et P. Franti (2008). « Time-series clustering by approximate
prototypes ». In : 19th International Conference on Pattern Recognition, p. 1-4.
He, L. et R. Greenshields Ian (2009b). « A nonlocal maximum likelihood estimation
method for Rician noise reduction in MR images ». In : Medical Imaging, IEEE
Transactions on 28.2, p. 165-172.
Jeung, H., M. L. Yiu, X. Zhou, C. S. Jensen et H. T. Shen (2008). « Discovery of convoys
in trajectory databases ». In : Proceedings of the Very Large Data Bases Endowment
1.1, p. 1068-1080.
Jiang, X., H. Yao, S. Zhang, X. Lu et W. Zeng (2013). « Night video enhancement
using improved dark channel prior ». In : Image Processing (ICIP), 2013 20th IEEE
International Conference on, p. 553-557.
Kalpakis, K., D. Gada et V. Puttagunta (2001). « Distance measures for effective clus-
tering of ARIMA time-series ». In : Data Mining, IEEE Proceedings of the International
Conference on, p. 273-280.
Ke, Y., R. Sukthankar et M. Hebert (2005). « Efficient temporal mean shift for activity
recognition in video ». In : 19th Annual Conference on Neural Information Processing
Systems Workshop on Activity Recognition and Discovery, Whistler, Canada. Citeseer.
Keng, H. L. et W. Yuan (1981). Applications of number theory to numerical analysis.
Springer Berlin Heidelberg.
Kuipers L. Niederreiter, H (1974). Uniform distribution of sequences. A WILEY-INTERSCIENCE
PUBLICATION.
Leung, K., N. Saeed, K. Changani, S. Campbell et D. Hill (2006). « Spatio-temporal
segmentation of rheumatoid arthritis lesions in serial MR images of joints ». In :
Computer Vision and Pattern Recognition Workshop, 2006. IEEE Conference on, p. 91-
91.
Li, X et Y. Zheng (2009). « Patch-based video processing : A variational Bayesian
approach ». In : Circuits and Systems for Video Technology, IEEE Transactions on
19.1, p. 27-40.
110 Chapitre 10. Conclusion de la seconde partie
Li, Z., B. Ding, J. Han et R. Kays (2010b). « Swarm : Mining relaxed temporal moving
object clusters ». In : Proceedings of the Very Large Data Bases Endowment 3.1-2,
p. 723-734.
Maggioni, M., G. Boracchi, A. Foi et K. Egiazarian (2012). « Video denoising, deblo-
cking, and enhancement through separable 4-D nonlocal spatiotemporal transforms ».
In : Image Processing, IEEE Transactions on 21.9, p. 3952-3966.
Maggioni, M., E. Sanchez-Monge et A. Foi (2014). « Joint removal of random and
fixed-pattern noise through spatiotemporal video filtering ». In : Image Processing,
IEEE Transactions on 23.10, p. 4282-4296.
Malm, H., M. Oskarsson, E. Warrant, P. Clarberg, J. Hasselgren et C. Lejdfors
(2007). « Adaptive enhancement and noise reduction in very low light-level video ». In :
Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on, p. 1-8.
Matsubara, Y., Y. Sakurai et C. Faloutsos (2014). « AutoPlait : Automatic mining
of co-evolving time sequences ». In : Proceedings of the ACM SIGMOD International
Conference on Management of Data. SIGMOD ’14. Snowbird, Utah, USA : ACM,
p. 193-204.
Meesrikamolkul, W., V. Niennattrakul et C. A. Ratanamahatana (2012). « Shape-
Based clustering for time series data ». In : Advances in knowledge discovery and data
mining. Springer, p. 530-541.
Meier, D. et C. Guttmann (2003). « Time-series analysis of MRI intensity patterns in
multiple sclerosis ». In : NeuroImage 20.2, p. 1193-1209.
Montagnat, J., M. Sermesant, H. Delingette, G. Malandain et N. Ayache (2003).
« Anisotropic filtering for model-based segmentation of 4D cylindrical echocardiographic
images ». Anglais. In : Pattern Recognition Letters - Special Issue on Ultrasonic Image
Processing and Analysis 24.4-5, p. 815-828.
Niederreiter, H. (1992). Random number generation and quasi-Monte Carlo methods.
SOCIETY FOR INDUSTRIAL et APPLIED MATHEMATICS.
Ostergaard, L. (2005). « Principles of cerebral perfusion imaging by bolus tracking ».
In : JOURNAL OF MAGNETIC RESONANCE IMAGING 22(6), p. 710-717.
Papadimitriou, S., J. Sun et C. Faloutsos (2007). « Dimensionality reduction and
forecasting on streams ». In : Data Streams. Springer, p. 261-288.
Parzen, E. (1962). « On estimation of a probability density function and mode ». In : The
annals of mathematical statistics 33.3, p. 1065-1076.
Perona, P. et J. Malik (1990). « Scale-space and edge detection using anisotropic
diffusion ». In : Pattern Analysis and Machine Intelligence, IEEE Transactions on 12.7,
p. 629-639.
Petibon, Y., J. Ouyang, X Zhu, C.-C. Huang, T. G. Reese, S. Y. Chun, Q. Li et
G. E. Fakhri (2013). « Cardiac motion compensation and resolution modeling in
simultaneous PET-MR : a cardiac lesion detection study. » In : Physics in medicine
and biology 58 7, p. 2085-102.
Prasath, V. S. et D. Vorotnikov (2014). « Weighted and well-balanced anisotropic
diffusion scheme for image denoising and restoration ». In : Nonlinear Analysis : Real
World Applications 17.0, p. 33 -46.
Rao, S., A. de Medeiros Martins et J. C. Principe (2009). « Mean shift : An information
theoretic perspective ». In : Pattern Recognition Letters 30.3, p. 222-230.
Shepp, L et B. F. Logan (1974). « The fourier reconstruction of a head section ». In :
Nuclear Science, IEEE Transactions on 21, p. 21-43.
Shi, Z. et L. S. C. Pun-Cheng (2019). « Spatiotemporal data clustering : A survey of
methods ». In : ISPRS Int. J. Geo-Information 8, p. 112.
111
Tomasi, C. et R. Manduchi (1998). « Bilateral filtering for gray and color images ». In :
Computer Vision, 1998. Sixth International Conference on, p. 839-846.
Varghese, G. et Z. Wang (2010). « Video denoising based on a spatiotemporal gaus-
sian scale mixture model ». In : Circuits and Systems for Video Technology, IEEE
Transactions on 20.7, p. 1032-1040.
Wand, M. et M. Jones (1995). Kernel smoothing. Monographs on statistics and applied
probability. Chapman & Hall.
Wang, J., B. Thiesson, Y. Xu et M. Cohen (2004a). « Image and video segmentation by
anisotropic kernel mean shift ». In : Computer Vision-ECCV 2004. Springer, p. 238-249.
Wang, Z., A. Bovik, H. Sheikh et E. Simoncelli (2004b). « Image quality assess-
ment : from error visibility to structural similarity ». In : IEEE Transactions on Image
Processing 13.4, p. 600-612.
Xue, H., J. Guehring, L. Srinivasan, S. Zuehlsdorff, K. A. Saddi, C. Chefd’Hotel,
J. V. Hajnal et D. Rueckert (2008). « Evaluation of rigid and non-rigid motion
compensation of cardiac perfusion MRI ». In : Medical image computing and computer-
assisted intervention : MICCAI ... International Conference on Medical Image Compu-
ting and Computer-Assisted Intervention 11 Pt 2, p. 35-43.
Zafar, S. (2008). « Perfusion imaging in ischaemic stroke ». In : Journal of Pakistan
Medical Association 58(7), p. 391-394.
Zheng, K., Y. Zheng, N. J. Yuan et S. Shang (2013). « On discovery of gathering
patterns from trajectories ». In : Data Engineering, IEEE Proceedings of the 29th
International Conference on, p. 242-253.
Zucker, S. (1976). « Region growing : Childhood and adolescence ». In : Computer
Graphics and Image Processing 5(3), p. 382-399.
Contributions en segmentation
III supervisée
11 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 115
12.1 Introduction
Dans ce chapitre, nous nous intéressons à la segmentation par recalage d’atlas et multi-atlas.
Le recalage d’images est une technique qui a montré sa robustesse quant aux changements
dans les images (résolution, modalité, zones imagées, ...). Les approches de segmentation
par recalage d’atlas sont particulièrement efficaces pour proposer des segmentations de
qualité lorsque peu de données annotées sont disponibles (on parle de 1 à 10 atlas).
Nous commençons par rappeler les principes du recalage et l’intérêt d’utiliser plusieurs
atlas (section 12.2). Cependant, cette multiplicité des atlas peut conduire à différents biais
et difficultés pour lesquels (Wang et al., 2013b) propose une solution élégante et efficace
que nous détaillons dans la section 12.3.
Nos applications seront décrites dans le chapitre 14.
Figure 12.1 – Principe de la segmentation par recalage d’atlas. L’image atlas (à gauche) est
recalée sur l’image à segmenter (à droite) et le champs de déformation obtenu est appliqué à la
segmentation de l’atlas afin d’obtenir une segmentation de l’image cible.
Ainsi, la segmentation par recalage d’atlas est très dépendante du recalage : les erreurs de
segmentation viennent principalement d’erreurs liées au fait que le recalage a échoué en
partie ou en totalité. Afin d’améliorer la capacité de cette méthode, une approche consiste à
utiliser plusieurs atlas (Iglesias et al., 2015) pour représenter plus de diversité anatomique
et de variabilité des intensités.
Les deux principales stratégies pour prendre en considération les différents atlas sont :
soit de déterminer et de conserver uniquement l’atlas le plus représentatif de l’image à
segmenter, soit de fusionner les segmentations obtenues avec les différents atlas. Nous avons
retenu l’approche de segmentation multi-atlas de (Wang et al., 2013b) qui propose une
fusion des segmentations suivie par un algorithme de correction basé sur un apprentissage
12.3 Approche multi atlas JLF + CL 119
automatique des erreurs. Cette approche a été proposée pour segmenter des régions du
cerveau et des muscles de jambes de chien dans des images IRM. Cette méthode est détaillée
dans la section suivante.
Figure 12.2 – Principe de la segmentation par recalage d’atlas JLF+CL de (Wang et al., 2013b).
Cette approche comporte deux parties : la fusion jointe des étiquettes (JLF) puis une partie
de correction par apprentissage (CL). Pour cette dernière partie, une étape d’entrainement est
nécessaire.
l’algorithme détermine pour chaque pixel l’étiquette qui a recueilli le plus grand nombre
de voix. La principale différence entre les méthodes de fusion d’étiquettes et celle proposée
par Wang est qu’elle prend en compte les corrélations entre les atlas lors du calcul des
cartes de poids. Ainsi, dans le cas extrême où un atlas serait inclus deux fois (ou avec deux
atlas extrêmement similaires), cette approche conduira au même résultat que s’il n’avait
été inclus qu’une seule fois.
Dans la suite, on exprime ces concepts sous forme d’expressions mathématiques. Cela
permet d’identifier les paramètres critiques de l’approche et, pour de futures contributions,
d’avoir une compréhension précise des éléments intermédiaires, notamment les cartes de
probabilités.
Soit TF une image test à segmenter et A1 = (A1F , A1S ), ... , An = (AnF , AnS ) les n atlas dont
AiF est la ie image atlas recalée sur TF et AiS la segmentation atlas recalée correspondante.
Pour chaque pixel x, il est possible de modéliser l’erreur de segmentation pour l’étiquette l
(avec l ∈ 1, ..., L et L est le nombre d’étiquettes) par :
i=1 i=1
Le but est de déterminer les poids wi qui minimisent l’erreur moyenne entre la segmentation
proposée S et la segmentation de référence TS :
2
Eδ1 (x),...,δn (x) TS (x) − S(x) TF , A1F , ..., AnF
!2
n
= Eδ1 (x),...,δn (x) wi (x)δ i (x)
X
TF , A1F , ..., AnF
i=1
n n h i
= wi (x) wj (x)Eδi (x),δj (x) δ i (x)δ j (x) TF , A1F , ..., AnF
X X
i=1 j=1
= wxT Mx wx (12.5)
d’atlas i et j.
A partir de Mx , les poids optimum wx∗ sont déterminés par la minimisation de :
i=1
12.3 Approche multi atlas JLF + CL 121
α est le terme de régularisation dont la valeur est généralement fixée à 0, 1 (Wang et al.,
2013b).
Wang propose de calculer les éléments de Mx en utilisant la similarité locale dans les
images des atlas i et j avec l’image à segmenter TF . C’est à dire que l’expression :
h i
Mx (i, j) = Eδi (x),δj (x) δ i (x)δ j (x) TF , A1F , ..., AnF
= p δ i (x)δ j (x) = 1 TF , A1F , ..., AnF (12.7)
va pouvoir s’exprimer avec les images AiF et AjF . En assumant l’indépendance aux autres
atlas, on peut écrire :
Mx (i, j) = p δ i (x)δ j (x) = 1 TF , AiF , AjF (12.8)
En supposant maintenant que les pixels éloignés de x n’ont pas d’influence sur cette
probabilité, alors l’élément Mx (i, j) peut être exprimé uniquement sur le voisinage N (x).
On a alors :
n o
Mx (i, j) = p δ i (x)δ j (x) = 1 TF , AiF , AjF |y ∈ N (x) (12.9)
β
= wxt Mx wx (12.12)
avec ⟨., .⟩ le produit scalaire et |AiF (N (x)) − TF (N (x))| le vecteur des écarts absolus sur le
patch N centré en x des intensités entre l’image à segmenter TF et l’ image d’atlas AiF
recalée sur TF .
Les erreurs de recalage peuvent perturber ce calcul : le contexte autour de x dans l’image
à segmenter pourrait ne pas correspondre parfaitement à ceux dans les atlas recalés. Afin
d’améliorer l’estimation de Mx , plusieurs patchs N (x + ϵ) centrés à différentes positions ϵ
autour de x vont être testés. Celui qui minimise l’erreur entre AiF (N (x + ϵ)) et TF (N (x))
sera conservé pour le calcul de M ainsi que AiS (N (x + ϵ)) pour le vote pondéré. La
dynamique d’exploration du paramètre ϵ va définir le voisinage de recherche qu’on notera
Nr .
Pour rendre l’algorithme plus robuste au cas d’images avec différentes dynamiques d’in-
tensité, ce qui est commun en IRM, les intensités dans les patchs sont normalisées avant
d’être comparées.
Les tailles des patchs N et du voisinage de recherche Nr dépendent de la taille des structures
à segmenter.
122 Chapitre 12. Segmentation par recalage d’atlas
i=1
Pour réaliser la segmentation, il faut déterminer l’étiquette la plus probable pour chaque
x. C’est aux frontières des objets que la probabilité sera la plus critique mais aussi là où
l’approche à le plus de chance de se tromper à cause de ses propres atlas. Comment être
sûr que, malgré la variation anatomique et le recalage, tous les atlas se superposent bien à
l’image à segmenter et sont bien cohérents ? Ou autrement : le contexte local des intensités
de l’image à segmenter est il vraiment en accord avec celui des atlas ? Dans ces approches
de recalage multi-atlas, il existe nécessairement ce type de biais systématique qu’il est
possible d’apprendre comme nous allons le voir dans la section suivante.
dont une description précise est donnée dans (Zhou, 2012, p. 24) et expliqué dans l’annexe
C de ce document. Cet algorithme va produire pour chaque étiquette et chaque pixel un
modèle de correction.
Phase d’inférence
Lors de la correction d’une nouvelle image, chaque pixel préalablement étiqueté par le JLF,
va être testé en utilisant la même définition de région de travail et les mêmes caractéristiques.
Le pixel sera ré-affecté à l’étiquette dont le modèle de correction aura donné la plus grande
confiance.
12.4 Conclusion
Dans ce chapitre nous avons étudié les approches de segmentation par recalage d’atlas et
notamment l’approche multi-atlas de Wang (Wang et al., 2013b). Ces approches permettent
d’obtenir des segmentations de bonnes qualités d’un ou plusieurs organes, sur différents
instants du temps et ceci à partir d’un petit nombre d’atlas car elles tirent profit de toute la
connaissance anatomique et de l’information image contenue dans les atlas. Ces approches
sont à privilégier pour fournir des segmentations de qualité quand peu d’images avec une
segmentation de référence sont disponibles.
Cependant, ces approches sont assez lourdes en terme de calcul. De plus, lorsque le nombre
d’atlas utilisé devient grand, le temps de calcul augmente rapidement et on n’observe pas
nécessairement d’amélioration des résultats.
Pour réduire les temps de calculs, l’utilisation d’une approche multi-échelle a été proposée
(Wang et al., 2018a). Nous avons préféré proposer une alternative au JLF qui serait basée
non plus sur des recalages mais sur des réseaux de neurones profonds. Le prochain chapitre
présente l’approche de segmentation par réseaux de neurones.
13. Réseau U-Net
13.1 Introduction
Dans ce chapitre, on s’intéresse à la segmentation par apprentissage profond qui est devenue,
en moins de 10 ans, une méthode incontournable. Nous commençons par une introduction
à la segmentation d’images médicales par apprentissage profond. Puis nous détaillons
l’architecture de référence en segmentation d’images medicales : le réseau U-Net. Nous
expliquons ensuite le fonctionnement interne de ce réseau et son l’entrainement. Enfin,
nous donnons un bref état de l’art de quelques une des variantes d’U-Net.
1. [Link]
Learning+in+Medical+Imaging&submit=Envoyer
2. Medical Image Computing and Computer Assisted Interventions
126 Chapitre 13. Réseau U-Net
Figure 13.1 – Architecture du réseau U-Net avec 4 échelles et 32 filtres sur la première couche.
L’encodeur est la partie de gauche où la taille de l’image est diminuée, le décodeur est la partie de
droite où la taille de l’image est augmentée. Illustration du réseau utilisé pour la segmentation de 4
muscles et du fond à partir d’une image IRM.
Dans notre contexte, le réseau est U-Net, la tâche est la segmentation d’images et l’appren-
tissage est supervisé.
L’apprentissage supervisé signifie, ici, que l’entrainement va reposer sur un jeu d’images
pour lesquelles on dispose des "vraies" segmentations. L’apprentissage peut ainsi être
supervisé par une mesure d’erreur entre les vraies segmentations et celles proposées par
le réseau. Le principe de la mise à jour des poids lors de l’apprentissage d’un réseau de
neurones est illustré sur la figure 13.2. Les différents éléments sont détaillés ensuite.
C
LCE (uo , ûo ) = − uo,c log(ûo,c ) (13.2)
X
c=1
avec uo,c valant 1 si la classe de l’échantillon o est c, sinon 0, et ûo,c est la probabilité
prédite par le réseau pour que o soit de classe c. Cette fonction est sensible à l’équilibre
des représentations des classes principalement quand on effectue une moyenne sur un
grand nombre d’échantillons et que les classes majoritaires sont bien traitées : les
éléments rares seront d’influence négligeables. Pour réduire ce problème, le log est
souvent pondéré par l’inverse de la probabilité de la classe c.
— La fonction de coût focale (focal loss) a été introduite pour répondre au problème
de non équi-représentation des classes. Elle est définie ainsi :
C
LF L (uo , ûo ) = − (1 − uo,c )γ log(ûo,c ) (13.3)
X
c=1
Figure 13.3 – Schéma de principe des couches de convolution. L’entrée est une image RGB de 3
canaux. Il y a fc1 filtres de taille (fh , fw , 3) pour la première couche de convolution et fc2 filtres de
taille (fh , fw , fc1 ) pour la seconde.
caractéristiques. Leur nombre reste donc inchangé comme le montre la figure 13.4. Il
n’y a aucun paramètre à apprendre pour cette couche.
Figure 13.4 – Schéma de principe d’une couche de sous échantillonnage (pooling). L’entrée de
taille (n, m, fc ) est réduite à une taille de (⌊n/2⌋, ⌊m/2⌋, fc ). On note que le nombre de canaux fc
(ou de cartes de caractéristiques) est inchangé.
de 2 en 2 pixels sur la sortie. Les valeurs dans les zones de recouvrement sont sommées
ou moyennées. Le principe de la convolution à trous, pour une seule convolution et
pour trois canaux en entrée, est illustré sur la figure 13.5.
Figure 13.5 – Schéma de principe de la convolution par image dilatée pour le sur-échantillonnage
(convolution à trous). L’entrée de taille (3 × 3 × fc ), ici représentée avec trois canaux fc = 3, est
d’abord dilatée spatialement (ici d’un facteur quatre) et son support étendu. Puis une convolution de
noyau 3 × 3 × fc est appliquée sur l’image dilatée permettant d’obtenir une sortie de support spatial
plus grand (5 × 5 × fn ) où fn est le nombre de convolution (ici une seule convolution soit : fn = 1).
— Sigmoïde. Fonction historique qui permet d’obtenir des valeurs entre 0 et 1 et dont
la dérivée est facilement exprimable. Elle est cependant biaisée (0,5) et saturante.
Elle conduit fréquemment aux problèmes de disparition ou explosion des gradients.
Pour U-Net, elle aurait un intérêt que pour la couche de sortie dans le cadre d’une
segmentation binaire.
1
fsigmoide (zk ) = (13.6)
1 + exp(−zk )
— ReLU ou rectifieur ou Rectified Linear Unit. Fonction non saturante, extrêmement
utilisée, rapide, facile à dériver (sauf en 0). Excellente alternative à la sigmoïde et à
13.5 Quelques variantes d’U-Net 133
la tangente hyperbolique.
(
0 si zk < 0
fReLU (zk ) = max(0, zk ) = (13.7)
zk si zk ≥ 0
A cause de cette constante 0 pour les valeurs négatives, elle peut causer la mort de
neurones pendant l’apprentissage, notamment si les poids des neurones sont mal
initialisés : les sorties des neurones resteront à 0 et n’influenceront pas les évolutions
des neurones des couches précédentes.
— Leaky ReLU. Cette fonction a été proposée notamment pour palier à "la mort
des neurones" causée par ReLU. Une fuite de pente α est proposée sur la partie
négative. Classiquement, on choisi α = [0.01, 0.2] mais il est possible de tirer au
hasard cet hyper-paramètre, voire de l’optimiser pendant l’apprentissage (il devient
un paramètre du réseau) (Xu et al., 2015a).
(
αzk si zk < 0
fLeakyReLU (zk ; α) = max(αzk , zk ) = (13.8)
zk si zk ≥ 0
— ELU (exponential Linear Unit) et SELU (scaled ELU ). ELU, proposée par (Clevert
et al., 2016) pour résoudre l’extinction de neurones, permet aussi d’obtenir une
convergence à l’entrainement plus rapide et une meilleure généralisation sur le jeu de
test. Il n’y a plus d’explosion ou de disparition des gradients. Elle est cependant plus
complexe à calculer que ReLU. Le paramètre α est généralement fixé à 1.
(
α(exp(zk ) − 1) si zk < 0
fELU (zk ; α) = (13.9)
zk si zk ≥ 0
Les travaux de (Klambauer et al., 2017) ont montré que par un paramètre α bien
choisi, il était possible de forcer le réseau à s’auto-normaliser et ainsi conserver une
même variance en sortie de chaque couche lors de l’entrainement. Il s’agit de la
fonction SELU.
fSELU (zk ) = 1, [Link] (zk ; 1, 67326) (13.10)
Les auteurs de SELU ont aussi proposé une adaptation du dropout (nommée alpha
dropout) qui permet de conserver les propriétés de SELU lors de la désactivation de
neurones.
— Softmax. Contrairement à toutes les fonctions précédentes, cette fonction d’activation
est partagée par tous les K neurones d’une couche (voir la figure 13.7). Elle permet
de représenter la loi de probabilité sur les K éléments discrets possibles.
exp(zk )
fsof tmax (yk ) = PK (13.11)
i=1 exp(zi )
Elle est la fonction d’activation de nombreux réseaux où une décision doit être prise.
Typiquement pour U-Net, elle permet de calculer la probabilité d’appartenance d’un
pixel à toutes les classes et facilite ainsi l’utilisation de nombreuses fonctions de coût.
Pour déterminer la classe à laquelle associer le pixel, elle sera suivie de la fonction
argmax .
Figure 13.7 – Schéma de principe du calcul de la fonction softmax. Toutes les sorties de la couche
de neurones partagent cette fonction.
4. Long Short Term Memory : cellule permettant aux réseaux de neurones de considérer une cohérence
temporelle
13.5 Quelques variantes d’U-Net 135
Un troisième type de modifications est la mise en cascade d’une succession de réseaux auto-
encodeurs, tels que des U-Net. Ceci a été proposé initialement dans (Newell et al., 2016)
puis spécifié à l’imagerie cardiaque dans (Vigneault et al., 2018). Ce type d’architecture
permet d’affiner progressivement le résultat de segmentation, que l’on peut voir comme
une sorte d’attention progressive. On note que pour accroitre la qualité de la segmentation
finale, (Vigneault et al., 2018) ajoutent avant le réseau de segmentation, un réseau de
transformation spatiale permettant d’orienter et de mettre à l’échelle l’objet d’intérêt (ici
le coeur) et ainsi de limiter la diversité de représentation des objets présentés au réseau de
segmentation. Nous avons aussi proposé une contribution dans ce sens (Leclerc et al.,
2020).
U-Net a été proposé initialement pour des images bidimensionnelles. Pour segmenter un
volume 3D, il est possible de segmenter chaque coupe 2D puis de ré-empiler les résultats
afin de produire la segmentation 3D. Cependant, ce n’est potentiellement pas optimal
car le réseau doit être capable de se généraliser aux différents contextes anatomiques et
ne peut apprendre du contexte 3D. Plusieurs architectures 3D ont été proposées telles
que 3D U-Net (Çiçek et al., 2016) et V-Net (Milletari et al., 2016) mais nécessitent
une grande quantité de RAM GPU et des GPU très performants pour bénéficier d’un
entrainement en temps raisonnable avec des convolutions spatiales 3D. La quantité de
volumes 3D nécessaires à l’entrainement est aussi importante, conduisant à un volume
d’information lourd à transférer. Aussi, il est souvent difficile de réaliser une augmentation
de données "à la volée" basée sur des transformations rigides ou affines pour les volumes
3D : le temps nécessaire à l’interpolation et la construction du nouveau volume étant
particulièrement important. Ainsi, ces architectures 3D sont souvent entrainées sur des
petits sous volumes, réduisant les performances de ces approches à celles obtenues en 2D
(voir moins (Wang et al., 2020)). Néanmoins, utiliser l’information tridimensionnelle reste
un enjeu pour améliorer U-Net. Des travaux visant à minimiser le besoin de ressources ont
été publiés notamment dans :
— (Li et al., 2019) qui propose une nouvelle stratégie de division en patch et utilisant
des convolutions séparables (exprimables en 1D).
— (Li et al., 2018) où les représentations 2D intra-coupes et les caractéristiques inter-
coupes 3D sont optimisées conjointement grâce à une couche de fusion hybride.
— (Alkadi et al., 2019) qui propose un « 2.5D U-Net » où les coupes supérieure et
inférieure de la coupe centrale à segmenter sont ajoutées comme canaux d’entrée
supplémentaires.
— (Haque et al., 2019) qui entraine 3 réseaux pour chacun des axes, puis fusionne les
résultats avec un vote à la majorité, et (Perslev et al., 2019) qui généralise le concept
aux coupes multi directionnelles et effectue un vote pondéré où la pondération est
apprise automatiquement.
Enfin, le récent framework nnUNet (Isensee et al., 2021) permet de faire conjointement
des tests d’architectures UNet (2D ou 3D), une recherche des hyper-paramètres et des pré-
et post- traitements les plus optimaux pour un problème donné en fusionnant les résultats
obtenus par différentes architectures. nnUnet intègre notamment une architecture en
cascade de 2 réseaux U-Net 3D dont le premier travaille sur des volumes sous échantillonnés
(segmentation grossière) afin d’alimenter le second réseau qui utilisera cette segmentation
grossière et des patch 3D à résolution initiale. Ce framework s’impose de plus en plus
comme une référence permettant ainsi d’évaluer l’apport d’une nouvelle contribution. Et...
il est souhaitable qu’une référence émerge !
En effet, deux causes rendent l’état de l’art en segmentation par deep learning difficiles
à appréhender et à exploiter efficacement. Tout d’abord, l’effervescence autour du deep
136 Chapitre 13. Réseau U-Net
13.6 Conclusion
Dans ce chapitre, nous avons présenté le réseau de référence en segmentation d’images
médicales : U-Net. Nous avons aussi présenté ses variantes et les structures fondamentales de
son architecture qui constituent aussi des éléments communs pour de nombreux réseaux de
neurones. Actuellement, il n’existe pas de "recette" permettant de déterminer l’architecture
et les hyper-paramètres les plus appropriés à un problème de segmentation donné. Il n’existe
pas non plus de règles permettant de dimensionner les jeux de données.
Dans la suite, nous allons utiliser et donc spécifier -au mieux- cette approche pour différents
problèmes de segmentation d’images médicales. Une partie de ces travaux va être exposée
dans le prochain chapitre.
14. Applications à l’imagerie médicale
14.1 Introduction
Dans ce chapitre, nous présentons nos contributions en segmentation supervisée avec les
approches JLF, JLF+CL et U-Net. Ces approches ont été appliquées à différentes modalités
et contextes de segmentation :
— la segmentation des quadriceps et des muscles de l’épaule en IRM.
— la segmentation du coeur en échocardiographie.
Nous présentons aussi une contribution mélangeant les approches JLF+CL et U-Net pour
la correction automatique de la segmentation des quadriceps.
Ces recherches ont été conduites dans le cadre des travaux de thèse de Sarah Leclerc et
Hoai-Thu Nguyen.
segmentation manuelle est très longue et mentalement épuisante, alors que les variations
observées dans les images sont souvent très subtiles.
Certaines études récentes ont abordé la segmentation automatique des quadriceps (Gilles
et al., 2016 ; Le Troter et al., 2016 ; Prescott et al., 2011), mais aucune n’a décrit
une segmentation précise des frontières des muscles, ce qui est très important pour la
quantification des changements de volume dans les études longitudinales.
Comme l’état de l’art et les difficultés énumérées ci-avant concluaient que les méthodes non
supervisées étaient peu adaptées, nous avons opté pour une méthode basée sur le recalage
d’atlas : JLF+CL.
L’objectif étant de proposer un cadre de segmentation précis qui nécessiterait un nombre
d’atlas aussi réduit que possible.
L’approche JLF+CL a été appliquée sur la base de données MUST de quadriceps (voir
annexe B) où 7 atlas 3D sont disponibles. Pour cette application, il s’agit de segmenter 4
muscles sur des images IRM pondérée T1 comme le montre la figure 14.1 et d’être capable
de réaliser une segmentation fiable et reproductible sur les trois instants du temps malgré
un faible nombre d’atlas et une certaine variabilité anatomique entre les coureurs. On note
que le score de DSC entre experts est de 0,910.
Figure 14.1 – Définition des 4 muscles à segmenter pour l’étude des quadriceps. Illustration de
segmentations manuelles de la coupe centrale sur les 7 atlas. Les abréviations sont : VM – vectus
medialis, VL – vectus lateralis, VI – vectus intermedius, RF – rectus femoris.
Figure 14.2 – Évolution des scores de DSC et HD en fonction du nombre d’atlas pour l’approche
JLF+CL sur les 4 muscles étudiés (VL, RF, VM et VI).
On observe, avec l’augmentation du nombre d’atlas, une convergence assez rapide des
performances de segmentation en moyenne comme en dispersion : le DSC augmente et
sa variance diminue, la distance de Hausdorff tend à diminuer pour chacun des muscles.
Ainsi, plus on utilise d’atlas, plus le résultat est bon et fiable quel que soit le choix des
atlas. Cela signifie aussi que le choix des 3 atlas est critique pour obtenir de bon résultats.
On observe aussi une augmentation quasi linéaire du temps de calcul avec le nombre
d’atlas : il est de 23h pour 3 atlas et d’environ 50h pour 6 atlas.
Dans cette étude où nous disposons de 7 atlas, les meilleurs résultats sont logiquement
obtenus avec l’utilisation de 6 atlas (1 atlas étant utilisé pour le test). Cependant l’amélio-
ration apportée par le sixième atlas est faible et peut être discutée relativement au temps
de calcul supplémentaire nécessaire (10h). Pour cette application, on peut extrapoler que
les performances convergeraient très rapidement si on utilisait plus de 6 atlas.
L’analyse plus spécifique des résultats (figure 14.2) montre qu’un muscle, le rectus femoris
140 Chapitre 14. Applications à l’imagerie médicale
(RF), est moins bien segmenté que les autres et cela avec une grande disparité des résultats.
Ceci peut se comprendre en observant les variabilités de forme et de position de ce muscle
dans la base de données comme illustré sur la figure 14.1 : le recalage déformable n’arrive
pas à le positionner convenablement et, ces variabilités étant peu représentées dans les
atlas, le corrective learning cherche à le supprimer lorsque sa position n’est pas conforme
aux données d’entrainement.
Figure 14.3 – Résultats de segmentation des quadriceps obtenus avec les approches de (Gilles
et al., 2016), JLF (Wang et al., 2013b) et JLF+CL pour un coureur.
Parmi ces approches, JLF+CL permet d’obtenir les meilleurs résultats. On note l’apport
de l’utilisation de plusieurs atlas : les approches JLF et JLF+CL permettent d’obtenir de
meilleurs résultats qu’avec un seul atlas ou avec l’aide d’un utilisateur.
Sur la figure 14.3 et la table 14.2, on observe que l’apport de la correction CL est modéré.
L’amélioration sur le muscle rectus femoris est la plus prononcée (+0.017 DICE).
Cette approche de correction détecte bien l’erreur liée au modèle et corrige en partie ce
biais, mais elle peut aussi introduire de petites erreurs. C’est notamment le cas pour le
muscle VI qui est aussi le muscle où la concordance entre les experts est la plus petite (voir
table B1 dans l’annexe).
14.2 Segmentation des muscles en IRM avec JLF+CL 141
Table 14.1 – Evaluation quantitative des segmentations des quadriceps basées sur le recalage
d’atlas pour les jambes droite des 7 sujets. L’approche de recalage déformable utilise un seul atlas.
Les approches JLF et JLF+CL utilisent 6 atlas. La méthode de (Gilles et al., 2016) est semi-
automatique.
Table 14.2 – Détails des scores de DSC obtenus par les approches JLF et JLF+CL pour la base
MUST. Les valeurs en gras indiquent les améliorations obtenues avec l’approche CL. Abréviations
des muscles : VL – Vastus Lateralis, RF – Rectus Femoris, VM – Vastus Medialis, VI – Vastus
Intermedius.
sur les IRM pondérées T1 utilisées, le changement principal observable suite à un ultra
marathon est une évolution du volume musculaire (Fleckenstein, 1993).
L’apport du CL est discutable et cela s’explique car cette étape n’a pu apprendre les
corrections à faire pour prendre en considération l’évolution du volume suite à l’effort
physique. L’apprentissage des corrections ne pourra vraisemblablement pas se faire par
cette approche car l’évolution est très patient spécifique.
Un autre projet nous a permis de disposer de plus de données et ainsi vérifier la généralisation
de l’approche et de nos observations. Il s’agit du projet de segmentation de muscles de
l’Epaule qui est expliqué dans la prochaine section.
DSC VS
Instant/Méthode ALB ALF ARS OUK ALB ALF ARS OUK
Pré
JLF .914 .933 0.947 0.945 .108 .084 .044 .044
JLF+CL .922 .950 .953 .946 .079 .028 .027 .047
U-Net .917 .929 .949 .946 .120 .079 .065 .030
Post
Manuelle Pré, recalé .914 .929 .934 .921 .111 .070 .066 .039
JLF+CL Pré, recalé .925 .923 .935 .923 .040 .047 .059 .043
UNet Pré, recalé .936 .914 .943 .926 .032 .047 .018 .025
JLF .935 .929 .945 0.929 .024 0.019 0.034 0.044
JLF+CL .923 .923 .942 .920 .060 .049 .056 .062
U-Net .934 .914 .945 .934 .018 .072 .029 .021
Post+3
Manuelle Pré, recalé .919 .924 .934 .937 .085 .060 .058 .038
JLF+CL Pré, recalé .924 .918 .935 .941 .046 .068 .061 .038
UNet Pré, recalé .934 .909 .948 .942 .036 .052 .015 .020
JLF .924 .923 .945 .943 .029 .053 .032 .042
JLF+CL .911 .912 .944 .940 .052 .068 .062 .025
U-Net .933 .931 .952 .946 .034 .032 .024 .027
Table 14.3 – Comparaison quantitative des approches JLF, JLF+CL et U-Net en longitudinal
pour 4 coureurs de MUST (ALB, ALF, ARS and OUK). Le DSC et le VS ont été calculés sur les
même 17 coupes pour les instant Pre, Post, and Post+3. Les cellules en gris indiquent les meilleurs
résultats pour chaque instant.
Figure 14.4 – Evolution des scores de DSC et du temps de calcul en fonction du nombre d’atlas
pour les approches JLF (en haut) et JLF+CL (en bas).
Figure 14.5 – Exemple de segmentations des muscles de l’épaule obtenues avec les approches JLF
et JLF+CL en utilisant 5 atlas tirés au hasard. Les temps de calcul pour les 2 approches sont de 24h
pour JLF et de 120h+30h pour le JLF+CL. Les flèches pointent des différences de segmentation.
Les expériences sur cette base ont aussi permis d’observer la sensibilité de la méthode au
recalage. En effet, l’approche JLF suppose un très bon recalage de chaque examen vers tous
144 Chapitre 14. Applications à l’imagerie médicale
les autres. Or ceci n’est pas toujours vrai. Typiquement dans cette étude, pour 3 patients
il n’est pas évident de garantir le bon fonctionnement du recalage. La table 14.4 donne les
métriques des segmentations obtenues en considérant la totalité de la base de données pour
l’apprentissage des approches JLF et JFL+CL, tandis que la table 14.5 donne ces même
métriques lorsque les 3 patients problématiques sont retirés de la base pour l’entrainement.
L’amélioration des résultats est quasi systématique.
Table 14.4 – Résultats de segmentation des approches JLF et JLF+CL pour les données Epaule,
avec tous les patients. Moyennes et écarts types calculés pour 10 patients.
Table 14.5 – Résultats de segmentation des approches JLF et JLF+CL pour les données Epaule,
sans les 3 patients faisant échouer les recalages. Moyennes et écarts types calculés pour 10 patients.
14.2.6 Discussion
Les approches JLF et JLF+CL sont capables de fournir de très bonnes segmentations avec
un nombre très raisonnable d’atlas. Cependant, lorsqu’on utilise peu d’atlas, le choix des
atlas utilisés influence énormément les résultats de segmentation. Or, les approches JLF et
JLF+CL sont extrêmement longues et le temps dépend directement du nombre d’atlas
utilisés, comme le montre la figure 14.6.
Pour les paramètres retenus ici, en moyenne, JLF nécessite 50h sur un CPU 16 cœurs pour
effectuer une segmentation avec 6 atlas. Pour l’entrainement du JLF+CL avec 6 atlas, cela
correspond à 50 × 6h pour les JLF et 7h par étiquette pour l’étape de CL, soit pour les
quadriceps (4 muscles plus le fond) un total de 300 + 35 = 335h 1 . L’inférence dure ensuite
48h pour le JLF et 50h pour le CL.
Dans le but de diminuer ces temps de calcul, Wang a proposé une approche multi-échelle
(Wang et al., 2018a) qui réalise les JLF sur des images de plus faible résolution. En
supposant que les erreurs de segmentations ajoutées par l’utilisation du sous-échantillonnage
sont des erreurs systématiques, il est alors possible d’apprendre à corriger ces erreurs avec
1. Ces temps n’incluent pas les recalages affines et déformables réalisés au préalable avec la stratégie un
vers tous. Un recalage affine puis déformable d’un atlas (image et segmentation) durent en moyenne 10
minutes. Soit 6h pour 6 atlas.
14.3 Segmentations avec U-Net 145
Figure 14.6 – Influence du nombre d’atlas sur la qualité de segmentation (DSC) et le temps de
calcul pour les données MUST. Le temps de calcul est donné uniquement pour l’étape JLF étant
donné que le nombre d’atlas n’influence pas le temps de calcul de l’étape de CL.
l’algorithme CL qui lui utilisera les données de haute résolution. Nos études sur les différentes
stratégies multi-échelles n’ont pas permis d’obtenir des résultats de segmentations et des
gains de temps convaincants.
Une autre voie pour diminuer très significativement le temps de calcul est de réduire le
nombre d’atlas utilisés : passer de 6 à 3 atlas divise par deux le temps de calcul. Une
solution d’une telle sélection est présentée dans le chapitre 15. Cependant, elle reste longue
car basée sur 3 atlas ( 25h).
Nous avons donc testé les approches basées U-Net qui seront développées dans la prochaine
section.
Figure 14.8 – Exemples de résultats de segmentation du ventricule gauche obtenus avec U-Net
sur la base de données électrocardiographie CAMUS. La segmentation experte est en pointillée, la
segmentation U-Net (réseau U-Net2) est en trait plein.
des mini-lots et est entrainé avec une fonction d’entropie croisée où le taux d’apprentissage
décroit progressivement. Cependant, malgré ces différences, on peut constater sur la table
14.6 que les performances de ces 2 réseaux sont très proches.
Actuellement, les résultats de segmentation obtenus avec U-Net sont de qualité comparable
(voir meilleure) à ceux obtenus entre deux experts et la variabilité des segmentations
automatiques est de l’ordre de la variabilité intra-expert.
Pour arriver à de tels résultats, l’entrainement des réseaux a été fait sur une base de données
de 500 patients où deux instants caractéristiques du cycle cardiaque ont été manuellement
segmentés (Leclerc et al., 2019c). La construction de cette base de données CAMUS 2
a demandé un investissement important et il n’est pas toujours possible d’avoir une telle
quantité de données avec une variabilité de qualité d’acquisition et de patients ainsi qu’une
annotation manuelle fiable et riche.
Nos études ont montré qu’à partir de 300 patients utilisés pour l’apprentissage, les seg-
mentations ne sont plus beaucoup améliorées et ainsi augmenter la taille de cette base de
données n’améliorerait que marginalement les résultats de segmentation. La stagnation des
scores vient principalement de quelques rares images qu’il n’est pas possible d’apprendre
avec les architectures U-Net testées. Ces images aberrantes sont liées à une anatomie, une
prise de vue, une qualité d’image ou un artéfact très particulier.
Pour quantifier ces segmentations aberrantes, nous avons proposé des métriques d’évaluation
de la qualité de segmentation complémentaires aux mesures classiques et permettant de
prendre en compte ces erreurs flagrantes de géométrie et d’anatomie du ventricule (Leclerc
et al., 2019b).
2. [Link]
14.3 Segmentations avec U-Net 147
O1a vs O3 0.886 3.3 8.2 0.943 2.3 6.5 0.823 4.0 8.8 0.931 2.4 6.4
(inter-exp) ±0.050 ±1.5 ±2.5 ±0.018 ±0.8 ±2.6 ±0.091 ±2.0 ±3.5 ±0.025 ±1.0 ±2.4
O2 vs O3 0.921 2.3 6.3 0.922 3.0 7.4 0.888 2.6 6.9 0.885 3.9 8.4
(inter-exp) ±0.037 ±1.2 ±2.5 ±0.036 ±1.5 ±3.0 ±0.058 ±1.3 ±2.9 ±0.054 ±1.9 ±2.8
O1a vs O1b 0.945 1.4 4.6 0.957 1.7 5.0 0.930 1.3 4.5 0.951 1.7 5.0
(intra-exp) ±0.019 ±0.5 ±1.8 ±0.019 ±0.9 ±2.3 ±0.031 ±0.5 ±1.8 ±0.021 ±0.8 ±2.1
±0.074 ±3.6 ±10.2 ±0.057 ±2.0 ±9.1 ±0.137 ±7.8 ±13.6 ±0.078 ±4.7 ±11.1
0.879 3.3 9.2 0.895 3.9 10.6 0.826 3.8 9.9 0.880 4.2 11.2
BEASM-auto
±0.065 ±1.8 ±4.9 ±0.051 ±2.1 ±5.1 ±0.092 ±2.1 ±5.1 ±0.054 ±2.0 ±5.1
0.920 2.2 6.0 0.917 3.2 8.2 0.861 3.1 7.7 0.900 3.5 9.2
BEASM-semi
±0.039 ±1.2 ±2.4 ±0.038 ±1.6 ±3.0 ±0.070 ±1.6 ±3.2 ±0.042 ±1.7 ±3.4
0.934 1.7 5.5 0.951 1.9 5.9 0.905 1.8 5.7 0.943 2.0 6.1
U-Net 1
±0.042 ±1.0 ±2.9 ±0.024 ±0.9 ±3.4 ±0.063 ±1.3 ±3.7 ±0.035 ±1.2 ±4.1
0.939 1.6 5.3 0.954 1.7 6.0 0.916 1.6 5.5 0.945 1.9 6.1
U-Net 2
±0.043 ±1.3 ±3.6 ±0.023 ±0.9 ±3.4 ±0.061 ±1.6 ±3.8 ±0.039 ±1.2 ±4.6
0.932 1.7 5.8 0.950 1.9 6.4 0.903 1.9 6.0 0.942 2.0 6.3
ACNN
±0.034 ±0.9 ±3.1 ±0.026 ±1.1 ±4.1 ±0.059 ±1.1 ±3.9 ±0.034 ±1.2 ±4.2
0.934 1.7 5.6 0.951 1.9 5.7 0.906 1.8 5.8 0.944 2.0 6.0
SHG
±0.034 ±0.9 ±2.8 ±0.023 ±1.0 ±3.3 ±0.057 ±1.1 ±3.8 ±0.034 ±1.2 ±4.3
0.927 1.8 6.5 0.945 2.1 7.2 0.904 1.8 6.3 0.939 2.1 7.1
U-Net ++
±0.046 ±1.1 ±3.9 ±0.026 ±1.0 ±4.5 ±0.060 ±1.0 ±4.2 ±0.034 ±1.1 ±5.1
p-values ≪ 0.05 ≪ 0.05 ≪ 0.05 ≪ 0.05 ≪ 0.05 ≈ 0.83 ≪ 0.05 ≪ 0.05 ≪ 0.05 ≪ 0.05 ≪ 0.05 ≈ 0.48
* LVendo : Contour de l’endocarde du ventricule gauche ; LVepi : Contour de l’épicarde sur ventricule gauche
FD : Fin diastole ; FS : Fin systole ; DSC : Indice de Dice
MAD : Distance absolue moyenne ; HD : Distance de Hausdorff
Puis, afin de réduire ces erreurs, nous avons proposé l’ajout d’un mécanisme d’attention
avec deux réseaux U-Net consécutifs, permettant de restreindre l’image à la région du
myocarde (Leclerc et al., 2020 ; Leclerc et al., 2019a). Sur 500 patients, le traitement
des images avec cette dernière approche (LU-Net) permet de réduire de 71 à 20 le nombre
de segmentations aberrantes.
Conclusion
Ces premières études ont montré l’intérêt de l’approche U-Net pour les problèmes de
segmentation anatomique, c’est à dire où les objets à segmenter respectent une géométrie
et une organisation (ici anatomique).
Elles ont aussi mis en évidence que différentes architectures fournissent des résultats assez
148 Chapitre 14. Applications à l’imagerie médicale
Au Plus Confiant (APC) 0.892 ± 0.04 48.6 ± 14.8 2.12 ± 0.70 0.146 ± 0.08
Table 14.7 – Evaluations quantitatives des segmentations U-Net obtenues par l’apprentissage
suivant chacun des plans de référence anatomique pour la base de données Epaule avec l’image "e8"
comme entrée.
On remarque que les résultats sont différents et que le plan coronal donne de meilleurs
résultats. Ceci n’est pas forcément évident car les pré-traitements ont rendu isotropiques
les pixels et l’acquisition IRM a été faite dans le plan transversal. Il est possible que
l’organisation musculaire ou une meilleure discrimination du contexte suivant ce plan par
le réseau U-Net, explique ceci.
Il apparait aussi que la segmentation "au plus confiant" (abrégé APC), qui fusionne ces trois
segmentations, donne les meilleurs résultats. Cette approche d’ensemble fonctionnant mieux
que chaque méthode indépendamment, les apprentissages sont donc complémentaires.
14.3 Segmentations avec U-Net 149
(a) Segmentation (b) App. plan (c) App. plan (d) App. plan (e) Segmentation
Manuelle transversal coronal sagittal "APC"
Figure 14.9 – Exemple de segmentations par U-Net obtenues par l’apprentissage suivant chacun
des plans de référence anatomique pour la base de données Epaule. La segmentation APC ("au plus
confiant") est obtenue en prenant la classe ayant la probabilité la plus grande parmi les segmentations
issues de chacun des plans.
Tests d’architectures
Dans le cadre de cette étude, afin d’améliorer les résultats et de comprendre l’impact de
certaines modifications, nous avons testé des changements sur le nombre de séquences IRM
en entrée du réseau ainsi que des variantes d’U-Net récentes et l’apprentissage par transfert.
Incrémentant les travaux de (Zhou et al., 2020), l’approche U-Net3+ de (Huang et al.,
2020) propose plusieurs améliorations dont :
— des sauts de connexions entre toutes les échelles du réseau U-Net,
— la systématisation d’un réseau résiduel (RestNet101) pour l’encoder d’U-Net et
l’utilisation de poids provenant d’un entrainement de classification d’images naturelles
et couleurs de la base ImageNet,
— l’utilisation d’une fonction de coût sommant trois métriques (le SSIM (Wang et al.,
2004b), l’intersection sur l’union (IoU) et la perte focale) et ceci à chaque changement
de résolution du décodeur. Cette fonction de coût est nommée la supervision profonde
(DS).
Pour la base de données Epaule, les résultats de ces améliorations successives sont donnés
dans la table 14.8 et un exemple de segmentation de deux méthodes est illustré sur la
figure 14.10
Figure 14.10 – Résultats de segmentation des meilleures méthodes basées U-Net sur la base de
données Epaule. DS l’abréviation pour supervision profonde.
150 Chapitre 14. Applications à l’imagerie médicale
Poids Supervision
Séquences DSCw HD (mm) MAD (mm) VS
initiaux profonde
U-Net APC e8 aléatoire .892 ± 0.04 48.6 ± 14.8 2.12 ± 0.70 0.146 ± 0.08
e2, e5, e8 ImageNET .893 ± 0.05 62.7 ± 23.7 4.16 ± 3.98 0.151 ± 0.12
U-Net3+
e2, e5, e8 ImageNET oui .887 ± 0.05 59.7 ± 25.6 3.35 ± 2.72 0.178 ± 0.11
AttentionU-Net e2, e5, e8 aléatoire oui .910 ± 0.01 50.9 ± 10.0 2.42 ± 0.857 0.111 ± 0.02
Table 14.8 – Evaluations quantitatives des segmentations obtenues par les différentes variantes
d’U-Net sur la base de données Epaule. Les 3 dernières architectures marquées d’une ’*’ ont été
testées via le framework nnU-Net avec pré- et post- traitements sur 5 blocs.
Discussion
L’analyse de ce tableau montre que, toujours pour ces images, les améliorations notables
viennent de combinaisons de changements :
— le passage à ResU-Net101 et l’utilisation de poids initiaux venant d’une base de
données d’images couleurs améliorent un peu le DSCw, mais pas les autres métriques,
— pour l’utilisation de trois canaux en entrée, il faut utiliser un réseau pré-entrainé,
— la supervision profonde n’améliore pas toujours les résultats,
— les post-traitements (conservation de la plus grande région) et les approches 3D
améliorent considérablement les métriques notamment la distance de Hausdorff
(division par 5),
Ces résultats sont propres à cette étude portant sur la segmentation multi-classes de muscles
en IRM. Des études en cours (stage de master) visent à mieux comprendre le rôle des
canaux en entrée et leur utilité. On explore aussi l’approche nnU-Net et les enjeux de post-
et pré-traitements, ce qui permet de faire des liens avec la partie précédente sur les filtres
anisotropes et mean-shift.
On explore aussi la localisation des erreurs faites par les réseaux par rapport aux annotations
manuelles. La base de données Epaule a permis de mettre en évidence l’extrême rigueur
que l’on doit avoir lors de la création des annotations manuelles. Sans cela, l’apprentissage
est plus complexe et les résultats quantitatifs moins bons. Sur la figure 14.11, on met en
évidence quelques erreurs d’annotation manuelle. Les tendons (flèche sur le petit rond)
n’ont pas été systématiquement segmentés manuellement. L’artéfact (entouré) a surement
conduit à une sous-segmentation du deltoïde par l’expert sur la coupe 72. La correction
de ces annotations manuelles amélioreront substantiellement les scores des approches de
segmentation automatiques. Il reste quand même une vraie difficulté pour les algorithmes
à déterminer précisément la frontière entre le petit rond (en bleu) et l’infra épineux (en
marron).
Segmentation manuelle
JLF+CL 5 atlas*
ResU-Net101, DS
Figure 14.11 – Segmentations manuelles de 3 coupes de la base de données Epaule et les résultats
de segmentations automatiques par JLF+CL avec les 5 meilleurs atlas, et par ResU-Net101 et
supervision profonde.
Comme on peut l’observer sur la figure 14.12, les résultats d’U-Net peuvent être très bons
comme pour le coureur ARS-4026 où le DSC est proche de 0,94, à mauvais comme pour le
coureur CAL-4223. On note aussi la création d’erreurs anatomiques (non connexité des
régions par exemples) comme on peut l’observer sur le coureur ALB-2725.
Pour corriger ces erreurs, nous pouvons envisager des post-traitements ad-hoc, comme
cela a été évoqué dans la section précédente, notamment via nnU-Net. Nous avons préféré
nous appuyer sur une approche générale qui apprendrait les erreurs systématiques et les
corrigerait, typiquement : l’approche de d’apprentissage des corrections CL (corrective
152 Chapitre 14. Applications à l’imagerie médicale
Figure 14.12 – Segmentations de trois coureurs MUST avec les approches JLF+CL, U-Net et
U-Net+CL. On remarquera les erreurs globales réalisées par les différentes méthodes sur les coureurs
ALB-2725 et CAL-4223 ainsi que la capacité du CL à réduire l’erreur grossière de U-Net sur le
coureur ALB-2725 mais créant aussi des erreurs aux frontières (flèches jaunes).
Méthode proposée
En remarquant que l’approche JLF produit une carte de probabilité de segmentation,
comme U-Net, il est alors possible de substituer les longues étapes JLF par des U-Net dans
l’approche de (Wang et al., 2013b). Nous avons proposer dans (Nguyen et al., 2019b) de
modifier la méthode JLF+CL en U-Net+CL comme illustrée dans la figure 14.13 . Pour
cette approche, un réseau U-Net doit être entrainé pour chaque atlas. Puis l’étape de
Corrective Learning apprend les erreurs systématiques commises par les réseaux U-Net.
Enfin, un dernier réseau U-Net est entrainé en utilisant tous les atlas. Ce dernier sert à la
phase de test : il permet d’obtenir une segmentation d’une nouvelle données, et ce sera
cette segmentation qui sera corrigée par l’approche CL.
Résultats
La dernière ligne de la table 14.9 et la dernière ligne de la figure 14.12 donnent les résultats
obtenus par l’approche U-Net+CL.
Discussion
Comparés aux approches multi-atlas JLF, les résultats basés sur U-Net sont assez similaires,
sauf pour la distance de Hausdorff. L’intéret des réseaux est le temps de calcul bien plus
raisonnable : environ 2 heures pour un entrainement et moins d’une minute pour une
inférence, plus de 50 heures pour l’approche JLF avec 6 atlas. Les résultats de l’approche
U-Net+CL montrent la capacité à réduire les erreurs grossières (diminution significative de
la distance de Hausdorff par rapport à l’approche U-Net). Néanmoins, les autres métriques
sont toujours satisfaisantes mais globalement plus mauvaises que celles obtenues avec le
réseau U-Net seul.
14.5 Conclusion 153
Figure 14.13 – Utilisation de réseaux U-Net pour remplacer les étapes JLF de l’approche de
(Wang et al., 2013b).
Table 14.9 – Evaluation quantitative des segmentations JLF, JLF+CL, U-Net et U-Net+CL sur
la base de données MUST sur les 7 atlas en utilisant une validation croisée un contre tous. Les
valeurs entre crochets correspondent respectivement aux valeurs minimum et maximum obtenues
sur les 7 tests.
On remarque aussi que pour les coureurs difficiles à segmenter (exemple du coureur CAL-
4223 de la figure 14.12) les approches d’apprentissage profond ne permettent pas d’améliorer
les résultats, et que l’étape CL ne parvient pas à les corriger. Cela conduit à l’hypothèse
que la morphologie de ce type de coureur n’est pas apprise lors de la phase d’apprentissage
d’U-Net ou de CL. Puisque sur ces coureurs les approches JLF et JLF+CL ne produisent
pas non plus de bonnes segmentations, on peut conclure que la morphologie de ces quelques
coureurs est très spécifique et n’est pas assez représentée dans la base de données.
Il serait pertinent de pouvoir caractériser ces morphologies et représenter la variabilité
présente dans la base de données afin d’en tenir compte pour l’apprentissage. On pourrait
ainsi optimiser cette base de données en incluant des morphologies pertinentes, ou mieux
appréhender les limites de cette base pour les segmentations de certaines morphologies.
Nous développerons ces idées dans le chapitre suivant (chapitre 15).
14.5 Conclusion
Dans ce chapitre, nous avons exposé nos travaux de segmentation supervisée d’images
ultrasonores et IRM avec les approches multi-atlas JLF+CL et de deep learning à base
d’architecture U-Net. Nous avons aussi présenté une contribution mélangeant les deux
approches U-Net+CL. Concernant les approches multi-atlas, elles permettent d’obtenir,
154 Chapitre 14. Applications à l’imagerie médicale
avec un faible nombre d’atlas, des résultats de segmentation des muscles très intéressants
sur les bases MUST et Epaules (IRM).
En segmentation echo-cardiographique 2D, U-Net permet d’obtenir des résultats bien
meilleurs que ceux obtenus jusqu’à maintenant par des approches classiques de segmentation.
Pour les segmentations de muscles en IRM de la base Epaule, les résultats obtenus sont de
qualité comparables à ceux produits par les approches multi-atlas, mais avec des temps de
calcul bien plus acceptables. Toujours sur cette base de données, nous avons constaté que
les performances des réseaux et fonctions de coût ne se généralisent pas nécessairement
d’un problème à un autre, conduisant pour l’instant à systématiser l’expérimentation
d’architectures ainsi que leurs optimisations. Ce travail long et fastidieux fait l’objet de
nombreuses recherches et une méthode nnU-Net s’impose pour s’affranchir d’une étude
exhaustive. Néanmoins, les pré- et post- traitements sont des étapes permettant d’améliorer
très significativement les segmentations, souvent avec moins d’effort que l’optimisation
d’architectures complexes.
Dans ce chapitre, nous avons aussi exposé une approche basée sur le Corrective Learning
visant à réduire les erreurs importantes de segmentation (quantifiées par la distance
de Hausdorff) souvent créées par le réseau U-Net 2D, et ceci de manière supervisée et
généralisable, c’est à dire sans la création de post-traitements ad-hoc. Notre contribution
U-Net+CL réduit bien ces erreurs mais celles-ci restent d’une part, encore presque deux
fois supérieures à celles produites par l’approche JLF+CL et d’autre part, elle réduit
sensiblement la qualité de segmentation globale (diminution du score de Dice).
De manière plus globale, nos observations sur les erreurs de segmentations sont de deux
types :
— soient des petites erreurs qui peuvent être rapprochées à des difficultés locales de
segmentation (contours peu marqués par exemple), voir à des incohérences dans les
annotations (notamment 3D) ou encore à des artéfacts dans l’image,
— soient des erreurs plus globales, qui s’expliquent par une mauvaise représentativité
lors de l’apprentissage de la morphologie ou spécificité anatomique et pour lesquelles
le réseau n’est pas capable de bien généraliser.
En tout cas, la qualité des résultats produits par les approches d’apprentissage profond a
changé notre manière d’appréhender la problématique de segmentation d’images. L’enjeu
principal est d’abord la base d’images annotées.
Le chapitre suivant traite du problème de l’augmentation de données et des stratégies
de sélection des atlas pour améliorer les résultats et diminuer le temps nécessaire aux
approches multi-atlas.
15. Augmentation de données
15.1 Introduction
Pour les applications précédentes, nous avons toujours eu le problème de la sélection d’atlas
pour l’approche JLF+CL et de l’augmentation de données pour les approches U-Net. Dans
le premier cas, nous avons dû tester les différents combinaisons d’atlas et nous avons
constaté une grande variabilité des résultats quand le nombre d’atlas est faible. Pour U-Net,
malgré le fait de traiter le problème de segmentation en 2D, donc disposer potentiellement
de beaucoup d’images, pour la base MUST il a fallu augmenter le nombre d’images annotées
car les coupes d’un même patient sont fortement corrélées entre elles ce qui conduit à un
sur-apprentissage néfaste à la généralisation du réseau à d’autres images.
Pour illustrer sur la base de données MUST, sans augmentation de données, et à partir des
6 atlas disponibles, U-Net permet d’obtenir des scores de DSC de 0,7 - peu satisfaisants
comme le montre la figure 15.1.
Figure 15.1 – Comparaison de segmentations d’un examen de la base MUST avec les approches
JLF et U-Net sans augmentation de données.
Ce chapitre traite des méthodes que l’on a expérimentées et proposées pour les approches
de recalage d’atlas et d’apprentissage profond pour les bases MUST et Epaule.
156 Chapitre 15. Augmentation de données
Cette problématique est bien couverte dans la littérature, surtout depuis l’explosion "deep
learning" qui requiert pour l’entrainement un grand nombre de données. Les travaux de
(Shorten et al., 2019) dresse une liste des stratégies d’augmentation de données pour
plusieurs problématiques d’apprentissage profond sur des images naturelles. Le versant
médical a été traité par (Chlap et al., 2021).
Cependant, il existe aussi des approches essayant de réaliser un entrainement avec un faible
nombre d’exemple, voir un seul. On parle de "few-shot" et de "one-shot". (Zhao et al., 2019)
décrit de telles approches pour la segmentation d’images IRM du cerveau qui reposent en
fait sur des stratégies d’augmentation de données à partir d’un seul atlas (le plus proche
de la moyenne) pour une approche basée sur le recalage et une basée sur un réseau U-Net
spécifique. Dans leur travail, sans atteindre les performances où les 101 annotations sont
utilisées, l’augmentation de données est cruciale et le réseau de neurones permet d’obtenir
les meilleurs performances.
Ainsi, quand le nombre de patients annotés dont on dispose est petit, il est capital
d’augmenter la diversité des images pour l’apprentissage. Nous présentons ici nos stratégies
d’augmentation de données d’abord basées sur des recalages aléatoires, puis une contribution
optimisant la sélection des atlas ou des images à augmenter en fonction de la morphologie
à segmenter.
Figure 15.2 – Stratégies d’augmentation de données pour la base de données MUST. L’atlas est
donné sur la première ligne. La ligne du milieu donne des trois exemples de déformations aléatoires.
La dernière ligne illustre les recalages déformables sur cinq coureurs non segmentés.
Table 15.1 – Evaluation quantitative des stratégies d’augmentation d’images pour la segmentation
de MUST. U-Net est testé pour les différentes stratégies d’augmentation de données (DA) : D -
Déformations aléatoires, R - recalages, D + R - déformations aléatoires et recalages. Les résultats
sont la moyenne et les valeurs minimum et maximum pour chacun des 7 atlas (en validation croisée
leave-one-out).
morphologique permettrait de définir des stratégies pour améliorer les approches multi-atlas
et d’apprentissage profond.
Afin de tester cette hypothèse, nous caractérisons les morphologies musculaires de manière
quantitative, avec une description simple basée sur une segmentation d’une coupe des
muscles. La position de la coupe considérée est définie de manière anatomique afin d’être
cohérente pour toute la base de données. On désigne cette coupe par "coupe centrale" pour
la base MUST.
On prend ici l’exemple de la base MUST, où 5 régions (les 4 quadriceps et le fémur)
servent à la caractérisation de la morphologie. Pour chacune des régions, la surface S
et le barycentre sont calculés. Le barycentre du fémur est utilisé comme origine et on
considère les distances des barycentres des régions à celui du fémur comme le montre la
figure 15.3. La mesure est ainsi invariante en translation. Pour la rendre invariante en
rotation, on considère chaque angle entre le barycentre d’une région et le vecteur formé
par les barycentres du fémur et de la région du Vastus Intermedius (VI).
Figure 15.3 – Illustration sur un sujet de MUST de la caractérisation morphologique. Les surfaces
et barycentres des régions sont calculés. Le barycentre du fémur sert d’origine et l’angle avec le
barycentre de VI, de référence pour le calcul des angles. Sont représentés ici l’angle et le module
pour la région VM.
fX = [SX
VI
, 0, rX
VI VM VM VM
, SX VL VL VL
, θX , rX , SX , θX , rX ]
RF RF RF
, θX , rX , SX (15.1)
est le coureur le plus difficile à segmenter par les approches testées (voir la figure 14.12
pour la comparaison JFL, JLF+CL, U-Net et U-Net+CL).
Figure 15.4 – Projection bi-dimensionnnelle par ACP des vecteurs morphologiques des jambes
droites des coureurs de MUST avec 6 exemples d’IRM pondérées T1 de la coupe centrale et sa
segmentation ayant permis d’extraire les caractéristiques morphologiques. En vert, bleu, rose et jaune
on peut observer les correspondances entre morphologie et proximité des vecteurs projetés en 2D.
En orangé, les deux positions d’un même sujet de contrôle pour apprécier la rotation biomécanique.
Expérimentations
Avec 7 segmentations manuelles, nous avons adopté le schéma LOO (Leave-One-Out) pour
évaluer la méthode de segmentation. Chaque coureur, parmi les 7 avec des segmentations
manuelles, a servi de test alors que les 6 autres ont servi d’atlas. Sur la base des caractéris-
tiques morphologiques, nous trions les atlas du plus proche au plus éloigné du volume de
test et choisissons d’utiliser 3 à 5 atlas les plus proches du sujet test.
Figure 15.5 – Résultats de segmentation des approches JLF et JLF+CL (Wang et al., 2013b)
avec et sans sélection d’atlas basée sur la morphologie. Les résultats JLF+CL6 correspondent à
l’approche JLF+CL ou les 6 atlas disponibles ont servi à l’apprentissage de l’algorithme de correction
(quels que soient les atlas utilisés pour le JLF). Chaque valeur par muscle et pour tous les muscles
est donnée en valeur moyenne (sur 7 réalisations) et la barre verticale donne le score minimal et
maximal.
L’observation principale est que la sélection basée sur la morphologie permet d’obtenir avec
3 atlas des résultats très proches de l’utilisation de 6 atlas (voir tableau 15.2). On observe
bien l’apport de la sélection morphologique sur le tirage aléatoire lors de l’utilisation d’un
petit nombre d’atlas : de 0,877 de DSC en moyenne avec 3 atlas choisis aléatoirement à
0,912 avec les 3 atlas les plus proches morphologiquement. Cette sélection morphologique
permet aussi à l’apprentissage correctif (CL) d’être plus pertinent, ce qui a confirmé
15.3 Sélection d’atlas basée sur la morphologie 161
l’observation faite dans des études antérieures (Nguyen et al., 2019b ; Nguyen et al.,
2019c) que le CL ne convient pas pour corriger les erreurs importantes causées par la
variation morphologique du quadriceps.
Parallèlement, étant donné que l’augmentation du nombre d’atlas pour le CL n’augmente
que le temps d’apprentissage (apprentissage du modèle de correction) mais pas le temps
d’inférence, nous avons appliqué le modèle correcteur appris sur 6 atlas (CL6) sur les
résultats de JLF. Nous avons obtenu un DSC moyen similaire à JLF + CL avec 6 atlas. De
plus, pour la segmentation d’un nouveau volume, corriger la segmentation automatique avec
un modèle pré-entraîné sur tous les atlas disponibles est plus pratique que de ré-entraîner
un modèle correctif basé sur les 3 atlas les plus proches.
Table 15.2 – Evaluations quantitatives des segmentations JLF, JLF+CL et JLF+CL6 avec un
choix aléatoire ou une sélection basée sur la moprphologie des atlas. Chaque mesure est données en
moyenne, minimum et maximum pour les 7 atlas disponibles. Les meilleurs valeurs moyennes ou la
plus petite dynamique est indiquée en gras pour chaque métrique.
Cette stratégie de sélection des 3 atlas morphologiquement les plus proches réduit de moitié
le temps d’exécution des approches JLF et JLF+CL avec 6 atlas tout en conservant, voire
en améliorant, la qualité de la segmentation. Nous présentons ensuite notre stratégie basée
sur la sélection d’atlas pour l’approche U-Net faiblement supervisée.
annotés, 5 groupes de 6 images, du plus similaire au moins similaire, après avoir exclu les
11 volumes les plus similaires. Ces 11 volumes sont jugés trop proches et donc conduiraient
à une sur-représentation de la morphologie, c’est à dire un possible sur-apprentissage de
celle-ci. Parmi chacun des 5 groupes, on sélectionne pour l’apprentissage un volume dans
les groupes un, trois et cinq, puis pour la validation, un volume dans les groupes deux
et quatre. Chaque volume sélectionné sert alors pour le recalage avec le volume annoté
pour l’augmentation de données. Il est alors possible d’entrainer un réseau avec une bonne
représentation de la diversité morphologique. Cette stratégie est nommée diversity.
Les résultats sur la base de données MUST sont présentés dans la table15.3 toujours
en utilisant une validation croisée sur le schéma leave-one-out. Chaque test inclut les 6
volumes annotés (les 7-1 atlas) avec, pour l’entrainement, 3 déformations aléatoires et 3
recalages sur les volumes sélectionnés (groupes 1, 3 et 5). La validation s’effectue sur 12
volumes (groupes 2 et 4). Cela représente respectivement environ 2700 et 770 coupes. Afin
de comparer les approches d’augmentation de données, nous avons entrainé 5 fois le même
réseau U-Net avec approximativement le même nombre de coupes en utilisant l’approche
de déformations aléatoires (section 15.2).
Les deux approches donnent des résultats en faveur de la sélection basée sur la diversité
morphologique. On note que les intervalles pour chacune des métriques sont plus petits
avec la morphologique.
Cependant, si on utilise la totalité des images, comme dans la table 15.1, les performances
sont alors comparables.
La plus petite valeur de DSC est encore obtenue pour le coureur CAL-4223. Il manque
toujours de l’information pour obtenir des performances acceptables pour ce coureur.
Entrainement morphologie-spécifique pour UNet
Afin d’accroitre l’information pour une morphologie spécifique, nous proposons deux
stratégies d’entrainement du réseau.
La première, nommée target-driven, consiste à créer un jeu d’entrainement très proche de
la morphologie ciblée. Typiquement, 10 volumes sont créés par rapport à la morphologie
ciblée :
— chacun des deux plus proches atlas sont recalés sur les 2 volumes non-annotés les
plus proches de la morphologie ciblée,
— le volume ciblé est déformé aléatoirement 4 fois et chacun des 2 atlas les plus proches
sont recalés sur ces déformations.
Le schéma de construction du jeu d’entrainement du target-driven est illustré sur la figure
15.6. Le jeu de validation est constitué des 2 atlas les plus proches recalés sur le volume
ciblé.
La seconde approche est une approche d’affinage d’entrainement, nommée fine tuned U-Net.
A partir du réseau U-Net entrainé avec la stratégie basée sur la diversité (voir le paragraphe
15.3.2), on continue l’apprentissage sur les 2 atlas les plus proches du volume ciblé recalés
15.3 Sélection d’atlas basée sur la morphologie 163
sur celui-ci. Le jeu de validation est constitué du troisième atlas le plus proche recalé sur
le volume ciblé. Nous avons observé que l’entrainement est optimisé avant la cinquième
époques et que ce fine tuning ne nécessite que 5 à 10 minutes.
La table 15.4 donne les résultats obtenus par les différentes stratégies.
Table 15.4 – Evaluation quantitative des stratégies morphologies spécifiques d’entrainement d’U-
Net pour chaque atlas de MUST. Pour comparaison sont donnés : les résultats du JLF+CL6 basé
sur les 3 atlas les plus proches, le U-Net entrainé sur un jeu sélectionné par les stratégies de diversité
(15.3.2), target-driven et fine-tuned (paragraphe 15.3.2). Les valeurs en gras sont les meilleurs
scores obtenus pour chaque coureur.
On rappelle aussi le nombre de volumes et les temps nécessaires à ces approches dans le
tableau 15.5 qui montre bien le gain en temps réalisé par l’approche fine-tuned.
164 Chapitre 15. Augmentation de données
Table 15.5 – Rappel des grandeurs d’inférence pour les méthodes basées sur la morphologie. Les
valeurs entre parenthèses précisent qu’une partie de la méthode est entrainée préalablement aux
inférences sur un jeu d’entrainement plus large. Diversity U-Net nécessite 2 heures d’entrainement.
On observe sur la table 15.4 que la stratégie target-driven donne les moins bonnes perfor-
mances, illustrant bien le compromis ténu entre la spécificité morphologique et le nombre
d’atlas. Ainsi, l’approche combinant la diversité et son affinage sur le volume ciblé (approche
fine-tuned) donne des résultats très intéressants, notamment sur la cas le plus problématique
(CAL-4223) montrant la bonne prise en compte de cette morphologie particulière, avec des
temps d’inférence de l’ordre de la dizaine de minutes.
15.4 Conclusion
Dans ce chapitre, nous avons montré l’importance des images utilisées pour l’entrainement
des approches de segmentation basées sur le JLF et U-Net. L’augmentation de données est
critique pour les réseaux de neurones qui sont incapables de fournir des résultats pertinents
sans une grande quantité d’images, capacité dont dispose la segmentation basée sur le
multi-atlas.
Dans ce chapitre, nous avons aussi proposé une mesure basée sur la morphologie qui nous a
permis d’établir des stratégies de sélection d’atlas et d’augmentation de données permettant
d’améliorer significativement le comportement des méthodes de segmentation testées. La
contrainte à cette approche est de réaliser la segmentation d’une coupe 2D de l’examen à
traiter.
Néanmoins, cette mesure ouvre de nombreuses pistes pour améliorer notre compréhension du
fonctionnement des réseaux de neurones. On rappelle qu’à ce jour il n’existe pas de formules
permettant de dimensionner les bases de données pour un problème de segmentation, ni
d’estimer les performances atteignables pour une base d’images donnée.
Nos récents travaux, non détaillés ici, ont aussi mis en évidence que les réseaux ne se
généralisent pas à des changements des conditions d’acquisition IRM, ni à des morphologies
et qualité musculaire différentes. Les approches comme le JFL, malgré un temps de calcul
long, montrent de bien meilleurs comportements face à ces modifications.
16. Conclusion de la troisième partie
Dans cette partie nous avons présenté nos contributions en segmentation d’images par
approches supervisées.
Les deux approches choisies sont la segmentation par recalage multi-atlas avec apprentissage
de correction et la famille des réseaux de neurones U-Net. Après les avoir détaillées, nous
avons présenté nos résultats sur des applications médicales en échocardiographie et en
imagerie IRM des muscles.
Le recalage multi-atlas (JLF et JLF+CL) a montré sa capacité à fournir des segmentations
anatomiques de qualité surtout si on ne dispose que d’un petit nombre d’atlas. Sur nos
données, les améliorations apportées par l’utilisation de plus de 5 atlas sont très modérées
voir insignifiantes. Cependant, leurs temps de calcul longs, la sensibilité à l’erreur de recalage
et, intrinsèquement, à la mise en correspondance globale (échec possible si perturbations
locales) constituent des limitations importantes dans le cadre d’études sur un grand nombre
d’images.
Nos contributions à la segmentation d’images basées sur le réseau U-Net ont montré des
avancés significatives dans les problématiques de segmentation des muscles imagés par
échographie et IRM. Une fois les problèmes de la quantité et qualité de données résolus,
cette approche permet d’obtenir, en temps très raisonnable, des segmentations de bonne
qualité.
Le problème d’augmentation de données a aussi été adressé et nous avons présenté une
mesure originale qui nous a permis de dériver différentes stratégies d’augmentation d’images
utilisant l’information morphologique. Ces stratégies optimisent les images servant de
supervision aux approches (choix des atlas pour le recalage, les jeux d’entrainement et de
validation pour U-Net) et les rendent ainsi plus efficaces en temps et en performances.
De nombreux projets ont été conduits avec succès grâce à ces approches (Dumortier et al.,
2022 ; Evain et al., 2020 ; Faraz et al., 2022 ; Saillard et al., 2021), mais de nombreux
autres ne sont pas achevés, voire ne sont pas résolus.
On se heurte à un problème simple à exprimer : avec combien d’images d’entrainement, on
va pouvoir atteindre la précision spécifiée dans tous les cas ?
166 Chapitre 16. Conclusion de la troisième partie
Avant toutes choses, dans une étude, il faut nécessairement spécifier rigoureusement le
périmètre de tous les cas et s’y tenir. Ensuite, les problèmes résident d’une part dans le
dimensionnement de la complexité de la tâche de segmentation et d’autre part dans la
prédiction du comportement des méthodes.
Pour la complexité de la tâche de segmentation, il n’y a pas de méthode permettant
de quantifier les variabilités des images (artéfacts, résolution, paramètres d’acquisition
et de reconstruction, ...) et des segmentations (différences morphologiques, apparitions
aléatoires de pathologies, tailles de régions d’intérêts, ...). L’expérience est nécessaire pour
demander aux experts médicaux un nombre approximatif de données annotées, et définir
les pré-traitements et être vigilant au respect du protocole d’acquisition pour minimiser la
variabilité dans les images.
Pour la prédiction du comportement des méthodes, les problématiques de compréhension
et de prédiction des erreurs sont particulièrement étudiées actuellement. Les travaux de
thèses en cours de Valentine Wargnier-Dauchelle (Wargnier-Dauchelle et al., 2021a)
adressent notamment le problème de l’interprétation des décisions des réseaux de neurones
au travers des cartes d’attribution. Il serait aussi intéressant de corréler notre métrique
morphologique aux performances d’un réseau et ainsi prévoir la fiabilité ou la précision
de ce réseau sur une nouvelle image. Il s’agirait d’une définition orientée morphologie du
domaine d’applicabilité des approches garantissant une précision.
Enfin, il faut revenir sur le nombre de données et comprendre pourquoi les réseaux de
neurones ont besoin d’une si grande quantité d’images alors que le recalage atlas, pour la
problématiques de segmentation anatomique, n’en nécessite qu’un nombre très raisonnable.
Des couplages de ses approches ont été proposées...
Ces idées sont connexes aux thèmes d’apprentissage semi-supervisé, voir few-shot et one-
shot, et d’apprentissage actif. Dans la partie de conclusion qui suit, en plus des bilans sur
mes activités, je propose des projets de recherches dans ces thématiques. Notre proposition
de mesure morphologique peut s’inscrire dans cette optique de sélection de données à
annoter et pourrait être un élément vers une estimation de la complexité de segmentation.
Contributions personnelles
Articles
Dumortier, L., F. Guépin, M. L. Delignette-Muller, C. B. Boulocher et T.
Grenier (2022). « Deep learning in veterinary medicine, an approach based on CNN
to detect pulmonary abnormalities from lateral thoracic radiographs in cats ». In :
Scientific Reports 12.
Evain, E., K. Faraz, T. Grenier, D. Garcia, M. De Craene et O. Bernard (2020).
« A pilot study on convolutional neural networks for motion estimation from ultrasound
images ». In : IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control
67.12, p. 2565-2573.
Faraz, K., T. Grenier, C. Ducottet et T. Epicier (2022). « Deep learning detection
of nanoparticles and multiple object tracking of their dynamic evolution during in situ
ETEM studies ». In : Scientific Reports 12, p. 2484.
Leclerc, S., E. Smistad, A. Ostvik, F. Cervenansky, F. Espinosa, T. Espeland,
E. A. R. Berg, M. Belhamissi, S. Israilov, T. Grenier, C. Lartizien, P. M.
Jodoin, L. Løvstakken et O. Bernard (2020). « LU-Net : A multistage attention
network to improve the robustness of segmentation of left ventricular structures in
2-D echocardiography ». In : IEEE Transactions on Ultrasonics, Ferroelectrics, and
Frequency Control 67.12, p. 2519-2530.
167
Conférences
Leclerc, S., E. Smistad, T. Grenier, C. Lartizien, A. Ostvik, F. Cervenansky,
F. Espinosa, T. Espeland, E. A. Rye Berg, P.-M. Jodoin, L. Løvstakken et
O. Bernard (2019a). « RU-Net : A refining segmentation network for 2D echocar-
diography ». In : 2019 IEEE International Ultrasonics Symposium (IUS). Glasgow,
France : IEEE, p. 1160-1163.
Leclerc, S., E. Smistad, A. Ostvik, F. Cervenansky, F. Espinosa, T. Espeland,
E. Andreas, R. Berg, P.-M. Jodoin, T. Grenier, C. Lartizien, L. Lovstakken
et O. Bernard (2019b). « Deep learning segmentation in 2D echocardiography using
the CAMUS dataset : Automatic assessment of the anatomical shape validity ». In :
International conference on Medical Imaging with Deep Learning (MIDL 2019). London,
United Kingdom.
Moreau, B., A.-H. Dicko, P. Mailliez, P. Portejoie, C. Lecomte, M. Bah, T.
Grenier, E. Jolivet, P. Petit, B. Fréchède, F. Faure, B. Gilles et P. Beillas
(2016). « A segmentation pipeline for the creation of statistical shape models in the
PIPER project ». In : 22nd Congress of the European Society of Biomechanics (ESB
2016).
Nguyen, H.-T., P. Croisille, M. Viallon, C. de Bourguignon, R. Grange, S. Grange
et T. Grenier (2018a). « Robust multi-atlas MRI segmentation with corrective learning
for quantification of local quadriceps muscles inflammation changes during a longitudinal
study in athletes ». In : Proc. Intl. Soc. Mag. Reson. Med. 26. Paris, France.
Nguyen, H.-T., P. Croisille, M. Viallon, S. Leclerc, S. Grange, R. Grange,
O. Bernard et T. Grenier (2019b). « Robustly segmenting quadriceps muscles of
ultra-endurance athletes with weakly supervised U-Net ». In : International Conference
on Medical Imaging with Deep Learning – Extended Abstract Track. London, United
Kingdom.
Nguyen, H.-T., T. Grenier, B. Leporq, L. Bey, M. Viallon et P. Croisille (2019c).
« Evaluation of local changes in femoral bone marrow during a mountain ultra-marathon
with quantitative MRI Results & Discussion ». In : Proc. Intl. Soc. Mag. Reson. Med.
27. Montréal, Canada.
Nguyen, H.-T., T. Grenier, B. Leporq, C. Le Goff, C. de Bourguignon, G. Giardini,
G. Millet et O. Beuf (2018b). « Longitudinal study of quadriceps muscle head
inflammation of athletes enrolled in extreme mountain ultra-marathon using radiomic
features extracted from automatic segmentation based on atlas registration and machine
learning of MR Images ». In : ELMSK : Exercise, locomotion and musculoskeletal system.
Lyon, France.
Saillard, E., C. Confavreux, M. Gardegaront, D. Jicquel, S. Cadot, D. Mitton, F.
Bernmond, H. Follet, J.-B. Pialat et T. Grenier (2021). « UNet based automatic
femur segmentation with few annotated data for bone fracture prediction : from pre-
processing to segmentation assessments ». In : Medical Image Analysis and Artificial
Intelligence, 2nd Sino French Workshop. Online, France, 2p.
Wargnier-Dauchelle, V., T. Grenier, F. Durand-Dubief, F. Cotton et M. Sdika
(2021a). « A more interpretable classifier for multiple sclerosis ». In : 2021 IEEE 18th
International Symposium on Biomedical Imaging (ISBI). Nice, France, p. 1062-1066.
Bibliographie de la troisième partie
IV
17.1 Conclusion
Dans ce manuscrit, j’ai présenté mes activités en enseignement et en recherche conduites
depuis ma nomination en septembre 2006 en tant que maître de conférences. Notamment,
j’ai détaillé deux thèmes de recherche. Le premier, sur le filtrage à base de mean-shift et la
segmentation par croissance de région. Le second, sur les approches de segmentation super-
visée multi-atlas et d’apprentissage profond (réseau U-Net). Ces deux thèmes de recherche
ont été appliqués à différents problèmes de segmentation et filtrage d’images médicales
dans le but d’améliorer le diagnostic ou la compréhension de processus pathologiques
inflammatoires.
Ces deux thèmes semblent s’opposer. Il est intéressant de comparer les changements de
paradigmes entre eux. Le premier, mean-shift et croissance de région, appartiendrait "au
passé" alors que le second, l’apprentissage profond, est en pleine effervescence. Le premier
s’appuie sur une écriture algorithmique (modèle) contrôlant son comportement en filtrage
ou en segmentation d’images. Le second apprend son comportement en s’appuyant sur des
exemples d’images.
Cette conclusion est orientée sur le bilan et les perspectives de recherche. Le bilan des
contributions sur ces thématiques est dressé dans la section 17.2.
Dans la section 17.3, je détaille les poursuites que j’envisage pour ces travaux et les projets
de recherche.
Enfin je dresserai un bilan de ma rédaction d’HDR.
De manière globale, ces dernières années, on observe une augmentation du nombre et une
diversification du type de mes communications. Cela correspond beaucoup à l’autre partie
de mes contributions (9 articles sur 17, 2 brevets déposés) qui résulte principalement des
avancées de différents projets sur lesquels je me suis impliqué en apportant mon expertise
en traitements d’images notamment pour les méthodes relevant du deep learning.
Il faut aussi reconnaitre que l’effet de mode autour du deep learning (voire "IA") a facilité
les possibilités de publications, aubaine pour les sociétés savantes qui ont diversifié et
augmenté les supports de communication (nouvelles conférences, workshops, revues, ...).
Cependant, il est de plus en plus complexe de publier des avancées méthodologiques dans
cette thématique, notamment pour les raisons suivantes :
— l’état de l’art est très riche et il évolue rapidement. Explorer l’important état de l’art
est lourd car il devient de plus en plus difficile de discerner les travaux d’importance
des autres : les informations partielles, les biais d’étude, la réelle capacité de l’approche
proposée à se généraliser à un autre problème n’étant pas évidents à déterminer
rapidement. La science ouverte ne résout pas tout. A mon sens, nous manquons de
modélisations théoriques et notamment d’éléments de caractérisation du problème de
traitement d’images et de sa complexité, notamment en segmentation.
— l’implication de grands groupes (Facebook, Google, NVidia, Microsoft, IBM...) peut
rendre rapidement des travaux de recherche hautement compétitifs et difficiles à
soutenir par une petite équipe qui ne disposera pas des mêmes ressources humaines,
en données et en calculs que ces groupes.
— il est demandé de plus en plus de tests : en termes de quantité d’images, de bases
de données étudiées, d’explorations informatiques et statistiques lourdes à réaliser.
Cela implique une intégration continue de codes de la communauté (quels que peu
modifiés), l’accès à des centres de calcul très puissants (exemple de l’IN2P3 ou Jean
Zay du CNRS), et de privilégier l’utilisation de bases de données ’libres’ afin de
faciliter la comparaison aux autres travaux. Un enjeu important est de maintenir
ses compétences informatiques ou de transférer cette charge à un service dédié (à
l’échelle du laboratoire ou externalisé ?).
— l’effervescence de cette discipline ne permet pas d’avoir un cadrage de ses ramifications
méthodologiques, théoriques et applicatives et ceci même au niveau des mots clés
utilisés. Il faut donc prospecter très largement l’immense état de l’art. Un travail
d’échanges scientifiques en équipe à l’échelle du laboratoire est important, mais est
crucial à des échelles plus grande de manière à couvrir d’autres domaines que le
médical dont le très large computer vision. Un enjeu serait d’aller vers une taxonomie
des méthodes et être capable de la faire accepter et de la maintenir à jour.
17.3 Perspectives de recherche 179
Un premier pas serait de proposer des réseaux fiables pour l’aide au diagnostic (sain ou
malade, tumeur maligne ou bénigne, sévérité de l’infarctus, importance de l’inflammation,
... ) sans nécessairement disposer de toutes les segmentations manuelles des images mais
simplement du compte rendu ou observations médicales. Ces recherches sur l’explicabilité
et sur l’apprentissage de segmentation faiblement supervisé (les vérités terrain sont une
simple classification) rentrent dans le cadre des travaux de thèse en cours de Valentine
Wargnier-Dauchelle que je co-encadre.
Le challenge suivant sera ensuite d’étendre ces approches au pronostic. Il faudra néces-
sairement inclure des données longitudinales et hétérogènes ce qui réduira la capacité de
généralisation et d’explicabilité des approches.
Effectivement, pour la capacité de généralisation, l’augmentation d’informations discrimi-
nant les individus segmente la base de données en plus petits groupes homogènes. Ceci
peut être vu comme l’augmentation du nombre de dimensions en entrée sans augmenter la
quantité de données : l’apprentissage devient particulièrement délicat (espace peu dense,
sur-apprentissage...), surtout si on ne peut faire d’augmentation de données. L’alternative de
représentation par graphes des données est une possible piste diminuant les dimensions des
données d’entrée. Cette piste est explorée dans le cadre des travaux de thèse d’Enyi Chen
qui adressent l’utilisation des connexions morphologiques pour améliorer la classification
des formes de lésions SEP.
Puis, pour l’explicabilité, le problème est maintenant traité globalement et devient donc
plus difficile à expliquer ou justifier car sa résolution s’appuie sur l’ensemble des données
d’entrée et non sur une opération interprétable sur chaque instant du temps par exemple.
Pour ce dernier point, les fonctions de coût pourraient permettre de contraindre le réseau à
apprendre de manière progressive ou a comprendre le rôle de chaque entrée dans la décision
finale.
avec range la dynamique des images. Cette mesure s’appuie sur la Mean Square Error
(MSE) qui calcule la moyenne, sur l’ensemble des n pixels des deux images, des erreurs
quadratique des amplitudes : (xi )r pour l’image X et (yi )r pour l’image Y , au même pixel
i.
n
1X
M SE(X, Y ) = ∥(xi )r − (yi )r ∥2 (1.2)
n i=1
On note l’arrivée de méthodes basées sur l’apprentissage profond pour réaliser des com-
paraisons de qualité "comme l’humain", notamment l’approche LPIPS (Zhang et al.,
2018).
Figure A1 – Illustration pour le calcul de l’indice de DICE. Pour le DICE, il faut multiplier par 2.
2|R T | 2|R T |
T T
DICE(R, T ) = = (1.3)
|R| + |T | |R T | + |R T |
S T
2T P
DICE = (1.4)
2T P + F P + F N
Plus le coefficient de DICE est grand (0 ≤ DICE(R, T ) ≤ 1), plus similaires sont les 2
segmentations.
A.2 Evaluations quantitatives de la segmentation d’image 187
Dans le cas multi-classes, il faudra utiliser le Dice Similarity Coefficient (DSC) qui est la
moyenne des DICE obtenus pour chacune des classes et en ignorant la classe du fond. Il
est possible de pondérer cette valeur de DSC par le nombre de pixels dans chaque classe.
On notera cette mesure DSCw qui sera calculée ainsi :
PN
|Rc Tc |
T
DSCw(R, T ) = 2 PNc=1 (1.5)
c=1 |Rc | + |Tc |
avec N , le nombre de classes.
Le score de DICE est équivalent au score F1 en utilisant les définitions précédentes.
Cependant, le score F1 est aussi utilisé pour la détection et dans ce cas, un vrai positif est
défini comme tel quand la superposition entre T et R est suffisant (par exemple plus de
80%). Cette sapproche est formalisée avec l’intersection de l’union.
|R T |
T
J(R, T ) = (1.6)
|R T |
S
Cette expression est équivalente au coefficient de DICE mais est formulée différemment.
La relation entre les coefficients de Jaccard et de DICE est :
Plus le coefficient de Jaccard est grand, plus similaires sont les 2 segmentations (0 ≤
J(R, T ) ≤ 1).
On peut noter des propositions de métriques hybrides entre Dice et IoU. Dans leurs travaux
(Kirillov et al., 2019) sur la segmentation panoptique qui associe à chaque pixel une
classe et un identifiant propre à l’instance de chaque object d’une même classe, les auteurs
188 Chapitre A. Métriques pour l’évaluation quantitative
proposent une nouvelle métrique la panoptic quality qui est proportionnelle au produit de
l’IoU par le DICE. Dans cette métrique, les auteurs utilisent l’IoU pour mesurer la qualité
de segmentation et le DICE pour mesurer la qualité de reconnaissance.
Cette distance permet de déterminer la plus grande distance entre les deux segmentations
qui sera assimilée à la plus grande erreur de segmentation.
Pour obtenir une mesure globale dans le cas multi-classes, il convient de calculer la distance
de Hausdorff pour chaque région et de garder le maximum de toutes ces distances.
1
dm (R, T ) = M AD(R, T ) = d(R, T ) + d(T, R) (1.10)
2
avec d(R, T ) la pseudo-distance directionnelle de Hausdorff moyenne :
1 X
d(R, T ) = min∥r − t∥ (1.11)
|R| r∈R t∈T
puisqu’en chaque point, la distance minimum à l’autre ensemble est déterminée puis
accumulée.
Pour le multi-classes, comme pour la distance de Hausdorff, il est recommandé de conserver
comme mesure globale, le maximum des distances calculées pour chaque classe.
A.2 Evaluations quantitatives de la segmentation d’image 189
Figure A4 – Illustration de la distance absolue moyenne. Sur chacune des régions hachurées, la
distance minimum avec l’autre région est accumulée pour le calcul des d.
|T | − |R|
VS(R, T ) = 2 (1.12)
|T | + |R|
Si VS(R, T ) = 0 cela signifie que les volumes sont les même, mais ne garantit par que R et
T soient les même (DICE(R, T ) pourrait valoir 0).
Dans le cas du multi-classes avec N régions, la similarité de volume pouvant être positive
ou négative, la moyenne des similarités de volumes absolues par région |VS(Rc , Tc )| est
utilisée :
N
2 X ||Tc | − |Rc ||
VS(R, T ) = (1.13)
N c=1 |Tc | + |Rc |
B. Descriptions des bases de données
Cette annexe décrit les deux bases de données MUST et Epaule sur lesquelles s’appuient
les développements en segmentation supervisée développés dans ce manuscrit.
Angleterre). Trois acquisitions ont été réalisées : écho gradient 3D isotrope (3D GRE double
écho Dixon), écho gradient 3D multi-écho (8 échos) en axial (3D GRE multi-écho) et une
séquence spin-écho 2D multi-echos pondérée T2 (T2 Spin Echo).
La figure B1 illustre les différentes régions des cuisses imagées par chacune de ces acquisitions.
Les acquisitions 3D GRE multi-écho et T2 Spin Echo sont centrées à 15cm de la partie
supérieure de la rotule.
Figure B1 – Acquisition IRM (à gauche), segmentation manuelle sur une coupe (au centre) et
rendu 3D des segmentations des quadriceps et des os (à droite).
Ces 3 acquisitions ont permis d’obtenir 8 images et cartographies IRM quantitatives dont
5 sont illustrées sur la figure B2.
Figure B2 – Illustration des 5 types d’images utilisés pour l’étude de l’inflammation des muscles
de la cuisse : (a) imagerie isotropique de l’eau, (b) carte de susceptibilité, (c) cartographie PDFF,
(d) cartographie T2* et (e) cartographie T2.
La figure B3 illustre sur l’imagerie pondérée T 2∗ l’évolution de l’inflammation sur les trois
instants Pré, Post et Post+3.
Figure B3 – Illustration de l’évolution de l’inflammation des muscles de la cuisse sur les carto-
graphies T2* : (a) image acquise avant la course - Pré, (b) image acquise à l’arrivée du coureur -
Post, et (c) image acquise 3 jours après l’arrivée - Post+3.
Figure B4 – Définition des 4 muscles à segmenter pour l’étude des quadriceps. Les abréviations
sont : VM – vectus medialis, VL – vectus lateralis, VI – vectus intermedius, RF – rectus femoris.
Les jambes droites de 7 coureurs ayant fini la course, ont été segmentées en interpolant (et
au besoin corrigeant) les segmentations manuelles effectuées toutes les 10 coupes. Quatre
experts différents ont réalisé ses segmentations. De manière assez similaire, 5 jambes
gauches ont été segmentées deux fois par deux [Link] comparaison des segmentations
inter-experts donne un score de Dice de 0,910. Les comparaisons sont données en détails
dans la tables B1. On note que le vastus intermedius (VI) est plus difficile à délimiter et
qu’il y a une certaine in-homogénéité de concordance pour les différents coureurs.
Trois coureurs ont leurs jambes gauche et droite segmentées manuellement. Toutes ces
segmentations ont été faites sur le premier instant (Pré : avant la course).
Enfin, pour réaliser une évaluation quantitative longitudinale, 17 coupes de 4 coureurs
supplémentaires ont été manuellement segmentées sur les 3 instants Pré, Post et Post+3.
B.1.3 Pré-traitements
Les images IRM ont été corrigées de l’in-homogénéité de champs par l’algorithme N4
(Tustison et al., 2010) puis centrées et réduites avant d’être remises sur la dynamique
d’un des examens.
194 Chapitre B. Descriptions des bases de données
Table B1 – Evaluation par les scores de DSC et de similarité de volusme (VS) des segmentations
de 5 jambes gauches réalisées par 2 experts. Abréviations : VL – Vastus Lateralis, RF – Rectus
Femoris, VM – Vastus Medialis, VI – Vastus Intermedius.
Figure B5 – Correction du biais avec l’algorithme N4. Image originale à gauche et corrigée à
droite.
Un recalage des modalités intra-patient a aussi été fait (figure B6) pour garantir une
extraction des caractéristiques radiomiques (Vallières et al., 2015) cohérentes 1 .
Les résultats des différents recalages testés (rigide et déformable) sont donnés dans la figure
B7. Notre étude (Nguyen et al., 2021a) a conclu que le recalage déformable était le plus
pertinent au sens de la mise en correspondance de l’anatomie, mais que les recalages ne
modifiaient pas de manière statistiquement significative les valeurs radiomiques extraites à
partir des régions 3D des muscles.
Après ces différents pré-traitements, nous obtenons des volumes de 280 × 160 × 640 pixels.
Figure B6 – Pipeline proposé pour étudier l’impact du recalage sur l’extraction de caractéristiques
radiomiques.
Figure B7 – Comparaison des approches de recalage pour la mise en correspondance des images
pondérées T1 et des cartographies T2 et T2*. (à droite) image pondérée T1, (a) cartographies T2* et
T2, (b) superposition T1 et des cartographies sans recalage, (c) superposition T1 et des cartographies
avec recalage rigide, (d) superposition T1 et des cartographies avec recalage déformable
Figure B8 – Exemple d’acquisitions IRM de la base de données Epaule. (a), (b) et (c) IRM
pondérée T2 coupe sagittale, frontale et transverse, (d) IRM pondérée T1 coupe sagittale, (e) IRM
Dixon echo 8, (f) IRM Dixon echo 1.
L’annotation manuelle de cette base de données a nécessité les spécifications suivantes afin
d’obtenir des segmentations 3D cohérentes :
— bien définir les objets anatomiques (début, fin, frontières,...) par rapport à ce qui est
imagé,
— adopter une stratégie en cas d’artéfact ou d’anormalité anatomique,
— pour la 3D, essayer d’assurer une bonne continuité des annotations entre les coupes
et les plans anatomiques.
B.2.3 Pré-traitements
Les pré-traitements de cette base de données consistent à homogénéiser les données :
correction de l’in-homogénéité de champs et de l’orientation des volumes, ré-échantillonnage
en pixel isotrope, modification du champs de vue, recalage sur un examen de référence,
transformation de toutes les épaules en épaules droites. Ces pré-traitements sont décrits
dans la figure B10.
Figure B10 – Illustration des différents pré-traitements effectués sur la base de données Epaule
afin d’obtenir des images homogènes et correspondant à des épaules droites.
AdaBoost (Adaptive Boosting) (Freund et al., 1996) est l’un des algorithmes d’appren-
tissage d’ensemble de méthodes les plus célèbres. Il appartient à la famille de méthodes
appelées boosting qui fonctionnent avec de multiples algorithmes d’apprentissage simple
(ou des apprenants faibles) et tentent, en les assemblant, de faire passer leurs performances
de faibles à fortes. Un apprenant faible est à minima juste meilleur qu’une estimation
aléatoire (le taux d’erreur ϵt est légèrement inférieur à 50%) tandis qu’un apprenant fort a
un taux d’erreur quasi nul.
L’algorithme 5 détaille AdaBoost. Les apprenants faibles sont souvent un seuillage suivant
une des dimensions. Ce type d’algorithme est suffisamment simple pour éviter de trop
s’adapter aux données d’entrainement (over-fitting).
200 Chapitre C. Description de l’algorithme AdaBoost
Budd, S., E. C. Robinson et B. Kainz (2021). « A survey on active learning and human-
in-the-loop deep learning for medical image analysis ». In : Medical Image Analysis 71,
p. 102062.
Diaz-Pinto, A., S. Alle, A. Ihsani, M. Asad, V. Nath, F. Pérez-García, P. Mehta,
W. Li, H. R. Roth, T. Vercauteren, D. Xu, P. Dogra, S. Ourselin, A. Feng et
M. J. Cardoso (2022a). « MONAI Label : A framework for AI-assisted Interactive
Labeling of 3D Medical Images ». In : arXiv e-prints.
Diaz-Pinto, A., P. Mehta, S. Alle, M. Asad, R. Brown, V. Nath, A. Ihsani, M.
Antonelli, D. Palkovics, C. Pinter et al. (2022b). « DeepEdit : Deep Editable
Learning for Interactive Segmentation of 3D Medical Images ». In : MICCAI Workshop
on Data Augmentation, Labelling, and Imperfections. Springer, p. 11-21.
Dice, L. R. (1945). « Measures of the amount of ecologic association between species ».
In : Ecology 26.3, p. 297-302.
Dosselmann, R. et X. D. Yang (2011). « A comprehensive assessment of the structural
similarity index ». In : Signal, Image and Video Processing 5.1, p. 81-91.
Freund, Y. et R. E. Schapire (1996). « Experiments with a new boosting algorithm ». In :
Proceedings of the Thirteenth International Conference on International Conference on
Machine Learning. ICML’96. Bari, Italy : Morgan Kaufmann Publishers Inc., 148–156.
Kirillov, A., K. He, R. Girshick, C. Rother et P. Dollar (2019). « Panoptic seg-
mentation ». In : Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition (CVPR).
Klein, S., M. Staring, K. Murphy, M. A. Viergever et J. P. Pluim (2010). « elastix :
a toolbox for intensity-based medical image registration ». In : IEEE Transactions on
Medical Imaging 29.1, p. 196-205.
Monga, V., Y. Li et Y. C. Eldar (2021). « Algorithm Unrolling : Interpretable, Efficient
Deep Learning for Signal and Image Processing ». In : IEEE Signal Processing Magazine
38.2, p. 18-44.
202 Chapitre C. Description de l’algorithme AdaBoost