0% ont trouvé ce document utile (0 vote)
56 vues9 pages

Article 416208

Transféré par

rito.wrigley
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
56 vues9 pages

Article 416208

Transféré par

rito.wrigley
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

GÉODÉSIE

INTELLIGENCE ARTIFICIELLE
Enjeux de l’IA pour l’aide à la
modélisation 3D d’intérieur d’installation
industrielle construit et leur exploitation
en réalités virtuelle et augmentée
Guillaume TERRASSE – Jean-François HULLO – Guillaume THIBAULT

C’est au cours d’un planning contraint lors des arrêts MOTS-CLÉS – de forme cylindrique avec un diamètre
de fonctionnement des bâtiments réacteur qu’EDF réalise de 40 m et une hauteur de 45 m.
Maquette numérique,
leurs travaux de maintenance. EDF a entrepris la réalisation photographies, De plus, le bâtiment réacteur n’est
de maquettes numériques “tel que construit” à partir nuages de points, accessible que lors des arrêts de pro-
d’acquisitions de photographies panoramiques, de nuages apprentissage duction. C’est pendant ces périodes
de points et leur reconstruction 3D. La quantité de données automatique, réalité d’arrêt de fonctionnement de l’ordre
virtuelle, augmentée, de quelques semaines que de très
à exploiter est très importante avec au total, pour
mixte. nombreuses opérations de main-
un unique bâtiment, 500 milliards de pixels, 30 milliards tenance sont réalisées. Ainsi, la
de points et 90 000 géométries 3D reconstruites. Dans complexité des lieux couplée au
cet article, nous présentons les travaux menés par EDF R&D pour enrichir cette donnée planning contraint de travaux de main-
géométrique avec du contenu sémantique. Nous avons développé un outil, appelé tenance demande une planification
Léonard qui détecte automatiquement des équipements sur des images à partir rigoureuse des interventions. Il est alors
nécessaire de disposer des meilleures
de deux algorithmes d’apprentissage profond. Une des contraintes à l’utilisation
connaissances quant à la réalité des
de ce type de méthode est qu’elle nécessite un nombre important d’exemples lieux. En effet, la réduction des incer-
labélisés. Or, Léonard intègre dans sa chaîne de traitements une méthode capable de titudes permet de mieux maîtriser les
construire automatiquement cette base d’exemples labélisés. Pour cela, il exploite coûts et les plannings contraints. Pour
la maquette numérique dans laquelle les photographies sont recalées sur le modèle ce faire, EDF a notamment entrepris la
3D. EDF étudie également l’utilisation de Léonard sur un nuage de points. Cela numérisation photo et topographique
de ses installations en vue de la consti-
permettrait notamment d’automatiser la segmentation du nuage, étape actuellement
tution de maquettes numériques. La
principalement manuelle, et in fine une reconstruction 3D automatique. Pour EDF, consultation de celles-ci est alors réali-
ces travaux d’automatisation permettraient de réduire le temps de reconstruction 3D sée au moyen d’un logiciel de visite
qui est actuellement prépondérant dans la création de la maquette numérique. virtuelle, développé sur mesure, appelé
De plus, la recherche automatique de contenus sémantiques dans des photographies VVProPrépa. L’intervenant peut ainsi y
permettrait également la réalisation d’inventaires rapides d’équipements présents consulter, en préparation des travaux
de maintenance, la configuration de
dans des bâtiments complexes et de grande dimension. Les évolutions récentes
l’installation à partir de la maquette
des systèmes d’acquisition et de production rapide de données 3D vont démocratiser numérique :
leur utilisation. De plus, de nouveaux moyens d’interaction Homme-3D grand public – les plans masse 2D ;
émergent. Nous présentons également les approches développées par EDF pour que – les photographies panoramiques 360°
les opérateurs des moyens de production d’électricité exploitent efficacement haute-définition ;
– les stations laser et le nuage de points
les nouvelles technologies de réalités virtuelle, augmentée ou mixte.
consolidé. Les photographies pano-
Introduction 58 tranches. Chacune d’elle regroupe
ramiques sont recalées sur le nuage
de points ;
Une centrale nucléaire est une installa- 10 bâtiments dont le bâtiment réacteur.
– le Modèle numérique 3D (M3D)
tion industrielle complexe et de grande Ce dernier est lui-même complexe :
construit au plus près du nuage de
taille. Elle se compose de plusieurs – 15 étages et demi-étages,
points.
unités de production qu’on appelle – dense en équipements avec plus de
“tranches”. Le parc de production d’élec- 10 000 équipements fonctionnels, La chaîne de production des données
tricité nucléaire d’EDF est constitué de répartis dans près de 200 locaux, assure une maîtrise de la précision et de

36 Revue XYZ • N° 162 – 1er trimestre 2020


l’exactitude géométrique des données dans le parc nucléaire français, il est de réseau de neurones profonds (deep
(nuage de points et modèle 3D). La actuellement difficile de réaliser une learning en anglais). Nous présentons,
maquette numérique représente une reconstruction pour l’ensemble du dans la suite de l'article, l’outil baptisé
quantité importante de données avec, parc. Nous souhaitons alors déve- Léonard ([1]) basé sur deux réseaux de
pour un unique bâtiment réacteur : lopper une méthode automatique de neurones profonds. Léonard permet
– 1 100 photographies panoramiques, reconstruction d’un modèle 3D à partir de détecter des équipements dans
soit 500 milliards de pixels ; d’un nuage de points. les photographies panoramiques par
– 1 100 stations scanner, soit 33 milliards • La modélisation 3D étant complexe, segmentation de pixels selon une liste
de points ; dans certains cas nous pourrions prédéfinie d’objets. Plus récemment,
–9  0 000 primitives géométriques 3D. ne disposer que des photographies des travaux ont adapté les réseaux de
panoramiques et/ou du nuage de neurones pour les appliquer directement
Ici, l’étape de reconstruction du modèle
points sans son reconstruit 3D. Or à des nuages de points. Nous verrons
3D est une procédure majoritairement
cette donnée ne contient que très également dans la partie suivante des
manuelle. Actuellement, le recons-
peu d’information sémantique. Nous exemples pour appliquer ces tech-
tructeur identifie visuellement une
souhaiterions alors l’enrichir en lui nologies aux nuages de points et les
géométrie dans le nuage de points,
associant des informations métiers. difficultés que cela implique.
la segmente, puis choisit le type de
Cela permettrait aux utilisateurs de
géométrie (un cylindre par exemple) Dans la dernière partie de l'article, nous
faire facilement le lien entre une
correspondant et enfin réalise l’ajuste- revenons sur nos usages des technolo-
requête sur un équipement et sa
ment de cette géométrie sur les points. gies récentes d’interaction 3D : réalités
représentation géométrique. C’est
Seule cette dernière étape est automa- virtuelle, augmentée et mixte. Face aux
pourquoi, nous souhaitons détecter
tisée. La Figure 1 illustre cette étape de promesses et fantasmes technologiques,
automatiquement des équipements
reconstruction de géométries 3D à partir il nous semble important de proposer
dans les photographies. Exemple :
du nuage de points. une vision de leur utilisation dans des
un utilisateur peut alors rechercher
usages professionnels d’ingénieurs et
EDF R&D travaille depuis plusieurs l’ensemble des vannes et obtenir une
de topographes.
années à faire évoluer la production de liste des photographies panoramiques
la maquette numérique pour que cette où au moins une vanne est présente.
tâche soit facilitée et plus riche avec des • Dans le cadre de la déconstruction des Réseaux de neurones
informations métiers complétant les centrales nucléaires, les bâtiments sont
profonds pour
informations géométriques : amenés à évoluer très rapidement. Les
• La part du temps alloué à la recons- équipes ont besoin de réaliser réguliè-
les maquettes numériques
truction du modèle représente un rement l’inventaire des équipements Nous souhaitons faire évoluer la produc-
peu moins des ¾ du temps global de présents. Nous cherchons à détecter tion de maquettes numériques en :
traitement (incluant l’acquisition et le automatiquement les équipements • accélérant les tâches fastidieuses,
post-traitement). Pour un bâtiment encore présents à différentes étapes notamment la reconstruction du
réacteur, cela correspond approxima- de la déconstruction pour suivre les modèle 3D ;
tivement à 10 mois de travail pour travaux. • ajoutant de l’information sémantique
la reconstruction 3D avec plusieurs Afin de répondre à ces problématiques, aux photographies panoramiques
équipes travaillant en parallèle. Compte EDF R&D (France et Royaume-Uni) a dans le cas où nous ne disposerions
tenu du nombre de bâtiments présents étudié des méthodes par apprentissage pas du modèle 3D. q

Figure 1. Illustration de la reconstruction d’un modèle 3D d’un bâtiment réacteur à partir d’un nuage de points. De gauche à droite : un extrait
d’une photographie panoramique, un nuage de points, l’étape de reconstruction à partir du nuage de points et le modèle 3D reconstruit

Revue XYZ • N° 162 – 1er trimestre 2020 37


INTELLIGENCE ARTIFICIELLE

Pour cela, nous avons mené des d’une base de données labélisée qui – calculs accélérés par GPU ;
q travaux tirant profit de réseaux de contient des images d’équipements – bases de données labélisées publi-
neurones profonds. Dans cette partie, auxquelles sont associées leur dénomi- ques pour la phase d’apprentissage
nous introduisons les réseaux de nation (vanne, échelle...). Le réseau est (exemple : Imagenet [2]) ;
neurones profonds. Puis, nous présen- composé d’un ensemble de neurones – codes et bibliothèques de développe-
tons Léonard qui allie deux réseaux représentés par des cercles, et répartis ment accessibles.
de neurones profonds pour détecter en couches. Ici chaque neurone repré-
La force des réseaux de neurones dits
automatiquement des équipements sente un paramètre de la fonction de
profonds réside dans leur capacité à
dans les photographies panoramiques. décision que l’on cherche à estimer. Lors
décomposer l’information et trouver des
Finalement, nous verrons des travaux de la phase d’apprentissage, chaque
invariants, c’est-à-dire des redondances
récents pour appliquer ces technologies exemple est utilisé en entrée du réseau
dans les images, qui vont leur permettre
aux nuages de points et quelles sont les de neurones qui produit une décision.
d’être robustes aux légers change-
difficultés liées à leur utilisation. S’il se trompe, les paramètres sont
ments et, par extension, d’exprimer
modifiés à hauteur de l’erreur de prédic-
les concepts sous-jacents d’une classe.
n Les réseaux de neurones tion. Cette étape est répétée jusqu’à ce
Cette capacité se trouve dans les filtres
profonds que la qualité de prédiction converge
qu’ils apprennent. Ces filtres corres-
Les réseaux de neurones font partie de la (i.e. l’erreur de prédiction soit inférieure
pondent à un ensemble de paramètres
famille des algorithmes d’apprentissage à une valeur choisie). Une fois la phase
interdépendants formant une vignette.
automatique. Dans cette famille, nous d’apprentissage terminée, c’est-à-dire
Ils sont mis en correspondance avec
nous intéressons à l’apprentissage auto- que les paramètres du réseau sont
l’image dans le réseau. C’est le nombre
matique supervisé, c’est-à-dire que l’on établis, le réseau est utilisé sur des
de similarités entre les filtres et l’image
dispose d’une base de données labéli- images non labélisées : c’est la phase
qui permet d’en déduire une prédic-
sée pour estimer les paramètres d’une d’inférence. Pour une image, le réseau
tion. Par exemple, l’image d’un visage
fonction de décision représentée par le fournit un score entre 0 et 1 pour chaque
n’est plus uniquement un ensemble de
réseau de neurones. Les paramètres classe. La prédiction finale correspond
pixels mais la combinaison de concepts
sont estimés suivant une métrique qui alors à la classe ayant obtenu le score
propres aux visages : ses contours, les
minimise l’erreur de décision. le plus élevé.
yeux, le nez, etc. La Figure 3 illustre la
La Figure 2 illustre le principe de fonc- Depuis 2009, les réseaux de neurones capacité d’un réseau de neurones à
tionnement d’un réseau de neurones qui profonds ont amélioré de nombreuses apprendre à identifier ces concepts
se décompose en deux phases : la phase méthodes précédemment à l’état de pour la reconnaissance d’un visage. Les
d’apprentissage et la phase d’inférence. l’art dans des domaines variés. Ces filtres appris dans les premières couches
Dans cette figure, on prend l’exemple progrès rapides sont la conjonction correspondent aux concepts généraux,
d’un réseau de neurones capable de de l’apparition de trois nouveautés c’est-à-dire des contours. Plus le réseau
prédire quel type d’équipement est dans la communauté des sciences des est profond, plus ce dernier apprend
présent dans une image. On dispose données : des concepts spécifiques aux visages,

Figure 2. Illustration du fonctionnement d’un réseau de neurones lors de deux phases, d’abord la phase d’apprentissage (figure du haut)
puis la phase d’inférence (figure du bas)

38 Revue XYZ • N° 162 – 1er trimestre 2020


Figure 3. Décomposition de l’information dans l’image selon la profondeur les couches
dans le réseau de neurones. De gauche à droite, des exemples de filtres issus des pre-
Figure 5. Illustration du recalage des pho-
mières couches jusqu’aux couches les plus profondes (extrait de [3])
tographies panoramiques avec le modèle
c’est-à-dire les yeux ou le nez, jusqu’au une détection des équipements au 3D de la maquette numérique
concept de visage. pixel près : on parle de segmentation
sémantique. Si de plus la segmenta- des “masques”. De plus, on peut asso-
En contrepartie, plus un réseau est
tion distingue deux objets d’une même cier directement les masques à une
profond et plus le nombre de para-
classe qui se chevauchent, on parle de photographie panoramique du fait de
mètres à estimer est important. La
segmentation par instance. leur recalage. La Figure 5 illustre le
complexité d’apprentissage croît alors
recalage entre les photographies pano-
rapidement. Par exemple, le réseau Les acteurs majeurs de la communauté
ramiques et le modèle 3D. EDF R&D a
Resnet ([4]), l’un des plus utilisés et en science des données publient leurs
mis au point une chaîne de traitement
performants, dispose de 152 couches codes en open source. Néanmoins, la
complète appelée Léonard intégrant la
pour environ 60 millions de para- complexité des réseaux de neurones
création automatique d’une base de
mètres à estimer. Par conséquent, il est nécessite une base de données impor-
données labélisée pour la segmenta-
nécessaire de disposer d’une base de tante, afin que ceux-ci puissent appren-
tion par instance à partir de la maquette
données conséquente labélisée, afin dre les concepts nécessaires à la
numérique jusqu’à l’apprentissage et
d’assurer une estimation fiable des généralisation. Or, comme expliqué en
l’inférence du réseau de neurones.
paramètres. introduction, EDF dispose d’une quan-
tité importante de données au travers La création de masques du modèle 3D
n Les réseaux de neurones des maquettes numériques de ses bâti- pour des points de vue correspondant
profond pour des photographies ments réacteurs. Les photographies aux positions des photographies pano-
d’intérieur de bâtiments industriels panoramiques sont recalées sur le ramiques est assurée à partir d’une
Nous souhaitons détecter automati- nuage de points et donc sur le modèle image de rendu sans ombre de la scène
quement les équipements présents 3D. Or les géométries qui composent 3D (à partir du logiciel Unity). Pour
dans une image. La Figure 4 présente, le modèle 3D contiennent des informa- chaque pixel de l’image de rendu, on
à gauche, un extrait de photographie tions sur la nature des équipements : encode la classe de l’équipement asso-
panoramique et à droite, le résul- échelle, sol, vanne, éclairage, etc. À cié dans le premier canal (le canal rouge
tat souhaité de la prédiction par un partir du modèle 3D, on peut construire par exemple) et un identifiant dans les
réseau de neurones. Dans ce résultat des images synthétiques dont les pixels deux canaux suivants (les canaux vert
souhaité, les pixels sont associés à une correspondent à une classe (Figure 4 et bleu). La Figure 6 présente une image
classe d’équipement. Ici, nous avons image de droite). On appelle ces images de rendu sans ombre et le masque
q

Figure 4. Résultat souhaité par le réseau de neurones profond, ici la segmentation par instance. À gauche un extrait d’une photographie
panoramique, à droite la classe d’équipement associée à chaque pixel.

Revue XYZ • N° 162 – 1er trimestre 2020 39


INTELLIGENCE ARTIFICIELLE

q obtenu à partir de l’encodage des


classes d’équipement.

Maintenant que nous disposons d’une


base de données labélisée, nous avons
besoin d’une méthode de segmentation
par instance. Pour cela, Léonard scinde
le problème de segmentation en deux :
– la segmentation des cars : les objets
de dimensions finies dans l’image,
telles les vannes, échelles, etc.
Figure 6. Création de masque à partir du modèle 3D. À gauche : une image de rendu sans ombre ; – la segmentation des roads : les objets
à droite : le masque obtenu à partir de l’encodage des classes d’équipement dans chaque pixel. de dimensions non finies, comme les
tuyauteries, sols, etc.

Pour chaque problème, Léonard béné-


ficie de réseaux de neurones publiés
dans la communauté scientifique :
Mask R-CNN ([4]) pour la segmenta-
tion des cars et DeepLab ([5]) pour la
segmentation des roads. Le premier
est un réseau de neurones pour la
segmentation par instance alors que
le second réalise une segmentation
sémantique.
Nous avons réalisé des essais sur une
machine dédiée au jeu vidéo (CPU
Intel Core I7, GPU NVIDIA GeForce
GTX1070). Sur celle-ci, le temps
Figure 7. Illustration de la séparation en deux typologies de classe, cars et roads, à partir consacré à la génération de la base de
de l’exemple de masque donné en Figure 4 données labélisée pour un bâtiment

Figure 8. Résultat qualitatif de la détection par Léonard des objets cars et roads

40 Revue XYZ • N° 162 – 1er trimestre 2020


Cars Roads
Figure 9. Matrices de confusion des ratios de prédiction de chaque classe pour la segmentation des cars et des roads
avec 1 255 photographies panora- mélange que très rarement les classes Enfin, sur la Figure 10, nous présen-
miques est de 55 heures. La phase cars. Néanmoins, cette matrice de tons un graphe de la répartition des
d’apprentissage pour les objets cars confusion ne répertorie pas les objets scores de prédiction en fonction
avec Mask R-CNN est de 61 heures non détectés. La figure de droite du score de recouvrement entre la
et 42 heures pour les objets roads présente la matrice de confusion des boîte englobante prédite et la boîte
avec DeepLab. La Figure 8 présente prédictions pour les objets roads. On englobante de la vérité terrain (IoU,
un résultat qualitatif de détection constate que certaines classes comme Intersection of Union). Pour le cas de
des cars et roads par Léonard. Nous les murs en béton et les calorifuges sont l’éclairage, on constate que lorsque
avons également évalué quantitative- très bien détectées par Léonard avec un Léonard est confiant sur sa prédiction
ment les performances de Léonard sur ratio proche des 0.90. D’autres classes, (score élevé), il se trompe rarement
30 % de la base de données, les 70 % comme les supports et les garde-corps, (peu d’IoU à zéro). Dans le cadre
complémentaires ayant été utilisés présentent des scores plus faibles des échelles, on constate que dans
pour la phase d’apprentissage. avec respectivement des ratios de certains cas Léonard se trompe : IoU
La Figure 9 présente deux matrices de bonne prédiction de 0.45 et 0.54. Cela à zéro et un score de prédiction > 0,5.
confusion résumant les performances peut s’expliquer par la forme allongée Toutefois dans ces cas-là, son score de
des deux méthodes de segmentation. de ces équipements : les erreurs de prédiction associé est généralement
La première méthode (figure de gauche) prédiction se produisent à la frontière faible. Les fausses détections pour-
présente les ratios de prédiction selon des objets qui sont alors prédits comme ront alors être facilement filtrées en
la boîte englobante (et non en termes arrière-plan ou mur en béton dans rehaussant les exigences sur le score
de pixel). On constate que Léonard ne respectivement 10 % des cas environ. de détection (à 0.8 par exemple). q

Éclairage Échelle

Figure 10. Répartition des scores de prédiction en fonction de l’indice de l’IoU (indice de recouvrement entre la boîte englobante pré-
dite et la boîte englobante vraie) pour la segmentation des cars.

Revue XYZ • N° 162 – 1er trimestre 2020 41


INTELLIGENCE ARTIFICIELLE

n Le passage aux nuages Néanmoins, ce n’est que récemment Léonard n’est pas encore assez robuste
q de points que la communauté d’apprentissage pour supporter ces changements.
Nous avons vu que les méthodes de automatique a montré un fort intérêt Un apprentissage spécifique sur ces
réseaux de neurones profonds s’ap- pour les nuages de points. En 2017, données est nécessaire.
pliquent avec succès aux images. une équipe de Stanford a notamment • La complexité des lieux. Les environne-
Comme dans le cas de Léonard, cer- présenté une avancée importante dans ments industriels sont très complexes
taines classes de réseaux réalisent des la segmentation automatique de nuage avec une diversité importante de
prédictions au niveau du pixel d’une de points avec l’algorithme PointNet géométries d’objets. Certains sont
image. Nous pourrions alors envisa- ([10]) qui exploite directement le nuage compacts, d’autres imposants ou avec
ger de transposer ces réseaux aux de points sans transformation en une forte asymétrie (ex. : tuyauterie).
nuages de points, afin de les segmen- amont des données (pour identifier des De plus dans les nuages de points, les
ter automatiquement. Néanmoins voisins). En 2019, de nombreux travaux objets sont parfois moins bien définis.
dans le cadre des nuages de points, sur la segmentation automatique de Certains objets sont incomplets avec
si l’information est plus riche, l’ap- nuage de points ont été présentés dans peu de points (notamment les objets
prentissage en est plus complexe. La les plus importantes conférences de avec un matériau noir brillant).
force des réseaux de neurones est leur vision par ordinateur et apprentissage
Une des principales différences avec
capacité à décomposer l’information à automatique (CVPR, ICCV, etc.).
l’approche image est la décomposition
partir de filtres, c’est-à-dire à trouver
Nous avons appliqué Léonard aux efficace de l’information.Toutefois, cette
des motifs redondants dans des voisi-
nuages de points. Dans un premier différence est en train d’être comblée
nages de l’image. Dans une image,
temps, nous l’avons appliqué à des par les nombreuses équipes de cher-
l’expression d’un voisinage est expli-
images synthétiques générées à partir de cheurs travaillant sur le sujet. Un autre
cite : le voisin d’un pixel se trouve à la
nuage de points (de manière analogue aspect qui est actuellement très différent
même position incrémentée de 1 selon
à [7]). Cette étape est réversible. Nous entre la communauté Image et Nuage
la ligne ou la colonne du tableau de
pouvons exprimer le nuage de points de points est le manque de bases de
pixels. Or, pour les nuages de points,
sous forme d’image synthétique et données publiques pour entraîner les
l’expression d’un voisinage est moins
ensuite retrouver un nuage de points à réseaux. Actuellement, il existe plusieurs
directe. Cela suppose de calculer une
partir de l’image synthétique. Ainsi, les bases de données publiques comme
distance entre le point d’intérêt et les
résultats de Léonard obtenus sur une ModelNet ([11]) ou ShapeNet ([12]).
autres points constituant le nuage.
image synthétique peuvent être convertis Toutefois, ces dernières sont assez limi-
On comprend alors ici qu’il sera plus
en nuage de points. La Figure 11 présente tées et composées d’environnements
difficile aux réseaux de neurones de
un exemple d’un nuage de points et une simples issus du tertiaire. La complexité
décomposer efficacement la structure
image synthétique obtenue à partir de ce des environnements industriels et l’ab-
du nuage de points. Pour pallier ce
même nuage de points. sence d’une base de données publique
problème, plusieurs travaux ont tenté
d’environnements industriels expliquent
de se replacer dans un cadre proche de Les premiers résultats obtenus avec
pourquoi actuellement il n’existe pas de
celui du traitement d’images en ayant Léonard sont relativement intéressants
réseaux adaptés aux nuages de points
une expression plus explicite d’un (Figure 12). Néanmoins, les perfor-
dont les performances soient compa-
voisinage. Par exemple, [7] exprime mances sont en deçà de celles obtenues
rables aux applications basées image.
le nuage de points sous forme d’une sur des photographies panoramiques.
série d’images synthétiques pour Il y a plusieurs éléments qui pourraient
plusieurs poses ou encore [8] applique expliquer cela : Réalités virtuelle,
les réseaux de neurones à des voxels. • La dynamique et le bruit de l’image
augmentée et mixte
Certains travaux, comme [9], utilisent synthétique sont différents de ceux
quant à eux une structure en graphe. des photographies panoramiques. Les méthodes récentes d’interprétation
de données exploitent aujourd’hui de
nouveaux algorithmes d’apprentis-
sages profonds ainsi que des cartes
graphiques, utilisées pour les calculs
vectoriels, de plus en plus perfor-
mantes. Un bon nombre de tâches,
comme les inventaires de matériels,
sont en passe d’être complètement
automatisées. Mais une majorité des
usages de ces grands environnements
3D reposent encore sur l’exploration et
Figure 11. Génération d’une image synthétique à partir d’un nuage de points. l’interaction par un opérateur humain.
À gauche : un nuage de points en vue du dessus. Depuis des décennies, les opérateurs
À droite : une image synthétique obtenue à partir du nuage de points spécialisés se sont formés à utiliser

42 Revue XYZ • N° 162 – 1er trimestre 2020


réalisée sur un écran classique ? Si
oui, le recours à d’autres moyens est
inutile. Si non, la tâche nécessite-t-elle
une immersion à échelle humaine, avec
prise en compte des déplacements de
l’utilisateur ?
• S’il s’agit d’une interaction active, avec
un environnement purement numé-
rique : réalité virtuelle souhaitable.
• S’il est nécessaire de superposer et
interagir une information 2D ou 3D à
un environnement existant complexe- :
réalité mixte.
• Si l’utilisateur peut utiliser ses deux
Figure 12. Deux exemples des résultats de Léonard sur des images synthétiques obtenus mains, que l’environnement est
à partir de nuages de points géométriquement simple et que
l’affichage est informatif : réalité
efficacement des périphériques d’inter- in situ de modèles numériques, qu’il
augmentée souhaitable.
action avec un écran, souris, claviers s’agisse d’informations géolocalisée
puis manettes. Le recyclage des capa- ou de modèles géométriques 3D,
cités cognitives dans ces interactions – réalité mixte : casque semi-transparent Conclusion
a un coût important d’appropriation de réalité augmentée, à l’intersection
(plusieurs années) et a des limites entre réalités virtuelle et augmentée. Les progrès technologiques dans le
claires : faible immersion, pas d’inter- Chacune de ces technologies trouve un domaine de la numérisation permettent
action in situ, fatigue visuelle. De champ d’usage bien distinct et aura des de réaliser des acquisitions de photo-
nouveaux systèmes de visualisation cas d’usages particuliers. En raison du graphies et de nuage de points,
et d’interaction, pour la plupart issus coût (complexité de mise en œuvre et recalées entre elles, à grande échelle
du jeu vidéo, forment, avec les écrans coût cognitif pour l’utilisateur) de ces dans un planning contraint. Toutefois
classiques, une panoplie d’outils dispo- technologies, il est crucial de s’assurer la grande quantité de données acquise
nibles pour l’interaction homme-3D. du besoin de leur recours. L’approche souffre du manque d’information
On distingue 3 grandes familles d’équi- communément développée à EDF, et sémantique. Le passage de cette
pements, qui sont à la 3D ce qu’une illustrée dans la Figure 13, est centrée donnée géométrique à une modélisa-
carte est à la 2D : sur les tâches que l’utilisateur cherche tion 3D labélisée est encore fastidieux
– réalité virtuelle : casques opaques, avec à réaliser, et ses contraintes d’utilisa- avec des traitements essentiellement
suivi 3D de la tête, parfois des mains tion ; elle consiste d’abord à répondre manuels. Néanmoins, les avancées
via l’intermédiaire de contrôleurs, aux questions suivantes, avant de pour- spectaculaires dans le domaine de
– réalité augmentée : utilisation du suivre une démarche de développement l’apprentissage automatique offre l’op-
flux caméra d’un smartphone ou aux côtés de designers et spécialistes portunité d’enrichir efficacement les
d’une tablette pour le sur-affichage de la cognition : la tâche peut-elle être données géométriques avec des infor- q

Figure 13. Exemples récents d’utilisation des technologies de réalités virtuelle, augmentée et mixte à EDF.

Revue XYZ • N° 162 – 1er trimestre 2020 43


INTELLIGENCE ARTIFICIELLE

q mations sémantiques. L’apprentissage [3] Lee, H., Grosse, R., Ranganath, R., &
ABSTRACT
automatique montre d’excellents résul- Ng, A. Y. (2011). Unsupervised learning
of hierarchical representations with Key words: Digital model, photographs,
tats sur les images, mais peine encore
convolutional deep belief networks. point clouds, deep learning, virtual,
à avoir les mêmes performances sur
Communications of the ACM, 54(10), 95-103. augmented or mixed realities.
les nuages de points. Les commu-
nautés académique et industrielle ont [4] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Following a busy schedule, EDF carries
récemment publié de nombreux tra- Deep residual learning for image recognition. out its maintenance work during
vaux sur le traitement automatique du In Proceedings of the IEEE conference on reactor building operating interruption.
nuage de points de manière analogue computer vision and pattern recognition EDF undertook the implementation
aux travaux en Image (conférences (pp. 770-778). of an "as-built" digital model based
renommées (CVPR, ICCV, etc.), codes [5] He, K., Gkioxari, G., Dollár, P., & Girshick, on the acquisition of panoramic
open-source, base de données publique). R. (2017). Mask r-cnn. In Proceedings of the photographs, point clouds and their 3D
IEEE international conference on computer model reconstruction which represents
Les réalités virtuelle, augmentée ou
vision (pp. 2961-2969). a total of 500 billion pixels, 30 billion
mixte offrent de nouveaux moyens
[6] Chen, L. C., Papandreou, G., Kokkinos, I., points and 90,000 reconstructed 3D
de visualisation et d’interaction avec
Murphy, K., & Yuille, A. L. (2017). Deeplab: geometries for a single building. The
la 3D. Tout comme la CAO et les scan-
Semantic image segmentation with deep amount of data to be exploited is very
ners laser auparavant, les topographes
convolutional nets, atrous convolution, and large. In this article, we present the
doivent se saisir de ces nouvelles tech-
fully connected crfs. IEEE transactions on work carried out by EDF R&D to enrich
nologies qui vont changer la profession.
pattern analysis and machine intelligence, this geometric data with semantic
Les nouveaux moyens de numérisa-
40(4), 834-848. content. We have developed a tool,
tion laser combinés aux avancées de
[7] Su, H., Maji, S., Kalogerakis, E., & Learned- called Léonard, which automatically
l’apprentissage automatique profond
Miller, E. (2015). Multi-view convolutional detects equipment on images based on
vont démocratiser encore plus l’usage
neural networks for 3d shape recognition. two deep learning algorithms. One of
de la 3D. Dans ce contexte, l’interaction
In Proceedings of the IEEE international the constraints to the use of this type
Homme-3D aura évolué avec le déve-
conference on computer vision (pp. 945-953). of method is that it requires a large
loppement de nouvelles technologies de
number of labelled examples. Yet,
visualisation 3D. Le topographe restera [8] Maturana, D., & Scherer, S. (2015,
Léonard also includes in its processing
le garant de la mesure de par sa connais- September). Voxnet: A 3d convolutional
chain a method to automatically
sance du terrain et des outils qu’il utilise neural network for real-time object
generate the training set. To do this,
pour numériser son environnement. l recognition. In 2015 IEEE/RSJ International
it leverages the digital model in which
Conference on Intelligent Robots and Systems
photographs are registered on the
Remerciements (IROS) (pp. 922-928). IEEE.
3D model. EDF is also studying the
[9] Defferrard, M., Bresson, X., &
Les auteurs souhaitent remercier implementation of Léonard on a point
Vandergheynst, P. (2016). Convolutional
Adrien NIVAGGIOLI qui a participé au cloud. This would notably allow the
neural networks on graphs with fast localized
développement de Léonard. automation of the cloud segmentation,
spectral filtering. In Advances in neural
which is currently mainly a manual
information processing systems
Contact (pp. 3844-3852).
step and ultimately an automatic
Guillaume TERRASSE - EDF Lab Saclay 3D reconstruction. For EDF, this
[10] Qi, C. R., Su, H., Mo, K., & Guibas, L. J. automatization work would reduce the
[email protected] (2017). Pointnet: Deep learning on point 3D reconstruction time that is currently
Jean-François HULLO - EDF Energy R&D UK Centre sets for 3d classification and segmentation. predominant in the production of
[email protected] In Proceedings of the IEEE Conference on the digital model. In addition, the
Guillaume THIBAULT - EDF Lab Saclay Computer Vision and Pattern Recognition automatic search for semantic contents
[email protected] (pp. 652-660). in photographs would also enable
[11] Wu, Z., Song, S., Khosla, A., Yu, F., Zhang, rapid equipment inventories in large
Bibliographie L., Tang, X., & Xiao, J. (2015). 3d shapenets: and complex buildings to be carried
[1] Nivaggioli, A., Hullo, J. F., & Thibault, G. A deep representation for volumetric shapes. out. Recent developments in rapid
(2019). Using 3d models to generate labels In Proceedings of the IEEE conference on acquisition devices and production of
for panoptic segmentation of industrial computer vision and pattern recognition 3D data will democratize their use.
scenes. ISPRS Annals of Photogrammetry, (pp. 1912-1920). In addition, new devices for human-
Remote Sensing & Spatial Information [12] Chang, A. X., Funkhouser, T., Guibas, 3D interaction for the general public
Sciences, 4. L., Hanrahan, P., Huang, Q., Li, Z. & Xiao, are emerging. We also present the
[2] Deng, J., Dong, W., Socher, R., Li, L. J., Li, J. (2015). Shapenet: An information- approaches developed by EDF to
K., & Fei-Fei, L. (2009, June). Imagenet: A rich 3d model repository. arXiv preprint enable operators to effectively use
large-scale hierarchical image database. In arXiv:1512.03012. these new technologies of virtual,
2009 IEEE conference on computer vision and augmented or mixed realities.
pattern recognition (pp. 248-255).

44 Revue XYZ • N° 162 – 1er trimestre 2020

Vous aimerez peut-être aussi