Article 416208
Article 416208
INTELLIGENCE ARTIFICIELLE
Enjeux de l’IA pour l’aide à la
modélisation 3D d’intérieur d’installation
industrielle construit et leur exploitation
en réalités virtuelle et augmentée
Guillaume TERRASSE – Jean-François HULLO – Guillaume THIBAULT
C’est au cours d’un planning contraint lors des arrêts MOTS-CLÉS – de forme cylindrique avec un diamètre
de fonctionnement des bâtiments réacteur qu’EDF réalise de 40 m et une hauteur de 45 m.
Maquette numérique,
leurs travaux de maintenance. EDF a entrepris la réalisation photographies, De plus, le bâtiment réacteur n’est
de maquettes numériques “tel que construit” à partir nuages de points, accessible que lors des arrêts de pro-
d’acquisitions de photographies panoramiques, de nuages apprentissage duction. C’est pendant ces périodes
de points et leur reconstruction 3D. La quantité de données automatique, réalité d’arrêt de fonctionnement de l’ordre
virtuelle, augmentée, de quelques semaines que de très
à exploiter est très importante avec au total, pour
mixte. nombreuses opérations de main-
un unique bâtiment, 500 milliards de pixels, 30 milliards tenance sont réalisées. Ainsi, la
de points et 90 000 géométries 3D reconstruites. Dans complexité des lieux couplée au
cet article, nous présentons les travaux menés par EDF R&D pour enrichir cette donnée planning contraint de travaux de main-
géométrique avec du contenu sémantique. Nous avons développé un outil, appelé tenance demande une planification
Léonard qui détecte automatiquement des équipements sur des images à partir rigoureuse des interventions. Il est alors
nécessaire de disposer des meilleures
de deux algorithmes d’apprentissage profond. Une des contraintes à l’utilisation
connaissances quant à la réalité des
de ce type de méthode est qu’elle nécessite un nombre important d’exemples lieux. En effet, la réduction des incer-
labélisés. Or, Léonard intègre dans sa chaîne de traitements une méthode capable de titudes permet de mieux maîtriser les
construire automatiquement cette base d’exemples labélisés. Pour cela, il exploite coûts et les plannings contraints. Pour
la maquette numérique dans laquelle les photographies sont recalées sur le modèle ce faire, EDF a notamment entrepris la
3D. EDF étudie également l’utilisation de Léonard sur un nuage de points. Cela numérisation photo et topographique
de ses installations en vue de la consti-
permettrait notamment d’automatiser la segmentation du nuage, étape actuellement
tution de maquettes numériques. La
principalement manuelle, et in fine une reconstruction 3D automatique. Pour EDF, consultation de celles-ci est alors réali-
ces travaux d’automatisation permettraient de réduire le temps de reconstruction 3D sée au moyen d’un logiciel de visite
qui est actuellement prépondérant dans la création de la maquette numérique. virtuelle, développé sur mesure, appelé
De plus, la recherche automatique de contenus sémantiques dans des photographies VVProPrépa. L’intervenant peut ainsi y
permettrait également la réalisation d’inventaires rapides d’équipements présents consulter, en préparation des travaux
de maintenance, la configuration de
dans des bâtiments complexes et de grande dimension. Les évolutions récentes
l’installation à partir de la maquette
des systèmes d’acquisition et de production rapide de données 3D vont démocratiser numérique :
leur utilisation. De plus, de nouveaux moyens d’interaction Homme-3D grand public – les plans masse 2D ;
émergent. Nous présentons également les approches développées par EDF pour que – les photographies panoramiques 360°
les opérateurs des moyens de production d’électricité exploitent efficacement haute-définition ;
– les stations laser et le nuage de points
les nouvelles technologies de réalités virtuelle, augmentée ou mixte.
consolidé. Les photographies pano-
Introduction 58 tranches. Chacune d’elle regroupe
ramiques sont recalées sur le nuage
de points ;
Une centrale nucléaire est une installa- 10 bâtiments dont le bâtiment réacteur.
– le Modèle numérique 3D (M3D)
tion industrielle complexe et de grande Ce dernier est lui-même complexe :
construit au plus près du nuage de
taille. Elle se compose de plusieurs – 15 étages et demi-étages,
points.
unités de production qu’on appelle – dense en équipements avec plus de
“tranches”. Le parc de production d’élec- 10 000 équipements fonctionnels, La chaîne de production des données
tricité nucléaire d’EDF est constitué de répartis dans près de 200 locaux, assure une maîtrise de la précision et de
Figure 1. Illustration de la reconstruction d’un modèle 3D d’un bâtiment réacteur à partir d’un nuage de points. De gauche à droite : un extrait
d’une photographie panoramique, un nuage de points, l’étape de reconstruction à partir du nuage de points et le modèle 3D reconstruit
Pour cela, nous avons mené des d’une base de données labélisée qui – calculs accélérés par GPU ;
q travaux tirant profit de réseaux de contient des images d’équipements – bases de données labélisées publi-
neurones profonds. Dans cette partie, auxquelles sont associées leur dénomi- ques pour la phase d’apprentissage
nous introduisons les réseaux de nation (vanne, échelle...). Le réseau est (exemple : Imagenet [2]) ;
neurones profonds. Puis, nous présen- composé d’un ensemble de neurones – codes et bibliothèques de développe-
tons Léonard qui allie deux réseaux représentés par des cercles, et répartis ment accessibles.
de neurones profonds pour détecter en couches. Ici chaque neurone repré-
La force des réseaux de neurones dits
automatiquement des équipements sente un paramètre de la fonction de
profonds réside dans leur capacité à
dans les photographies panoramiques. décision que l’on cherche à estimer. Lors
décomposer l’information et trouver des
Finalement, nous verrons des travaux de la phase d’apprentissage, chaque
invariants, c’est-à-dire des redondances
récents pour appliquer ces technologies exemple est utilisé en entrée du réseau
dans les images, qui vont leur permettre
aux nuages de points et quelles sont les de neurones qui produit une décision.
d’être robustes aux légers change-
difficultés liées à leur utilisation. S’il se trompe, les paramètres sont
ments et, par extension, d’exprimer
modifiés à hauteur de l’erreur de prédic-
les concepts sous-jacents d’une classe.
n Les réseaux de neurones tion. Cette étape est répétée jusqu’à ce
Cette capacité se trouve dans les filtres
profonds que la qualité de prédiction converge
qu’ils apprennent. Ces filtres corres-
Les réseaux de neurones font partie de la (i.e. l’erreur de prédiction soit inférieure
pondent à un ensemble de paramètres
famille des algorithmes d’apprentissage à une valeur choisie). Une fois la phase
interdépendants formant une vignette.
automatique. Dans cette famille, nous d’apprentissage terminée, c’est-à-dire
Ils sont mis en correspondance avec
nous intéressons à l’apprentissage auto- que les paramètres du réseau sont
l’image dans le réseau. C’est le nombre
matique supervisé, c’est-à-dire que l’on établis, le réseau est utilisé sur des
de similarités entre les filtres et l’image
dispose d’une base de données labéli- images non labélisées : c’est la phase
qui permet d’en déduire une prédic-
sée pour estimer les paramètres d’une d’inférence. Pour une image, le réseau
tion. Par exemple, l’image d’un visage
fonction de décision représentée par le fournit un score entre 0 et 1 pour chaque
n’est plus uniquement un ensemble de
réseau de neurones. Les paramètres classe. La prédiction finale correspond
pixels mais la combinaison de concepts
sont estimés suivant une métrique qui alors à la classe ayant obtenu le score
propres aux visages : ses contours, les
minimise l’erreur de décision. le plus élevé.
yeux, le nez, etc. La Figure 3 illustre la
La Figure 2 illustre le principe de fonc- Depuis 2009, les réseaux de neurones capacité d’un réseau de neurones à
tionnement d’un réseau de neurones qui profonds ont amélioré de nombreuses apprendre à identifier ces concepts
se décompose en deux phases : la phase méthodes précédemment à l’état de pour la reconnaissance d’un visage. Les
d’apprentissage et la phase d’inférence. l’art dans des domaines variés. Ces filtres appris dans les premières couches
Dans cette figure, on prend l’exemple progrès rapides sont la conjonction correspondent aux concepts généraux,
d’un réseau de neurones capable de de l’apparition de trois nouveautés c’est-à-dire des contours. Plus le réseau
prédire quel type d’équipement est dans la communauté des sciences des est profond, plus ce dernier apprend
présent dans une image. On dispose données : des concepts spécifiques aux visages,
Figure 2. Illustration du fonctionnement d’un réseau de neurones lors de deux phases, d’abord la phase d’apprentissage (figure du haut)
puis la phase d’inférence (figure du bas)
Figure 4. Résultat souhaité par le réseau de neurones profond, ici la segmentation par instance. À gauche un extrait d’une photographie
panoramique, à droite la classe d’équipement associée à chaque pixel.
Figure 8. Résultat qualitatif de la détection par Léonard des objets cars et roads
Éclairage Échelle
Figure 10. Répartition des scores de prédiction en fonction de l’indice de l’IoU (indice de recouvrement entre la boîte englobante pré-
dite et la boîte englobante vraie) pour la segmentation des cars.
n Le passage aux nuages Néanmoins, ce n’est que récemment Léonard n’est pas encore assez robuste
q de points que la communauté d’apprentissage pour supporter ces changements.
Nous avons vu que les méthodes de automatique a montré un fort intérêt Un apprentissage spécifique sur ces
réseaux de neurones profonds s’ap- pour les nuages de points. En 2017, données est nécessaire.
pliquent avec succès aux images. une équipe de Stanford a notamment • La complexité des lieux. Les environne-
Comme dans le cas de Léonard, cer- présenté une avancée importante dans ments industriels sont très complexes
taines classes de réseaux réalisent des la segmentation automatique de nuage avec une diversité importante de
prédictions au niveau du pixel d’une de points avec l’algorithme PointNet géométries d’objets. Certains sont
image. Nous pourrions alors envisa- ([10]) qui exploite directement le nuage compacts, d’autres imposants ou avec
ger de transposer ces réseaux aux de points sans transformation en une forte asymétrie (ex. : tuyauterie).
nuages de points, afin de les segmen- amont des données (pour identifier des De plus dans les nuages de points, les
ter automatiquement. Néanmoins voisins). En 2019, de nombreux travaux objets sont parfois moins bien définis.
dans le cadre des nuages de points, sur la segmentation automatique de Certains objets sont incomplets avec
si l’information est plus riche, l’ap- nuage de points ont été présentés dans peu de points (notamment les objets
prentissage en est plus complexe. La les plus importantes conférences de avec un matériau noir brillant).
force des réseaux de neurones est leur vision par ordinateur et apprentissage
Une des principales différences avec
capacité à décomposer l’information à automatique (CVPR, ICCV, etc.).
l’approche image est la décomposition
partir de filtres, c’est-à-dire à trouver
Nous avons appliqué Léonard aux efficace de l’information.Toutefois, cette
des motifs redondants dans des voisi-
nuages de points. Dans un premier différence est en train d’être comblée
nages de l’image. Dans une image,
temps, nous l’avons appliqué à des par les nombreuses équipes de cher-
l’expression d’un voisinage est expli-
images synthétiques générées à partir de cheurs travaillant sur le sujet. Un autre
cite : le voisin d’un pixel se trouve à la
nuage de points (de manière analogue aspect qui est actuellement très différent
même position incrémentée de 1 selon
à [7]). Cette étape est réversible. Nous entre la communauté Image et Nuage
la ligne ou la colonne du tableau de
pouvons exprimer le nuage de points de points est le manque de bases de
pixels. Or, pour les nuages de points,
sous forme d’image synthétique et données publiques pour entraîner les
l’expression d’un voisinage est moins
ensuite retrouver un nuage de points à réseaux. Actuellement, il existe plusieurs
directe. Cela suppose de calculer une
partir de l’image synthétique. Ainsi, les bases de données publiques comme
distance entre le point d’intérêt et les
résultats de Léonard obtenus sur une ModelNet ([11]) ou ShapeNet ([12]).
autres points constituant le nuage.
image synthétique peuvent être convertis Toutefois, ces dernières sont assez limi-
On comprend alors ici qu’il sera plus
en nuage de points. La Figure 11 présente tées et composées d’environnements
difficile aux réseaux de neurones de
un exemple d’un nuage de points et une simples issus du tertiaire. La complexité
décomposer efficacement la structure
image synthétique obtenue à partir de ce des environnements industriels et l’ab-
du nuage de points. Pour pallier ce
même nuage de points. sence d’une base de données publique
problème, plusieurs travaux ont tenté
d’environnements industriels expliquent
de se replacer dans un cadre proche de Les premiers résultats obtenus avec
pourquoi actuellement il n’existe pas de
celui du traitement d’images en ayant Léonard sont relativement intéressants
réseaux adaptés aux nuages de points
une expression plus explicite d’un (Figure 12). Néanmoins, les perfor-
dont les performances soient compa-
voisinage. Par exemple, [7] exprime mances sont en deçà de celles obtenues
rables aux applications basées image.
le nuage de points sous forme d’une sur des photographies panoramiques.
série d’images synthétiques pour Il y a plusieurs éléments qui pourraient
plusieurs poses ou encore [8] applique expliquer cela : Réalités virtuelle,
les réseaux de neurones à des voxels. • La dynamique et le bruit de l’image
augmentée et mixte
Certains travaux, comme [9], utilisent synthétique sont différents de ceux
quant à eux une structure en graphe. des photographies panoramiques. Les méthodes récentes d’interprétation
de données exploitent aujourd’hui de
nouveaux algorithmes d’apprentis-
sages profonds ainsi que des cartes
graphiques, utilisées pour les calculs
vectoriels, de plus en plus perfor-
mantes. Un bon nombre de tâches,
comme les inventaires de matériels,
sont en passe d’être complètement
automatisées. Mais une majorité des
usages de ces grands environnements
3D reposent encore sur l’exploration et
Figure 11. Génération d’une image synthétique à partir d’un nuage de points. l’interaction par un opérateur humain.
À gauche : un nuage de points en vue du dessus. Depuis des décennies, les opérateurs
À droite : une image synthétique obtenue à partir du nuage de points spécialisés se sont formés à utiliser
Figure 13. Exemples récents d’utilisation des technologies de réalités virtuelle, augmentée et mixte à EDF.
q mations sémantiques. L’apprentissage [3] Lee, H., Grosse, R., Ranganath, R., &
ABSTRACT
automatique montre d’excellents résul- Ng, A. Y. (2011). Unsupervised learning
of hierarchical representations with Key words: Digital model, photographs,
tats sur les images, mais peine encore
convolutional deep belief networks. point clouds, deep learning, virtual,
à avoir les mêmes performances sur
Communications of the ACM, 54(10), 95-103. augmented or mixed realities.
les nuages de points. Les commu-
nautés académique et industrielle ont [4] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Following a busy schedule, EDF carries
récemment publié de nombreux tra- Deep residual learning for image recognition. out its maintenance work during
vaux sur le traitement automatique du In Proceedings of the IEEE conference on reactor building operating interruption.
nuage de points de manière analogue computer vision and pattern recognition EDF undertook the implementation
aux travaux en Image (conférences (pp. 770-778). of an "as-built" digital model based
renommées (CVPR, ICCV, etc.), codes [5] He, K., Gkioxari, G., Dollár, P., & Girshick, on the acquisition of panoramic
open-source, base de données publique). R. (2017). Mask r-cnn. In Proceedings of the photographs, point clouds and their 3D
IEEE international conference on computer model reconstruction which represents
Les réalités virtuelle, augmentée ou
vision (pp. 2961-2969). a total of 500 billion pixels, 30 billion
mixte offrent de nouveaux moyens
[6] Chen, L. C., Papandreou, G., Kokkinos, I., points and 90,000 reconstructed 3D
de visualisation et d’interaction avec
Murphy, K., & Yuille, A. L. (2017). Deeplab: geometries for a single building. The
la 3D. Tout comme la CAO et les scan-
Semantic image segmentation with deep amount of data to be exploited is very
ners laser auparavant, les topographes
convolutional nets, atrous convolution, and large. In this article, we present the
doivent se saisir de ces nouvelles tech-
fully connected crfs. IEEE transactions on work carried out by EDF R&D to enrich
nologies qui vont changer la profession.
pattern analysis and machine intelligence, this geometric data with semantic
Les nouveaux moyens de numérisa-
40(4), 834-848. content. We have developed a tool,
tion laser combinés aux avancées de
[7] Su, H., Maji, S., Kalogerakis, E., & Learned- called Léonard, which automatically
l’apprentissage automatique profond
Miller, E. (2015). Multi-view convolutional detects equipment on images based on
vont démocratiser encore plus l’usage
neural networks for 3d shape recognition. two deep learning algorithms. One of
de la 3D. Dans ce contexte, l’interaction
In Proceedings of the IEEE international the constraints to the use of this type
Homme-3D aura évolué avec le déve-
conference on computer vision (pp. 945-953). of method is that it requires a large
loppement de nouvelles technologies de
number of labelled examples. Yet,
visualisation 3D. Le topographe restera [8] Maturana, D., & Scherer, S. (2015,
Léonard also includes in its processing
le garant de la mesure de par sa connais- September). Voxnet: A 3d convolutional
chain a method to automatically
sance du terrain et des outils qu’il utilise neural network for real-time object
generate the training set. To do this,
pour numériser son environnement. l recognition. In 2015 IEEE/RSJ International
it leverages the digital model in which
Conference on Intelligent Robots and Systems
photographs are registered on the
Remerciements (IROS) (pp. 922-928). IEEE.
3D model. EDF is also studying the
[9] Defferrard, M., Bresson, X., &
Les auteurs souhaitent remercier implementation of Léonard on a point
Vandergheynst, P. (2016). Convolutional
Adrien NIVAGGIOLI qui a participé au cloud. This would notably allow the
neural networks on graphs with fast localized
développement de Léonard. automation of the cloud segmentation,
spectral filtering. In Advances in neural
which is currently mainly a manual
information processing systems
Contact (pp. 3844-3852).
step and ultimately an automatic
Guillaume TERRASSE - EDF Lab Saclay 3D reconstruction. For EDF, this
[10] Qi, C. R., Su, H., Mo, K., & Guibas, L. J. automatization work would reduce the
[email protected] (2017). Pointnet: Deep learning on point 3D reconstruction time that is currently
Jean-François HULLO - EDF Energy R&D UK Centre sets for 3d classification and segmentation. predominant in the production of
[email protected] In Proceedings of the IEEE Conference on the digital model. In addition, the
Guillaume THIBAULT - EDF Lab Saclay Computer Vision and Pattern Recognition automatic search for semantic contents
[email protected] (pp. 652-660). in photographs would also enable
[11] Wu, Z., Song, S., Khosla, A., Yu, F., Zhang, rapid equipment inventories in large
Bibliographie L., Tang, X., & Xiao, J. (2015). 3d shapenets: and complex buildings to be carried
[1] Nivaggioli, A., Hullo, J. F., & Thibault, G. A deep representation for volumetric shapes. out. Recent developments in rapid
(2019). Using 3d models to generate labels In Proceedings of the IEEE conference on acquisition devices and production of
for panoptic segmentation of industrial computer vision and pattern recognition 3D data will democratize their use.
scenes. ISPRS Annals of Photogrammetry, (pp. 1912-1920). In addition, new devices for human-
Remote Sensing & Spatial Information [12] Chang, A. X., Funkhouser, T., Guibas, 3D interaction for the general public
Sciences, 4. L., Hanrahan, P., Huang, Q., Li, Z. & Xiao, are emerging. We also present the
[2] Deng, J., Dong, W., Socher, R., Li, L. J., Li, J. (2015). Shapenet: An information- approaches developed by EDF to
K., & Fei-Fei, L. (2009, June). Imagenet: A rich 3d model repository. arXiv preprint enable operators to effectively use
large-scale hierarchical image database. In arXiv:1512.03012. these new technologies of virtual,
2009 IEEE conference on computer vision and augmented or mixed realities.
pattern recognition (pp. 248-255).